顶刊SCS | 基于视觉语言大模型推理分割的建筑足迹尺度功能分类, 样本数据和代码已开源!

article/2025/8/7 5:59:32

论文介绍

题目:Visual-language reasoning segmentation (LARSE) of function-level building footprint across Yangtze River Economic Belt of China

期刊:Sustainable cities and society(中科院一区TOP,IF=10.5)

论文:https://doi.org/10.1016/j.scs.2025.106439

代码: https://github.com/whheda/LaRSE

数据:https://zenodo.org/records/15433646

年份:2025

单位:中山大学

注:本篇由论文原作者审阅

研究背景

快速的城市化进程带来了全球建筑数量和功能的剧烈变化,及时准确的调查统计建筑物数量,并在此基础上区分建筑物的用地属性和功能,对于提升空间布局合理性、人类宜居性、城市可持续发展至关重要。

研究问题

  • 土地利用分类是实现城市用地功能划分的有效途径,但土地利用分类研究多基于地块尺度,难以满足以建筑物单元为载体的人类活动空间的划分;

  • 建筑物足迹提取研究多关注建筑物边缘轮廓,且在遥感俯视图中建筑物视觉特征较为类似,难以推测其功能属性。

如何实现建筑物足迹尺度的属性功能分类?

  • 现有解决途径1:建筑物足迹公开产品+分类特征;但依赖已有产品,难以端对端应用。

  • 现有解决途径2:将此问题看作多类别语义分割问题;但传统建筑物提取模型多关注边缘轮廓,对功能语义推理能力不足。

  • 研究启示

  • 不同功能的建筑物之间、建筑物与周围实体之间具有一定的空间分布规律。充分利用空间规律或地学先验,是建筑物功能准确推理的关键。
  • 图1. 语言模型中编码的地理实体空间关系的底层机制可以帮助建筑物功能识别任务中的语义推理。
  • 创新点

  • 1)提出了视觉语言建筑物功能推理模型(LARSE),通过层级视觉编码器提取建筑物局部边缘轮廓和全局上下文嵌入特征,通过语言编码器提取建筑物功能描述嵌入特征,设计多模态推理解码器,综合上述嵌入特征,实现功能推理。

    2)在层级视觉编码器中设计了建筑物全局上下文提取模块(BGC)和建筑物局部细节提取模块(BLD),不仅捕捉细粒度的局部建筑物轮廓,还通过聚合建筑物周围视觉线索来形成全局上下文表示,用于后续功能推理。

    3)在多模态推理解码器中,通过对齐文本表示、像素级表示和相应的局部掩码,精准学习细粒度的视觉概念。经过训练,推理解码器能够将细粒度的语义信息从语言表示传播到建筑物的局部视觉激活,从而能够精确识别每座建筑物的功能。

  • 图2. 建筑物功能推理分割(LARSE)框架。

  • 4)构建了一套建筑物功能分类数据集BUFF(BUilding Footprint Function),包含12940张0.5米分辨率的512x512大小的影像及标注,涉及10种建筑物功能类型。

  • 图3 BUFF数据集介绍

  • 结果与分析

  • 本文方法在多光谱无人机跟踪数据集上全面优于现有主流方法,表现出更强的鲁棒性和适应性。同时在多光谱和RGB通用数据集上也展现出良好的迁移能力,证明了其结构的通用性与效率。
  • 图4 在BUFF数据集上的可视化实验结果
  • 语言模型功能推理的可解释性分析:
  • 1)本研究的亮点在于利用语言模型强大的语义推理能力识别建筑物功能类型。因此,为了解其可解释性,首先需要探究“经过语言模型编码的建筑物功能描述是否具有指引作用”。本研究使用 t-SNE 可视化了语言模型编码的每个建筑功能描述的特征嵌入,可以发现,相似的建筑功能属性的嵌入向量方向较为一致,而属性功能不同的嵌入向量方向差异较大。例如城中村(urban village)和住宅楼(residential)的嵌入向量方向较为一致,且与酒店(hotel)也较为一致,反映了居住属性;而商业(commercial)和商务(business)的嵌入向量方向较为一致,反映了其经济属性,政府(government)和企事业单位或机构(institution)的嵌入向量方向也较为一致,反映了公共服务属性。因此,建筑功能描述的特征嵌入具有指引作用。
  • 图5 通过t-SNE在三维特征空间中可视化由语言模型编码的功能描述嵌入特征
  • 2)然后,需要探究“经过建筑物功能语义描述的嵌入向量指引后,模型究竟是如何提升理解和推理能力的?”本研究通过对编码器最深层的attention map进行可视化,利用自注意力机制过程中对全局上下文关联的学习能力,试图寻找模型推理的痕迹。在如图6所示的场景中,我们选取education对应的像素的query q,并可视化其在整个场景上的attention map(即其他所有像素的key k与q相乘得到)。通过观察发现,在有建筑物功能嵌入向量的指引时(w/ language model),education属性与相邻的操场及其绿化树木的注意力强度是最强的,同时,也少量关注到周围的居民楼和其他类型的建筑物;相比之下,在没有建筑物功能嵌入向量的指引时(w/o language model),education属性的建筑物更多的关注到了周围的建筑物上,特别是居民楼上。因此,从最终的w/o language model的结果中可以看到,education building被错误的分类为residential。因此,建筑物功能语义描述的嵌入向量能够指引视觉模型关注到最关键、最具判别性的地物类型或空间模式,从而提升视觉模型对于功能语义的推理能力。
  • 图6 注意力图的可视化展示了通过构建函数描述嵌入所指示的相关知识。
  • 3)最后,我们从“最终的分类结果中各建筑物功能类型在特征空间的聚集程度”来可视化语言模型的可解释性和贡献。同样,我们使用t-SNE可视化方式,如图7,可以发现,在建筑物功能描述嵌入向量的影响下,相同建筑属性的分布变得更加紧密,从而提高了准确性。例如,在w/o language model的结果中,城中村(urban village)与居民楼(residential)的分布高度混合,而通过语言模型的关系理解,能够实现明显的区分。
  • 图7 利用t-SNE可视化建筑功能推理结果中各类型的特征聚集情况。
  • 长江经济带区域10个省会城市建筑物功能制图与分析:
  • 在长江经济带上海、南京、武汉、成都等10个主要城市进行建筑物功能制图验证和数值统计,发现:
  • 1)功能层面的建筑物足迹分布折射出区域经济异质性:LARSE制图结果显示,长江经济带沿线各城市在建筑功能层面存在显著异质性,东西部差异尤为突出性。以上海等城市为例,其建筑占地面积广阔,商业与住宅建筑比例较高,体现出经济发达、城市化程度高;而昆明、贵阳等西南城市因地理与民族多样性等因素,村庄及城中村建筑所占比重较大。由此可见,地理条件与政策导向共同影响城市结构。地理层面上,东部地区凭借优越的区位和完善的交通网络,吸引了大量投资与人口集聚;西部地区则受地形崎岖、交通可达性有限等因素制约。政策层面上,《长江经济带发展规划纲要》强调东西部区域协调发展,注重资源配置与功能布局。

    2)功能层面的建筑物足迹分布凸显出基础公共设施区域均衡性:从政府、医疗和教育类建筑在长江经济带沿线城市分布的差异性较小可以看出,尽管经济发展存在不平衡,但基础公共服务设施在区域间分布较为均衡。这与《中共中央国务院关于推进以人为核心的新型城镇化发展的若干意见》中提出的“城乡融合发展”政策有一定关系。该政策通过资源合理配置,推动区域经济协调发展,保障基础公共服务的公平覆盖。

  • 图8 对长江经济带区域中的上海、南京、武汉、成都等10个城市进行建筑功能制图和可视化展示。

  • 图9 长江经济带足迹尺度建筑物功能统计

  • 图10 100米网格的人均医疗服务占有面积。


http://www.hkcw.cn/article/uWGqsVrmmb.shtml

相关文章

WWW22-可解释推荐|用于推荐的神经符号描述性规则学习

论文来源:WWW 2022 论文链接:https://web.archive.org/web/20220504023001id_/https://dl.acm.org/doi/pdf/10.1145/3485447.3512042 最近读到一篇神经符号集成的论文24年底TOIS的,神经符号集成是人工智能领域中,将符号推理与深…

MCP 架构设计:为什么需要服务器和客户端?

MCP 架构设计:为什么需要服务器和客户端? 在开发 MCP 系统时,我们采用了服务器-客户端架构。这种设计不仅提高了系统的可扩展性,还带来了许多实际的好处。本文将详细解释这种架构的优势和实际应用场景。 为什么需要服务器-客户端架…

华为欧拉系统中部署FTP服务与Filestash应用:实现高效文件管理和共享

华为欧拉系统中部署FTP服务与Filestash应用:实现高效文件管理和共享 前言一、相关服务介绍1.1 Huawei Cloud EulerOS介绍1.2 Filestash介绍1.3 华为云Flexus应用服务器L实例介绍二、本次实践介绍2.1 本次实践介绍2.2 本次环境规划三、检查云服务器环境3.1 登录华为云3.2 SSH远…

服务器Docker容器创建与VScode远程连接SSH使用

一、拉取容器 1、win r 输入cmd打开终端命令行 2、终端输入 ping 192.168.xx.xxx 查看是否连接到服务器。如输出显示“字节 时间 TTL”等如下界面,则连接成功。否则输出“请求超时” 如果不能连接,则需要修改设备的IP,需要在设置-网络和In…

mongodb集群之分片集群

目录 1. 适用场景2. 集群搭建如何搭建搭建实例Linux搭建实例(待定)Windows搭建实例1.资源规划2. 配置conf文件3. 按顺序启动不同角色的mongodb实例4. 初始化config、shard集群信息5. 通过router进行分片配置 1. 适用场景 数据量大影响性能 数据量大概达到千万级或亿级的时候&…

华为云Flexus+DeepSeek征文|基于华为云Dify平台打造个人知识库聊天机器人全流程指南

目录 前言 1 华为云Dify平台的一键部署 1.1 使用资源编排快速部署 1.2 获取访问入口并准备使用 2 初识Dify平台功能 2.1 登录平台与设置管理员账户 2.2 了解平台模块与功能 3 开通并配置DeepSeek大模型服务 3.1 在ModelArts Studio中启用大模型 3.2 获取模型服务API信…

EasyExcel复杂Excel导出

效果图展示 1、引入依赖 <!-- easyExcel --> <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>4.0.2</version> </dependency>2、实体类 import com.alibaba.excel.annotatio…

云服务器系统日志占满磁盘怎么办?

云服务器系统日志占满磁盘是常见问题&#xff0c;长期积累大量日志文件会导致磁盘空间不足&#xff0c;影响服务器稳定运行。下面是几种常用的清理和管理日志的方法&#xff1a; 解决系统日志占满磁盘的步骤 1. 查看磁盘使用情况和日志目录大小 df -h # 查看磁盘空间使用情况 …

vueflow

自定义节点&#xff0c;自定义线&#xff0c;具体细节还未完善&#xff0c;实现效果&#xff1a; 1.安装vueflow 2.目录如下 3. index.vue <script setup> import { ref } from vue import { VueFlow, useVueFlow } from vue-flow/core import { Background } from vue-…

2022 RoboCom 世界机器人开发者大赛-本科组(省赛)解题报告 | 珂学家

前言 题解 2022 RoboCom 世界机器人开发者大赛-本科组&#xff08;省赛&#xff09;。 感觉T5是最简单的&#xff0c;其他都不好做。 RC-u5 树与二分图 分值: 30分 思路: 容斥原理 树天然就是二分图&#xff0c;按深度d归类(偶数深度为S1&#xff0c;奇数深度为S2)&#x…

framework之慕课大巴

8.Android启动课程大纲_哔哩哔哩_bilibili

redis未授权(CVE-2022-0543)

概述 Redis 默认绑定在 0.0.0.0:6379&#xff0c;在未配置防火墙或访问控制的情况下会将服务暴露在公网上。若未设置访问密码&#xff08;默认通常为空&#xff09;&#xff0c;攻击者可直接未授权访问 Redis。利用 Redis 提供的 CONFIG 命令&#xff0c;攻击者可修改配置并将…

帕金森常见情况解读

一、身体出现的异常节奏​ 帕金森会让身体原本协调的 “舞步” 出现错乱。它是一种影响身体行动能力的状况&#xff0c;随着时间推进&#xff0c;就像老旧的时钟&#xff0c;齿轮转动不再顺畅&#xff0c;使得身体各个部位的配合逐渐失衡&#xff0c;打乱日常行动的节奏。​ …

[正点原子]ESP32S3 RGB屏幕移植LVGL

ESP32S3 RGB屏幕移植lvgl 简介准备工作移植过程创建文件加修改配置修改适配文件main函数lvgl的图形化配置 着重要注意的屏幕驱动的问题 效果展示 简介 最近入手了 正点原子ESP32开发版准备学习LVGL&#xff0c;该板子支持RGB屏幕RGB565&#xff0c;之前买Linux开发板的时候有一…

移动安全Android——客户端静态安全

一、反编译保护 测试工具 Jadx GitHub - skylot/jadx: Dex to Java decompiler PKID [下载]PKID-APP查壳工具-Android安全-看雪-安全社区|安全招聘|kanxue.com 测试流程 &#xff08;1&#xff09;通过Jadx对客户端APK文件进行反编译&#xff0c;观察是否进行代码混淆 &…

支持功能安全ASIL-B的矩阵管理芯片IS32LT3365,助力ADB大灯系统轻松实现功能安全等级

随着自动驾驶技术的快速发展&#xff0c;汽车前灯智能化也越来越高。自适应远光灯 (ADB) 作为一种智能照明系统&#xff0c;在提升驾驶安全性和舒适性方面发挥着重要作用。ADB 系统通过摄像头和传感器获取前方道路信息&#xff0c;例如来车的位置、距离和速度&#xff0c;并根据…

Python训练营打卡Day40

DAY 40 训练和测试的规范写法 知识点回顾&#xff1a; 1.彩色和灰度图片测试和训练的规范写法&#xff1a;封装在函数中 2.展平操作&#xff1a;除第一个维度batchsize外全部展平 3.dropout操作&#xff1a;训练阶段随机丢弃神经元&#xff0c;测试阶段eval模式关闭dropout 作…

晨控CK-FR03与汇川H5U系列PLC配置MODBUS TCP通讯连接操作手册

晨控CK-FR03与汇川H5U系列PLC配置MODBUS TCP通讯连接操作手册 CK-FR03-TCP是一款基于射频识别技术的高频RFID标签读卡器&#xff0c;读卡器工作频率为13.56MHZ&#xff0c;支持对I-CODE 2、I-CODE SLI等符合ISO15693国际标准协议格式标签的读取。 读卡器同时支持标准工业通讯协…

二叉树实验

引言 在数据结构的学习过程中&#xff0c;二叉树作为一种典型的非线性结构&#xff0c;其构造和操作方式具有高度的层次性和结构性。而递归正是处理这种结构最自然的方式之一。关于二叉树的基本结构如下图所示&#xff1a; 递归的本质是函数调用自身的过程&#xff0c;这恰好…

【空间光学系统与集成微纳光子学系统简介】

空间光学系统 空间光学系统指用于太空探测、遥感、通信等领域的光学仪器&#xff0c;通常具备高分辨率、轻量化、抗辐射等特性。主要应用包括&#xff1a; 天文观测&#xff1a;如哈勃望远镜、詹姆斯韦伯太空望远镜&#xff08;JWST&#xff09;&#xff0c;利用大口径主镜收集…