
中国科学技术大学
推动3D重建与具身智能发展!ROOT是一个利用视觉语言模型的系统,专注于室内场景的理解,并具备更广泛的应用潜力。作者:王永辉、陈世勇、周振兴、李思逸、李浩然、周文刚、李厚强机构:
中国科学技术大学、
腾讯互动娱乐事业群原始链接:
ABS/2411.15714">https://arxiv.org/
ABS/2411.15714,请直接访问该地址查看相关内容。代码地址:https://github.com/harrytea/ROOT,欢迎访问并查看项目详情。近期,视觉语言模型(VLM)取得了显著进步,但在室内场景的空间层次推理方面仍面临挑战。本研究提出了一种基于VLM的系统——Root,专注于提升对室内场景的分析能力。首先,我们设计了一种迭代式对象感知算法,利用GPT-4V检测室内场景中的物体实体。接着,通过视觉基础模型获取场景的额外元信息,例如边界框等数据。在此基础上,我们开发了专门的SceneVLM模型,该模型能够生成空间分层场景图,并提供室内环境中物体间的距离信息,从而加深对室内场景空间布局的理解。为了训练SceneVLM,我们从多个公共室内数据集中收集了超过61万张图像,并采用半自动技术构建了场景数据生成管道。这一管道不仅建立了室内物体之间的关系,还估算了它们之间的距离。凭借这些丰富的数据资源,我们探索了多种训练方法,以完善模型性能。实验结果表明,Root系统在理解室内场景方面表现出色,并在多项下游应用中展现了有效性,例如3D场景生成和嵌入式人工智能等领域。这为未来更复杂的室内场景分析奠定了坚实的基础。室内场景理解是
计算机视觉领域的重要任务,已受到广泛关注。随着视觉语言模型(VLMs)的兴起,该领域取得了显著进展,其零样本学习能力尤为突出。这项任务涉及丰富的内容,例如房间内的物体、它们的空间位置以及彼此间的关联。这些信息对多种下游应用至关重要,如智能物品布局优化、3D场景生成,以及增强家用机器人执行
人类指令的能力。然而,理解空间关系仍是室内场景理解中的核心难点,因为现有VLMs在捕捉和解析这些关系方面存在局限性。大多数通用视觉语言模型(VLMs)通过大量高质量的指令数据训练,能够理解图像内容并完成标准任务,例如视觉问答(VQA)。然而,在解析室内场景时,这些模型遭遇了显著困难,这成为实现通用人工智能(AGI)道路上的重要瓶颈。我们认为,对室内场景的理解是VLMs不可或缺的一部分,因为它为许多下游任务的进展提供了支持。本文聚焦于室内场景的理解,尤其是空间感知能力的提升。我们提出了ROOT,一个基于VLM的系统,该系统通过识别物体及其属性,进一步确定物体间的层级位置关系与距离信息,从而实现对室内场景的深入解析。这种强化的理解能力将推动新技术的发展,进而提升基于场景的VQA和智能物体摆放等下游任务的表现。为了达成目标,我们整合了多种现有的基础模型和自定义开发的模型,用于分析室内场景,并最终构建出系统ROOT。整个流程可分为三个核心阶段:迭代物体感知、室内场景解析以及层次场景图生成。首先,在物体感知阶段,我们运用基于GPT-4V的技术来识别场景中的实体对象。为提高小物体检测精度,我们设计了一种迭代方法,通过放大并重新检测特定区域以完善结果。接着,在场景解析阶段,我们借助现有的视觉基础模型提取深度信息及物体的基本属性,例如边界框与掩码等。利用自定义模型SceneVLM,将前两个阶段获取的数据进行整合,生成包含空间距离信息的室内物体层次场景图。推荐课程:全面掌握3D人脸重建原理,涵盖基础知识、算法详解、代码剖析及实际应用案例。在训练SceneVLM时,我们设计了一条场景数据生成管道,能够借助人工辅助半自动创建训练数据。为了保证模型具备强大的零样本能力,我们收集了一个包含61万张以上室内场景图像的多样化数据集。接着,通过CLIP模型筛选出合适的图像。基于前期开发的能力,我们实现了距离数据的自动化生成,并以半自动方式构建了物体间的层次关系数据。利用该管道生成的数据,我们在先进的开源视觉语言模型上开展实验,旨在强化这些模型对室内环境的空间理解能力。ROOT系统具备以下能力:它能够处理室内场景的RGB图像,实现物体识别与属性分析,同时解析场景特性。系统还会对物体间的空间关系进行建模,构建场景图,清晰呈现物体间的层级结构与距离关系。ROOT系统旨在解析室内场景图像,提取场景的多元信息。它能够生成室内物体间的层级关系与空间距离,提供丰富的数据支持。这些数据为多种下游任务的开展奠定了基础,提升了任务执行的准确性和效率。
以下是我们作出的贡献总结:我们提出了ROOT,一种基于VLM的室内场景理解系统,可从图像中提取元信息,描述物体间的层次空间关系。我们构建了一条场景数据生成管道,用于生成空间场景数据集,同时引入SceneVLM模型,融合房间内物体的属性信息,为室内场景提供空间描述。通过尝试多种训练策略,我们分析了其对SceneVLM性能表现的具体影响。我们在特定下游任务中成功展示了方法的显著应用,有效推动了相关领域性能的进一步提升。2所示,ROOT系统包含三大核心组件:迭代物体感知、室内场景解析和层次场景图生成。首先,第一部分负责识别室内物体;接着,第二部分提取物体与场景的元信息;第三部分基于这些信息构建层次场景图并估算距离。借助多种基础模型,该系统在室内场景理解上展现出卓越性能。
如表1所示,除了InstructBLIP和LLaVA-1.5之外,大多数视觉语言模型(VLM)均能够成功生成符合JSON格式的文件。这种能力主要得益于SFT数据集中包含的代码相关数据。通过对结果从四个不同维度进行分析发现,关系指标(PRA和OWA)的变化幅度非常小,而对象指标(LWA和NDA)则表现出显著差异。这种现象可以归因于LWA的严格评估标准——它要求对每一层中的每个节点都做出精确预测。此外,关系指标的表现略逊于NDA指标,其原因在于对象输出相对简单,而关系输出则更加复杂。具体来说,在给定对象列表的情况下,生成对象的输出较为容易,但生成关系需要对室内环境有更深入的理解。从模型表现来看,我们的方法在所有指标上均优于现有的视觉语言模型。这一优势主要得益于SceneVQA数据集的引入,该数据集专门用于生成与特定室内场景相关的场景图。在关系指标方面,模型的精确度和召回率均接近90%,这表明模型对室内物体之间空间关系的理解已达到较高水平。而在对象输出的评估中,模型的准确率接近100%,这意味着它可以始终完整地输出给定的对象列表,且无任何遗漏。除我们的方法外,GPT-4V是表现次优的模型,其强大的泛化能力和理解能力使其取得了较好的成绩。然而,其他方法尽管能够生成符合JSON格式的文件,但往往只是简单重复问题中的示例内容,未能充分理解指令性问题,因此导致性能较低。

腾讯
图5展示了我们方法生成的分层
JSON文件的可视化结果。可以看出,模型能够准确理解内容,并模拟房间内物体的层级关系。
本文提出了一种基于视觉语言模型的系统——ROOT,用于通过获取房间对象的元数据并分析其空间关系来理解室内场景。实验结果表明,当前视觉语言模型在解释室内空间方面存在不足,而我们的方法能够有效应对这一挑战。此外,我们还将提取出的空间信息应用于其他任务,进一步验证了其价值。我们相信,ROOT将在室内场景理解领域发挥重要作用,并为未来的研究提供新的方向与灵感。关注公众号3D视觉工坊,获取工业3D视觉、自动驾驶、SLAM、三维重建等前沿论文与科技动态,第一时间了解行业资讯。实战:用Python融合图像与点云信息C++在三维视觉算法中的核心模块精讲:零基础入门至进阶提升。三维视觉linux嵌入式系统开发指南ROS2入门到精通:理论与实践三维视觉领域的科研方法与论文写作指南快速搭建3D线结构光三维扫描仪的方法是什么?小白从零打造高精度3D结构光相机完整流程KW-MINI,精度达0.05毫米,体积小巧,重量极轻,采用结构光技术的3D相机。面结构光三维重建高阶实战课程如何根据一张图片重建出人脸的三维模型?首个Halcon深度学习项目实战系统教程,助你轻松入门。国内首个专注具身智能的理论与实战课程,助你深入了解并掌握相关技能,开启智能新领域。链接:https://ebzbf.xetslk.com/s/2WdMFO扩散模型入门:数学原理、方法及应用,详细教程见此链接:https://ebzbf.xetlk.com/s/1Sopyg零基础学大模型,理论结合实战。视频课程链接:https://ebzbf.xetslk.com/s/RGXG,从入门到精通,快来学习吧!