
失眠
3D模型生成各种复杂目标的能力也很强!
官方还推出了自家创建的游戏demo,其中每个模型都由他们的One - 2 - 3 - 45++生成,游戏建模师恐怕要失眠了。

大学
代码目前尚未开源,感兴趣的读者可关注github,下面来看看具体的论文信息。
作者为刘明华、史若曦、陈凌浩、张卓阳、徐超、魏新月、陈汉生、曾冲、顾家源、苏浩。机构包括加州大学圣地亚哥分校、浙江大学、清华大学、加州大学洛杉矶分校、斯坦福大学。
代码链接:https://github.com/SUDO - AI - 3D/One2345plus。官方主页:https://sudo - AI - 3d.github.io/One2345plus_page/
现有方案都是如何施行的?3D扩散模型可直接用于生成3D模型。采用NeRF来合成3D模型。3、合成多视角图像后进行MVS操作。存在什么问题?渲染质量不高,并且速度还太慢。One - 2 - 3 - 45之前开源了,是怎么做的?对于单个图像,先利用视图条件2D扩散模型Zero123针对输入视图生成多视图图像,接着采用通用NeRF(SparseNeuS,ECCV 2022)将其合成为SDF 3D模型。
One - 2 - 3 - 45++改进的思路是怎样的?借助丰富的2D先验知识(预训练的2D扩散模型)以及虽少却有用的3D数据(经训练的3D扩散模型可将多视图图像转换为3D网格),来改善Zero123视图几何不一致的状况,从而生成稠密且高保真的3D模型。One - 2 - 3 - 45++具体的操作方式是怎样的?先简单介绍两个经典模型。
DINOv2能提取很强的图像特征,下游任务无需微调,特别适合做各类任务的预训练Backbone。在One-2-3-45++里,这两个模型为2D/3D扩散模型给予条件引导。One-2-3-45++的原理如下:输入单帧RGB图,首先利用微调后的2D扩散模型生成多视图图像。接着,凭借2个3D扩散网络,由这些多视图图像生成3D模型,构建SDF和RGB体素。在从去噪体素中提取3D网格后,以多视图图像进行监督,轻度增强模型的纹理。
有两点需要留意。2D扩散模型生成多视角图像具有一致性,这是其与原始One - 2 - 3 - 45的主要差别。2、使用两个3D扩散模型的原因是,直接生成3D时计算量与存储量过大,于是采用由粗到精的方法,先产生占用体素,再生成SDF和RGB体素。接下来对这个框架逐一进行分析:多视图的一致性是怎样生成的?许多单张图像合成多视角图像的方案会采用Zero123(One - 2 - 3 - 45也包含在内)。不过,不少方案生成的多视角图像存在较多不一致之处,有各种各样的不对齐情况。这主要是由于Zero123单独对每个视图的条件边际分布进行模拟,很少顾及多视图间的关联。One - 2 - 3 - 45++采用的方式是,直接运用单个扩散过程(其实就是去噪过程)生成一张包含6个固定视角的组合图像,而非分别生成单个视角的图像。这需要对预训练的Zero123进行微调,其条件为单一输入图像。作者觉得这种策略能让多个视图在扩散过程中彼此关联,并且固定6个视图的角度可解决方向模糊的问题,如此一来,后续的3D建模就无需估计模型仰角了。
说是微调,可也用16块GPU训练了10天,普通玩家难以承受。多视角图像怎样合成为3D模型?前段时间开源的Wonder3D,其做法为同时估计多视图RGB图与对应的法线图,再优化神经隐式SDF场以提取完整三维信息。One - 2 - 3 - 45++的思路为,基于大量3D数据训练3D扩散网络,从而学习以多视图图像为条件的3D形状。其具体方式是把纹理网格表示成两个离散的3D体素,分别为SDF和RGB。不过要是直接对高精度3D体素建模,计算量会非常大。于是作者先采用3D占用扩散模型生成低分辨率的3D占用地图,再用3D稀疏扩散模型提升分辨率。相对来说,Wonder3D更侧重于几何融合,One - 2 - 3 - 45++更倾向于端到端学习。哪种方法更好,读者可依自身实际情况抉择。在后面的实验部分,作者也对One - 2 - 3 - 45++和Wonder3D生成多视图的质量进行了对比。3D扩散模型以多视图为条件是何原因?3D训练数据匮乏,难以用于模型训练。于是One - 2 - 3 - 45++以输入RGB图和多视图图像为条件,来降低3D模型生成的难度。具体而言,给定m个多视图图像,先通过DINOv2提取局部特征,利用已知相机位姿投影构建3D特征体素,再用3D CNN构建多分辨率特征体素。接着把得到的条件体素与UNet内部体素相连以引导扩散,最后用RGB体素进一步细化。
两个3D扩散模型于8块A100上训练,时长为10天。最后还有纹理优化这一步骤。作者觉得RGB图的分辨率高于生成的3D模型,于是利用多视图图像监督来进行一次纹理细化。具体而言,先固定生成网格的几何形状,接着优化以TensorRT表示的颜色场。每次迭代时,把网格通过光栅化并查询颜色网络渲染到2D,与多视图图像计算L2损失,再据此反向优化。One - 2 - 3 - 45++较One - 2 - 3 - 45有哪些改进之处?笔者觉得两个模型主要区别如下,期待读者补充。在多视图几何一致性上,One-2-3-45++采用图像平铺的方式强化多视图间的关联。在多视图图像合成3D模型方面,One - 2 - 3 - 45采用通用NeRF模型,而One - 2 - 3 - 45++则使用多视图条件的3D扩散模型。3、One - 2 - 3 - 45用于构建SDF模型,而One - 2 - 3 - 45++用于构建SDF和RGB模型。
单图像到3D合成有对比方案,分为基于优化的方案和前馈方案。优化方案包含以Zero123 XL为骨干的DreamFusion、SyncDreamer、DreamGaussian;前馈方案有One - 2 - 3 - 45、Shap - E。评估数据集为GSO的全部1030个目标,以目标正视图作输入,这些目标未用于任何方案的训练。评估指标主要为F得分和CLIP相似性。还开展了用户调研,从GSO数据集中随机选45个目标,每个目标随机用两种方案3D建模,让53个志愿者打分评判优劣,结果92%的打分都表明比原始One - 2 - 3 - 45好。
在GSO数据集针对1030个目标进行定量对比,One - 2 - 3 - 45++比One - 2 - 3 - 45速度慢15秒,不过精度有显著提高。
与其他方案进行定性对比,能发现One - 2 - 3 - 45++在颜色与几何细节方面表现得很出色。
DreamFusion做了50个text - 3D实验,Shape - E速度最快,不过性能跟One - 2 - 3 - 45++比差很多。
通过Text - 3D定量对比能看出,其他方案的分辨率都欠佳。笔者也想了解One - 2 - 3 - 45++与最新几个3D生成模型的效果对比,感兴趣的读者可实际测试。
在消融实验里,针对一致的多视图生成、多视图条件三维扩散、纹理优化这三个关键模块的效果,采用GSO数据集进行测试。若以Zero123 XL替换多视图生成,或用One - 2 - 3 - 45中的通用NeRF替换3D扩散,均会出现显著的性能降低情况。
3D扩散模型的消融实验,重点对比多视图与单视图(a、f)、多视图局部特征提取(b、f)、输入视图的CLIP特征(c、e)、是否用多视图真值训练(d、e)以及随机扰动(e、f)所产生的影响。
GSO多视图生成定量对比,此处也对比了最新的Wonder3D。
说实在的,看到这篇文章时,我感慨的并非又见到一项新技术,而是CV领域的技术更新速度太快了!One - 2 - 3 - 45的论文于今年6月29日才上传到arxiv,然而到了11月14日就更新出One - 2 - 3 - 45++版本了。One - 2 - 3 - 45++是One - 2 - 3 - 45的全面升级版,并且官网上还开放了交互式演示。各位读者能够上传自己的图片,测试生成的3D模型质量。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号