One-2-3-45++图像转3D模型有何新进展？

1个回答

18606225567

2026-02-18 02:06

失眠

近期，曾爆火的图像转3D方案One - 2 - 3 - 45推出了升级版One - 2 - 3 - 45++，其大幅提升了三维模型生成质量，且速度方面没有太多损耗（45秒到60秒）。今天我要和大家分享这项最新工作，我水平有限，若有理解不当之处，欢迎一起讨论。One-2-3-45++能够在1分钟内把任意RGB里的目标转变成高保真纹理网格，所生成的3D模型很贴近原始输入图像。

3D模型生成各种复杂目标的能力也很强！

官方还推出了自家创建的游戏demo，其中每个模型都由他们的One - 2 - 3 - 45++生成，游戏建模师恐怕要失眠了。

大学

官网上现在仍开放着交互式demo，读者能上传自己的图片测试3D模型生成效果，下面展示一张笔者的测试结果。

代码目前尚未开源，感兴趣的读者可关注github，下面来看看具体的论文信息。

作者为刘明华、史若曦、陈凌浩、张卓阳、徐超、魏新月、陈汉生、曾冲、顾家源、苏浩。机构包括加州大学圣地亚哥分校、浙江大学、清华大学、加州大学洛杉矶分校、斯坦福大学。

代码链接：https://github.com/SUDO - AI - 3D/One2345plus。官方主页：https://sudo - AI - 3d.github.io/One2345plus_page/

现有方案都是如何施行的？3D扩散模型可直接用于生成3D模型。采用NeRF来合成3D模型。3、合成多视角图像后进行MVS操作。存在什么问题？渲染质量不高，并且速度还太慢。One - 2 - 3 - 45之前开源了，是怎么做的？对于单个图像，先利用视图条件2D扩散模型Zero123针对输入视图生成多视图图像，接着采用通用NeRF（SparseNeuS，ECCV 2022）将其合成为SDF 3D模型。

One - 2 - 3 - 45++改进的思路是怎样的？借助丰富的2D先验知识（预训练的2D扩散模型）以及虽少却有用的3D数据（经训练的3D扩散模型可将多视图图像转换为3D网格），来改善Zero123视图几何不一致的状况，从而生成稠密且高保真的3D模型。One - 2 - 3 - 45++具体的操作方式是怎样的？先简单介绍两个经典模型。

DINOv2能提取很强的图像特征，下游任务无需微调，特别适合做各类任务的预训练Backbone。在One-2-3-45++里，这两个模型为2D/3D扩散模型给予条件引导。One-2-3-45++的原理如下：输入单帧RGB图，首先利用微调后的2D扩散模型生成多视图图像。接着，凭借2个3D扩散网络，由这些多视图图像生成3D模型，构建SDF和RGB体素。在从去噪体素中提取3D网格后，以多视图图像进行监督，轻度增强模型的纹理。

有两点需要留意。2D扩散模型生成多视角图像具有一致性，这是其与原始One - 2 - 3 - 45的主要差别。2、使用两个3D扩散模型的原因是，直接生成3D时计算量与存储量过大，于是采用由粗到精的方法，先产生占用体素，再生成SDF和RGB体素。接下来对这个框架逐一进行分析：多视图的一致性是怎样生成的？许多单张图像合成多视角图像的方案会采用Zero123（One - 2 - 3 - 45也包含在内）。不过，不少方案生成的多视角图像存在较多不一致之处，有各种各样的不对齐情况。这主要是由于Zero123单独对每个视图的条件边际分布进行模拟，很少顾及多视图间的关联。One - 2 - 3 - 45++采用的方式是，直接运用单个扩散过程（其实就是去噪过程）生成一张包含6个固定视角的组合图像，而非分别生成单个视角的图像。这需要对预训练的Zero123进行微调，其条件为单一输入图像。作者觉得这种策略能让多个视图在扩散过程中彼此关联，并且固定6个视图的角度可解决方向模糊的问题，如此一来，后续的3D建模就无需估计模型仰角了。

说是微调，可也用16块GPU训练了10天，普通玩家难以承受。多视角图像怎样合成为3D模型？前段时间开源的Wonder3D，其做法为同时估计多视图RGB图与对应的法线图，再优化神经隐式SDF场以提取完整三维信息。One - 2 - 3 - 45++的思路为，基于大量3D数据训练3D扩散网络，从而学习以多视图图像为条件的3D形状。其具体方式是把纹理网格表示成两个离散的3D体素，分别为SDF和RGB。不过要是直接对高精度3D体素建模，计算量会非常大。于是作者先采用3D占用扩散模型生成低分辨率的3D占用地图，再用3D稀疏扩散模型提升分辨率。相对来说，Wonder3D更侧重于几何融合，One - 2 - 3 - 45++更倾向于端到端学习。哪种方法更好，读者可依自身实际情况抉择。在后面的实验部分，作者也对One - 2 - 3 - 45++和Wonder3D生成多视图的质量进行了对比。3D扩散模型以多视图为条件是何原因？3D训练数据匮乏，难以用于模型训练。于是One - 2 - 3 - 45++以输入RGB图和多视图图像为条件，来降低3D模型生成的难度。具体而言，给定m个多视图图像，先通过DINOv2提取局部特征，利用已知相机位姿投影构建3D特征体素，再用3D CNN构建多分辨率特征体素。接着把得到的条件体素与UNet内部体素相连以引导扩散，最后用RGB体素进一步细化。

两个3D扩散模型于8块A100上训练，时长为10天。最后还有纹理优化这一步骤。作者觉得RGB图的分辨率高于生成的3D模型，于是利用多视图图像监督来进行一次纹理细化。具体而言，先固定生成网格的几何形状，接着优化以TensorRT表示的颜色场。每次迭代时，把网格通过光栅化并查询颜色网络渲染到2D，与多视图图像计算L2损失，再据此反向优化。One - 2 - 3 - 45++较One - 2 - 3 - 45有哪些改进之处？笔者觉得两个模型主要区别如下，期待读者补充。在多视图几何一致性上，One-2-3-45++采用图像平铺的方式强化多视图间的关联。在多视图图像合成3D模型方面，One - 2 - 3 - 45采用通用NeRF模型，而One - 2 - 3 - 45++则使用多视图条件的3D扩散模型。3、One - 2 - 3 - 45用于构建SDF模型，而One - 2 - 3 - 45++用于构建SDF和RGB模型。

单图像到3D合成有对比方案，分为基于优化的方案和前馈方案。优化方案包含以Zero123 XL为骨干的DreamFusion、SyncDreamer、DreamGaussian；前馈方案有One - 2 - 3 - 45、Shap - E。评估数据集为GSO的全部1030个目标，以目标正视图作输入，这些目标未用于任何方案的训练。评估指标主要为F得分和CLIP相似性。还开展了用户调研，从GSO数据集中随机选45个目标，每个目标随机用两种方案3D建模，让53个志愿者打分评判优劣，结果92%的打分都表明比原始One - 2 - 3 - 45好。

在GSO数据集针对1030个目标进行定量对比，One - 2 - 3 - 45++比One - 2 - 3 - 45速度慢15秒，不过精度有显著提高。

与其他方案进行定性对比，能发现One - 2 - 3 - 45++在颜色与几何细节方面表现得很出色。

DreamFusion做了50个text - 3D实验，Shape - E速度最快，不过性能跟One - 2 - 3 - 45++比差很多。

通过Text - 3D定量对比能看出，其他方案的分辨率都欠佳。笔者也想了解One - 2 - 3 - 45++与最新几个3D生成模型的效果对比，感兴趣的读者可实际测试。

在消融实验里，针对一致的多视图生成、多视图条件三维扩散、纹理优化这三个关键模块的效果，采用GSO数据集进行测试。若以Zero123 XL替换多视图生成，或用One - 2 - 3 - 45中的通用NeRF替换3D扩散，均会出现显著的性能降低情况。

3D扩散模型的消融实验，重点对比多视图与单视图（a、f）、多视图局部特征提取（b、f）、输入视图的CLIP特征（c、e）、是否用多视图真值训练（d、e）以及随机扰动（e、f）所产生的影响。

GSO多视图生成定量对比，此处也对比了最新的Wonder3D。

说实在的，看到这篇文章时，我感慨的并非又见到一项新技术，而是CV领域的技术更新速度太快了！One - 2 - 3 - 45的论文于今年6月29日才上传到arxiv，然而到了11月14日就更新出One - 2 - 3 - 45++版本了。One - 2 - 3 - 45++是One - 2 - 3 - 45的全面升级版，并且官网上还开放了交互式演示。各位读者能够上传自己的图片，测试生成的3D模型质量。

举报有用（0）分享收藏

One-2-3-45++图像转3D模型有何新进展？

1个回答

18606225567

热门话题

相关问题