论文提出如何从单张RGB图像生成自然振荡动态的方法?

1个回答

写回答

Pangoiyan123

2026-02-02 19:19

+ 关注

人类
人类

研究人员提出了一种新方法,可以从单张RGB图像生成自然的动态效果,例如树木、花朵和衣物在风中的摇曳。他们通过从真实视频序列中提取运动轨迹,在傅里叶域内构建了一种名为光谱体积的密集且长期的运动表示。借助这一表示形式与扩散模型,可以从静态图像预测出整个视频的运动纹理,并利用基于图像的渲染技术生成动画。这种方法不仅能够制作无缝循环的视频,还能支持用户与真实图像中的对象进行交互式动态模拟,从而大幅提高从静态图像生成动态内容的真实感和实用性,拓展了其应用场景。作者提出一种利用图像空间先验进行场景运动建模的新方法。这一先验通过从真实视频序列中提取的运动轨迹进行学习,在傅里叶域内将长时间运动建模为光谱体积,这种表达形式非常适合扩散模型完成预测任务。当提供一张图像时,经过训练的模型会采用频率一致的扩散采样方法来推断光谱体积,随后可将其转化为覆盖整个视频的运动纹理。光谱体积是一种运动表达方式,它把像素的运动轨迹用频域中的复数傅里叶系数表示。这一方法非常适合展现振荡动态的场景,例如风吹树木和花朵的情景。研究者发现,它也十分适合作为扩散模型的输出,用于场景运动的模拟生成。

扩散模型:研究者采用潜在扩散模型(LDM)预测输入图像的光谱体积。此模型借助迭代去噪方法,逐步从高斯噪声中还原目标光谱体积。训练时,模型掌握从噪声中恢复真实光谱体积的能力;推理阶段,则利用该能力根据单张图像预测运动信息。

图像基础渲染:将预测的光谱体积通过逆傅里叶变换转化为时域运动纹理,再利用神经图像基础渲染技术生成未来帧。该方法可解决前向变形引起的空洞问题,同时依据预测的运动场对输入图像进行变形处理。

此方法不仅能用单张图片生成无缝循环视频,还借助图像空间模态基底,实现对真实图像中对象的交互动态模拟,支持响应用户输入,例如拖动和释放操作。作者在多种下游应用中展示了训练模型的用途,例如制作无缝循环视频、编辑生成的动作以及通过图像空间模态基底实现交互式动态影像。相较于基于原始RGB像素的先验,运动导向的先验更能有效诠释像素值的长期变化,从而达成更一致的长期生成效果,并对动画进行更精细的控制。

全面描述如下:研究人员收集了18,000张生成图像的丰富人类反馈,涵盖多个方面。

模型设计:采用RAHF方法进行优化。

预见未来应用借助RAHF模型预测的丰富人类反馈,通过特定方式改进图像生成,例如:模型调整:

研究结果:

希望这些论文对你有帮助,若觉得不错,请点赞关注。后续会持续更新更多论文合集,敬请期待。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号