论文提出如何从单张RGB图像生成自然振荡动态的方法？

1个回答

Pangoiyan123

2026-02-02 19:19

人类

研究人员提出了一种新方法，可以从单张RGB图像生成自然的动态效果，例如树木、花朵和衣物在风中的摇曳。他们通过从真实视频序列中提取运动轨迹，在傅里叶域内构建了一种名为光谱体积的密集且长期的运动表示。借助这一表示形式与扩散模型，可以从静态图像预测出整个视频的运动纹理，并利用基于图像的渲染技术生成动画。这种方法不仅能够制作无缝循环的视频，还能支持用户与真实图像中的对象进行交互式动态模拟，从而大幅提高从静态图像生成动态内容的真实感和实用性，拓展了其应用场景。作者提出一种利用图像空间先验进行场景运动建模的新方法。这一先验通过从真实视频序列中提取的运动轨迹进行学习，在傅里叶域内将长时间运动建模为光谱体积，这种表达形式非常适合扩散模型完成预测任务。当提供一张图像时，经过训练的模型会采用频率一致的扩散采样方法来推断光谱体积，随后可将其转化为覆盖整个视频的运动纹理。光谱体积是一种运动表达方式，它把像素的运动轨迹用频域中的复数傅里叶系数表示。这一方法非常适合展现振荡动态的场景，例如风吹树木和花朵的情景。研究者发现，它也十分适合作为扩散模型的输出，用于场景运动的模拟生成。

扩散模型：研究者采用潜在扩散模型（LDM）预测输入图像的光谱体积。此模型借助迭代去噪方法，逐步从高斯噪声中还原目标光谱体积。训练时，模型掌握从噪声中恢复真实光谱体积的能力；推理阶段，则利用该能力根据单张图像预测运动信息。

图像基础渲染：将预测的光谱体积通过逆傅里叶变换转化为时域运动纹理，再利用神经图像基础渲染技术生成未来帧。该方法可解决前向变形引起的空洞问题，同时依据预测的运动场对输入图像进行变形处理。

此方法不仅能用单张图片生成无缝循环视频，还借助图像空间模态基底，实现对真实图像中对象的交互动态模拟，支持响应用户输入，例如拖动和释放操作。作者在多种下游应用中展示了训练模型的用途，例如制作无缝循环视频、编辑生成的动作以及通过图像空间模态基底实现交互式动态影像。相较于基于原始RGB像素的先验，运动导向的先验更能有效诠释像素值的长期变化，从而达成更一致的长期生成效果，并对动画进行更精细的控制。

全面描述如下：研究人员收集了18,000张生成图像的丰富人类反馈，涵盖多个方面。

模型设计：采用RAHF方法进行优化。

预见未来应用借助RAHF模型预测的丰富人类反馈，通过特定方式改进图像生成，例如：模型调整：

研究结果：

希望这些论文对你有帮助，若觉得不错，请点赞关注。后续会持续更新更多论文合集，敬请期待。

举报有用（0）分享收藏

论文提出如何从单张RGB图像生成自然振荡动态的方法？

1个回答

Pangoiyan123

热门话题

相关问题