视频生成中diffusion与gan有何不同？

1个回答

123奶瓶

2026-02-07 13:10

IDEO
IDEO

Diffusion的潜在空间，可操作之处比gan时代要少。合适的数据。

label2vIDEO，还有一种类似I2V。视频理解中率先提出(2+1)D GAN，可减少参数量并提升效果。也使用了Factorized Conv（因式分解卷积）+ Factorized Self - attention（因式分解自注意力），由于算力不够，未做更多探索。后面采用了2dGAN与RNN（即InMoDeGAN）。目前而言，第一种方法更具前景，即把UNet拓展至时空维度，不过当时既无算力，也缺乏优质数据。结果相对有限，下面呈现两个数据集与生成结果。

latent space能进行更多操作，还可节省算力。

OpenAI
OpenAI

设计模型与gan时代有别，更偏向系统级，共涉及三个模型。低分辨率模型插帧变平滑，还有超分模型。如下实现：

添加时间维度的attention后，变得平滑且具有一致性。添加相对位置编码以更好地学习时间层面的信息。

在learning方面，预训练图像模型被使用，而在gan时代未曾运用这种预训练。stable diffusion本就是一个通用模型，能够使用预训练模型，再用视频数据加以训练，从而向视频分布迁移。Joint image - vIDEO fine - tuning作用显著，能防止灾难性遗忘，还可提升创造性、多样性并带来更好的视觉效果。图像中的知识能在训练时为视频生成增添更多知识，图像更易获取，其风格也比视频数据更丰富。

在数据方面。

公开数据不足，既缺乏高质量，又不够丰富。vIDEOchat也有了更多的标注内容。

以图片为条件，图片可以是单张的，也可以是多张的。

生成时保留前后图片，能生成中间图像与视频。

图像的方法都能给视频生成带来启示，大多可扩展。

将image扩展至时间维度以获取时空一致性，并用更大规模优质数据进行训练。

第一种时空较为常见。第二种前期用spatial，后期用Temporal，效果不太好。第三种在一个block里，实现串行时空建模。第四种是同时（并行）进行时空建模，二者差距颇为明显。第四种效果佳，前三种区别小，其中第一种更合理、稳定。text2vIDEO方面，需更多验证，其收敛速度与训练时间会有所不同。细节处理方面：怎样获取token？Sora设计出时空token，encoder进行时空压缩，同时也做了spatial（空间）的token。

在latent space进行token获取操作，有两种方法。all token或者S - AdaLN并非最优解，效果欠佳。每层都注入label信息，就像style - GAN注入style那样，注入强signal效果会更好，防止深度增加时出现信息丧失的情况。在all token的情景下，Image - vIDEO联合训练变得更加容易开展了。

在T2V上，是能够进行操作的。和Sora同一时代，虽算力和数据有差距，但模型技术是正确的。Scaling raw（增大原始数据量），提升算力。

视频生成有助于我们理解世界，这与世界模型（world model）有关吗？在理解中创造，理解与创造相互关联，这可以成为探究世界运行方式及机制的一种途径。学习优秀的模型会依据输入的数据生成特定分布。对我们而言，prompt有一定创造性，模型可能并不认为其不存在。开源模型与Sora的体量情况。OpenAI涉足生成模型由来已久，技术积累颇为丰富。其当前采用扩大规模（scale - up）的策略，从这一策略、训练、工程积累，到DaLLe3的实践，再到稳定性与数据处理等，都能让Sora受益良多。一分钟视频需数千张卡，AE训练也得大量算力。长视频工作在数据处理和技术积累方面也颇有建树。要复现Sora，接下来我们该做些什么？视频时间更长、物理模拟更好、创造力更高？在复现的时候，也该进一步思考这个问题。ChatGPT出现后，数据理解方式的分工将更精细。从算法打磨，到针对特定架构与场景制作工具包等，开始是全栈式，之后会走向分工合作。系统层面的创新与研究相互协同，才能提升视频生成工作的生成质量和结果。对于PhD而言，除了关注效果，在gan、diffusion、transformer之外，要生成更长、质量更高的视频，当前的diffusion是不是最优选择？我们可以把眼光放长远些，朝着这个方向去努力。用于电影辅助，可节省部分成本。实际上，我们现在对世界缺乏全面的认识。OpenAI对世界模型的认知或许是正确的，世界并非静态，视频生成能自然地模拟这种场景，也许当前基于数据驱动、学习的方法可以达成此事。重建与物理还原能做很多事，像可解释性分析，把物理规律编进模型里。例如在人脸生成任务上的路径与过程就可如此操作。先解决黑盒问题，再对其进行解释和理解。如何判断视频真假？camera拍摄的视频和照片是真的吗？它们也经一定算法生成处理。

Mini Sora开源社区是由社区同学自发组建的。Mini Sora打算探索Sora的实现途径以及后续发展方向。欢迎大家加入Mini Sora社区。希望大家持续关注，积极进行PR，多提Issue或者Discussion，也多多给我们点Star呀。社区的活跃贡献者有机会被邀成为MiniSora Member。其能协助审核PR、促使PR快速合并，还可在贡献者群获取更多最新资讯。MiniSora社区的SurveyPaper组前期工作已就绪，欢迎有充裕时间、论文写作经验丰富的贡献者自荐加入我们。此外，已成立与Sora相关技术模型复现小组，感兴趣者可查看社区Github页面联系加入。

举报有用（0）分享收藏

视频生成中diffusion与gan有何不同？

1个回答

123奶瓶

热门话题

相关问题