
IDEO
label2vIDEO,还有一种类似I2V。视频理解中率先提出(2+1)D GAN,可减少参数量并提升效果。也使用了Factorized Conv(因式分解卷积)+ Factorized Self - attention(因式分解自注意力),由于算力不够,未做更多探索。后面采用了2dGAN与RNN(即InMoDeGAN)。目前而言,第一种方法更具前景,即把UNet拓展至时空维度,不过当时既无算力,也缺乏优质数据。结果相对有限,下面呈现两个数据集与生成结果。
latent space能进行更多操作,还可节省算力。

OpenAI
添加时间维度的attention后,变得平滑且具有一致性。添加相对位置编码以更好地学习时间层面的信息。
在learning方面,预训练图像模型被使用,而在gan时代未曾运用这种预训练。stable diffusion本就是一个通用模型,能够使用预训练模型,再用视频数据加以训练,从而向视频分布迁移。Joint image - vIDEO fine - tuning作用显著,能防止灾难性遗忘,还可提升创造性、多样性并带来更好的视觉效果。图像中的知识能在训练时为视频生成增添更多知识,图像更易获取,其风格也比视频数据更丰富。
在数据方面。
公开数据不足,既缺乏高质量,又不够丰富。vIDEOchat也有了更多的标注内容。
以图片为条件,图片可以是单张的,也可以是多张的。
生成时保留前后图片,能生成中间图像与视频。
图像的方法都能给视频生成带来启示,大多可扩展。
将image扩展至时间维度以获取时空一致性,并用更大规模优质数据进行训练。
第一种时空较为常见。第二种前期用spatial,后期用Temporal,效果不太好。第三种在一个block里,实现串行时空建模。第四种是同时(并行)进行时空建模,二者差距颇为明显。第四种效果佳,前三种区别小,其中第一种更合理、稳定。text2vIDEO方面,需更多验证,其收敛速度与训练时间会有所不同。细节处理方面:怎样获取token?Sora设计出时空token,encoder进行时空压缩,同时也做了spatial(空间)的token。
在latent space进行token获取操作,有两种方法。all token或者S - AdaLN并非最优解,效果欠佳。每层都注入label信息,就像style - GAN注入style那样,注入强signal效果会更好,防止深度增加时出现信息丧失的情况。在all token的情景下,Image - vIDEO联合训练变得更加容易开展了。
在T2V上,是能够进行操作的。和Sora同一时代,虽算力和数据有差距,但模型技术是正确的。Scaling raw(增大原始数据量),提升算力。
视频生成有助于我们理解世界,这与世界模型(world model)有关吗?在理解中创造,理解与创造相互关联,这可以成为探究世界运行方式及机制的一种途径。学习优秀的模型会依据输入的数据生成特定分布。对我们而言,prompt有一定创造性,模型可能并不认为其不存在。开源模型与Sora的体量情况。OpenAI涉足生成模型由来已久,技术积累颇为丰富。其当前采用扩大规模(scale - up)的策略,从这一策略、训练、工程积累,到DaLLe3的实践,再到稳定性与数据处理等,都能让Sora受益良多。一分钟视频需数千张卡,AE训练也得大量算力。长视频工作在数据处理和技术积累方面也颇有建树。要复现Sora,接下来我们该做些什么?视频时间更长、物理模拟更好、创造力更高?在复现的时候,也该进一步思考这个问题。ChatGPT出现后,数据理解方式的分工将更精细。从算法打磨,到针对特定架构与场景制作工具包等,开始是全栈式,之后会走向分工合作。系统层面的创新与研究相互协同,才能提升视频生成工作的生成质量和结果。对于PhD而言,除了关注效果,在gan、diffusion、transformer之外,要生成更长、质量更高的视频,当前的diffusion是不是最优选择?我们可以把眼光放长远些,朝着这个方向去努力。用于电影辅助,可节省部分成本。实际上,我们现在对世界缺乏全面的认识。OpenAI对世界模型的认知或许是正确的,世界并非静态,视频生成能自然地模拟这种场景,也许当前基于数据驱动、学习的方法可以达成此事。重建与物理还原能做很多事,像可解释性分析,把物理规律编进模型里。例如在人脸生成任务上的路径与过程就可如此操作。先解决黑盒问题,再对其进行解释和理解。如何判断视频真假?camera拍摄的视频和照片是真的吗?它们也经一定算法生成处理。
Mini Sora开源社区是由社区同学自发组建的。Mini Sora打算探索Sora的实现途径以及后续发展方向。欢迎大家加入Mini Sora社区。希望大家持续关注,积极进行PR,多提Issue或者Discussion,也多多给我们点Star呀。社区的活跃贡献者有机会被邀成为MiniSora Member。其能协助审核PR、促使PR快速合并,还可在贡献者群获取更多最新资讯。MiniSora社区的SurveyPaper组前期工作已就绪,欢迎有充裕时间、论文写作经验丰富的贡献者自荐加入我们。此外,已成立与Sora相关技术模型复现小组,感兴趣者可查看社区Github页面联系加入。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号