国产文生视频大模型可灵开放测试,能力效果怎样?

1个回答

写回答

wwcbhx

2026-02-03 05:39

+ 关注

快手
快手

更新:已获快手内测资格,在此感谢快手

然后放些实测视频,整体效果超出预期。

目前仅开放文生视频,图生视频尚未推出,且只能生成5秒的横屏视频。但这效果已经很厉害,接近Sora的效果了。感觉在今年下半年,视频生成会出现一次小爆发。此外,有个缺陷,不太能支持非写实类视频生成,像动漫、油画风格视频的生成。

油画
油画

这很可能与训练数据集的分布有关。还未获取测试资格,不过从他人测试生成的视频来看,快手的可灵模型并非仅处于demo阶段,而是一个能够实实在在对标OpenAI的Sora的模型。就目前官方的介绍而言,可灵模型大体上是在复刻Sora的技术路线。它运用3D VAE把视频压缩成时空标记(tokens),采用扩散式(diffusion)变压器架构来生成内容,还基于扩展定律(scaling law)将模型做大以提高建模能力。就效果而言,可灵也能有与Sora相近的生成效果,像生成大幅运动的视频。

Sora能生成1分钟时长的视频,可灵可直接放出2分钟时长的视频,并且能保持较好的一致性,其实也能生成长时间的视频(内测默认生成5秒视频,长视频生成应该很慢)。

并且,大数据加大模型能够学习现实世界物理特性,生成遵循物理规律的视频。

可灵生成视频质量可达1080p分辨率,电影级质感,与Sora相比不逊色。

另外,可灵与Sora相同,训练时运用可变分辨率训练策略,推理时能输出各种宽高比视频且内容相同。

再展示一些他人实测的效果。

总的来讲,可灵依照Sora的技术路线走,大体能取得与Sora相近的成效。Sora虽未开放,但我个人觉得,可灵起码能达到Sora百分之八十的效果。唯一的不足之处在于,可灵目前似乎并不支持像Sora那样依据给定视频向前向后补充新视频,不过这相对容易实现。OpenAI有开创性成果,对我们来说,借鉴它并创新是可行的。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号