腾讯混元HunyuanVideo,目前最好的开源视频生成模型?

腾讯IDEO

1个回答

写回答

张meng

2025-12-28 14:22

+ 关注

公司
公司

结论先行:在模型规模与效果上,这无疑是当前最佳的开源视频生成模型。

各大公司视频生成模型竞争激烈,腾讯混元推出自家产品HunyuanVIDEO,实现视频生成,且模型与代码完全开源。

经过几个实际测试案例,效果表现相当不错:

腾讯
腾讯

下面简要谈谈HunyuanVIDEO的模型结构与训练要点。在架构设计上,HunyuanVIDEO与主流的Sora类视频生成模型类似,均使用3D VAE将视频压缩为latent表示,再通过训练DiT生成视频的latent特征,从而实现高效处理。

HunyuanVIDEO 的 3D VAE 在空间上压缩比为 8,时间序列上压缩比为 4。以 720×1280×129 帧的视频为例,压缩后的 latents 尺寸为 90×160×32×16,其中 16 表示特征维度大小。由于 3D VAE 需要支持单独压缩图像,因此实际帧数为 T/4+1,即保留更多空间信息的同时,兼顾单帧处理能力。

HunyuanVIDEO的3D VAE在重建能力方面表现突出,优于此前开源的OpenSora-1.2和CogVIDEOX-1.5的3D VAE。其图像重建能力与Flux的VAE水平相当,展现出较高的技术优势和性能表现。

HunyuanVIDEO的3D VAE模型是从零开始训练的,使用视频与图像按4:1比例混合的数据集。训练过程中结合了L1重建损失、KL散度损失、感知损失和对抗损失,以提升生成效果。

训练时采用逐步推进的方法,从低分辨率的短片段逐渐过渡到高分辨率的长视频。由于3D VAE在推理过程中对显存需求较大,可以使用分块(tile)策略优化:将视频在时空维度上分割为带有重叠区域的小块,分别进行编码与解码,最后通过线性混合重叠部分完成结果拼接。如果仅在推理阶段应用此方法而训练时不考虑,可能会导致性能问题。因此,在训练中引入了一个微调阶段,通过随机决定是否启用分块策略,确保训练与推理的一致性,从而提升模型的整体表现和稳定性。

在训练数据上,混元团队设计了分层的数据筛选流程,视频分辨率从256x256x56逐步提升至720x1280x129,最终生成约1M的高品质SFT数据以微调模型。同时,视频字幕采用MLLM合成结构化描述的方式构建。

训练时先从图像开始,用256x256分辨率预训练,再以混合分辨率深化训练。图像训练完成后,转入图像与视频数据的联合训练。视频训练采用逐步推进的方式:先低分辨率短片段,再低分辨率长片段,最后高分辨率长视频,循序渐进完成整个过程。此外,通过实验探索了视频DiT的扩展规律。 hunyuanVIDEO设定为13B参数量,是依据扩展规律及训练推理预算综合考量决定的。

除了文生视频模型,混元还涉足多项视频下游任务,生视频、语音驱动视频生成、视频配乐及表情姿态驱动的视频生成。从示例来看,依托基础视频生成能力,这些下游任务的效果优于此前同类模型。声音控制:

视频背景音乐

由表情带动:

姿态决定一切

目前,混元仅开源了基础的文生视频模型,其他生视频模型还需等待一段时间。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号