腾讯混元HunyuanVideo，目前最好的开源视频生成模型？

腾讯 IDEO

1个回答

写回答

张meng

2025-12-28 14:22

+ 关注

公司

结论先行：在模型规模与效果上，这无疑是当前最佳的开源视频生成模型。

各大公司视频生成模型竞争激烈，腾讯混元推出自家产品HunyuanVIDEO，实现视频生成，且模型与代码完全开源。

经过几个实际测试案例，效果表现相当不错：

腾讯

下面简要谈谈HunyuanVIDEO的模型结构与训练要点。在架构设计上，HunyuanVIDEO与主流的Sora类视频生成模型类似，均使用3D VAE将视频压缩为latent表示，再通过训练DiT生成视频的latent特征，从而实现高效处理。

HunyuanVIDEO 的 3D VAE 在空间上压缩比为 8，时间序列上压缩比为 4。以 720×1280×129 帧的视频为例，压缩后的 latents 尺寸为 90×160×32×16，其中 16 表示特征维度大小。由于 3D VAE 需要支持单独压缩图像，因此实际帧数为 T/4+1，即保留更多空间信息的同时，兼顾单帧处理能力。

HunyuanVIDEO的3D VAE在重建能力方面表现突出，优于此前开源的OpenSora-1.2和CogVIDEOX-1.5的3D VAE。其图像重建能力与Flux的VAE水平相当，展现出较高的技术优势和性能表现。

HunyuanVIDEO的3D VAE模型是从零开始训练的，使用视频与图像按4:1比例混合的数据集。训练过程中结合了L1重建损失、KL散度损失、感知损失和对抗损失，以提升生成效果。

训练时采用逐步推进的方法，从低分辨率的短片段逐渐过渡到高分辨率的长视频。由于3D VAE在推理过程中对显存需求较大，可以使用分块（tile）策略优化：将视频在时空维度上分割为带有重叠区域的小块，分别进行编码与解码，最后通过线性混合重叠部分完成结果拼接。如果仅在推理阶段应用此方法而训练时不考虑，可能会导致性能问题。因此，在训练中引入了一个微调阶段，通过随机决定是否启用分块策略，确保训练与推理的一致性，从而提升模型的整体表现和稳定性。

在训练数据上，混元团队设计了分层的数据筛选流程，视频分辨率从256x256x56逐步提升至720x1280x129，最终生成约1M的高品质SFT数据以微调模型。同时，视频字幕采用MLLM合成结构化描述的方式构建。

训练时先从图像开始，用256x256分辨率预训练，再以混合分辨率深化训练。图像训练完成后，转入图像与视频数据的联合训练。视频训练采用逐步推进的方式：先低分辨率短片段，再低分辨率长片段，最后高分辨率长视频，循序渐进完成整个过程。此外，通过实验探索了视频DiT的扩展规律。 hunyuanVIDEO设定为13B参数量，是依据扩展规律及训练推理预算综合考量决定的。

除了文生视频模型，混元还涉足多项视频下游任务，生视频、语音驱动视频生成、视频配乐及表情姿态驱动的视频生成。从示例来看，依托基础视频生成能力，这些下游任务的效果优于此前同类模型。声音控制：

视频背景音乐：

由表情带动：

姿态决定一切

目前，混元仅开源了基础的文生视频模型，其他生视频模型还需等待一段时间。

举报有用（0）分享收藏

腾讯混元HunyuanVideo，目前最好的开源视频生成模型？

1个回答

张meng

热门话题

相关问题