AI生成视频的可控性问题如何解决？

1个回答

钟侨治

2025-12-27 14:59

我不再重复。下面我将分享对整个AI生成视频行业的几点个人见解。近来我也在研究AI视频生成，实话实说，端到端的视频生成模型或许无法完全满足创作者需求，原因就三个字：不够灵活。控制性就文生视频技术而言，无论是Sora、腾讯混元还是可灵AI，以及开源界的各类模型，普遍存在指令执行不完全的问题。你在提示词中设定的内容，未必能被完全遵循。此外，AI生成的视频还常常出现违反物理规律的现象，如人物手指扭曲等。这些问题从根源上难以彻底解决，即便是大型语言模型（LLM）也无法避免幻觉问题，更不用说结构更为复杂的视频模型了。这些缺陷使得当前的文生视频技术仍有较大的改进空间。昨晚，某人在测试Sora时，使用的提示词是一只狗飞向一只猪，但结果显示在第二个场景中并没有出现猪，反而多了一个莫名其妙的光头白人，令人费解。

因此在AI生成视频中，可控性始终是个难题。如何提供可控性一直是行业研究的重点。既然源头难以解决，那就从下游开始处理。在闭源模型领域，提供了多种可控工具，例如：在开源领域，资源非常丰富。我最近正在使用ComfyUI制作视频。ComfyUI是一款开源工具，专门用于构建工作流，用户可以加载各种开源模型和第三方自定义节点。其优势在于，第三方插件种类繁多，无论是换脸、提示词反推、视频分辨率提升、ControlNet、LoRA等功能，都能在该平台上实现。这为创作者提供了极大的自由度，如果对效果不满意，还可以利用flux fill和flux inpAInt等工具进行局部修改，确保最终结果符合预期。这种灵活性使得创作过程更加高效和多样化。坦白讲，第三方视频生成模型在基础能力上确实不如Sora和可灵等。我认为较好的方法是利用闭源模型的能力，将其生成服务封装成API，在ComfyUI上运行以生成视频，再进行后续处理。这种方法能有效弥补现有模型的不足，提升视频生成的质量和效率。未来制作AI视频需要更多专业知识。我认为，做AI视频会像编程一样，需具备一定专业能力。虽然你可以用简单的文生视频模型生成不错的视频，但若要达到预期效果，则需深入了解如何设计视频生成流程。这不仅仅是技术问题，更是创意与技巧的结合。AI视频的Scaling Law何时达到极限尚不可知，但可以预见的是，未来各大公司推出的模型在基础能力上将越来越接近。如何在提升用户对视频的可控性的同时，确保功能简单易用，这将是各家公司产品设计能力的重要考验。这一趋势无疑将推动行业不断进步与创新。最后点题完成作。谈到Sora带来的变革，讨论似乎已滞后，毕竟其他公司早已起步。尽管Sora的能力不容小觑，生成效果总体尚佳，但是否能遥遥领先，仍需观望。其实际表现能否超越他人，目前还难以定论。我觉得Sora表现不错，OpenAI似乎也开始注重产品思维了。不知道未来版本会不会有更多增强可控性的工具。或许再等等，等有了更多更新再做评价也不迟。

举报有用（0）分享收藏

AI生成视频的可控性问题如何解决？

1个回答

钟侨治

热门话题

相关问题