AI生成视频的可控性问题如何解决?

AI

1个回答

写回答

钟侨治

2025-12-27 14:59

+ 关注

AI
AI

我不再重复。下面我将分享对整个AI生成视频行业的几点个人见解。近来我也在研究AI视频生成,实话实说,端到端的视频生成模型或许无法完全满足创作者需求,原因就三个字:不够灵活。控制性就文生视频技术而言,无论是Sora、腾讯混元还是可灵AI,以及开源界的各类模型,普遍存在指令执行不完全的问题。你在提示词中设定的内容,未必能被完全遵循。此外,AI生成的视频还常常出现违反物理规律的现象,如人物手指扭曲等。这些问题从根源上难以彻底解决,即便是大型语言模型(LLM)也无法避免幻觉问题,更不用说结构更为复杂的视频模型了。这些缺陷使得当前的文生视频技术仍有较大的改进空间。昨晚,某人在测试Sora时,使用的提示词是一只狗飞向一只猪,但结果显示在第二个场景中并没有出现猪,反而多了一个莫名其妙的光头白人,令人费解。

因此在AI生成视频中,可控性始终是个难题。如何提供可控性一直是行业研究的重点。既然源头难以解决,那就从下游开始处理。在闭源模型领域,提供了多种可控工具,例如:在开源领域,资源非常丰富。我最近正在使用ComfyUI制作视频。ComfyUI是一款开源工具,专门用于构建工作流,用户可以加载各种开源模型和第三方自定义节点。其优势在于,第三方插件种类繁多,无论是换脸、提示词反推、视频分辨率提升、ControlNet、LoRA等功能,都能在该平台上实现。这为创作者提供了极大的自由度,如果对效果不满意,还可以利用flux fill和flux inpAInt等工具进行局部修改,确保最终结果符合预期。这种灵活性使得创作过程更加高效和多样化。坦白讲,第三方视频生成模型在基础能力上确实不如Sora和可灵等。我认为较好的方法是利用闭源模型的能力,将其生成服务封装成API,在ComfyUI上运行以生成视频,再进行后续处理。这种方法能有效弥补现有模型的不足,提升视频生成的质量和效率。未来制作AI视频需要更多专业知识。我认为,做AI视频会像编程一样,需具备一定专业能力。虽然你可以用简单的文生视频模型生成不错的视频,但若要达到预期效果,则需深入了解如何设计视频生成流程。这不仅仅是技术问题,更是创意与技巧的结合。AI视频的Scaling Law何时达到极限尚不可知,但可以预见的是,未来各大公司推出的模型在基础能力上将越来越接近。如何在提升用户对视频的可控性的同时,确保功能简单易用,这将是各家公司产品设计能力的重要考验。这一趋势无疑将推动行业不断进步与创新。最后点题完成作。谈到Sora带来的变革,讨论似乎已滞后,毕竟其他公司早已起步。尽管Sora的能力不容小觑,生成效果总体尚佳,但是否能遥遥领先,仍需观望。其实际表现能否超越他人,目前还难以定论。我觉得Sora表现不错,OpenAI似乎也开始注重产品思维了。不知道未来版本会不会有更多增强可控性的工具。或许再等等,等有了更多更新再做评价也不迟。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号