
AI
AI视频生成的另一方面,需要AI读懂视频内容,这样才能针对不同内容有效生成结果。所以,AI视频理解成了极为关键的领域,就像一个聪慧的大脑在解析视觉世界的奥秘。本文重点介绍两个较为重要的视频理解模型,即GPT4VIDEO与MiniGPT4 - VIDEO。腾讯AILAB基于大模型训练出GPT4VIDEO模型,它是第一个这样的模型,有两个主要优势。
让LLM/MLLM具备视频生成能力,不额外训练参数,能灵活与多种模型对接以生成视频。上传钢铁侠视频,再让其描述视频内容。

IDEO
第二个模型可自行部署且免费使用,并且在AI视频理解方面达到了最新的成果。github仓库里的minigpt4 - vIDEO有详细的部署步骤。
4. 运行代码: - 对于Llama2:运行Python minigpt4_vIDEO_demo.py --ckpt path_to_vIDEO_checkpoint --cfg - path test_configs/llama2_test_config.yaml。 - 对于Mistral:运行Python minigpt4_vIDEO_demo.py --ckpt path_to_vIDEO_checkpoint --cfg - path test_configs/mistral_test_config.yaml。官方已部署相应代码demo,有兴趣的朋友可以去尝试一下。从官方演示得知,可直接输入YouTube任一视频,再让其描述视频,它就能依据视频描述出画面内容了。
把之前sora生成的视频上传到此处来让它解析。
还能上传宝格丽的视频,让AI给配个标题或者宣传语,这么做看起来确实有点唬人的感觉。
甚至,视频中用到的一些技术也能被识别出来。
在广告创意介绍方面,MiniGPT4 - VIDEO比VIDEOChatGPT生成的广告语更精细,内容也生动得多。
模型部分方法的总结如下:训练模式:训练具体包含三个步骤。
MiniGPT4 - VIDEO在MSVD、MSRVTT、TGIF、TVQA等多个视频基准测试里表现出色,于这些测试中实现了显著的性能提升。
总体而言,该模型已初步展现出捕捉视频内容的潜力,不过,要达到ChatGPT那般惊艳的程度,还有相当长的路要走。本期内容到此为止啦,我是leo,咱们下期见。本文作者为@leolqli,未经许可,严禁转载搬运。LitGate:一个专注于AI创作的游戏社区。官网链接:AI/gate">https://www.litgate.AI/gate。关注公众号:LitGate。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号