关于Sora视频生成模型的疑问

1个回答

写回答

ChatGPT
ChatGPT

Sora接入ChatGPT之时,或许正是GPT5发布的日子。

说实话,我用过不少视频生成模型,像之前很火的Runway等。OpenAI的大模型一发布,确实令人惊艳。下图是Sora的封面视频演示,值得一看。

瞧,这东西是不是像极了梦境?

OpenAI
OpenAI

各家宣传产品时都会展示最佳效果,这很正常。但其他家的视频生成宣传图确实不如Sora出色。这东西有几大亮点,非常强大,如下例所示。

这是针对上方视频的提示词,内容较为复杂。如果你尝试过AI绘画就会明白,prompt中的元素其实相当丰富,AI未必能完全还原,但视频里展现的元素,如东京街道、霓虹灯以及人物穿着,都高度一致,非常匹配。更重要的是,连那种自信又随意的表现都无比契合。若这真是Sora的常态,简直令人感到可怕。这个视频长达59秒,你或许觉得这不过是个不到一分钟的短片。我告诉你,目前主流视频生成模型通常只能生成10秒以内的短片。不是不能做更长的,而是时间一长就难以控制,可能会出现各种奇怪的画面,根本无法预料结果会有多离谱。视频时长与大语言模型的输入输出长度相当,这实际上也是业界的黄金标准。一个大模型可处理十万字,另一个仅能应对一万字,两者能力高下立见。你看我标出的这个人物脸部,雀斑、色素等细节很多,但其实这并不重要。

下面这个更可怕,这是个远景视频片段,仔细观察她的脸。

你是否注意到她脸上的细节仍在,尤其是左脸颊中央的那颗雀斑

还是那句话,其他视频生成模型我也试过,但论细节保存之优秀,目前Sora稳居第一。目前暂无更多可解释的内容,因其技术报告尚未发布。确实,它也是基于扩散模型实现的。简单来说,就是将一张图片添加类似雪花的噪声,再逐步还原。这一过程本质上源于物理领域的扩散模型理论。

它原本用于生成单张图像,但视频由多帧图片组成,例如每秒24帧,每一帧都是一张图片。

Sora生成10秒视频,其实就是生成240张图片,按每秒24帧组合,就形成一段视频。原理很简单,其他家也用类似算法,但它效果更佳,可能得益于优质训练数据和OpenAI独特的训练方式。请概括一下内容关键在于技术特性与功能:数据处理方法:创新技术:适用于多种场景该模型可生成包含多角色、特定类型动作及主题背景的复杂场景,细节精准。它不仅理解用户提示的内容,还掌握这些事物在现实世界的呈现方式,从而创造出更真实的效果。

生成的视频精准还原了Prompt,连玻璃的反射与折射效果都细致呈现,十分逼真。2能创建多角色、特定类型动作及主题背景的复杂场景,细节精准。模型不仅理解用户提示内容,还知晓这些事物在现实中的存在形式,生成效果逼真自然。比如这个庆祝春节的视频,不仅有舞龙表演,还展现了人山人海的场景,精准还原了描述内容。

复杂场景的物理特性难以精确模拟,可能无法理解因果关系的实际例子。比如,有人咬了饼干一口,但饼干却可能毫无咬痕。该模型可能会混淆空间细节,如左右方向,并且难以准确描述随时间变化的事件,比如特定相机轨迹的跟随。下面这些狗狗会毫无征兆地突然出现。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号