关于Sora视频生成模型的疑问

1个回答

写回答

易烊烊烊千玺

2025-12-06 12:01

+ 关注

ChatGPT
ChatGPT

Sora接入ChatGPT之时，或许正是GPT5发布的日子。

说实话，我用过不少视频生成模型，像之前很火的Runway等。OpenAI的大模型一发布，确实令人惊艳。下图是Sora的封面视频演示，值得一看。

瞧，这东西是不是像极了梦境？

OpenAI
OpenAI

各家宣传产品时都会展示最佳效果，这很正常。但其他家的视频生成宣传图确实不如Sora出色。这东西有几大亮点，非常强大，如下例所示。

这是针对上方视频的提示词，内容较为复杂。如果你尝试过AI绘画就会明白，prompt中的元素其实相当丰富，AI未必能完全还原，但视频里展现的元素，如东京街道、霓虹灯以及人物穿着，都高度一致，非常匹配。更重要的是，连那种自信又随意的表现都无比契合。若这真是Sora的常态，简直令人感到可怕。这个视频长达59秒，你或许觉得这不过是个不到一分钟的短片。我告诉你，目前主流视频生成模型通常只能生成10秒以内的短片。不是不能做更长的，而是时间一长就难以控制，可能会出现各种奇怪的画面，根本无法预料结果会有多离谱。视频时长与大语言模型的输入输出长度相当，这实际上也是业界的黄金标准。一个大模型可处理十万字，另一个仅能应对一万字，两者能力高下立见。你看我标出的这个人物脸部，雀斑、色素等细节很多，但其实这并不重要。

下面这个更可怕，这是个远景视频片段，仔细观察她的脸。

你是否注意到她脸上的细节仍在，尤其是左脸颊中央的那颗雀斑？

还是那句话，其他视频生成模型我也试过，但论细节保存之优秀，目前Sora稳居第一。目前暂无更多可解释的内容，因其技术报告尚未发布。确实，它也是基于扩散模型实现的。简单来说，就是将一张图片添加类似雪花的噪声，再逐步还原。这一过程本质上源于物理领域的扩散模型理论。

它原本用于生成单张图像，但视频由多帧图片组成，例如每秒24帧，每一帧都是一张图片。

Sora生成10秒视频，其实就是生成240张图片，按每秒24帧组合，就形成一段视频。原理很简单，其他家也用类似算法，但它效果更佳，可能得益于优质训练数据和OpenAI独特的训练方式。请概括一下内容关键在于技术特性与功能：数据处理方法：创新技术：适用于多种场景该模型可生成包含多角色、特定类型动作及主题背景的复杂场景，细节精准。它不仅理解用户提示的内容，还掌握这些事物在现实世界的呈现方式，从而创造出更真实的效果。

生成的视频精准还原了Prompt，连玻璃的反射与折射效果都细致呈现，十分逼真。2能创建多角色、特定类型动作及主题背景的复杂场景，细节精准。模型不仅理解用户提示内容，还知晓这些事物在现实中的存在形式，生成效果逼真自然。比如这个庆祝春节的视频，不仅有舞龙表演，还展现了人山人海的场景，精准还原了描述内容。

复杂场景的物理特性难以精确模拟，可能无法理解因果关系的实际例子。比如，有人咬了饼干一口，但饼干却可能毫无咬痕。该模型可能会混淆空间细节，如左右方向，并且难以准确描述随时间变化的事件，比如特定相机轨迹的跟随。下面这些狗狗会毫无征兆地突然出现。

举报有用（0）分享收藏

关于Sora视频生成模型的疑问

1个回答

易烊烊烊千玺

热门话题

相关问题