Sora效果出众，Pika和Runway为何做不到？

1个回答

Yourpromise

2026-02-11 08:26

计算机

一般的计算机CG没几个月做不出来，那Pika、Runway为何做不出这种效果？这两天网上关于它的视频介绍很多了，大家都在夸sora好，可它到底好在哪，又是如何做到的？有三个场景令我印象极为深刻。一群金毛小狗在雪地里打滚，那种真实感十分惊人；咖啡杯里的海盗船战斗场景，特效令人惊叹；还有无人机穿梭于城市古迹的画面，3D效果和连贯性都维持得很棒。这些效果彰显出当前技术的极致水平，也表明传统CG方法难以轻易复制这些效果的缘由。

我觉得Pika和Runway本质上都是基于图形图像自身的操作来生成内容的。在画面里选定一两个目标或者对象，让它们要么保持静止而背景变动，要么背景静止而它们变动，这样就形成一种简单的计算机动画效果，它们肯定无法达到前面所说的三个画面那样的能力。当前，OpenAI还没有公开开放Sora的灰度测试。参照之前DALL·E图像模型的情况，我们能推测出会先向ChatGPT Plus的付费用户提供该服务。要是有想体验这项服务的用户，要是还没注册或者想知道怎么升级到GPT Plus，可以参考：快速开通ChatGPT Plus。在CG领域，要打造出极具真实感的画面，像毛茸茸的动物或者动态的水面等，就得有极为复杂的建模与粒子效果模拟。这既需要对每根毛发建模，也要对每个水滴进行物理建模，并且要呈现毛发随风而动的感觉和雪花的质感。工作量十分庞大，采用常规电影工业特效方法，或许要数月才能完成。要是用电影特效呈现咖啡杯里的波动，得用粒子特效模拟众多水分子，将每个水分子当作一个粒子，再依据水的物理方程模拟流体特性，逐帧渲染。据说阿凡达为制作水特效，耗时数年才完成大量海浪、水波纹等特效镜头。无人机飞跃城市时，其飞跃之处都得进行真实的3D建模、贴图与渲染。在镜头飞跃的每个观察点，3D画面都要多次渲染。一个城市的3D建模工作量极大，所谓数字孪生是项成本很高的技术。然而到了sora这儿，这些事就变得极为简单，只需给出一些文字提示要求，它就能描绘得非常逼真。我认为答案是没有。若sora也只是3D建模渲染，走传统电影工业的老路，那它就不会有颠覆性和革命性了。Sora大概还是模拟了人类观察、描绘和表现世界的方式。例如让有经验的画师画出三个场景，人类大脑里并不需要进行3D建模。人类对世界已有基本认知，明白透视原理，清楚镜头移动时物体视觉画面的改变，也知道怎么画绒毛和雪，还能预见狗转身时画面的变化。即便不懂粒子特效、3D建模和物理定律，仅靠对世界的观察，我们也能够画出有着惊涛骇浪之感的海浪。sora经过大量训练，掌握了人类观察、描绘和表现世界的能力。因此，它虽然生成的是2D画面，却能完全理解3D世界的物理规律。我认为，sora在学习时，不但运用了大量视频电影内容作为训练输入。当向sora模型输入画面进行训练时，不但要解析出画面包含哪些元素，还得解读出其中反映的物理定律。OpenAI在其论文里提到了一种recaptioning技术。很多人将这个词翻译错了，错译成字幕技术。实际上，recaptioning的含义是能够把每一帧画面转变成文字描述，这很符合人类认知世界的方式。就像一个见过大海的人对没见过大海的人用语言描述海浪的样子以供其学习和想象那样。这表明OpenAI的多模态技术已达到新高度，我觉得Google的Gemini短期内恐怕很难追得上。大胆猜测，OpenAI或许自己生成了许多3D内容，也有可能利用现有的游戏引擎进行大量实时3D模型渲染，再用这些3D模型给sora进行更多物理知识的训练。sora乍一看是刮胡刀，其实是吹风机；又或者看似吹风机，实则是刮胡刀；而表面上它还像是一个能记录文字生成视频的AIGC工具。AI对世界的理解，已从文字发展到图像，再到视频，包括对世界3D模型和物理定律的理解。可有些人还在挑剔，我看过一个sora出问题的视频，像杯子没碎水却流出来了，还有从土里挖出凳子时，凳子没有重力感的情况。我倒觉得存在这些问题是很正常的，就如同大模型会出现幻觉一般，在梦里不也有很多物理定律失效吗？我认为sora所谓的失效存在两种可能。一是模型本身先天就有的问题，它也会有幻觉情况，从而产生奇幻效果；二是物理知识训练不足。所以面对新事物，别总盯着其弱点，这些弱点是能够改进的。

举报有用（0）分享收藏

Sora效果出众，Pika和Runway为何做不到？

1个回答

Yourpromise

热门话题

相关问题