
公司
OpenAI Sora发布页面上那些令人惊艳的视频,大家或许都看过。不过技术报告很多人不会翻到最后一章,可我认为最后一章的仿真能力涌现才是Sora的精髓所在。
Sora技术报告最后的一组视频是失败案例,杯子破碎时水的流动违背物理规律。该报告将此视为Sora的主要局限,这也进一步表明Sora最关注模型对世界的模拟是否精准。

AI
在视频生成系统里,采样长视频时保持时间上的一致性始终是一大挑战。我们注意到,Sora往往(虽不总是)能有效模拟短期与长期的依赖关系。比如,我们的模型即便在人物、动物和物体被遮挡或者离开画面后,也可以持续呈现它们。并且,它能在单个样本里生成同一角色的多个镜头,让角色外观在整个视频中保持一致。
Sora有时能简单模拟影响世界状态的行为,就像画家可在画布留下随时间持续存在的新笔触一样。
很早之前我就提过,视频生成能够通过现实视频与游戏视频进行训练,重点是要理解物理引擎里的世界模型。就好比自动驾驶的诸多特殊情况(corner case)都是在类似游戏的仿真器中模拟的。很多人不认可这种从模拟到现实(Sim2Real)的方法,觉得游戏场景和现实世界不同,游戏视频属于垃圾数据,肯定没有仅用现实世界视频训练的效果好。我觉得视频生成的关键并非模型贴图精不精细,而是能否理解物理规律与各类物体的性质。NVIDIA研究科学家Jim Fan和我观点相同,他在Twitter上表示:要是你觉得OpenAI Sora仅仅是个类似DALLE的创意小玩意,那你可就需要重新审视它了。Sora是一个由数据驱动的物理引擎,能够模拟众多真实或者幻想中的世界。这个模拟器借助一些去噪技术与梯度数学,掌握了复杂的渲染、直观的物理学、长视角推理以及语义理解。要是说Sora是利用大量虚幻引擎5合成数据来训练的,我丝毫不觉奇怪。它必然得这么做啊。
接着,增添更多模态与条件,这样我们就得到了一个完备的、数据驱动的UE(虚幻引擎),它会取代所有手工打造的图形管线。后来,Jim Fan又接着补充说:
想了解更多关于Sora的技术分析?可以看看我们联合创始人@SIY.Z对如何看待OpenAI最新发布的sora?这一问题的回答。我发觉很少有人谈及Sora视频生成的成本。我初步估算,使用Sora生成1分钟视频大概需要几十美金的成本,这比Runway ML的Gen2(约1分钟10美金)还要昂贵。
这便是OpenAI要投入7万亿美金造芯片的原因。不少人认为Sam Altman疯了,可我觉得他洞悉了AI的真正瓶颈——算力。目前,GPU仍是AI训练和推理成本的大头。不少公司在训练类似GPT - 4这种级别的模型时,就遭遇GPU短缺的情况,更别提搞通用人工智能(AGI)了。了解芯片制造的人很容易算出,A100/H100这类芯片的售价约为台积电流片成本价的10倍。如此高的溢价,一是源于芯片与软件生态的巨额研发成本,二是源于垄断产生的溢价。FPGA在过去是非常昂贵的。微软欲在数据中心的每台服务器部署FPGA时,向Altera下了几十万甚至上百万片的订单,这使得该款FPGA的批量订购价被压低至零售价的十分之一。之后,Altera公司还被Intel高价收购了。于是就有这样一种说法:芯片产量足够大的话,其价格就如同沙子一般。7年前我也租过地下室,自己攒了几十台矿机用来挖矿。挖矿时,电费才是成本的大头,而非ASIC或者GPU的成本。去年5月接受采访时我就说过,算力是限制AI发展的关键。如今,所有数据中心的能耗大概占人类能源消耗的1% - 2%,而人类能源尚未有显著突破。所以,当前受能源和芯片技术制约的算力能否满足这么大的需求,是个极具挑战性的问题。当下,AI算力在数据中心的能源占用量只占一小部分。要是AI算力的能源占用达到人类能源消耗的10%,或许就需要比现在多100倍能源消耗的AI芯片,这一需求远远超出了台积电等所有芯片厂商的制造能力。有人会问,投入7万亿美金造芯片,练出的AI能否创造出7万美金价值?要是觉得AI只是催生了下一个移动互联网,那可就格局狭隘了。AGI的真正价值是创造新生命形式,以及创造更高效的能源转化为智能的方式。当下,人类大脑功率不足30W,其智能水平却超过10千瓦的8卡H100推理服务器。不过,我坚信,随着大模型与芯片技术发展,硅基生命在能源利用效率上必然会超越碳基生命。在能源有限的宇宙里,AGI或许能更高效地利用能源,更便捷地以信息形式将智能传播至全宇宙,甚至可能为解决能源问题找到根本之策。要创造硅基生命,AGI必须是一个世界模型,可与现实世界交互,并在自主学习过程中持续提升智能。看到Sora这个名字觉得特别熟悉。MSRA有个软件无线电项目就叫Sora,Sora在日语里是天空的含义。那时候这个项目有个机器翻译的中文版网页,居然把Sora翻译成了苍井空。
MSRA的12楼有个Sora Lab,里面全是软件无线电实验设备。做无线的师兄特别叮嘱我们,进Sora Lab时千万别乱动桌上的天线,因为一旦弄乱,重新调好这些天线至少得花几天,多则要一周。有时候Sora Lab空间不够用,还得临时借用12楼的大会议室做软件无线电实验,在MSRA待过的同学应该都对这个大会议室挺熟悉的。
Sora是当时极为先进且颇具影响力的软件无线电平台,在众多高校和研究机构广泛用于软件无线电研究。我的导师谭博还赠予我一本他所著的认知软件无线电系统——原理与实验,该书就是关于Sora的。愿Sora之名能带给我们广袤天空,将文明的种子撒向天空每颗璀璨之星。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号