
OpenAI
这几天在迪拜度假,很多人问我对Sora的看法。深夜静下心来,还是想写点东西。感慨颇多,特别是看到我们组当年那个天才小师弟Aditya成长得如此迅速。他去
OpenAI后,从DALL·E系列一路做到如今带领团队推出Sora,真是让人叹为观止。我们这些老学长只能感叹后生可畏,甚至觉得自己是不是该退休了。关于这项技术,有几点值得深入探讨:1. 从国外环境看,
OpenAI发布的博客几乎没有任何具体的技术细节,除了提到Transformer这个词。确实,对于这个模型架构,我们目前所知甚少。为什么这种架构在规模扩展后能产生如此惊人的效果?其中究竟隐藏着怎样的秘密?参数大幅增加后又形成了怎样的动态机制?这些问题至今仍是未解之谜。或许,只有那些深度参与开发的工程师才能真正理解。2. 从国内视角来看,这次与北
美的差距似乎进一步拉大了。而且与GPT系列不同的是,如果想要追赶,现在连一个明确的方向或锚点都没有。
Meta可能是最有可能开源相关技术的
公司,但其V-JEPA的技术路线与Sora有很大差异。即使未来LlaMA系列有类似的开源计划,在这个领域内也很难直接借鉴或复刻。因此,国内企业需要更多原创性的探索和突破。3. 从产业应用角度分析,为什么要追求这样的技术?这又回到了一个永恒的话题:它到底怎么用?它会对哪些行业产生冲击?去年我们在
淘宝造物节提供技术支持时,就已经意识到当前文生图模型的可控性仍然较低。例如,生成一张沙发可能很漂亮,但如果要求它的尺寸必须是电视机的两倍,仅凭Prompt无法实现这一目标。同样,在建筑效果图方面,如果涉及复杂的结构设计(如上下楼层高度不一致、左右楼体不对称等问题),Prompt作为一种相对模糊的语言表达方式,难以满足精细化控制的需求。相比Agent类工具,Prompt直接对接生成端的数据处理能力显得更加局限。而在视频生成领域,难度更是有过之而无不及。对于产业玩家来说,除了炒作热点之外,还需要冷静思考如何将这项技术真正落地并创造价值。当然,在ToC市场上,肯定会有一些玩家感到焦虑,尤其是像
Adobe这样直接相关的大型企业。他们或许会面临更大的挑战,但也可能因此找到新的发展机遇。无论是技术本身还是其应用场景,都还有很长的路要走。