
特斯拉
老黄在演讲里提及AI的发展阶段,先是热火朝天的生成式AI(Generative AI),接着是已崭露头角的自主智能体AI(Agentic AI),下一步即将到来的阶段是实体AI(Physical AI),通用机器人(General Robotics)便是实体AI的一种形式。但这个发展阶段太超前了,人形机器人赛道大概率最终只是一场泡沫。
当下,具身智能(Embodied AI)人形机器人备受关注。但实际上,关键在前面的具身二字,而非后面的智能二字。所以从硬件层面看,实现physical AGI是非常困难的。大家经常看到的各类人形机器人,为何大多只能执行特定任务?(就像我在另一个回答里所说:春晚跳舞很灵活的机器人,为何端茶倒水这种简单动作都做不好?)原因很简单,机器人(robotics)是通过学习(learning)的方式进行训练的,当它在特定场景(environment)下完成特定任务(task)时,多数情况下往往会过度拟合(overfit)于某个或某类任务。这就涉及到机器人学习(Robotics learning)一个非常核心的概念——泛化性(Generalization)。泛化能力意味着机器人(robotics)可把从训练数据里学到的知识运用到新场景或者未曾见过的任务中。在机器人学习(robotics learning)范畴,特别是模仿学习(Imitation Learning)与强化学习(Reinforcement Learning)方面,泛化能力通常是最为关键的瓶颈所在。大多数机器人只能在特定场景完成特定任务,泛化能力不强。比如让跳舞的机器人去端茶倒水,由于没学过,肯定会失败,这与任务难易无关;而专门学端茶倒水的机器人,基本上也难以在春晚跳舞。这是由于机器人一般在有限的数据集上进行训练,这些数据集可能无法包含所有现实场景。所以遇到新任务时,机器人就不能迁移之前所学的模式。在大模型时代,最知名的视觉 - 语言 - 动作模型(VLA)当属谷歌的RT - 1/2系列机器人(RT - 1和RT - 2的技术架构所示)。该系列模型利用大量机器人的真实操作数据,基于transformer架构进行训练。虽然其泛化能力有了很大提升,但测评得出的泛化性数值实际上并不高,只能存在于学术论文当中。

AI
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号