人形机器人赛道会是泡沫吗？为何任务单一？

1个回答

你爸爸喔

2026-01-04 17:31

特斯拉

国内车企要与特斯拉在所有概念上保持一致，特斯拉的optimus机器人也不例外。人形机器人实质是对下一代技术的补充和布局，以彰显企业的技术储备能力。

老黄在演讲里提及AI的发展阶段，先是热火朝天的生成式AI（Generative AI），接着是已崭露头角的自主智能体AI（Agentic AI），下一步即将到来的阶段是实体AI（Physical AI），通用机器人（General Robotics）便是实体AI的一种形式。但这个发展阶段太超前了，人形机器人赛道大概率最终只是一场泡沫。

当下，具身智能（Embodied AI）人形机器人备受关注。但实际上，关键在前面的具身二字，而非后面的智能二字。所以从硬件层面看，实现physical AGI是非常困难的。大家经常看到的各类人形机器人，为何大多只能执行特定任务？（就像我在另一个回答里所说：春晚跳舞很灵活的机器人，为何端茶倒水这种简单动作都做不好？）原因很简单，机器人（robotics）是通过学习（learning）的方式进行训练的，当它在特定场景（environment）下完成特定任务（task）时，多数情况下往往会过度拟合（overfit）于某个或某类任务。这就涉及到机器人学习（Robotics learning）一个非常核心的概念——泛化性（Generalization）。泛化能力意味着机器人（robotics）可把从训练数据里学到的知识运用到新场景或者未曾见过的任务中。在机器人学习（robotics learning）范畴，特别是模仿学习（Imitation Learning）与强化学习（Reinforcement Learning）方面，泛化能力通常是最为关键的瓶颈所在。大多数机器人只能在特定场景完成特定任务，泛化能力不强。比如让跳舞的机器人去端茶倒水，由于没学过，肯定会失败，这与任务难易无关；而专门学端茶倒水的机器人，基本上也难以在春晚跳舞。这是由于机器人一般在有限的数据集上进行训练，这些数据集可能无法包含所有现实场景。所以遇到新任务时，机器人就不能迁移之前所学的模式。在大模型时代，最知名的视觉 - 语言 - 动作模型（VLA）当属谷歌的RT - 1/2系列机器人（RT - 1和RT - 2的技术架构所示）。该系列模型利用大量机器人的真实操作数据，基于transformer架构进行训练。虽然其泛化能力有了很大提升，但测评得出的泛化性数值实际上并不高，只能存在于学术论文当中。

泛化性差很容易理解。比如，机器人仅学过在干净厨房抓取苹果，就可能无法在杂乱桌面做同样的事。这是由于它依靠特定环境与条件，新场景的光线、物体位置或干扰等可能有所不同。robotics泛化能力差是由多种原因导致的。像数据分布存在局限性，它一般在有限的训练集学习，并且训练出的模型常发生overfitting（过拟合）情况。此外，还有像robotics硬件与结构存在差异等其他原因，从而致使控制能力无法迁移，诸如此类。这便是我常讲的，实现physical AGI难如登天。

举报有用（0）分享收藏

人形机器人赛道会是泡沫吗？为何任务单一？

1个回答

你爸爸喔

热门话题

相关问题