这种傻逼人形机器人是按什么思路设计的

寂静回声 · 发表于 2026-5-11 17:23:02

在科幻电影中，我们早已习惯了机器人穿梭于街头巷尾，完成飞檐走壁等一系列高难度动作。但在现实世界里，要让一个重达几十公斤的金属躯体像人类一样轻柔地拿起一颗鸡蛋或者熟练地叠好一件衬衫，依然是一个巨大的挑战。
“现在的机器人大脑很聪明，但手脚跟不上。你跟它说‘递给我一杯水’，其语言大模型能完美理解你的指令，甚至能聊半天怎么递水。但真正让机器人动手时，它往往只能干瞪眼。”在一台台正在训练的人形机器人前，石景山人形机器人数据训练中心总经理朱凯向记者道出了机器人“能对话、难实操”的行业痛点。
这就是具身智能面临的“最后一公里”难题——互联网上可供机器人学习的文本和视频数据浩如烟海，但它们缺乏对物理世界的真实感知。比如，机器人知道“水”的概念，却不知道玻璃杯的摩擦力是多少，不知道手臂伸出多少厘米能刚好够到杯子，更不知道用多大的力气才不会把杯子捏碎。

MLGB的，这个负责人的发言让人捧腹大笑，不是因为他说出了行业痛点，而是因为他把自己设计的系统的致命缺陷，包装成了智能本身的固有困难。

我们来做一个最简单的思想实验：
一个 3 岁的小孩，从来没有学过物理，不知道摩擦力是什么，不知道牛顿定律，甚至连 "厘米" 这个单位都没有概念
给他一个玻璃杯，他会毫不犹豫地拿起来，喝水，放下，不会捏碎，也不会掉在地上
如果你给他一个滑溜溜的塑料杯，他会自动握得更紧；如果你给他一个易碎的纸杯，他会自动放轻力气
整个过程中，他的脑子里没有任何计算，没有任何数值，只有一个简单的想法："我要拿起这个杯子"
现在，一个投入了几十亿美金、拥有万亿参数大模型的人形机器人，做不到这件事。然后负责人站出来说："这是因为我们还没有足够的数据，我们还不知道玻璃杯的摩擦力是多少，不知道手臂应该伸出多少厘米。"

这就相当于：
一个厨师做不出一道简单的番茄炒蛋，然后他说："这是因为我们还没有精确测量出番茄的酸度是 pH4.2 还是 pH4.3，还不知道鸡蛋的蛋白质变性温度是 62.7 摄氏度还是 63.1 摄氏度"
一个司机开不好车，然后他说："这是因为我们还不知道轮胎和地面的摩擦系数是 0.72 还是 0.75，还不知道方向盘转 1.2 度对应车轮转多少度"
这难道不可笑吗？人类在做这些事情的时候，从来就不需要知道这些数值。需要知道这些数值的，只有那些按照 "先测量、再建模、再计算、再执行" 的流水线设计出来的愚蠢机器。

现在整个行业都在犯一个最根本的错误：他们把 "工程师对问题的理解"，当成了 "人类解决问题的方式"。

工程师眼中的 "拿杯子" 问题：
用摄像头测量杯子的三维坐标 (x,y,z)，精度 ±1mm；
用视觉模型识别杯子的材质，查询数据库得到摩擦系数 μ；
用重量估计模型预测杯子的重量 m；
计算需要的握力：F=k*m/μ（k 是安全系数）；
计算机器人手臂的运动学逆解，得到每个关节的角度序列；
发送指令给电机，精确执行这个轨迹。

这个流水线的每一步都需要完美无缺才能成功，任何一步的微小误差都会被指数级放大。

而现实世界是一个充满噪声和不确定性的地方。你永远不可能精确测量出一个玻璃杯的摩擦力，因为它取决于杯子的干净程度、手上的汗渍、空气的湿度，甚至你抓的位置。

人类眼中的 "拿杯子" 问题：
大致看到杯子在那里；
伸出手，眼睛一直看着手和杯子，不断调整方向；
手指碰到杯子，开始慢慢用力；
当触觉反馈告诉你 "已经抓紧了"，停止用力；
抬起手，如果感觉杯子在滑，就再用点力；
如果感觉杯子太轻或者太重，自动调整手臂的力度。

看到区别了吗？人类根本就没有 "规划" 这一步，也没有 "精确测量" 这一步。人类的动作是一个连续的、闭环的、基于反馈的调整过程。
我们不需要在动作开始之前就知道所有答案，我们只需要一个大致的方向，然后在动作执行的过程中，不断地根据来自眼睛、皮肤、肌肉的反馈来修正自己的动作。
这是一个鲁棒性强到离谱的系统，即使杯子突然滑了一下，即使有人碰了你的胳膊一下，即使杯子比你想象的重一倍，你都能在几十毫秒内做出调整，而不会失败。

更讽刺的是：他们正在用错误的方法解决错误的问题。

现在行业解决 "拿杯子" 问题的方法是什么呢？不是改变这个愚蠢的流水线架构，而是：
收集 100 万次人类拿杯子的 VR 示教数据；
训练一个大模型，学习 "在这种视觉输入下，应该输出多少牛的握力"；
然后希望这个模型能够泛化到所有可能的杯子上。

这就像是你发现用尺子量温度很不准，然后你不是去发明一个温度计，而是去收集 100 万次 "不同温度下尺子的读数"。
训练一个大模型，学习 "当温度是 25 度时，尺子应该显示多少厘米"。
这不仅是效率极低，而且是原则上不可能成功的。因为世界上有无数种杯子，无数种材质，无数种表面状况，无数种可能的干扰。你永远不可能收集到所有的数据。

更可怕的是，这种方法会让机器人变得更加脆弱。因为它学到的只是 "统计关联"，而不是 "因果关系"。它不知道 "为什么要用这么大的力"，它只知道 "在这种像素下，训练数据里的人类用了这么大的力"。
所以当你给它一个它从来没见过的杯子时，它要么捏碎，要么掉在地上。然后工程师们就会说："看，我们还需要更多的数据。"

现在的人形机器人行业，已经形成了一个完美的闭环：
提出一个错误的系统架构，这个架构在现实世界中表现极差。
把失败归因于 "数据不够多"、"模型不够大"。
筹集更多的钱，收集更多的数据，训练更大的模型。
表现还是很差，但比之前好了一点点。
宣传 "我们取得了重大突破"，然后回到步骤 3。
那个负责人的发言，就是这个死循环的完美体现。他不会说 "我们的系统架构错了"，因为那样就意味着过去几十年的努力都白费了，意味着他们需要推倒重来。他只会说 "这是行业痛点"，这样就可以继续向投资人要钱，继续收集更多的 VR 示教数据，继续训练更大的模型，继续在这条死路上走下去。

讽刺的是，这个问题的答案，早在 30 多年前就已经被一个叫罗德尼・布鲁克斯的人找到了。他在 1986 年发表的论文《大象不会下象棋》中，就彻底批判了当时主流的 AI 方法，也就是现在所有人形机器人公司还在使用的方法。他说：
" 当我们在研究下棋、逻辑推理、数学证明这些人类最困难的能力时，我们取得了巨大的成功。但当我们试图让机器人做一个一岁小孩就能做的事情 —— 走路、拿东西、感知环境时，我们却一败涂地。
这是因为我们搞错了智能的顺序。人类最基本的能力，恰恰是最难用符号和计算来模拟的。这些能力不需要推理，不需要规划，只需要与世界的直接交互和反馈。世界就是它自己最好的模型。"
布鲁克斯提出的 "包容架构"，没有中央大脑，没有复杂的规划，只有一层层简单的反馈回路。他设计的机器人，不需要精确的地图，不需要复杂的计算，就能在杂乱的办公室里自由移动，避开障碍物，捡起东西。
而现在的行业，却把这个 30 年前就已经被证明有效的方法抛在脑后，一头扎进了 "大模型 + 大数据" 的死胡同里。因为大模型好讲故事，好融钱，而反馈控制听起来一点都不酷。

你我看到的所有关于人形机器人的新闻，本质上都是一场精心策划的表演。那些戴着 VR 眼镜训练机器人的画面，那些 "机器人还不知道摩擦力是多少" 的发言，都是为了给投资人看的。
它们的目的不是为了创造真正的智能，而是为了让你相信 "只要再给我们几年时间，再给我们几十亿美金，我们就能造出和人一样的机器人"。
但真正的智能，永远不会从万亿参数的模型和数十亿次的 VR 示教中诞生。它只会诞生在一个能够与物理世界进行连续、闭环、实时交互的系统中，一个不需要知道摩擦力是多少，却能稳稳拿起杯子的系统中。

		自动登录	找回密码
密码			立即注册

这种傻逼人形机器人 是按什么思路设计的

这种傻逼人形机器人是按什么思路设计的