文章最后更新时间:2025年09月08日
机器人撞人、跌倒、头掉了…… 我们去人形机器人运动会看了一整天。各个项目的参赛选手,个个身怀绝技,不过重点还是看足球 —— 因为这次运动会,大多数项目都允许真人在背后遥控,而足球赛要求机器人必须是自主行动:自主理解环境、自主配合、自主摔跤。
2025 年了,AI 的 “大脑” 已经超越绝大多数人,但 “小脑” 似乎还没发育好。想让机器人像人一样运动,为什么这么难?
我替机器人说两句:做人,就是很难。
AI 领域有个著名悖论:意思是对于数学、下棋这种需要复杂认知的任务,AI 已经远超普通人,但它想学会走路、踢球这种对人再简单不过的动作,却难上加难。为什么?
其实还是时间的威力。人类祖先从开始具备复杂的认知能力,到现在 “练习时长” 大约是几十万年;而奔跑、跳跃这类动作,看似简单,背后依赖的直觉和协调性等等,却需要上亿年的生物进化才能达到。AI 离抹平这个差距,还差得很远。
而如果从运动的角度,我们会发现,今天赛场上的机器人,相比过去好像还 “退化” 了。像波士顿动力的机器人,早在 2017 年就可以优雅地后空翻,而今天场上这些机器人,却显得呆滞又迟缓。难道是机器人的 “进化术” 走偏了吗?
并不是。波士顿动力过去是控制理论的代表,这些机器人看起来动作流畅,但底层依赖的是人类工程师预先编写的规则和公式,以及高度可控的环境,本质上不是自主的行为。这条路线最终没法通向真正的智能,只能通往 “表演”。
过去 10 年,以语数为代表的行业,引入了强化学习来训练机器人。它的底层逻辑是:通过大量仿真数据构造虚拟环境,让智能体在其中不断试错、修正,最终自己找到一套好的动作策略,再把这种策略迁移到现实的环境之中。
然而,单靠这一种方法也有局限:机器人在一项任务上学到的能力,很难泛化到其他场景。比如机器人学会了后空翻,也学会了射门,但要想让它把两个动作结合起来,像 C 罗那样踢出倒挂金钩,它就想不到了,还得重新训练。
为了让机器人真正 “学会做个人”,目前业内认可的主流方案是 VLA(视觉 - 语言 - 动作模型),让机器人同时学习视觉图像、文字语音和动作行为之间的内在联系,看懂环境、听懂指令、做对动作。而这种路线,需要海量的数据来支撑 —— 顺利的话,它能像 ChatGPT 那样 “力大砖飞”、智能涌现、突然开悟,但目前,机器人大脑发育最大的障碍,恰恰又是数据不够用。
比如,这是特斯拉机器人工厂,而这些带着 VR 眼镜、穿着动作捕捉设备的人类,就是在采集真机数据,包括真人看到的场景、收到的指令和动作轨迹等等。看起来很科幻,但这种工作其实属于 “劳动密集型”。据我们了解,国内一家头部的人形机器人创业公司,一个采集员每小时大概只能生产两条有价值的训练数据,折算下来,一条真机数据的成本是 10 块钱。而一位机器人公司的技术负责人说,初步检测 VLA 的学习能力,至少要 1000 万条高质量的真机数据 —— 大家可以算算,为了补上这个差距,需要多少钱、多少时间。
除了真机采集,目前也有直接用视频数据,或者用仿真模拟数据训练 VLA 的方式,从而提升数据规模,代价就是要牺牲一部分质量。不过总体而言,当下走 VLA 路线的机器人,动作还是比较迟缓,像是开了 0.5 倍速,还被吐槽成 “美国前总统模拟器”。
说到底,想让机器人真正 “学会做人”,是一条漫漫长征路。不管是之前的控制理论、强化学习,还是现在流行的 VLA,可能都不是这条路的终点。真正的终点,也许只是一个瞬间,但在那个瞬间来临之前,我们也得像今天这些机器人一样,不断碰壁、跌倒,又一次次站起来,才能最终找到新的方向。
还没有评论,来说两句吧...