1小时让机器人“开挂”?华为新方法:人类搭把手,成功率飙到95%以上
2026-06-25
发生了什么?
机器人虽然能看图说话、模仿人类动作,但一到真实环境就容易“懵圈”——比如抓杯子时杯子歪一点就抓空,甚至乱撞。这是因为它们只会照着学过的动作做,遇到新情况不会随机应变。
华为云的研究团队提出了一种新方法:HIL-ResRL。简单说,就是给成熟的机器人大模型加一个“外挂小脑”。这个“小脑”很轻巧,只负责在关键时刻修正动作,而且人类可以用一个3D鼠标随时帮它“扶一把”。实验显示,这样训练不到1小时,机器人的成功率就从不到80%飙升到95%以上。
怎么做到的?
大模型打底,小脑纠偏
- 基础动作(大模型):机器人已经学会抓、放、拿等基本操作,就像小孩会走路。
- 残差修正(小脑):但到了新环境,它容易跑偏。团队让一个轻量级的神经网络(残差策略)专门学习“怎么微调”,就像大人看到小孩要摔倒时轻轻扶一下。
- 人类当“裁判”:操作员拿着3D鼠标待命,一旦机器人要撞墙或乱抖,就摁一下鼠标给出修正信号。这比让机器人自己摔几百次安全得多。
只学“错了怎么改”,效率极高
因为不用重新训练那个庞大的大模型,小脑只学“如何纠偏”,所以学习速度飞快。实验中,只用40到90分钟的真实训练,任务成功率就从50%~80%提升到90%以上。
真实表现如何?
团队用真实机械臂测试了三种任务:抓取放置、垂直摆放、插网线。结果:
- 成功率从不到80%飙到95%以上。
- 对比其他方法,HIL-ResRL在需要精细调整的任务(如插网线)上优势巨大。
- 安全性很高:纯自动学习1小时会触发15次紧急停机,而有人类监督时只触发2次。
跟普通人有什么关系?
未来工厂里,机器人可以更快学会组装不同产品;家里的扫地机器人也可能快速适应新房间布局。这项技术等于给机器人装了个“快速学习助手”,让它们不再死板地背动作,而是能灵活应变。
来源:华为云CloudRobo团队论文(arXiv:2606.22860)