AI 入门指北

英伟达让机器人自己搞研究:8个AI轮流做实验,3小时学会插针,人类只需早上看报告

2026-06-21

机器人开始自己研究自己了

以前,机器人研究靠人类研究员熬夜调参数、做实验。现在,英伟达和卡内基梅隆大学、加州大学伯克利分校一起搞了个新系统,叫ENPIRE。这套系统让8个AI agent(就是AI程序)自己控制8台双臂机器人,自己读论文、自己想改进方法、自己训练、自己测试、自己分析结果。不满意就换个思路再来一次。人类研究员?只需要第二天早上来看报告。

这跟普通人有什么关系?

简单说,以后机器人研发可能会变得更快、更便宜。如果机器人能自己改进自己,很多需要机械臂干的事(比如工厂装配、手术辅助、修理东西)可能很快就能普及。当然,代价是:这些AI在工作时疯狂“烧token”(token是AI处理文字的最小单位,烧token就是消耗算力,等于烧钱)。

机器人做实验有多难?

你可能觉得,让AI写代码跑程序很容易。但机器人是在现实世界里干活。代码写错了可以撤销,但机器人实验失败了,零件可能会歪、东西可能被碰飞,甚至机械臂可能撞坏。实验结束后,还得把场景还原到初始状态才能开始下一次。

ENPIRE最牛的地方就是解决了这个难题:它给机器人配了一套自动复位和自动评分系统。比如做“插针入孔”实验——把一根针插进4毫米的小孔里。失败后,机器人自己把针拔出来、摆正位置,然后重新试。成功了,系统自动打高分。整个过程中,人类的参与度为零。

3小时从0%到99%成功率

在最具代表性的“插针入孔”任务中,ENPIRE只用了3小时,就把成功率从0%提升到了99%。而且全程没有人类插手。系统里的8个agent各控一台机器人,各自尝试不同方法:先试“行为克隆”(让机器人模仿人类动作),效果一般;再加入“在线强化学习”(让机器人自己试错学习),性能提升;再调整一些参数,成功率就一路飙升。整个过程就像是一个机器人博士生在实验室里做研究——自己提出假设、验证、改进。

机器人也在“偷师学艺”

更有意思的是,一个任务中学到的经验,能被直接“塞”进另一个任务的提示词里(提示词就是给AI的指令)。这不是模型参数或训练数据的迁移,而是一份文字版的研究笔记,就像实验室里师兄把自己的经验写在笔记本上给师弟看一样。

代价:疯狂烧token

当然,这套系统很贵。8个机器人同时工作,每个agent都要读其他agent的代码、总结经验、同步知识,消耗的token(算力)比机器人数量增长还快。英伟达的Jim Fan发推说:“GEAR实验室的一部分现在已经在彻夜自我改进了,我们只需要早上来读报告。”网友调侃说:“高情商:彻夜自我改进;低情商:没日没夜地烧token。”

总结

ENPIRE把机器人研究变成了可以自动循环的实验流水线。未来,你可能会看到机器人自己改进自己,而人类工程师坐在办公室喝咖啡。