英伟达让机器人自己搞研究：8个AI轮流做实验，3小时学会插针，人类只需早上看报告

机器人开始自己研究自己了

以前，机器人研究靠人类研究员熬夜调参数、做实验。现在，英伟达和卡内基梅隆大学、加州大学伯克利分校一起搞了个新系统，叫ENPIRE。这套系统让8个AI agent（就是AI程序）自己控制8台双臂机器人，自己读论文、自己想改进方法、自己训练、自己测试、自己分析结果。不满意就换个思路再来一次。人类研究员？只需要第二天早上来看报告。

这跟普通人有什么关系？

简单说，以后机器人研发可能会变得更快、更便宜。如果机器人能自己改进自己，很多需要机械臂干的事（比如工厂装配、手术辅助、修理东西）可能很快就能普及。当然，代价是：这些AI在工作时疯狂“烧token”（token是AI处理文字的最小单位，烧token就是消耗算力，等于烧钱）。

机器人做实验有多难？

你可能觉得，让AI写代码跑程序很容易。但机器人是在现实世界里干活。代码写错了可以撤销，但机器人实验失败了，零件可能会歪、东西可能被碰飞，甚至机械臂可能撞坏。实验结束后，还得把场景还原到初始状态才能开始下一次。

ENPIRE最牛的地方就是解决了这个难题：它给机器人配了一套自动复位和自动评分系统。比如做“插针入孔”实验——把一根针插进4毫米的小孔里。失败后，机器人自己把针拔出来、摆正位置，然后重新试。成功了，系统自动打高分。整个过程中，人类的参与度为零。

3小时从0%到99%成功率

在最具代表性的“插针入孔”任务中，ENPIRE只用了3小时，就把成功率从0%提升到了99%。而且全程没有人类插手。系统里的8个agent各控一台机器人，各自尝试不同方法：先试“行为克隆”（让机器人模仿人类动作），效果一般；再加入“在线强化学习”（让机器人自己试错学习），性能提升；再调整一些参数，成功率就一路飙升。整个过程就像是一个机器人博士生在实验室里做研究——自己提出假设、验证、改进。

机器人也在“偷师学艺”

更有意思的是，一个任务中学到的经验，能被直接“塞”进另一个任务的提示词里（提示词就是给AI的指令）。这不是模型参数或训练数据的迁移，而是一份文字版的研究笔记，就像实验室里师兄把自己的经验写在笔记本上给师弟看一样。

代价：疯狂烧token

当然，这套系统很贵。8个机器人同时工作，每个agent都要读其他agent的代码、总结经验、同步知识，消耗的token（算力）比机器人数量增长还快。英伟达的Jim Fan发推说：“GEAR实验室的一部分现在已经在彻夜自我改进了，我们只需要早上来读报告。”网友调侃说：“高情商：彻夜自我改进；低情商：没日没夜地烧token。”

总结

ENPIRE把机器人研究变成了可以自动循环的实验流水线。未来，你可能会看到机器人自己改进自己，而人类工程师坐在办公室喝咖啡。