麻省理工学院(MIT)本周展示了一种全新的机器人训练模型,该模型放弃了以往专注于特定数据集的训练方法,转而采用类似大型语言模型(LLMs)训练时使用的海量信息。

研究人员指出,模仿学习——即代理通过模仿执行任务的个体来学习——在遇到小的挑战时可能会失败。这些挑战可能包括不同的光照条件、不同的环境设置或新的障碍物。在这些情况下,机器人没有足够的数据来适应这些变化。

image

图源备注:图片由AI生成,图片授权服务商Midjourney

团队借鉴了像GPT-4这样的模型,采用了一种粗暴的数据驱动问题解决方式。

“在语言领域,数据就是句子,”该论文的主要作者Lirui Wang说。“在机器人领域,鉴于数据的多样性,如果你想以类似的方式预训练,我们需要不同的架构。”

团队引入了一种新的架构,称为异构预训练变换器(HPT),它整合了来自不同传感器和不同环境的信息。然后使用变换器将数据整合到训练模型中。变换器越大,输出结果越好。

用户随后输入机器人的设计、配置以及他们想要完成的任务。

“我们的梦想是拥有一个通用的机器人大脑,你可以下载并用于你的机器人,而无需任何训练,”卡内基梅隆大学副教授David Held在谈到这项研究时说。“虽然我们才刚刚开始,但我们将继续努力,希望规模的扩大能像大型语言模型一样,为机器人策略带来突破。”

这项研究部分由丰田研究所资助。去年在TechCrunch Disrupt上,TRI展示了一种一夜之间训练机器人的方法。最近,它达成了一个分水岭的合作伙伴关系,将其机器人学习研究与波士顿动力的硬件结合起来。