深度学习的快速发展离不开规模化的数据集、模型和计算量。在自然语言处理和计算机视觉领域,研究人员已经发现了模型性能与数据规模之间存在幂律关系。然而,机器人领域,特别是机器人操控领域,尚未建立起类似的规模化规律。

清华大学的研究团队最近发表了一篇论文,探讨了机器人模仿学习中的数据规模化规律,并提出了一种高效的数据收集策略,仅用一个下午的时间就收集了足够的数据,使得策略能够在新环境和新物体上实现约90% 的成功率。

image

研究人员将泛化能力分为环境泛化和物体泛化两个维度,并使用手持式夹爪在各种环境和不同物体上收集人类演示数据,并使用扩散策略对这些数据进行建模。研究人员首先关注了倒水和鼠标放置两个任务,通过分析策略在新环境或新物体上的性能如何随训练环境或物体数量的增加而变化,总结出数据规模化规律。

研究结果表明:

策略对新物体、新环境或两者的泛化能力,分别与训练物体、训练环境或训练环境-物体对的数量呈幂律关系。

增加环境和物体的多样性比增加每个环境或物体的演示数量更有效。

在尽可能多的环境中收集数据(例如32个环境),每个环境中有一个独特的操作对象和50个演示,就可以训练出一个泛化能力强的策略(成功率90%),使其能够在新环境和新物体上运行。

基于这些数据规模化规律,研究人员提出了一种高效的数据收集策略。他们建议在尽可能多的不同环境中收集数据,每个环境中只使用一个独特的物体。 当环境-物体对的总数达到32个时,通常足以训练出一个能够在新环境中操作并与以前未见过的物体交互的策略。对于每个环境-物体对,建议收集50个演示。

为了验证数据收集策略的普遍适用性,研究人员将其应用于两个新任务:折叠毛巾和拔掉充电器。结果表明,该策略同样能够在这两个新任务上训练出泛化能力强的策略。

该研究表明,只需投入相对适度的時間和资源,就可以学习到能够零樣本部署到任何环境和物体的单任务策略。 为了进一步支持研究人员在这方面的努力,清华团队发布了他们的代码、数据和模型,希望能够启发该领域的进一步研究,最终实现能够解决复杂、开放世界问题的通用机器人。

论文地址:https://arxiv.org/pdf/2410.18647