近日,Hugging Face 与 Physical Intelligence 联合推出了 “Pi0”(Pi-Zero),这是首个将自然语言命令直接转化为物理动作的基础模型。这一创新性发布吸引了广泛关注,Hugging Face 的首席研究科学家 Remi Cadene 在社交媒体上宣布,“ Pi0是最先进的视觉语言动作模型,能够将自然语言命令转化为自主行为。”
“Pi0” 的推出标志着机器人领域的一次重大变革,类似于 ChatGPT 在文本生成领域的影响力。该模型最初由 Physical Intelligence 开发,并现已在 Hugging Face 的 LeRobot 平台上提供,能够执行如折叠衣物、收拾餐桌和包装杂货等复杂任务,这些都是传统机器人难以掌握的技能。
Physical Intelligence 的研究团队表示:“当前的机器人往往是专注于重复性动作的窄域专家,而‘Pi0’的推出则允许机器人通过用户指令学习和执行任务,编程的复杂性被简化为简单的语音指令。”
“Pi0” 技术的核心是一项重要的技术突破。该模型通过对七种不同机器人平台和68个独特任务的数据进行训练,使其能够处理从精细操作到复杂的多步骤程序等各种任务。同时,使用了一种新颖的流匹配技术,使其能够以每秒50次的速度产生平滑、实时的动作轨迹,从而在真实世界应用中实现高度精准和适应性。
在此基础上,开发团队还推出了 “Pi0-FAST” 版本,这一增强版模型结合了一种新的标记方案 —— 频率空间动作序列标记(FAST),使得训练速度提高了五倍,并在不同环境和机器人类型之间的泛化能力上也有所提升。
这一技术的推出将对工业产生深远的影响。制造企业可以通过简单的语音指令重新编程机器人,仓库则能够根据需求部署更灵活的自动化系统。小型企业也将因此更加容易接入机器人技术,降低了编程和部署的门槛。
不过,尽管 “Pi0” 已取得显著进展,但仍然面临一些挑战。该模型在处理非常复杂的任务时有时会遇到困难,并且需要相当大的计算资源。此外,在工业环境中的可靠性和安全性问题仍然需要关注。
“Pi0” 的发布正值人工智能行业快速发展的关键时期,它代表了语言模型与物理世界互动之间的首次成功尝试。随着技术的不断成熟,未来的机器人将变得更加对话式、适应性强且易于接入,推动机器人在家庭、医院和小型企业等领域的广泛应用。
pi0:https://huggingface.co/lerobot/pi0
划重点:
🌟 Pi0是首个将自然语言命令转化为物理动作的机器人模型,改变传统编程方式。
🤖 该模型经过多平台、多任务训练,能够执行复杂的日常操作,降低机器人使用门槛。
⚡ Pi0-FAST 版本提升了训练速度和泛化能力,有望加速工业自动化的推广。