信息差

强化学习逆天突破！Figure AI人形机器人几小时学会人类自然行走，训练效率碾压传统数年

Figure AI 推出了一种 端到端神经网络控制器，该控制器完全通过强化学习在模拟环境中训练，无需现实微调即可实现真实机器人的人类式行走。这是其“Embodied AI”路线图中的关键技术里程碑。

通过使用端到端的神经网络和强化学习（Reinforcement Learning, RL）技术，Figure 02 实现了更自然、更接近人类的步态。在短短几个小时内就完成了多年的数据模拟训练，这一进展被认为是人形机器人技术迈向实用化的重要里程碑。

Figure 02 机器人现已能够以更平滑的步态和更高的速度行走，这一能力完全由强化学习驱动的神经网络实现。
与之前的 Figure 01（行走速度约为人类平均步速的 17%，即约 0.67 英里/小时）相比，Figure 02 的速度提升至 2.68 英里/小时（约 1.2 米/秒），是前代的七倍，接近人类正常行走速度（约 3-4 英里/小时）。
该技术采用“模拟到现实”（Sim-to-Real）的训练方式：首先在模拟环境中通过强化学习训练神经网络，随后将训练结果零样本（zero-shot）转移到真实机器人上，无需额外调整。
训练过程中，机器人通过反复试验和反馈学习如何调整步伐、保持平衡并适应不同地形，模仿人类行走的动态特性。

技术方法

📌 训练策略：

Figure 并不满足于“能走”，更追求“像人一样走”。

我们人类走路的时候，其实是非常复杂的：

Figure 训练的机器人也具备这些特征，因为他们在强化学习中：

✅ 给机器人加入了“模仿人类走路”的奖励机制
✅ 教它参考人类真实步态轨迹
✅ 同时还优化了：能耗更低、抗摔能力更强、不同地面也能适应

为此在训练中注入了以下设计：

挑战：

Figure 的解决方案：

领域随机化（Domain Randomization）：
- 在训练中对模拟机器人的物理参数（如摩擦、重量、动力系统）进行随机扰动
- 让策略具备广泛泛化能力
kHz 级扭矩反馈控制（High-rate torque feedback）：
- 在实机运行中对神经网络输出加闭环控制
- 弥补模拟中的执行器建模误差

结果：

这意味着 Figure 的强化学习方案具有大规模复制部署的潜力，未来可支持 成千上万的人形机器人量产部署

强化学习驱动的人类风格机器人步态首次实现高质量 sim-to-real 零样本迁移
支持 端到端训练 + 高度可泛化策略 + 快速工程迭代，Figure AI 强调，其行走控制系统完全依赖端到端的神经网络，而非传统的基于规则的启发式方法。这种方法使机器人能够自适应地应对复杂任务，而无需人工编写具体规则。
神经网络同时运行于 Figure 的机器人集群中，确保所有机器人在同一套权重下协调工作。

如果觉得文章对你有用，请随意赞赏

快讯

强化学习逆天突破！Figure AI人形机器人几小时学会人类自然行走，训练效率碾压传统数年

破晓

2025-03-26

2025-03-26

CC BY 4.0