信息差

杭州六小龙发布SpatialLM：新模型让机器人秒懂3D空间！

最近，杭州的科技公司群核科技再次引起了行业关注，因其开源的空间理解模型 SpatialLM 被谷歌在一篇论文中点名感谢。这个模型的创新之处在于，它能让机器人通过一段普通的视频理解物理世界的几何关系，标志着机器人训练领域的一次重大突破。

SpatialLM 的核心功能是将手机拍摄的视频转化为三维空间布局信息。用户只需用手机录制家中的布局，SpatialLM 便能生成一个详细的3D 场景，包括房间的结构、家具的位置和通道的宽度。这一过程大大降低了机器人训练的成本，提高了训练的效率。

在 GTC2025大会上，群核科技同时展示了他们的虚拟训练平台 SpatialVerse。这个平台结合了 SpatialLM 生成的数据，允许机器人在模拟环境中进行避障、抓取等训练，从而形成从认知到行动的完整闭环。简而言之，机器人通过这个系统不仅能 “看” 到空间布局，还能理解如何在这些环境中进行操作。

SpatialLM 的工作原理并不复杂。它利用 MASt3R-SLAM 技术将视频拆解为无数帧，提取出沙发、桌子等物体的细节并构建成点云模型。随后，模型将这些数据转化为结构化的3D 布局，记录下每个物体的关键信息，如尺寸和位置。与传统的训练方法相比，SpatialLM 不仅节省了时间和资源，还提升了机器人的空间认知能力。

这项技术的独特之处在于，它使机器人可以像人类一样理解和处理复杂的环境变化。无论是家庭生活中的日常物品还是工作场所的工具，SpatialLM 都能帮助机器人快速适应并执行任务。这种能力对于提升机器人在真实环境中的表现至关重要，尤其是在当前的具身智能领域，许多技术依然面临落地难题。

群核科技通过开源 SpatialLM 和 SpatialVerse，正在重塑机器人训练的未来，使其能够在真实世界中灵活应对各种挑战。

项目地址：https://github.com/manycore-research/SpatialLM

如果觉得文章对你有用，请随意赞赏

快讯

杭州六小龙发布SpatialLM：新模型让机器人秒懂3D空间！

https://soraor.com/archives/ai-today_20250320145158

作者

破晓

发布于

2025-03-20

更新于

2025-03-20

许可协议

CC BY 4.0