信息差

微软发布开源多模态AI Agent “Magma”：实现自动下单与行为预测功能

近日，微软在其官网正式开源了一款名为 “Magma” 的多模态 AI Agent 基础模型。这款新型人工智能具有跨越数字和物理世界的能力，能够同时处理图像、视频、文本等多种数据类型。与传统的 AI 助手相比，Magma 的独特之处在于其心理预测功能，使其能够更加准确地理解视频中人物或物体的意图及未来行为。

Magma 的应用场景十分广泛，用户可以利用这款 AI 进行自动下单购物、查询天气等日常操作。此外，它还能够自动控制实体机器人，并在下象棋等活动中为用户提供实时帮助。这种多模态能力使 Magma 在不同环境中表现出色，能够适应各种复杂任务。

根据官方介绍，Magma 特别适合用于 AI 驱动的助手或机器人，帮助它们更好地理解周围的环境并采取相应的行动。举例来说，它可以指导家用机器人学习如何整理从未见过的物品，或者帮助虚拟助手为用户生成逐步的操作指南。这种特性大大提高了机器人的学习能力和实用性。

Magma 模型是 VLA（视觉语言动作）系列之一，通过学习海量的公开视觉和语言数据，能够融合语言、空间和时间的智能，从而有效应对现实生活中的复杂任务与挑战。随着人工智能技术的发展，Magma 的推出标志着智能助手和机器人技术又向前迈出了一大步。

项目链接:https://microsoft.github.io/Magma/

划重点:

🌐 * 跨模态能力 *:Magma 能够处理图像、视频和文本等多种数据类型，提升智能助手的功能。

🤖 * 智能应用 *:用户可通过 Magma 自动下单、查询天气，以及控制实体机器人。

📚 * 学习适应性 *:Magma 帮助机器人学习新任务，并为虚拟助手生成操作指南，增强了其实用性。

如果觉得文章对你有用，请随意赞赏

快讯

微软发布开源多模态AI Agent “Magma”：实现自动下单与行为预测功能

https://soraor.com/archives/ai-today_20250226101818

作者

破晓

发布于

2025-02-26

更新于

2025-02-26

许可协议

CC BY 4.0