近日,微软在其官网正式开源了一款名为 “Magma” 的多模态 AI Agent 基础模型。这款新型人工智能具有跨越数字和物理世界的能力,能够同时处理图像、视频、文本等多种数据类型。与传统的 AI 助手相比,Magma 的独特之处在于其心理预测功能,使其能够更加准确地理解视频中人物或物体的意图及未来行为。
Magma 的应用场景十分广泛,用户可以利用这款 AI 进行自动下单购物、查询天气等日常操作。此外,它还能够自动控制实体机器人,并在下象棋等活动中为用户提供实时帮助。这种多模态能力使 Magma 在不同环境中表现出色,能够适应各种复杂任务。
根据官方介绍,Magma 特别适合用于 AI 驱动的助手或机器人,帮助它们更好地理解周围的环境并采取相应的行动。举例来说,它可以指导家用机器人学习如何整理从未见过的物品,或者帮助虚拟助手为用户生成逐步的操作指南。这种特性大大提高了机器人的学习能力和实用性。
Magma 模型是 VLA(视觉语言动作)系列之一,通过学习海量的公开视觉和语言数据,能够融合语言、空间和时间的智能,从而有效应对现实生活中的复杂任务与挑战。随着人工智能技术的发展,Magma 的推出标志着智能助手和机器人技术又向前迈出了一大步。
项目链接:https://microsoft.github.io/Magma/
划重点:
🌐 * 跨模态能力 *:Magma 能够处理图像、视频和文本等多种数据类型,提升智能助手的功能。
🤖 * 智能应用 *:用户可通过 Magma 自动下单、查询天气,以及控制实体机器人。
📚 * 学习适应性 *:Magma 帮助机器人学习新任务,并为虚拟助手生成操作指南,增强了其实用性。