信息差

苹果“多模态炼丹炉”再进化：MM1.5版强化文本密集与多图理解能力

苹果公司最近为其多模态人工智能模型MM1推出了重大更新，将其升级为MM1.5版本。这次升级不仅仅是简单的版本号变更，而是全方位的能力提升，使得模型在各个领域都展现出了更强大的性能。

MM1.5的核心升级在于其创新的数据处理方法。该模型采用了以数据为中心的训练方法，精心筛选和优化了训练数据集。具体而言，MM1.5使用了高清晰度的OCR数据和合成图像描述，以及优化的视觉指令微调数据混合。这些数据的引入使得模型在文字识别、图像理解和执行视觉指令等方面都有了显著提升。

在模型规模方面，MM1.5涵盖了从10亿到300亿参数不等的多个版本，包括密集型和专家混合（MoE）变体。值得注意的是，即使是较小规模的10亿和30亿参数模型，通过精心设计的数据和训练策略，也能达到令人印象深刻的性能水平。

MM1.5的能力提升主要体现在以下几个方面:文本密集型图像理解、视觉指代和定位、多图像推理、视频理解以及移动UI理解。这些能力使得MM1.5可以应用于更广泛的场景，如从音乐会照片中识别表演者和乐器、理解图表数据并回答相关问题、在复杂场景中定位特定物体等。

为了评估MM1.5的性能，研究人员将其与其他先进的多模态模型进行了对比。结果显示，MM1.5-1B在10亿参数规模的模型中表现出色，明显优于同级别的其他模型。MM1.5-3B的表现超越了MiniCPM-V2.0，并与InternVL2和Phi-3-Vision不相上下。此外，研究还发现，无论是密集型模型还是MoE模型，随着规模的扩大，性能都会显著提升。

MM1.5的成功不仅体现了苹果公司在人工智能领域的研发实力，也为多模态模型的未来发展指明了方向。通过优化数据处理方法和模型架构，即使是较小规模的模型也能实现强大的性能，这对于在资源受限的设备上部署高性能AI模型具有重要意义。

论文地址：https://arxiv.org/pdf/2409.20566

如果觉得文章对你有用，请随意赞赏

快讯

苹果“多模态炼丹炉”再进化：MM1.5版强化文本密集与多图理解能力

https://soraor.com/archives/ai-today_20241014110157

作者

破晓

发布于

2024-10-14

更新于

2024-10-14

许可协议

CC BY 4.0