近日,艾伦人工智能研究所(Ai2)发布了 Molmo,这是一个全新的开源多模 AI 模型家族,表现出色,甚至在多个第三方基准测试中超越了 OpenAI 的 GPT-4o、Anthropic 的 Claude3.5Sonnet 和谷歌的 Gemini1.5。
Molmo 不仅能接受用户上传的图像进行分析,还使用了 “比竞争对手少1000倍的数据” 进行训练,这得益于其独特的训练技巧。
这次发布展示了 Ai2对开放研究的承诺,提供了高性能的模型以及开放的权重和数据,供更广泛的社区和企业使用。Molmo 家族包括四个主要模型,分别是 Molmo-72B、Molmo-7B-D、Molmo-7B-O 和 MolmoE-1B,其中 Molmo-72B 是旗舰模型,包含72亿个参数,表现尤为突出。
根据各项评估,Molmo-72B 在11重要基准测试获得了最高分,并在用户偏好方面仅次于 -4o。Ai2还推出了一款为 OLMoE 的模型,采用了 “小型模型组合” 的方式,旨在提高成本益。
Molmo 的架构经过精心设计,以实现高效和卓越的性能。所有模型使用 OpenAI 的 ViT-L/14336px CLIP 模型作为视觉编码器,将多尺度的图处理成视觉令。语言模型部分是解码器 Transformer,具有不同的容量和开放性。
在训练方面,Mol 经过了两阶段的训练:首先是多模预训练,其次是有监督的微调。与许多现代模型不同,Molmo 并未依赖于人类反馈的强化学习,而是通过细致调优的训练流程来更新模型参数。
Molmo 在多个基准测试中表现优异,特别是在文档阅读和视觉推理等复杂任务中,展现了其强大的能力。Ai2已经在 Hugging Face 上发布了这些模型和数据集,未来几个月还将推出更多模型和扩展技术报告,旨在为研究者提供更多资源。
如果你想了解 Molmo 的功能,现在可以通过 Molmo 的官方网站进行公开演示(https://molmo.allenai.org/)。
划重点:
🌟 Ai2Molmo 开源模态 AI 模型超越行业顶产品。
📊 Mol-72B 在多个基准测试中表现卓越,仅次于 GPT4o。
🔍 开放性强,模型和数据集供研究者与自由使用。