Mistral AI 宣布推出其 最先进文档识别模型和 API:Mistral OCR,专注于高精度的文档理解和信息提取,特别适用于 复杂 PDF、图像、表格、数学公式、多语言文档 等多种格式。
🚀 主要特点
- 领先的文档解析能力:能够精准提取文本、图片、数学公式、表格等复杂元素,适用于科学论文、技术手册等高密度信息文档。
- 多语言支持:可识别 全球多种语言、字体、手写体,在 OCR 多语言基准测试中 超越 Google Document AI 和 Azure OCR。
- 极高处理速度:同类中最快,在单个节点上 每分钟可处理高达 2000 页,远超同类 OCR 解决方案。
- 文档即提示(Doc-as-prompt):支持结构化输出(如 JSON),可用于自动化信息提取、知识管理等应用。
- 可自托管(Self-hosting):支持在企业私有服务器上运行,满足严格的数据安全和隐私合规要求。
📊 性能对比(基准测试)
Mistral OCR 在多个关键维度超越市面主流 OCR 方案:
按语言的基准测试:
一些案例:
官方介绍:https://mistral.ai/news/mistral-ocr
API:http://console.mistral.ai/
第三方评测
Pulse AI 对 Mistral OCR 进行了深入的 实际文档解析测试,涵盖金融报表、法律文件等复杂格式。
虽然 Mistral OCR 整体表现优于 Gemini 2.0 Flash,但在多个关键文档类别中仍然存在 结构化数据解析问题,特别是在 表格解析、层次结构保持、精度一致性 方面有所不足。
1️⃣ 金融文件(财务报表)
❌ 主要问题
- 表格列错位(17% 的复杂表格中出现)。
- 数值精度下降(±1.5% 的偏差)。
- 负数格式丢失(括号标注未正确解析)。
📌 示例:Mistral OCR 处理 Morgan Stanley 财报时,表格列数错误、货币符号错位,影响数据准确性。
原文件
Mistral OCR 输出结果
🆚 对比 Pulse API: ✅ Pulse 识别出所有表格结构,精度接近 100%,适合企业数据处理。
2️⃣ 法律文件(合同、合规表单)
❌ 主要问题
- 未检测到复选框,影响合规表单解析。
- 章节层次丢失,导致合同结构不清晰。
- 多行表格内容合并或截断,丢失关键信息。
📌 示例:在 SEC 监管文件(20-F 表单)中,Mistral OCR 误将复选框解析为表格,未能正确记录标记信息。
源文件
Mistral OCR 输出结果
🆚 对比 Pulse API: ✅ Pulse 成功检测所有复选框,并正确解析表单层次结构。
3️⃣ Mistral OCR vs. 企业级 OCR 需求
尽管 Mistral OCR 在通用场景表现良好,但对企业级文档处理仍有局限:
- ❌ 无行业专属微调:无法针对金融、法律等行业自定义优化。
- ❌ 缺乏人工校验流程:企业需要 人工确认界面 以验证低置信度提取结果。
- ❌ 结构保留能力不足:Mistral 处理表格时 更像是解析图片 而非生成结构化数据。
- ❌ 结果不确定性:相同输入的输出可能有所变化,影响企业流程自动化。
🔎 结论
- Mistral OCR 在一般 OCR 任务上表现优异,但对于结构复杂的企业文档仍有缺陷。
- Pulse API 在金融、法律等特定领域表现更稳定,适用于高精度数据提取任务。
- 企业用户需权衡 Mistral OCR 的强大多语言能力与其结构化数据解析的局限性。
📌 更多详情:原文链接