信息差

OpenAI 推出多语言 AI 数据集，助力全球语言平等发展

近日，OpenAI 推出了一个重磅的多语言数据集，旨在评估人工智能在14种语言中的表现，包括阿拉伯语、德语、斯瓦希里语、孟加拉语和约鲁巴语。

这项名为 “多语言大规模多任务语言理解”（MMMLU）数据集，已在开放数据平台 Hugging Face 上发布，标志着 OpenAI 在全球 AI 领域的又一重要进展。

数据集入口:https://huggingface.co/datasets/openai/MMMLU

之前的 “大规模多任务语言理解”（MMLU）数据集仅针对英语进行评估，覆盖了数学、法律、计算机科学等57个学科。而新发布的 MMMLU 数据集则把目光放在了多种语言上，旨在填补 AI 研究中对低资源语言的关注空白。OpenAI 这次的举动，是为了满足企业和政府日益增长的需求，让 AI 系统能够更好地与全球用户进行互动。

为了确保数据集的高准确性，OpenAI 依赖专业的人类翻译来创建 MMMLU 数据集。这一点尤为重要，因为许多自动翻译工具在处理低资源语言时容易出现细微的错误，这在医疗、法律和金融等对精度要求极高的行业中可能带来严重后果。因此，OpenAI 通过人力翻译，确保数据集能够为多语言 AI 模型的评估提供可靠基础。

同时，OpenAI 还宣布推出 “OpenAI Academy”，该项目旨在支持开发者和有使命感的组织，尤其是在低收入和中等收入国家，利用 AI 技术解决当地问题。OpenAI 将提供培训、技术指导，以及100万美元的 API 使用积分，以帮助当地 AI 人才获取最新的资源。

对于企业而言，MMMLU 数据集为其在全球市场的 AI 系统评估提供了良好的机会。无论是客户服务、内容审核还是数据分析，能够在多种语言中表现出色的 AI 系统将有助于企业降低沟通障碍，提升用户体验。

随着更多公司和研究者开始利用这一多语言基准进行测试，未来 AI 系统的多语言能力将愈加重要。OpenAI 的这次数据集发布，不仅是对其在多语言 AI 领域的定位，也是对未来技术发展的积极推动。

划重点:

🌍 OpenAI 发布了 MMMLU 数据集，涵盖14种语言，推动多语言 AI 的研究和应用。

🧑‍🏫 数据集由专业人类翻译制作，确保高准确性，尤其适用于高要求的行业。

💡 OpenAI Academy推出，提供支持以促进低收入国家 AI 开发者的成长和发展。

如果觉得文章对你有用，请随意赞赏

快讯

OpenAI 推出多语言 AI 数据集，助力全球语言平等发展

https://soraor.com/archives/ai-today_20240924104844

作者

破晓

发布于

2024-09-24

更新于

2024-09-24

许可协议

CC BY 4.0