信息差

ElevenLabs推出Scribe语音转文本模型，英语准确率突破96.7%创纪录

ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司，近日推出了其最新的语音转文本模型 ——Scribe v1。该模型声称在多种语言中都达到了最高的准确性，用户可以通过其官网进行体验。

根据 ElevenLabs 的基准测试，Scribe 在将口语准确转换为文本方面，超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3，取得了前所未有的低错误率。该公司表示，Scribe 支持99种语言的高精度转录，其中包括在以前被忽视的语言，如塞尔维亚语、粤语和马拉雅拉姆语。

ElevenLabs 的首席研究员 Flavio Schneider 在社交平台 X 上表示，Scribe 是公司迄今发布的 “最聪明的音频理解模型”。他强调，Scribe 不仅仅是转录工具，还能理解音频内容，能够检测非语言事件（如笑声、音效、音乐和背景噪音），并在复杂环境下分析长时间的音频内容进行准确的说话者区分。值得一提的是，Scribe 能够在同一个音频文件中识别并隔离多达32位不同的说话者。

ElevenLabs 提醒用户，Scribe“最适合需要高精度转录的场合，而非实时转录”。该公司还计划推出低延迟版本，以扩大其在实时应用中的使用。

根据 FLEURS 和 Common Voice 的基准结果，Scribe 在处理现实世界音频挑战方面表现出色，尤其在意大利语（准确率98.7%）和英语(准确率96.7%)的单词错误率方面达到了最低。

Scribe 现已通过 ElevenLabs 官网和 API 提供使用，定价为每小时输入音频0.40美元，未来六周还将享受50% 的折扣。此外，针对实时应用的低延迟版本也在开发中。

对于企业决策者而言，Scribe 为高精度转录提供了一种可扩展的工具，适用于需要自动化文档、会议转录和内容可及性的行业。该模型对多种语言的高精度处理也将惠及跨国公司、媒体公司和客户支持应用。

值得注意的是，Scribe 的发布与竞争对手 Hume 的文本转语音模型 Octave 的发布同日进行。Octave 是一种基于大型语言模型的文本转语音工具，用户可以根据情感需求自定义 AI 生成的声音，旨在用于内容创作，如有声书、播客和视频游戏配音。尽管 Scribe 和 Octave 的功能不同，但二者的发布反映了 AI 驱动音频模型日益激烈的竞争。

产品入口:https://elevenlabs.io/blog/meet-scribe

划重点:

🌟 Scribe v1是 ElevenLabs最新推出的语音转文本模型，准确率在多语言中创下新高。

🗣️ 支持99种语言，能够区分多达32位不同的说话者，适应复杂音频环境。

💰 当前定价为每小时0.40美元，未来六周享受50% 折扣，低延迟版本正在开发中。

如果觉得文章对你有用，请随意赞赏

快讯

ElevenLabs推出Scribe语音转文本模型，英语准确率突破96.7%创纪录

https://soraor.com/archives/ai-today_20250227131705

作者

破晓

发布于

2025-02-27

更新于

2025-02-27

许可协议

CC BY 4.0