信息差

全球首款“懂情感”的语音合成模型OCTAVE问世：听懂文本情绪，生成自然语音

Hume AI 推出了 OCTAVE（Omni-capable text and voice engine），这是一款基于 大语言模型（LLM） 训练的 新一代文本转语音（TTS）系统，不同于传统 TTS 只是机械地“朗读”文本，OCTAVE 能够理解文本内容的含义，并根据语境生成更加自然、生动和情感丰富的语音表达。

也就是：Octave 不仅能“说”，还能“理解”它在说什么。它通过分析文本中的情感线索、情节转折和角色特征，生成自然且富有表现力的语音。

OCTAVE 是 AI 语音合成技术的重大突破，让 AI 不再只是“朗读”文本，而是真正 “理解”文本并表达情感。它不仅能生成更自然、更具表现力的语音，还能让用户 个性化定制 AI 语音角色。

OCTAVE 在多项评测中 超越了 ElevenLabs，在 音质（71.6%）、自然度（51.7%）以及与语音描述匹配度（57.7%） 三个关键指标上均获得更高评分。

相比传统 TTS，OCTAVE 具备以下核心优势：

✅ 理解上下文，根据情境调整语气、重音、节奏
✅ 支持语音个性化，可创建任意风格的 AI 语音角色
✅ 提供语音风格自定义，可调节情绪、语调、表达方式
✅ 领先的音质和自然度，在行业盲测中超越 ElevenLabs
✅ API 和 SDK 适用于开发者，可轻松集成到应用中
✅ 未来支持语音克隆，仅需 5 秒即可复制声音

OCTAVE 的主要特点

基于 LLM 训练的语音生成
- OCTAVE 不只是一个语音合成引擎，而是一个结合了 大语言模型（LLM）和语音技术的 AI 语音生成系统，具备 以下核心能力：
  - 能够理解文本的情境，推测 情绪、语调、重音、节奏。
  - 自动生成符合 情绪语境 的语音，而不仅仅是按照字面意思机械朗读。
  - 语音的自然度远超传统 TTS，能够根据上下文调整 语速、停顿、重音、音调。
  🔹 示例：情绪化朗读
  
  文本输入：「哦，当然，我们再来开一次关于 logo 颜色的会议吧！毕竟谁在乎功能呢，颜色才是关键！」
  OCTAVE 语音输出（带有讽刺语气）：讽刺且带有夸张的重音
  
  文本输入：「不！不要靠近我！这太可怕了！」
  OCTAVE 语音输出（带有惊恐感）：带颤抖的声音，语速快，音调高
  
  传统的 TTS 仅仅是“朗读”这些文本，而 OCTAVE 会理解语境，调整语气，使其更贴近人类表达。
  
  🤔 上下文感知表达
  - 训练数据量比传统TTS多 1000倍，Octave 能像人类演员一样理解脚本
  - 它能传达情感、讽刺、语速、重音，并理解情节变化、角色特征
  - 例如，它会温柔地朗读情书，激情四溢地播报体育新闻
AI 语音设计（Voice Design）
OCTAVE 允许用户创建自定义 AI 语音角色，适用于播客、电影、游戏 NPC、虚拟助理等场景。
只需输入提示，OCTAVE 就能生成相应的语音风格。
- 用户可以用文字 创建自定义 AI 语音角色，例如：
  - “一个 富有耐心和共情能力的心理咨询师。”
  - “一个 中世纪骑士，语调庄重，富有戏剧感。”
  - “一个 好莱坞电影预告片配音演员。”
- 只需提供描述，OCTAVE 就能自动 生成符合特定音色、口音、语速、情感特征 的语音。
灵活的情感控制
- Octave 允许用户通过指令调整语音的情感风格，例如“平静”“愤怒”“低语”等，使其适应不同的创作需求。
- OCTAVE 允许用户为语音添加风格描述，调整其表达方式，例如：
  - 愤怒
  - 惊讶
  - 温柔
  - 讽刺
  - 庄重
  - 恐惧
  🔹 示例：同一句话，不同情绪演绎
  文本输入：「你在开玩笑吗？」
  - 描述 1：「愤怒」
    - 语音输出：愤怒、语调提高、语速加快
  - 描述 2：「失望」
    - 语音输出：语调低沉，语速放缓，带有叹息感
  - 描述 3：「嘲讽」
    - 语音输出：拉长音调，带有戏谑感
  这种语音生成方式，使 OCTAVE 更像一位专业配音演员，而不仅仅是一个“读稿机”。
  
  🎬 表演指令
  - Octave 是首个能够接受自然语言指令来调整情感表达和语音风格的 TTS 系统
  - 你可以指示它 “带有讽刺意味” 或 “恐惧地低语”，让创作者完全掌控声音表现
语音克隆（即将推出）
- 仅需 5 秒音频，OCTAVE 即可 克隆并再现某个人的声音。
- Hume AI 计划在未来几周内 安全地推出该功能，以确保克隆技术不会被滥用。
适用于开发者与内容创作者
- OCTAVE 提供 API 接口（支持 Python 和 TypeScript SDK），可集成到：
  - 智能客服、语音助手
  - 有声书、播客制作
  - 游戏 NPC 语音
  - 电影配音
- 还提供 语音库（40+ 预设声音），支持 长篇内容自动朗读（如新闻、博客、小说等）。

OCTAVE vs. ElevenLabs：对比测试

在 180 位人类评测员的盲测 中，OCTAVE 在以下指标上 全面超越 ElevenLabs：

盲测结果

71.6% 受访者更喜欢 Octave 的音质
51.7% 认为 Octave 更自然
57.7% 认为 Octave 更符合语音描述

OCTAVE 在所有三个核心指标上均优于 ElevenLabs，证明其在自然度、音质和语境理解方面的优势。

在一项盲评配对偏好研究中，Hume 样本与 ElevenLabs 样本的偏好比例。根据三项标准，Hume 样本的平均偏好程度更高：语音自然度、与提供的描述或提示的一致性以及整体音频质量。

Hume AI 还推出了 Expressive TTS Arena（类似 Hugging Face TTS 评测平台），允许用户 测试不同 TTS 模型的表现，尤其是在长文本和复杂语境下的能力。

未来发展

目前 OCTAVE 支持英语和西班牙语，未来计划拓展到 更多语言。Hume AI 也在探索：

更丰富的语音风格（如不同文化、职业、年龄层的声音）
多角色互动对话（支持 AI 角色之间自然对话）
更自然的情感语音演绎

Hume AI 的 长期愿景 是 让 AI 更加人性化，通过 OCTAVE 优化 AI 在语音交互中的表现，让人工智能更具“情感智能”。

访问 Hume AI 官网体验 OCTAVE 的强大能力！

如果觉得文章对你有用，请随意赞赏

快讯

全球首款“懂情感”的语音合成模型OCTAVE问世：听懂文本情绪，生成自然语音

https://soraor.com/archives/ai-today_20250302214854

作者

破晓

发布于

2025-03-02

更新于

2025-03-02

许可协议

CC BY 4.0