Hume AI 推出了 OCTAVE(Omni-capable text and voice engine),这是一款基于 大语言模型(LLM) 训练的 新一代文本转语音(TTS)系统,不同于传统 TTS 只是机械地“朗读”文本,OCTAVE 能够理解文本内容的含义,并根据语境生成更加自然、生动和情感丰富的语音表达。

也就是:Octave 不仅能“说”,还能“理解”它在说什么。它通过分析文本中的情感线索、情节转折和角色特征,生成自然且富有表现力的语音。

OCTAVE 是 AI 语音合成技术的重大突破,让 AI 不再只是“朗读”文本,而是真正 “理解”文本并表达情感。它不仅能生成更自然、更具表现力的语音,还能让用户 个性化定制 AI 语音角色。

OCTAVE 在多项评测中 超越了 ElevenLabs,在 音质(71.6%)、自然度(51.7%)以及与语音描述匹配度(57.7%) 三个关键指标上均获得更高评分。

相比传统 TTS,OCTAVE 具备以下核心优势:

理解上下文,根据情境调整语气、重音、节奏
支持语音个性化,可创建任意风格的 AI 语音角色
提供语音风格自定义,可调节情绪、语调、表达方式
领先的音质和自然度,在行业盲测中超越 ElevenLabs
API 和 SDK 适用于开发者,可轻松集成到应用中
未来支持语音克隆,仅需 5 秒即可复制声音


OCTAVE 的主要特点

  1. 基于 LLM 训练的语音生成

    • OCTAVE 不只是一个语音合成引擎,而是一个结合了 大语言模型(LLM)和语音技术的 AI 语音生成系统,具备 以下核心能力

      • 能够理解文本的 情境,推测 情绪、语调、重音、节奏
      • 自动生成符合 情绪语境 的语音,而不仅仅是按照字面意思机械朗读。
      • 语音的自然度远超传统 TTS,能够根据上下文调整 语速、停顿、重音、音调

      🔹 示例 :情绪化朗读

      文本输入:「哦,当然,我们再来开一次关于 logo 颜色的会议吧!毕竟谁在乎功能呢,颜色才是关键!」
      OCTAVE 语音输出(带有讽刺语气):讽刺且带有夸张的重音

      文本输入:「不!不要靠近我!这太可怕了!」
      OCTAVE 语音输出(带有惊恐感):带颤抖的声音,语速快,音调高

      传统的 TTS 仅仅是“朗读”这些文本,而 OCTAVE 会理解语境,调整语气,使其更贴近人类表达

      🤔 上下文感知表达

      • 训练数据量比传统TTS多 1000倍,Octave 能像人类演员一样理解脚本
      • 它能传达情感、讽刺、语速、重音,并理解情节变化、角色特征
      • 例如,它会温柔地朗读情书,激情四溢地播报体育新闻
  2. AI 语音设计(Voice Design)
    OCTAVE 允许用户创建自定义 AI 语音角色,适用于 播客、电影、游戏 NPC、虚拟助理 等场景。
    只需输入提示,OCTAVE 就能生成相应的语音风格。

    • 用户可以用文字 创建自定义 AI 语音角色,例如:

      • “一个 富有耐心和共情能力的心理咨询师。”
      • “一个 中世纪骑士,语调庄重,富有戏剧感。”
      • “一个 好莱坞电影预告片配音演员。”
    • 只需提供描述,OCTAVE 就能自动 生成符合特定音色、口音、语速、情感特征 的语音。
  3. 灵活的情感控制

    • Octave 允许用户通过指令调整语音的情感风格,例如“平静”“愤怒”“低语”等,使其适应不同的创作需求。
    • OCTAVE 允许用户为语音添加风格描述,调整其表达方式,例如:

      • 愤怒
      • 惊讶
      • 温柔
      • 讽刺
      • 庄重
      • 恐惧

      🔹 示例 :同一句话,不同情绪演绎

      文本输入:「你在开玩笑吗?」

      • 描述 1:「愤怒」

        • 语音输出:愤怒、语调提高、语速加快
      • 描述 2:「失望」

        • 语音输出:语调低沉,语速放缓,带有叹息感
      • 描述 3:「嘲讽」

        • 语音输出:拉长音调,带有戏谑感

      这种语音生成方式,使 OCTAVE 更像一位专业配音演员,而不仅仅是一个“读稿机”。

      🎬 表演指令

      • Octave 是首个能够接受自然语言指令来调整情感表达和语音风格的 TTS 系统
      • 你可以指示它 “带有讽刺意味”“恐惧地低语”,让创作者完全掌控声音表现
  4. 语音克隆(即将推出)

    • 仅需 5 秒音频,OCTAVE 即可 克隆并再现某个人的声音
    • Hume AI 计划在未来几周内 安全地推出该功能,以确保克隆技术不会被滥用。
  5. 适用于开发者与内容创作者

    • OCTAVE 提供 API 接口(支持 Python 和 TypeScript SDK),可集成到:

      • 智能客服语音助手
      • 有声书、播客制作
      • 游戏 NPC 语音
      • 电影配音
    • 还提供 语音库(40+ 预设声音),支持 长篇内容自动朗读(如新闻、博客、小说等)。

OCTAVE vs. ElevenLabs:对比测试

180 位人类评测员的盲测 中,OCTAVE 在以下指标上 全面超越 ElevenLabs

盲测结果

  • 71.6% 受访者更喜欢 Octave 的音质
  • 51.7% 认为 Octave 更自然
  • 57.7% 认为 Octave 更符合语音描述

OCTAVE 在所有三个核心指标上均优于 ElevenLabs,证明其在自然度、音质和语境理解方面的优势。

在一项盲评配对偏好研究中,Hume 样本与 ElevenLabs 样本的偏好比例。根据三项标准,Hume 样本的平均偏好程度更高:语音自然度、与提供的描述或提示的一致性以及整体音频质量。

Hume AI 还推出了 Expressive TTS Arena(类似 Hugging Face TTS 评测平台),允许用户 测试不同 TTS 模型的表现,尤其是在长文本和复杂语境下的能力


未来发展

目前 OCTAVE 支持英语和西班牙语,未来计划拓展到 更多语言。Hume AI 也在探索:

  • 更丰富的语音风格(如不同文化、职业、年龄层的声音)
  • 多角色互动对话(支持 AI 角色之间自然对话)
  • 更自然的情感语音演绎

Hume AI 的 长期愿景让 AI 更加人性化,通过 OCTAVE 优化 AI 在语音交互中的表现,让人工智能更具“情感智能”


访问 Hume AI 官网 体验 OCTAVE 的强大能力!