Hume AI 推出了 OCTAVE(Omni-capable text and voice engine),这是一款基于 大语言模型(LLM) 训练的 新一代文本转语音(TTS)系统,不同于传统 TTS 只是机械地“朗读”文本,OCTAVE 能够理解文本内容的含义,并根据语境生成更加自然、生动和情感丰富的语音表达。
也就是:Octave 不仅能“说”,还能“理解”它在说什么。它通过分析文本中的情感线索、情节转折和角色特征,生成自然且富有表现力的语音。
OCTAVE 是 AI 语音合成技术的重大突破,让 AI 不再只是“朗读”文本,而是真正 “理解”文本并表达情感。它不仅能生成更自然、更具表现力的语音,还能让用户 个性化定制 AI 语音角色。
OCTAVE 在多项评测中 超越了 ElevenLabs,在 音质(71.6%)、自然度(51.7%)以及与语音描述匹配度(57.7%) 三个关键指标上均获得更高评分。
相比传统 TTS,OCTAVE 具备以下核心优势:
✅ 理解上下文,根据情境调整语气、重音、节奏
✅ 支持语音个性化,可创建任意风格的 AI 语音角色
✅ 提供语音风格自定义,可调节情绪、语调、表达方式
✅ 领先的音质和自然度,在行业盲测中超越 ElevenLabs
✅ API 和 SDK 适用于开发者,可轻松集成到应用中
✅ 未来支持语音克隆,仅需 5 秒即可复制声音
OCTAVE 的主要特点
基于 LLM 训练的语音生成
OCTAVE 不只是一个语音合成引擎,而是一个结合了 大语言模型(LLM)和语音技术的 AI 语音生成系统,具备 以下核心能力:
- 能够理解文本的 情境,推测 情绪、语调、重音、节奏。
- 自动生成符合 情绪语境 的语音,而不仅仅是按照字面意思机械朗读。
- 语音的自然度远超传统 TTS,能够根据上下文调整 语速、停顿、重音、音调。
🔹 示例 :情绪化朗读
文本输入:「哦,当然,我们再来开一次关于 logo 颜色的会议吧!毕竟谁在乎功能呢,颜色才是关键!」
OCTAVE 语音输出(带有讽刺语气):讽刺且带有夸张的重音文本输入:「不!不要靠近我!这太可怕了!」
OCTAVE 语音输出(带有惊恐感):带颤抖的声音,语速快,音调高传统的 TTS 仅仅是“朗读”这些文本,而 OCTAVE 会理解语境,调整语气,使其更贴近人类表达。
🤔 上下文感知表达
- 训练数据量比传统TTS多 1000倍,Octave 能像人类演员一样理解脚本
- 它能传达情感、讽刺、语速、重音,并理解情节变化、角色特征
- 例如,它会温柔地朗读情书,激情四溢地播报体育新闻
AI 语音设计(Voice Design)
OCTAVE 允许用户创建自定义 AI 语音角色,适用于 播客、电影、游戏 NPC、虚拟助理 等场景。
只需输入提示,OCTAVE 就能生成相应的语音风格。用户可以用文字 创建自定义 AI 语音角色,例如:
- “一个 富有耐心和共情能力的心理咨询师。”
- “一个 中世纪骑士,语调庄重,富有戏剧感。”
- “一个 好莱坞电影预告片配音演员。”
- 只需提供描述,OCTAVE 就能自动 生成符合特定音色、口音、语速、情感特征 的语音。
灵活的情感控制
- Octave 允许用户通过指令调整语音的情感风格,例如“平静”“愤怒”“低语”等,使其适应不同的创作需求。
OCTAVE 允许用户为语音添加风格描述,调整其表达方式,例如:
- 愤怒
- 惊讶
- 温柔
- 讽刺
- 庄重
- 恐惧
🔹 示例 :同一句话,不同情绪演绎
文本输入:「你在开玩笑吗?」
描述 1:「愤怒」
- 语音输出:愤怒、语调提高、语速加快
描述 2:「失望」
- 语音输出:语调低沉,语速放缓,带有叹息感
描述 3:「嘲讽」
- 语音输出:拉长音调,带有戏谑感
这种语音生成方式,使 OCTAVE 更像一位专业配音演员,而不仅仅是一个“读稿机”。
🎬 表演指令
- Octave 是首个能够接受自然语言指令来调整情感表达和语音风格的 TTS 系统
- 你可以指示它 “带有讽刺意味” 或 “恐惧地低语”,让创作者完全掌控声音表现
语音克隆(即将推出)
- 仅需 5 秒音频,OCTAVE 即可 克隆并再现某个人的声音。
- Hume AI 计划在未来几周内 安全地推出该功能,以确保克隆技术不会被滥用。
适用于开发者与内容创作者
OCTAVE 提供 API 接口(支持 Python 和 TypeScript SDK),可集成到:
- 智能客服、语音助手
- 有声书、播客制作
- 游戏 NPC 语音
- 电影配音
- 还提供 语音库(40+ 预设声音),支持 长篇内容自动朗读(如新闻、博客、小说等)。
OCTAVE vs. ElevenLabs:对比测试
在 180 位人类评测员的盲测 中,OCTAVE 在以下指标上 全面超越 ElevenLabs:
盲测结果
- 71.6% 受访者更喜欢 Octave 的音质
- 51.7% 认为 Octave 更自然
- 57.7% 认为 Octave 更符合语音描述
OCTAVE 在所有三个核心指标上均优于 ElevenLabs,证明其在自然度、音质和语境理解方面的优势。
在一项盲评配对偏好研究中,Hume 样本与 ElevenLabs 样本的偏好比例。根据三项标准,Hume 样本的平均偏好程度更高:语音自然度、与提供的描述或提示的一致性以及整体音频质量。
Hume AI 还推出了 Expressive TTS Arena(类似 Hugging Face TTS 评测平台),允许用户 测试不同 TTS 模型的表现,尤其是在长文本和复杂语境下的能力。
未来发展
目前 OCTAVE 支持英语和西班牙语,未来计划拓展到 更多语言。Hume AI 也在探索:
- 更丰富的语音风格(如不同文化、职业、年龄层的声音)
- 多角色互动对话(支持 AI 角色之间自然对话)
- 更自然的情感语音演绎
Hume AI 的 长期愿景 是 让 AI 更加人性化,通过 OCTAVE 优化 AI 在语音交互中的表现,让人工智能更具“情感智能”。
访问 Hume AI 官网 体验 OCTAVE 的强大能力!