Bland AI发布全新的Bland TTS,宣称这是“第一个跨越恐怖谷(Uncanny Valley)”的产品。
- 恐怖谷:是指 AI 的语音或面部越接近人类、但还不到完美时,反而会让人感到不适或怪异。Bland TTS 声称已突破这一点,使 AI 语音听起来几乎无法与真人区分。
Bland TTS只需一个简短的音频就能:
- 克隆任意人声
- 或者将另一个克隆的语音风格(如语调、节奏、发音方式等)进行“混搭”再造。
其核心是利用大语言模型(LLM)直接生成语音,而非依赖传统的逐层转换架构。该系统具备前所未有的情绪表达、风格控制、多说话人理解、非语言音效生成等能力,并通过自研的音频Token系统(SNAC)实现了更真实、更可控、更具上下文的语音合成。
功能亮点
1️⃣ 语音风格控制(Style Transfer)
- 模型可以通过 “上下文学习” 自动理解什么是“兴奋的语气”或“冷静的语调”;
也可以手动加入控制标签,如:
<excited> 这是一个重大突破! <calm> 请仔细阅读以下说明。
- 只需要3~6个语音示例,系统就能合成出同样风格的新内容。
2️⃣ 音效生成(Sound Effects)
不仅能合成语言,还能生成音效,如:
<dog_bark> 代表狗叫声 <laughter> 模拟笑声
只要你提供了标注的文本和音频示例,模型就能记住对应关系。
3️⃣ 语音混合(Voice Blending)
通过提供多个声音示例,系统能自动“融合”出一个新声音,既保留多个说话人的特征,也具备语气连贯性。适用于:
- 品牌语音设计;
- 多语者统一风格输出;
- 虚拟形象角色创作。
4️⃣ 语音情绪理解(Emotionally Aware)
系统不再是“照字念”,而是真正根据上下文变化语气——
- 技术介绍更理性;
- 安慰类内容更温暖;
- 问答互动更自然。
核心技术:重构传统TTS流程
✅ 传统TTS的痛点
以往TTS是流水线式的步骤:
文字 → 音素 → 韵律 → 波形 → 合成声音
每一步都可能出错,而且最终效果往往“缺乏情感、声音割裂”。这是因为传统方法是先理解内容,再“拼装”语音,很难自然地传递语气与情绪。
✅ Bland 的方案:一体化建模
Bland AI 的新技术把整个过程打通,采用 大语言模型直接预测声音,过程如下:
文本输入 → 模型直接输出“音频Token” → 再还原成真实声音
好比是“你告诉它要说什么,它直接用理解后的语气和情绪生成声音”,而不是一个拼接器去逐步“翻译”。
🎧 数据层面的突破:千倍级别提升
任何生成系统的底层,都是数据质量。Bland 团队认为,公开语音数据远远不够用,尤其在真实对话建模方面。
他们构建了一个 行业顶尖的大规模对话语音数据集,具备以下特征:
技术架构核心:从文本 LLM 到语音 LLM
🧠 LLM的通用思路
传统 LLM 的做法是:
把文字切分成 Token → 学会预测下一个 Token → 还原为完整句子
Bland 的方法:
把文字切分 → 预测对应的“音频 Token” → 还原成语音波形
这里的 “音频Token” 是经过 SNAC(光谱归一音频编码器)编码的离散表示,兼顾:
- 宏观节奏(如语速、停顿);
- 微观细节(如发音、音色)。
这种方式让模型可以真正同时掌握“内容+表达方式”,说得对、也说得好。
应用场景与使用人群
1. 🎨 创作者(Creatives)
- 将文字转为逼真的 AI 语音或音效
- 支持精细化控制风格和情绪
- 适合播客、配音、音频小说、影片等内容创作场景
2. 🧑💻 开发者(Developers)
- 可通过 API 接入自己的应用
- 用于构建自定义语音功能的产品(如语音助手、教育产品、播报系统等)
3. 🏢 企业用户(Enterprises)
- 搭建AI 客服系统、电话助手等商业语音服务
- 声音自然真实,客户甚至会把它当作真人保存为联系人
- 可在网站上直接尝试与 AI 对话
官方介绍:https://www.bland.ai/blogs/new-tts-announcement
快速开始链接:
- 开发者入口:https://t.co/qBpGkJh2Gp
- 企业入口:https://t.co/Szf9KNwfHs