ElevenLabs 推出了全新一代文本转语音模型 Eleven v3(Alpha 版),这是目前表现力最强的 TTS 模型之一,支持 70 多种语言、多个角色间的自然对话,以及通过 [sad]、[whispers]、[laughs] 等音频标签精准控制语音情绪与非语言表达。

与旧版本相比,v3 拥有更强的文本理解能力,可以模拟真实对话中的中断、情感变化与语气调整。这使得它非常适合用于视频创作、有声书制作和媒体工具开发。

特点

  • 支持 70+ 语言
  • 支持 多角色对话
  • 支持音频标签(如 [sad]、[laughs]、[whispers] 等)来控制情绪和表现力

  • v3 是研究预览版,需要更高水平的提示工程,但生成效果非常出色

  • 新架构对文本理解更深,可实现更具表现力的语音
  • 可模拟现实对话中的情感、打断、语气变化
  • 即将开放 API 接口,支持创作者和开发者

🌟 V3主要升级亮点一览

✅ 1. 情绪+指令+音效 → 更拟真

v3 支持全新「音频标签(audio tags)」,开发者或创作者可以控制语音的:

  • 情绪(愤怒、高兴、紧张、冷静等)
  • 强调与语调走向
  • 暂停、语速、音效混合(如“笑声”、“尖叫”)

🌈 例子:
你可以生成一段内容,从「小声嘟囔」过渡到「歇斯底里大笑」,再加入背景音效,让听者沉浸其中。


✅ 2. 多角色、交叉打断对话能力

  • 支持 两个及以上角色进行自然互动;
  • 支持同步语境和情绪匹配
  • 对话中可设置打断、抢话、幽默过场等;
  • 模拟真实人类对话场景,比以往任何版本更流畅自然。

✅ 3. 语言覆盖:70+ 语言支持

相较于 v2 的 29 种语言,v3 现支持超过 70 种语言,覆盖:

  • 所有主流语言(英文、中文、法语、西班牙语、阿拉伯语等)
  • 地区小语种(僧伽罗语、吉尔吉斯语、乌尔都语等)

🎯 用途: 非英文播客、全球配音、本地化音频内容生成。


✅ 4. 文本到对话(Text to Dialogue)新模式

这是 v3 中最强大的能力之一:

  • 通过普通文本,自动将不同角色、语气、音色编织成「对话音频」;
  • 不需要逐句标记角色或语气,系统会自动判断;
  • 生成的对话极具表现力与连贯性,适用于音频剧、游戏对白、广告创作等。

v2 与 v3 对比

支持哪些标签?

  • 情绪类:[ANGRY], [LAUGHS], [WHISPERS]
  • 动作类:[SHOUTING], [SIGHING]
  • 音效类:[EVIL LAUGH], [GIGGLE]
    详细标签参考:Prompting Guide 🔗

官方介绍:https://elevenlabs.io/v3