Kyutai 推出了 Unmute,一个高度模块化的语音 AI 系统,可以为任何文本大语言模型(LLM)快速添加语音功能。

也就是它可以插入到任意的模型当中,让该模型具有语音能力。

  • Unmute 包括新的 语音识别(Speech-to-Text)语音合成(Text-to-Speech) 模块:

    • 流式识别,低延迟,具有语义级别的语音活动检测(VAD),能智能判断用户是否说完一句话。
    • TTS 支持个性化语音克隆,基于 10 秒语音样本生成定制声音。
    • TTS 实现“文本流式”合成,支持在文本尚未完全生成时开始说话,进一步降低响应延迟。

去年推出的 Moshi 虽然具备低延迟和自然语言能力,但在函数调用、推理能力、上下文学习等方面不如文本模型。Unmute 旨在弥补这一点,把文本模型的强大能力带入语音对话。

  • 系统结构:Unmute 是一个级联式语音系统,由三个独立模块组成:

    1. 语音转文本(STT):将用户的语音内容转录为文本。
    2. 语言模型(LLM):这里使用的是 Gemma 3 12B,基于输入文本生成响应。
    3. 文本转语音(TTS):将 LLM 的响应转换为语音。
  • 模块化优势

    • 虽然这种级联系统可能丢失情绪、讽刺等语境信息,但其最大的优点是高度模块化
    • 因为三个组件是独立的,所以你可以为任何 LLM 添加语音功能,无需微调或适配。
    • 在演示中,用户可以:

      • 调整 Gemma 3 的 system prompt,以自定义数字角色的“性格”;
      • 独立改变 TTS 的声音,实现人物个性与语音的自由组合。
  • 技术细节

    • STT 是流式的,集成了语义级语音活动检测(semantic VAD),无需额外模型判断说话是否结束,低延迟。
    • TTS 也是流式的,不仅在音频生成上是流式的,甚至在文本生成过程中就开始发声,从而极大降低响应时间。
    • 用户只需提供 10 秒语音样本,就可以自定义 TTS 的音色与语调。
  • Unmute 的语音交互设计支持 打断、轮流发言(turn-taking),更贴近自然人类对话。

  • 未来方向:Kyutai 坚信人机交互的未来在于“自然、全双工语音交互 + 个性化 + 可扩展能力”。
  • 官方承诺将在未来几周内将 Unmute 的全部内容 开源

在线体验:unmute.sh