ElevenLabs推出 ElevenLabs MCP 服务器

通过简单的文本提示,可以让 AI 助手(比如 Claude、Cursor、Windsurf 等)直接访问整个 ElevenLabs AI 音频平台。

简单来说,它就像一个桥梁,把 ElevenLabs 的文字转语音、语音克隆等技术,连接到你常用的 AI 工具里,让它们能“说话”或处理声音。

它提供统一、可扩展的语音服务接口,简化了 API 的调用流程。

你甚至可以启动语音代理来为你执行外拨电话——例如点披萨。

提供的功能包括:

  • 文字转语音:将书面内容转换为语音或创建有声书。
  • 语音转文字:将音频和视频转录为文字。
  • 克隆声音(Voice Cloning)
  • 多说话人识别和再合成
  • 语音设计师:创建自定义的AI语音。
  • 会话式AI:高度自定义语音交互代理生成,构建能够执行任务的动态语音代理,例如拨打外拨电话。

功能详解与数据流

ElevenLabs MCP 的主要功能包括:

  1. 文本转语音(Text to Speech)
  • 输入:字符串文字(如"Hello world")
  • 输出:合成的语音文件(.mp3 / .wav)
  • 使用:调用 ElevenLabs 的 tts API。
  1. 语音克隆(Voice Cloning)
  • 输入:目标语音样本
  • 输出:合成出的模仿声音
  • 用法示例:“让 AI 说话像一个龙族智者” 的语音风格创建。
  1. 语音转文字(Speech to Text / Transcription)
  • 输入:音频(.wav、.mp3 等)
  • 输出:文本内容(支持说话人识别)
  • 可选支持转成不同角色的声音后输出语音
  1. 语音再合成
  • 场景:一个输入音频中有多个说话人,转录并重新以不同声音角色合成返回。
  1. 音景生成(Soundscape)
  • 输入:描述(prompt),如“热带雨林雷暴”
  • 输出:合成自然环境音效

✅ 请求处理逻辑简述(伪数据流):

MCP 客户端 (如 Claude) --> MCP Server (elevenlabs-mcp) --> 收到请求指令(如 TTS) --> 提取配置与 API Key --> 调用 ElevenLabs API(如 tts 端点) --> 返回音频内容给客户端

怎么用它?

用起来很简单,主要分几步:

  1. 获取 API 密钥

    • 去 ElevenLabs 官网注册账号,拿一个 API 密钥(免费版每月有 10,000 个字符额度)。
  2. 安装服务器

    • 用 Python 工具(比如 uv)安装 ElevenLabs MCP 服务器。
    • 比如在终端输入:uvx elevenlabs-mcp。
  3. 配置客户端
  • 在你的 AI 工具(比如 Claude Desktop)里加几行代码,告诉它怎么找这个服务器。

``` 示例配置:

{ "mcpServers": { "ElevenLabs": { "command": "uvx", "args": ["elevenlabs-mcp"], "env": { "ELEVENLABSAPIKEY": "你的密钥" } } } } ```

  1. 开始用

    • 配置好后,你的 AI 工具就能直接调用 ElevenLabs 的功能了。

注意:Windows 用户可能需要在工具里开“开发者模式”。

GitHub:https://github.com/elevenlabs/elevenlabs-mcp