ElevenLabs推出 ElevenLabs MCP 服务器
通过简单的文本提示,可以让 AI 助手(比如 Claude、Cursor、Windsurf 等)直接访问整个 ElevenLabs AI 音频平台。
简单来说,它就像一个桥梁,把 ElevenLabs 的文字转语音、语音克隆等技术,连接到你常用的 AI 工具里,让它们能“说话”或处理声音。
它提供统一、可扩展的语音服务接口,简化了 API 的调用流程。
你甚至可以启动语音代理来为你执行外拨电话——例如点披萨。
提供的功能包括:
- 文字转语音:将书面内容转换为语音或创建有声书。
- 语音转文字:将音频和视频转录为文字。
- 克隆声音(Voice Cloning)
- 多说话人识别和再合成
- 语音设计师:创建自定义的AI语音。
- 会话式AI:高度自定义语音交互代理生成,构建能够执行任务的动态语音代理,例如拨打外拨电话。
功能详解与数据流
ElevenLabs MCP 的主要功能包括:
- 文本转语音(Text to Speech)
- 输入:字符串文字(如"Hello world")
- 输出:合成的语音文件(.mp3 / .wav)
- 使用:调用 ElevenLabs 的 tts API。
- 语音克隆(Voice Cloning)
- 输入:目标语音样本
- 输出:合成出的模仿声音
- 用法示例:“让 AI 说话像一个龙族智者” 的语音风格创建。
- 语音转文字(Speech to Text / Transcription)
- 输入:音频(.wav、.mp3 等)
- 输出:文本内容(支持说话人识别)
- 可选支持转成不同角色的声音后输出语音
- 语音再合成
- 场景:一个输入音频中有多个说话人,转录并重新以不同声音角色合成返回。
- 音景生成(Soundscape)
- 输入:描述(prompt),如“热带雨林雷暴”
- 输出:合成自然环境音效
✅ 请求处理逻辑简述(伪数据流):
MCP 客户端 (如 Claude) --> MCP Server (elevenlabs-mcp)
--> 收到请求指令(如 TTS)
--> 提取配置与 API Key
--> 调用 ElevenLabs API(如 tts 端点)
--> 返回音频内容给客户端
怎么用它?
用起来很简单,主要分几步:
获取 API 密钥:
- 去 ElevenLabs 官网注册账号,拿一个 API 密钥(免费版每月有 10,000 个字符额度)。
安装服务器:
- 用 Python 工具(比如 uv)安装 ElevenLabs MCP 服务器。
- 比如在终端输入:uvx elevenlabs-mcp。
- 配置客户端:
- 在你的 AI 工具(比如 Claude Desktop)里加几行代码,告诉它怎么找这个服务器。
``` 示例配置:
{ "mcpServers": { "ElevenLabs": { "command": "uvx", "args": ["elevenlabs-mcp"], "env": { "ELEVENLABSAPIKEY": "你的密钥" } } } } ```
开始用:
- 配置好后,你的 AI 工具就能直接调用 ElevenLabs 的功能了。
注意:Windows 用户可能需要在工具里开“开发者模式”。