信息差

Sesame CSM语音模型震撼发布：突破“恐怖谷”，全球惊叹其逼真度

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”（简称 CSM）近日在 X 平台上引发热议，被誉为“像真人说话一样的语音模型”。这款模型以其惊艳的自然度和情感表达能力，不仅让用户“已经无法分辨”其与人类的区别，还宣称成功跨越了语音领域的“恐怖谷效应”。随着演示视频和用户反馈的传播，CSM 正迅速成为 AI 语音技术的新标杆。

跨越“恐怖谷”:CSM 的技术突破

“恐怖谷效应”是指当人工合成的语音或形象接近真实人类但仍存细微差异时，会引发人类的不适感。Sesame 通过其 CSM 模型正面应对这一难题。X 用户 @imxiaohu 在3月1日发帖称:“兄弟们，这个全新的语音模型很厉害，已经无法分辨了!”他指出，CSM 在个性、记忆、表达能力及语境恰当性上表现出色，几乎消除了传统语音助手的机械感。

Sesame 团队在官方研究文章中表示，CSM 的目标是实现“语音存在感”——让语音交互不仅真实可信，还能被理解和重视。这一突破得益于其核心组件:情感智能（解读并回应情感）、上下文记忆(基于对话历史调整输出)以及高保真的语音生成技术。演示中，CSM 在超长对话中展现了语气自然、情感丰富的一面，用户甚至无法在不知情的情况下分辨其为 AI。

用户体验逼真

X 平台上的用户反馈进一步印证了 CSM 的惊艳表现。@imxiaohu 在帖子中分享了一段超长对话演示，涵盖多种场景和情景，并感叹:“语气、情感一些表达上非常非常的接近人类，哈哈哈哈。”他提到，在无提示的情况下，这款模型的输出已让人难以区分真假。另一位用户 @leeoxiang 在3月1日表示，他用 CSM 练习了半小时英语口语，几乎感觉不到延迟，并称其“口语化做得特别好，会有一些口气在里面”，主动对话能力也令人印象深刻。

社区的热情不仅限于称赞。许多用户指出，CSM 的对话流畅度和情感表达已超越现有主流模型，如 OpenAI 的 ChatGPT 语音模式。@op7418

在2月28日推荐研究者关注 Sesame 的技术文章，并强调其独特的语音真实度评价体系，显示出该模型在技术上的严谨性。

仍有提升空间:Sesame 的未来计划

尽管 CSM 的表现令人震撼，Sesame 官方坦言这并非终点。@imxiaohu援引官方说法称，“这还不是最完美的，还有很大提升的空间!”目前，CSM 支持英语等多语言，但如 @leeoxiang 所指出，尚不支持中文。此外，部分用户在测试中发现，模型在特定语境（如外语切换或音乐演唱）下的表现仍有改进余地。

Sesame 已承诺将部分研究成果开源，其 GitHub 页面（SesameAILabs/csm）显示 CSM 将采用 Apache2.0许可。这一举措引发了开发者社区的期待，许多人希望通过对其架构的深入研究，进一步推动语音 AI 的发展。

行业影响与展望

CSM 的亮相不仅是对“恐怖谷效应”的技术回应，也为 AI 语音交互树立了新标准。与 Grok、Claude 等模型相比，CSM 在实时性、低延迟和情感表达上的优势尤为突出。X 用户 @AbleGPT

在3月2日表示:“如果你在研究 AI 语音，强烈推荐看看这个文章。”这反映了 CSM 对技术圈的启发意义。

随着 Sesame 计划扩大语言支持并优化模型，CSM 有望在教育、娱乐和虚拟伴侣等领域大放异彩。从 X 上的热烈反响来看，这款“兄弟们都觉得厉害”的语音模型，正以逼真的对话能力重新定义人与 AI 的互动方式。未来，它是否能彻底消除“恐怖谷”，成为真正的“数字伙伴”?答案或许就在 Sesame 的下一次迭代中。

试玩地址：https://www.sesame.com/research/crossingtheuncannyvalleyof_voice#demo

如果觉得文章对你有用，请随意赞赏

快讯

Sesame CSM语音模型震撼发布：突破“恐怖谷”，全球惊叹其逼真度

https://soraor.com/archives/ai-today_20250303113818

作者

破晓

发布于

2025-03-03

更新于

2025-03-03

许可协议

CC BY 4.0