Sesame 公司最新推出的语音合成模型“Conversational Speech Model”(简称 CSM)近日在 X 平台上引发热议,被誉为“像真人说话一样的语音模型”。这款模型以其惊艳的自然度和情感表达能力,不仅让用户“已经无法分辨”其与人类的区别,还宣称成功跨越了语音领域的“恐怖谷效应”。随着演示视频和用户反馈的传播,CSM 正迅速成为 AI 语音技术的新标杆。

image

跨越“恐怖谷”:CSM 的技术突破

“恐怖谷效应”是指当人工合成的语音或形象接近真实人类但仍存细微差异时,会引发人类的不适感。Sesame 通过其 CSM 模型正面应对这一难题。X 用户 @imxiaohu 在3月1日发帖称:“兄弟们,这个全新的语音模型很厉害,已经无法分辨了!”他指出,CSM 在个性、记忆、表达能力及语境恰当性上表现出色,几乎消除了传统语音助手的机械感。

Sesame 团队在官方研究文章中表示,CSM 的目标是实现“语音存在感”——让语音交互不仅真实可信,还能被理解和重视。这一突破得益于其核心组件:情感智能(解读并回应情感)、上下文记忆(基于对话历史调整输出)以及高保真的语音生成技术。演示中,CSM 在超长对话中展现了语气自然、情感丰富的一面,用户甚至无法在不知情的情况下分辨其为 AI。

image

用户体验逼真

X 平台上的用户反馈进一步印证了 CSM 的惊艳表现。@imxiaohu 在帖子中分享了一段超长对话演示,涵盖多种场景和情景,并感叹:“语气、情感一些表达上非常非常的接近人类,哈哈哈哈。”他提到,在无提示的情况下,这款模型的输出已让人难以区分真假。另一位用户 @leeoxiang 在3月1日表示,他用 CSM 练习了半小时英语口语,几乎感觉不到延迟,并称其“口语化做得特别好,会有一些口气在里面”,主动对话能力也令人印象深刻。

社区的热情不仅限于称赞。许多用户指出,CSM 的对话流畅度和情感表达已超越现有主流模型,如 OpenAI 的 ChatGPT 语音模式。@op7418

在2月28日推荐研究者关注 Sesame 的技术文章,并强调其独特的语音真实度评价体系,显示出该模型在技术上的严谨性。

仍有提升空间:Sesame 的未来计划

尽管 CSM 的表现令人震撼,Sesame 官方坦言这并非终点。@imxiaohu援引官方说法称,“这还不是最完美的,还有很大提升的空间!”目前,CSM 支持英语等多语言,但如 @leeoxiang 所指出,尚不支持中文。此外,部分用户在测试中发现,模型在特定语境(如外语切换或音乐演唱)下的表现仍有改进余地。

Sesame 已承诺将部分研究成果开源,其 GitHub 页面(SesameAILabs/csm)显示 CSM 将采用 Apache2.0许可。这一举措引发了开发者社区的期待,许多人希望通过对其架构的深入研究,进一步推动语音 AI 的发展。

行业影响与展望

CSM 的亮相不仅是对“恐怖谷效应”的技术回应,也为 AI 语音交互树立了新标准。与 Grok、Claude 等模型相比,CSM 在实时性、低延迟和情感表达上的优势尤为突出。X 用户 @AbleGPT

在3月2日表示:“如果你在研究 AI 语音,强烈推荐看看这个文章。”这反映了 CSM 对技术圈的启发意义。

随着 Sesame 计划扩大语言支持并优化模型,CSM 有望在教育、娱乐和虚拟伴侣等领域大放异彩。从 X 上的热烈反响来看,这款“兄弟们都觉得厉害”的语音模型,正以逼真的对话能力重新定义人与 AI 的互动方式。未来,它是否能彻底消除“恐怖谷”,成为真正的“数字伙伴”?答案或许就在 Sesame 的下一次迭代中。

试玩地址:https://www.sesame.com/research/crossingtheuncannyvalleyof_voice#demo