在科技迅猛发展的今天,语音合成技术也在进步,尤其恢复失去声音领域。最近,谷歌研究人员们提出了一种名为 “零样本语音转换(zero-shot voice transfer)” 的新技术项技术可以直接与最先进的文本语音(TTS)系统相结合,帮助那些因疾病事故失去声音的人,找回他们的 “声音记忆。
这项技术的核心在于 “零样本” 能力,意味着我们不需要大量样本就能实现语音转换。也就是说,仅需几秒钟的参考音频,即可实现声音克隆,且支持合成跨语言的音频。
“零样本” 克隆声音能力
研究团队利用来自 VCTK 语音库的音频样本,展示了这一技术的强大功能。比如,通过使用已经录制好的普通话、英语和西班牙语等多语言的音频系统可以模拟出这些语言的声音特点,生成与原音接近的合成语音。
项目入口:https://google.github.io/tacotron/publications/zeroshotvoice_transfer/
令人惊的是,这种转换限于一种语言,研究还展示了语言的能力,例如研究团队用英语的声音样本来合成法语、德语甚至阿拉伯语的语音样的表现让人耳目一新。
为了验证技术的有效,研究人员进行了大量实验,包括与具有特殊发音的说话者进行合作。他们通过仅仅 12 秒和 14 秒的音频样本,生成了类似的语音,充分证明了这一技术的强大适应性。
在测试中,研究人员将这项技术扩展到了六种不同语言,进一步展示了其灵活性和实用性。
支持多语言示例:
这项技术的推广仅可以帮助失声人士恢复声音,还能为跨语言交流了新的可能性提升了无障碍交流的效率和便利性。可以说,零样本语音转换技术的出现,将使我们的生活更加丰富彩,让每个人都能在语言的海洋中畅游,享受交流的乐趣。
划重点
🎤 ** 零本语音转换技术:一种无需大量样本的语音成技术,可帮助声人士找回声音。
🌍 * 语言能力 *:技术可以实现不同语言之间的声音转换,大丰富了语音交流的可能性。
🗣️ ** 特殊发音者的应用:通过短时间的声音样本,团队成功合成特殊发音者的语,展示了技术的适应性与灵性。