在人工智能的快速发展中,语音合成技术正日益受到关注。近日,名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布,该模型具有8200万参数,标志着语音合成领域的一个重要里程碑。

Kokoro v0.19在发布之前的几周里,在 TTS(文本转语音)领域的排行榜上位列第一,其表现甚至超过了其他参数更多的模型。这一模型在单声道设置下,仅用不到100小时的音频数据,便实现了与467M 参数的 XTTS v2和1.2B 参数的 MetaVoice 等模型相媲美的效果。这一成就表明,传统语音合成模型的性能与参数、计算量和数据量之间的关系,可能比以往预期的更加显著。

在使用上,用户只需在 Google Colab 中运行几行代码,即可加载模型和语音包,生成高质量的音频。Kokoro 目前支持美国英语和英国英语,并提供了多个语音包供用户选择。

Kokoro 的训练过程使用了 Vast.ai 的 A10080GB vRAM 实例,租用成本相对较低,确保了高效的训练过程。整个模型的训练仅使用了不到20个训练周期和不到100小时的音频数据。Kokoro 模型在训练中使用了公有领域的音频数据以及其他开放许可证的音频,确保了数据的合规性。

尽管 Kokoro 在语音合成方面表现出色,但由于其训练数据和架构的限制,目前尚无法支持声音克隆,并且主要的训练数据集中在长篇朗读和叙述,而非对话。

模型:https://huggingface.co/hexgrad/Kokoro-82M

体验:https://huggingface.co/spaces/hexgrad/Kokoro-TTS

划重点:

🌟 Kokoro-82M 是一款新发布的语音合成模型,具有8200万参数,支持多种语音包。

🎤 该模型在 TTS 领域表现卓越,曾在排行榜上排名第一,仅用不到100小时的音频数据进行训练。

📊 Kokoro 模型的训练采用了开放许可证的数据,确保合规性,但目前仍存在一些功能限制。