B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式发布。该系统在处理中文文本时,具备独特的拼音纠正汉字发音能力,并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅,受到了广泛关注。
IndexTTS 系统经过数万小时的数据训练,已实现业内领先的性能,超越了当前流行的 TTS 系统,包括 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等。系统的多个模块经过增强,特别是在扬声器条件特征表示和音频质量优化方面进行了深度改进。通过引入混合建模的方式,IndexTTS 能够快速纠正误读的汉字,提升了用户的使用体验。
该模型采用了最新的条件编码器和基于 BigVGAN2的语音解码器,不仅提高了训练的稳定性,还增强了声音音色的相似性及音质。团队表示,他们已经在 arXiv 上提交了相关论文,并计划在未来几周内发布模型参数和代码。此外,IndexTTS 还提供了多种测试集,包括多音节词汇以及主观和客观评测集,供研究者进行深入分析。
在多项评测中,IndexTTS 表现出色,特别是在字词错误率(WER)和扬声器相似性(SS)方面,均优于许多同行模型。例如,在普通话的测试中,IndexTTS 的字词错误率仅为1.3%,远低于其他模型的表现,显示出其强大的准确性和稳定性。同时,在音质评测中,IndexTTS 的 MOS 评分也达到4.01,展示了其出色的音质和音色。
随着技术的不断进步和应用场景的扩展,IndexTTS 的发布标志着文本转语音技术向更高水平迈进。有关该系统的更多信息,用户可以联系相关团队以获取详细的使用体验和技术支持。
项目:https://github.com/index-tts/index-tts
划重点:
🌟 IndexTTS 是基于 XTTS 和 Tortoise 的 GPT 风格 TTS 模型,能够纠正汉字的发音并控制停顿。
📊 系统经过数万小时训练,超越了多个现有的流行 TTS 系统,展现出行业领先性能。
🔍 IndexTTS 在多项评测中表现优异,字词错误率和音质均优于其他模型,显示其强大优势。