吉利汽车近日在语音合成领域取得重大突破,其自主研发的HAM-TTS大模型性能超越了行业标杆VALL-E,引起业界广泛关注。这款名为"星睿"的AI大模型在发音准确性、自然度和说话人相似度等关键指标上均实现了显著提升。

HAM-TTS模型采用基于token的零样本文字转语音分层声学建模技术,在智能座舱中大幅提升了用户交互体验。在相同的4亿参数条件下,HAM-TTS模型的字符错误率比VALL-E下降了1.5%;而在8亿参数的完全体上,字符错误率更是直降2.3%。在风格一致性、音调一致性和整体得分上,HAM-TTS模型都取得了10%的显著提升。

image

星睿模型的优势不仅体现在性能指标上,其实用性也令人印象深刻。它能够在虚拟形象联动、语音导航、新闻播报等多种场景中保持说话人的声音稳定性,并根据情境智能调节语气、语调、停顿和情感。更值得一提的是,该模型可以在不同语种间无缝切换,包括方言和外语,且只需3秒钟的样本输入就能完成声音复刻,远优于业界通常需要的10秒以上。

image

吉利团队通过引入分层声学建模,创新性地提高了模型性能。他们解决了发音不准的问题,并引入隐空间变量序列预测器和文本对齐器,使文本和声音的匹配更加精准,从而使合成语音更加自然流畅。

这一突破不仅展示了吉利在智能化技术方面的研发实力,也反映了其在AI领域的雄心。吉利的星睿AI大模型体系已扩展到多模态大模型、语言大模型等多个方向,为智能汽车技术奠定了基础。同时,吉利的云端总算力也从去年的81亿亿次/秒提升至102亿亿次/秒,显示出其在技术上的持续投入。

随着电动化的初步成功,吉利在智能化领域的这一突破,为汽车行业的未来发展提供了新的思路和可能性。这不仅重新定义了我们对传统汽车制造商的认知,也预示着智能化将成为未来汽车行业竞争的关键领域。

论文地址:https://arxiv.org/pdf/2403.05989