信息差

仅需100毫秒即可生成10秒音频：超快速文本转语音模型Lightning实现超低延迟

近日，总部位于美国加州旧金山的 AI 初创公司 smallest.ai 推出了其新产品 Lightning，一款能够在100毫秒内生成长达10秒音频的文本转语音（TTS）模型。此项技术的进步，使得全球开发者能够构建高仿真度的语音机器人应用，且延迟时间极短，降低了实施成本，提高了应用的可及性。

Lightning 目前支持英语和印地语的多种口音，团队还计划迅速添加更多语言，以满足市场需求。这款模型的定价为每分钟仅需0.02美元（约1.6印度卢比），为语音机器人开发者提供了一种极具成本效益的解决方案，应用的运行成本可控制在每分钟1卢比以下，大幅降低了语音机器人构建的费用，同时扩大了市场的可达性。

与传统的 TTS 模型依赖流媒体和网络套接字，增加服务器负担和复杂的可扩展性不同，Lightning 通过简单的 REST API 设计，使音频在大约100毫秒内交付，避免了持续流媒体带来的服务器压力。这种快速的处理能力和成本效率，使其在语音机器人行业中成为一个显著的替代选择。

smallest.ai 由印度理工学院古瓦哈提校友 Sudarshan Kamath 和 Akshat Mandloi 创立。Kamath 表示，smallest.ai 的低价策略得益于他们对数据质量和模型效率的关注。“我们的模型比竞争对手如 ElevenLabs 的小得多，但我们通过高度精炼的数据实现了高质量的语音输出。” 他解释道。

早期获得 Lightning 使用权的语音机器人开发者报告称，他们的运营成本降低了8倍，同时音频质量得到了提升。除了实时的语音机器人应用，Lightning 还可以用于制作有声书和社交媒体内容的配音，如 Instagram 和 YouTube 等平台。非开发者也可以通过 Waves Speech 平台访问 Lightning，体验包括声音克隆和口音转换等功能，这些功能目前处于测试阶段。

Kamath 在与《分析印度杂志》的独家互动中表示:“当我们开始构建时，我们意识到现有的语音机器人所需模型对于印度语言还不够成熟。非英语语言的现有模型根本无法达到生产要求。”

在今年6月，smallest.ai 还推出了 AWAAZ 模型，支持通过短音频片段进行声音克隆，且价格具有竞争力。该模型旨在满足区域语言市场的可扩展应用，并提供企业级的安全性和合规性。当被问及其使命时，Kamath 说:“为什么十亿人并没有每天与 AI 语音进行交流，尽管语音 AI 技术取得了巨大的进步?这是我们努力解决的问题。”

项目入口:https://smallest.ai/blog/lightning-fast-text-to-speech

划重点:

🌟 Lightning 文本转语音模型可在100毫秒内生成音频，支持英语和印地语多种口音，未来将扩展更多语言。

💰 以每分钟仅需0.02美元的低成本，显著降低语音机器人开发者的运营费用。

📱 Lightning 不仅适用于语音机器人，还可用于有声书和社交媒体配音，方便开发者和非开发者使用。

如果觉得文章对你有用，请随意赞赏

快讯

仅需100毫秒即可生成10秒音频：超快速文本转语音模型Lightning实现超低延迟

https://soraor.com/archives/ai-today_20241106093936

作者

破晓

发布于

2024-11-06

更新于

2024-11-06

许可协议

CC BY 4.0