Stability AI因其Stable Diffusion文本生成图像模型而闻名。最近,该公司与全球半导体巨头 Arm 展开合作,致力于将生成音频人工智能能力引入移动设备。这一合作使得Stable Audio Open模型能够完全在 Arm CPU 上运行,用户可以在设备上快速生成音效、音频样本和制作元素,且无需互联网连接。

image

Stability AI表示,随着生成性人工智能在企业和专业创作者中的应用越来越广泛,确保我们的模型和工作流程在各个创造领域都能便捷使用显得尤为重要。这不仅能够提升创作效率,也有助于将这些技术无缝整合进视觉媒体制作流程中。

面对不断增长的需求,该公司旨在提高其模型在边缘设备上的运行效率。在优化Stable Audio Open模型以适应移动设备的过程中,初始测试在一台 Arm CPU 设备上生成音频的时间达到了240秒。通过对模型的蒸馏处理,并利用 Arm 的软件栈,特别是通过 XNNPack 的 KleidiAI 中的 int8矩阵乘法内核,该公司成功将生成一个11秒音频片段的时间缩短至8秒,提升了30倍的响应速度。

需要注意的是,用户需要一部兼容的移动设备才能体验这一功能。考虑到如今大多数智能手机都配备 Arm 架构的 CPU,因此这一技术应对各类用户而言都变得更加可及。未来,Stability AI还计划将其在图像、视频和3D 领域的所有模型都带到边缘设备,旨在彻底改变移动设备上的视觉媒体创作方式。

划重点:

🌟 Stability AI能与 Arm 合作,推出可在移动设备上离线生成音频的技术。

⚡ 通过模型蒸馏和软件优化,音频生成时间从240秒缩短至8秒,效率提升30倍。

📱 这一技术可在大多数搭载 Arm CPU 的智能手机上使用,未来将扩展到更多媒体创作领域。