Nexa AI近日推出了其全新的OmniAudio-2.6B音频语言模型,旨在满足边缘设备的高效部署需求。与传统的将自动语音识别(ASR)和语言模型分开的架构不同,OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo以及定制的投影仪集成到一个统一框架中,这一设计消除了传统系统中各个组件链接所带来的低效率和延迟,特别适用于计算资源有限的设备。

主要亮点:

处理速度:OmniAudio-2.6B在性能上表现出色。在2024Mac Mini M4Pro上,使用Nexa SDK并采用FP16GGUF格式时,模型可实现每秒35.23个令牌的处理速度,而在Q4KM GGUF格式下,可处理每秒66个令牌。与之对比,Qwen2-Audio-7B在相似硬件上只能处理每秒6.38个令牌,展示出显著的速度优势。

资源效率:该模型的紧凑设计有效减少了对云资源的依赖,使其成为功率和带宽受限的可穿戴设备、汽车系统及物联网设备的理想选择。这一特点使其能够在有限的硬件条件下实现高效运行。

高准确性和灵活性:尽管OmniAudio-2.6B专注于速度和效率,其在准确性方面也表现不俗,适用于转录、翻译、摘要等多种任务。无论是实时语音处理还是复杂的语言任务,OmniAudio-2.6B都能够提供精准的结果。

image

OmniAudio-2.6B的推出标志着Nexa AI在音频语言模型领域的又一重要进步,其优化的架构不仅提升了处理速度和效率,也为边缘计算设备带来了更多可能。随着物联网和可穿戴设备的不断普及,OmniAudio-2.6B有望在多个应用场景中发挥重要作用。

模型地址:https://huggingface.co/NexaAIDev/OmniAudio-2.6B

产品地址:https://nexa.ai/blogs/omniaudio-2.6b