北京智源人工智能研究院(BAAI)近日宣布,已联合生态合作伙伴构建并开源了异构统一通信库FlagCX,旨在解决多元算力时代通信库面临的挑战,填补多元算力开源软件栈的重要空白。这一举措响应了国家有关部门组织的“清朗·网络平台算法典型问题治理”专项行动,体现了算法导向正确、公平公正、公开透明等重要原则。

在多元算力时代,通信库作为算力大规模聚合的基础软件,面临两大挑战:一是通信库各异,导致通信算法的实现与优化不具备通用性和自适应性;二是无法实现跨不同芯片高效互联。为了应对这些挑战,FlagCX的推出旨在实现不同芯片之间高效通信和不同场景下的大规模自适应通信优化。

image

FlagCX的架构设计遵循“零开销”与“零成本”原则,为上层应用提供统一的通信算子接口层,屏蔽底层不同实现细节,并基于此开发对接不同深度学习框架的插件,帮助用户在不同框架中零成本使用FlagCX。FlagCX的设计和实现过程中,始终秉持标准化、兼容性和自适应三个基本原则。

性能测试显示,FlagCX在跨机通信性能上实现了对厂商原生通信库的适配基本零开销,且跨不同芯片的异构通信性能能达到峰值带宽的90%以上,展现了跨芯异构通信的潜力。

此外,智源研究院也在构建相关软件生态,形成产学研协同创新的良性循环,加速异构统一通信库技术推广与应用落地。首批生态伙伴包括高校及研究机构、服务器厂商、芯片厂商以及云厂商及运营商等。

FlagCX的开源地址为:https://github.com/FlagOpen/FlagCX