中国AI领军企业DeepSeek在开源周收官之际投下技术"核弹",正式发布专为现代算力场景设计的高性能并行文件系统3FS(Fire-Flyer File System)及配套数据处理框架Smallpond。这套组合拳直击AI训练与推理的数据处理痛点,以6.6TiB/s的集群吞吐量创下行业新纪录,标志着分布式存储技术迈入新纪元。
性能颠覆:架构创新定义新标准
3FS通过去中心化架构与强一致性语义设计,在180节点集群中实现6.6TiB/s聚合读取吞吐,单节点KVCache查找峰值突破40GiB/s。其GraySort基准测试表现达3.66TiB/min(25节点),较传统方案呈指数级提升。系统深度优化SSD与RDMA网络特性,将硬件带宽利用率推向极致,为千卡级AI训练集群提供稳定数据供给。
场景重构:全链路赋能AI工作流
作为DeepSeek V3/R1版本的核心基建,3FS已全面渗透数据预处理、检查点存储、向量搜索及推理缓存等关键环节。其共享存储层设计显著简化分布式开发复杂度,而强一致性保障确保大规模并发操作安全。配套开源的Smallpond框架更构建起轻量化PB级数据处理能力,依托DuckDB实现"无服务化"数据工程,形成从存储到计算的完整生态闭环。
开源战略:加速AI基建民主化进程
此次3FS与Smallpond的双重开源,延续DeepSeek"五日连发"的技术开放节奏。通过将经过自身AI业务验证的系统公之于众,DeepSeek正推动行业突破数据密集型应用的存储瓶颈。分析认为,这套方案或将对Ceph、Lustre等传统分布式系统形成降维打击,特别是在大模型训练等场景开辟新范式。
开源地址:
3FS → https://github.com/deepseek-ai/3FS
Smallpond -3FS→上的数据处理框架:https://github.com/deepseek-ai/smallpond