声明:本文来自于微信公众号新智元,作者:新智元,授权Soraor转载发布。

【新智元导读】国内首个自研万卡集群,刚刚成功点亮!国产AI的高价门槛直接被打下来了。在百度智能云平台上,DeepSeek R1和V3的官方价格直接低至五折和三折,基本实现全网最低。

在全世界都在加码AI研发之际,国内传来了一个振奋人心的消息——

百度智能云成功点亮了首个自研万卡集群。

这台由昆仑芯三代组成的「超级巨兽」,正式宣告中国在AI算力上迈出的重要一步。

这也成为DeepSeek后,本土化AI的又一重磅发布!

更令人期待的是,百度智能云宣布将进一步扩大规模,计划点亮3万卡集群。

这不仅仅是一个数字的跃升,更是中国科技实力的又一次证明。

万卡集群为什么重要?

随着o1、R1等「推理模型」的兴起,测试时计算、强化学习等过程,让模型的性能实现了持续性的提升。

与之相伴的,则是对算力更大的需求。

image

为了让自己的模型不在AI争霸中落后,全世界的AI公司都在竞相抢购GPU并争取数据中心资源。

OpenAI曾与微软达成了约140亿美元的战略合作,其中就包含了大量的算力配额。另有「星际之门」项目,4年5000亿美元,要在全美建设20座超算。

Anthropic也获得了亚马逊80亿美元的投资,其中包含了一个配备超10万枚专用AI芯片的全新算力集群的使用权。

xAI拥有配备了超10万块GPU的全球最大超算——Colossus。并且,按照CEO马斯克的设想,这一规模还将扩大到惊人的100万块。

image

前段时间,纳德拉曾在采访中称,今年微软计划在AI基础设施中投资800亿美元。

另有小扎公开表示,Meta将在今年加码650亿美元,全部用于人工智能基础设施的建设中。

昨天,谷歌公布的2024Q4财报中,透露了计划今年在AI竞赛中斥资约750亿美元,较上一年323亿美元,大幅飙升。

image

不难看出,在人工智能scaling law进程中,亘古不变的是对算力的投资。

从这一点来说,万卡集群的建成无疑意义重大。

首先,超大规模并行计算能力,可以实现训练效率的跃升。

这样,万卡集群就能将千亿参数模型的训练周期大幅降低,让AI原生应用快速迭代。

第二,它还能支持更大模型与复杂任务和多模态数据,支撑Sora类应用的开发。

第三,它还能支持多任务并发能力。通过动态资源切分,单集群就能同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降。

而百度万卡集群,就全面覆盖了以上优点。

它就像一只训练有素的「天团」,通过智能调度和资源优化,让训练成本呈指数级下降。

百舸4.0开路

然而,组建这样一支「天团」并非易事。

多芯混训、激增的故障率等难题,成为万卡集群部署过程中面临的巨大挑战。

可以说,从硬件到软件,技术挑战是全方位的。

百度的秘密武器在于——百舸AI异构计算平台4.0(百舸平台),专为十万卡集群部署而设计。

它在2024年9月得到了全新升级,围绕落地LLM全旅程的算力需求,在集群创建、开发实验、模型训练、模型推理四大方面,能为企业提供「多、快、稳、省」的AI基础设施。

image

首先,它突破了硬件的扩展性瓶颈,比如卡间互联的拓扑限制,这样,就避免了通信带宽成为瓶颈。

同时,它还解决了万卡集群的超高功耗与散热问题。

可以说,百舸4.0就像是一位神通广大的总指挥,因为采用创新散热方案,让集群不会因太热罢工。

第三,它完善了模型的分布式训练优化。

通过采用高效并行化的任务切分策略,它直接将集群的MFU提升至58%,让每一分算力物尽其用。

第四,它大大提升了稳定性。

在这方面,百舸提供的容错和稳定性机制,实现了98%的有效训练效率。

百度自研的BCCL(百度集合通信库)可以快速定位故障,并提供自动化容错能力,将小时级故障恢复时间降低至分钟级。

最后,百舸4.0针对机间通信带宽需求,构建了十万卡级的超大规模HPN高性能网络,优化拓扑结构,最终实现了覆盖几十公里的超大规模网络,让带宽有效性达到90%以上。

在通信效率方面,通过领先了拥塞控制算法和集合通信算法,万卡集群完全无阻塞,并通过10ms级别超高精度网络监控,保障了网络的稳定性。

针对多芯混训,百舸4.0更是展现出强大的资源整合能力。

不同地点、不同规模的异构算力,它都能进行统一管理,构建起「多芯资源池」。

当业务提交工作负载时,百舸能智能匹配最优芯片,基于集群的实时剩余资源,动态选择性价比最高的芯片执行任务。

这样一来,能够最大化利用剩余计算资源,实现高达95%的万卡多芯混合训练效能。

在这个国产中,百度自研的AI芯片昆仑芯,也证实了自己独特的技术优势。

可以说,在百舸4.0能力的加持下,昆仑芯展现出了自己的生成式AI时代强大的竞争力。

这种突破性的创新,让花旗银行都为之惊叹。

在其最新研报中,它将百度与DeepSeek并列,认为中国AI企业具备了高效低成本优势,这将加速全球AI技术创新,推动2025年迎来AI应用的重要拐点。

目前,基于百舸4.0,中国石化、中海石油、上交大、生数科技等行业龙头企业和机构在自身业务场景中,为用户提供了更加稳定智能的体验。

AI视频

以生数科技为例,最新Vidu1.5大模型,仅需30秒,就能让一句话变成视频。

提示:小男孩对着镜头笑,眨眼睛,手里握着金色戒指

要知道,视频大模型对算力、模型和数据的要求非常之高,这往往是困扰企业的核心难题。

而Vidu之所以能够生成如此丝滑的视频,背后便依靠的是百舸高效、稳定、混合多芯的能力。

在此过程中,百度百舸·AI异构计算平台为生数科技Vidu大模型提供了系统性、端到端的多模态大模型训练支持。

得益于百舸在LLM训练方面的硬核实力,Vidu训练效率大幅提升,其素材渲染加速效率提升3倍,数据拉取效率提升51倍。

在短时间内,生数科技得以完成了Vidu的上线和开放API。

并且,无论是Vidu的文生视频和图生视频,都保证了高动态性、高逼真度和高一致性效果。

而与生数科技的合作,只是百舸多模态能力的一个缩影。在未来,它还将为千行百业提供强大、可靠的多模态能力。

科研

在与高校上交大合作中,以百度智能云核心能力,「全家桶」解决方案构建了AI for Science科学数据开源开放平台,率先在国内实现GenAI与科研场景的深度融合。

可以说,AI for Science科学数据开源开放平台是百度智能云综合能力的体现。

在算力层,通过百舸端到端优化的异构算力底座,为上交大科研人员提供训练、推理网络的算力优化配置,实现训练和推理加速,大幅提高了研究效率。

教育

另外,百度智能云还为好未来自研的「九章大模型(MathGPT)」提供了关键支撑,推动大模型深入教育场景。

因此,好未来才能快速、方便地创建千卡级别的训推任务集群。

具体来说,百度百舸·AI异构计算平台能实现单集群总量超过500TB,可为训练任务的模型、数据加载提供高性能的数据读取与传输保障,大大提升任务的时效。

面对不同的大模型训练场景,平台还能在运行框架和实践中,从计算效能、显存策略、分布式并行策略等方面进行优化,提升模型训练性能。

LLaMA2系列、GLM系列等多尺寸模型都达到了训练指标,千卡任务加速比保持在90%,模型算力利用率(MFU)60%—70%,在有限的算力条件下,大幅降低了训练时间。

如今,通过功能丰富、性能卓越的百度百舸·AI异构计算平台,「九章大模型(MathGPT)」已经广泛应用于学而思旗舰学习机及多个业务场景中。

不久,我们将会看到更多基于百舸4.0加持万卡集群的AI智能应用崭露头角。

万卡集群点亮,国产AI迎来新时代

前有DeepSeek低价震撼全球,今有百度昆仑芯三代万卡集群点亮。

从此,国产AI价格高、无法稳定应用等难题将一一破除,企业开发应用和产业创新的门槛,再一次被打下来了。

不仅如此,DeepSeek两款最强模型R1和V3同时在千帆ModelBuilder平台上线,R1API价格打骨折,V3调用打3折,堪称全网最低。

而且,百度还提供了2周限时免费服务。

这一极具性价比的优势,正是得益于百度智能云万卡集群的搭建。

image

在AI发展战略上,百度有着清晰的定位,即聚焦基础设施建设。

他们希望帮助更多用户打造属于自己的Sora,创造出无数个超级有用的多模态应用。

这条路线,也获得了市场的认可。

去年1-8月,大模型中标项目数量已经达到2023年全年的5倍,不仅行业覆盖广泛,而且央企国企客户占比超一半。

作为中国骄傲,百度以强大的算力优势和成本效益,为国产AI的发展再次注入新的活力。

中国AI,就是这样擅长花小钱办大事!

从此,不仅是AI行业,整个中国科技界和互联网行业都将迎来全新的发展机遇。