声明:本文来自于量子位 | 公众号 QbitAI,作者:衡宇,授权Soraor转载发布。

一笔近5个亿新融资,投向AI大模型领域。

量子位独家获悉,清华系AI创业公司无问芯穹完成了近5亿元A轮融资。加码的股东阵容很全、很豪华:

一口气新增15家股东,涵盖北京上海等地的国资/地方基金,顺为资本/达晨财智等市场化头部VC,还有券商直投和产业CVC。

至此,这家成立1年零4个月的创业公司,已经累计融资近10亿元。

该公司没有透露最新估值。但更具风向意义的是,据统计,这已经是目前国内大模型赛道累计融资额最高的AI Infra公司。

没有之一。

那么,问题来了——如此吸金的AI创业公司,是怎么炼成的?

无问芯穹联合创始人、CEO夏立雪,在对话中给出了答案。

去年5月31日,无问芯穹成立。

但这家公司在AI领域积淀的开端远在这一天之前。

准确来说,团队生根于清华NICS-EFC实验室。该实验室成立于2008年,全称“Nanoscale Integrated Circuits and System Lab, Energy Efficient Computing Group”,专注于电子工程领域。

该实验室的领导者,正是无问芯穹的发起人、也是这家公司的灵魂人物:清华电子系系主任——汪玉。

夏立雪是汪玉的学生,是汪玉做博导后带的博士;联合创始人、CTO颜深根同为清华人,现在是电子工程系副研究员,曾任商汤科技数据与计算平台部执行研究总监,带队搭建过万卡集群。

联合创始团队中的另一位重要成员,首席科学家、上海交通大学长聘教轨副教授戴国浩,当初也是从清华电子系拿下学士及博士学位。

怎么说呢,这个阵容,就真的很清华(电子)。

这几人带队,在无问芯穹组建了150多人的队伍,其中100多人专注于AI大模型软硬件技术研发。

此谓人和。

咱们再继续来说清华NICS-EFC实验室。

往前看,2016年时,这个实验室成功孵化出AI芯片公司深鉴科技,两年后,深鉴被全球最大的FPGA(可编程芯片)厂商赛灵思以3亿美元收购。

深鉴科技走的路线是从算法等软件层面提升芯片效率,而其“发源地”NICS-EFC实验室,一直有另一条不同的路线:

协同软硬件,做联合优化。

夏立雪说,这条路线的价值在AI1.0时代很受掣肘。

因为泛化能力不足,每个小场景都需要量体裁衣般单独优化,需要一个特定的模型。

不过,2022年底,ChatGPT问世,大模型时代即AI2.0时代轰轰烈烈开始了。

“大模型的出现是一个重要转折点,因为它能用相同的模型来支持不同的场景。”夏立雪解释道,“这样一来,我们之前积累的经验和技术只需进行一次优化,就能解决多个场景的需求。”

与此同时,AI2.0也给AI Infra层带来了更大的未来价值。

现在,可能只需付出20%的努力,就能支撑80%的场景。

大模型时代的到来,无疑给无问芯穹的成立和后续发展带来了“天时”。

而无问芯穹之所以备受市场看好,除了上述的人和、天时,地利也不可或缺。

当下的形势,外部算力入口变细,而国内芯片仍处于成长期。

不完全统计,宣布拥有千卡规模的中国算力集群已不少于100个,绝大部分集群已经或正在从同构转向异构。

现在国内的算力有种好像既供大于求,又供小于求。

算力中心不知道该卖给谁,同时很多人又需要使用已经被产品化的“电”来做各种事情的。

骨感而特殊的本地需求,迫切呼唤有人能把不同厂商的异构芯片资源整合起来,发挥出最高效率。

于是此次宣布的A轮、四种资方入股的投资,也算是无问芯穹做这件事的底气所在。

无问芯穹自己算了一笔账,提出了一个AI模型算力公式:

芯片算力 × 优化系数(软硬协同)× 集群规模(多元异构)= AI模型算力

image

这个公式有三个影响因子:

芯片算力:指单芯片的理论算力,可以用单位能量的乘法计算数量来衡量。

优化系数:指在单芯片算力有限的情况下,无问芯穹通过软硬件联合优化,提升芯片算力的利用效率,让单芯片在任务上发挥出更大价值。

集群规模:指无问芯穹通过多元异构算力适配技术,唤醒更多沉睡算力,扩大行业可用的整体算力规模。

这一公式最终结果,代表着国内能够支撑的AI的体量。具体的值的意义,远不如其所提供的一种认知,即软硬件协同设计与多元异构适配,能够在产业链中提供何等价值。

算力市场空间之广阔有目共睹,理所当然的,背后的技术层栈要求也很高。

无问芯穹要实现模型与算力垂直打通,决心打造全栈技术能力。

image

为什么要做技术全栈?

首先,无问芯穹自问能做好。

从上层模型应用到底层算力硬件,能拆出好几个层次来,包括集群层面、模型任务优化层面、框架层面、算子层面、硬件定制化和优化层面。

夏立雪分享到,过去一年里,团队已经积累了100多位技术成员,“我们是国内除大厂外,唯一具备全栈技术能力的团队。”

其次,全栈技术有助于提供产品化服务。

具体案例是无问芯穹在今年发布的Infini-AI异构云平台。

它集成了全球首个支持单任务千卡规模异构芯片混合训练平台,具备万卡扩展性,支持包括AMD、华为异腾、 天数智芯、沐曦、摩尔线程、NVIDIA这6种芯片在内的大模型混训,可一键发起700亿参数大模型训练。

向上直接对接各种集群,向下让做模型和用模型的人简简单单就能用起来,打通中间层,这就是无问芯穹最主要的差异点。

这一思路还体现在无问芯穹的核心理念上。

自创业之初,“MxN”就是他们的核心理念。

什么是“MxN”?就是打破不同芯片不同模型的阻隔,通过软硬件协同优化的手段,实现M种模型和N种芯片的整合统一。

展开来说,是通过提供高效整合异构算力资源的好用算力平台,以及支持软硬件联合优化与加速的中间件,来达到大幅提升主流硬件和异构硬件利用率的目的。

打造一个AI原生的基础设施,适应多模型、多芯片格局,最终让异构芯片的算力表现媲美(甚至超过)英伟达。

值得注意的是,无问芯穹很早就喊出了自己的目标:

实现大模型落地成本10000倍下降。

据了解,无问芯穹基本已经做到了1000倍下降。这1000倍是针对大模型,结合了在算法层、硬件层、软件层多个层次的联合优化。

也正是因为做了跨层次联合优化,才能产生“化学效应”,实现在模型层做压缩,对应的在硬件层真实实现这些压缩的加速算子。

不过,千倍和万倍看上去只有一个“0”的差异,但并非多走几步就能达成。

夏立雪表示:“我们已经实现了较深层次的软硬协同,再往‘万倍成本下降’会涉及到硬件,也就是说,若要实现模型与硬件的深度耦合,必须对硬件结构进行相应的调整。”

所以,真正迈向成本万倍下降,需要与芯片厂商共同在终端应用场景中探索并设计适应新需求的芯片结构。这不仅仅是一个理论上的构想,还需要真正投入到新芯片的设计和流片过程中。

这无疑是一个巨大的项目。

对此,无问芯穹表示,A轮融资所得款项中,有一部分将专门用于探索端上模型与端芯片的融合落地项目。

在商业模式上,无问芯穹没有走最常见的软件付费模式。

而是选择了成为一个“淘宝”。

做智算领域的运营商,把软件直接嫁接在各种集群的硬件基础之上,卖tokens。

国内AI大模型领域头部梯队的许多熟面孔,譬如智谱AI、Kimi、生数等,都是它的客户。

从这个角度讲,无问芯穹已经初步搞定了在技术能力、产品能力、业务能力和商业模式的验证。

下一步,无问芯穹的选择是进行规模扩展。