在2022年全球生成式 AI 浪潮的背景下,元始智能(RWKV)于2023年12月完成数千万人民币的天使轮融资,由天际资本投资。此次融资后,公司估值翻倍,资金将用于团队扩展、新架构研发及产品商业化。
RWKV 的出现,是对传统 Transformer 架构的一次有力挑战。随着大语言模型(LLM)的发展,虽然模型的参数规模日益庞大,但其在幻觉和准确率等问题上的短板始终难以解决。因此,RWKV 的创始团队决定探索一种全新的架构,以期实现更高的效率和灵活性。
RWKV 的设计理念与 Transformer 截然不同。联合创始人罗璇表示,传统的 Transformer 模型每次生成一个 Token 时,都需要重新 “读取” 前文,而 RWKV 则不需要记录每个 Token 的状态,从而显著降低计算量。RWKV 通过结合 RNN(循环神经网络)的优点,实现了在效率和语言建模能力上的突破。
这一创新架构的优势在于,RWKV 能够在有限的状态空间中处理信息,通过强化学习方法,模型能够自动判断何时需要回顾前文,从而提升其记忆能力。相较于传统模型,RWKV 在多项基准测试中表现优越,证明其在语言学习效率上的提升。
目前,RWKV 已经完成了从0.1B 到14B 的模型训练,且在海外社区发布了32B 的预览模型。在未来,元始智能计划在2025年推出70B 及以上参数的 RWKV-7,并探索新型推理框架和芯片,以进一步提升模型性能。
在业务方面,RWKV 不仅提供开源项目,还积极进行商业化布局,涉及 AI 音乐生成及与企业的合作,已与国家电网等多家企业达成合作。随着技术的发展和商业化的推进,RWKV 力争成为大模型领域的 “安卓和 Linux”。