备受瞩目的GPT-5项目(代号Orion)已研发超过18个月,却迟迟未能面世。据《华尔街日报》最新报道,知情人士透露,尽管Orion的表现优于OpenAI现有模型,但其进步幅度尚不足以证明继续投入巨额成本的合理性。更令人担忧的是,全球数据量的匮乏,可能正成为GPT-5迈向更高智能水平的最大障碍。

据称,GPT-5至少经历了两次训练,每次训练都暴露出新的问题,未能达到研究人员的预期。每轮训练耗时数月,仅计算成本就高达5亿美元。这个项目能否成功、何时能成功,目前尚不明朗。

image

训练之路困难重重:数据瓶颈显现

自GPT-4于2023年3月发布后,OpenAI便开始着手GPT-5的开发。通常,AI模型的能力会随着其吸收的数据量增加而增强。训练过程需要海量数据,耗时数月,并依赖于大量昂贵的计算芯片。OpenAI CEO Altman曾透露,仅训练GPT-4的成本就超过1亿美元,而未来AI模型的训练费用预计将突破10亿美元。

为了降低风险,OpenAI通常会先进行小规模的试运行,以验证模型的可行性。然而,GPT-5的开发却从一开始就遭遇了挑战。2023年中期,OpenAI启动了一项名为“Arrakis”的实验性训练,旨在测试GPT-5的新设计。但训练进展缓慢,且成本高昂,实验结果表明GPT-5的开发比原先预期的更加复杂和困难。

因此,OpenAI的研究团队决定对Orion进行一系列技术调整,并意识到现有的公开互联网数据已无法满足模型的需求。为了提升GPT-5的性能,他们迫切需要更多种类和更高质量的数据。

“从零开始创造数据”:应对数据荒

为了应对数据不足的问题,OpenAI决定“从零开始创造数据”。他们雇佣软件工程师和数学家,编写新的软件代码或解决数学问题,让Orion从这些任务中学习。OpenAI还会让这些专家解释他们的工作过程,将人类智慧转化为机器可学习的知识。

许多研究人员认为,代码作为软件的语言,能够帮助大模型解决它们没有见过的问题。Turing公司首席执行官Jonathan Siddharth表示:“我们是在将人类智慧从人脑转移到机器脑。”

OpenAI甚至与理论物理学等领域的专家合作,让他们解释如何解决各自领域中的难题。然而,这种“从头开始创造数据”的方式效率并不高。GPT-4的训练数据约为13万亿个token,即使有1000人每天写作5000字,也需要数月时间才能生产出10亿个token。

为了加速训练,OpenAI也尝试使用AI生成的“合成数据”。但有研究表明,AI生成的数据再用于AI训练的反馈循环,有时会导致模型出错或生成毫无意义的答案。对此,OpenAI科学家认为,通过使用o1生成的数据可以避免这些问题。

内忧外患:OpenAI面临多重挑战

OpenAI不仅面临技术层面的挑战,还面临着内部动荡和竞争对手的挖角。同时,来自技术和资金的双重压力也在增加。每次训练耗资高达5亿美元,而最终的训练成本很可能超过10亿美元。与此同时,Anthropic和谷歌等竞争对手也在纷纷推出新一代模型,试图赶超OpenAI。

人才流失和内部分歧进一步拖慢了开发进度。去年,OpenAI董事会突然解雇了Altman,导致一些研究人员开始质疑公司的未来。虽然Altman很快被重新任命为CEO,并开始改革公司治理结构,但今年以来,包括联合创始人兼首席科学家Ilya Sutskever和技术负责人Mira Murati在内的20多位关键高管、研究人员和长期员工相继离职。

随着Orion项目进展停滞,OpenAI开始开发其他项目和应用,包括简化版的GPT-4和AI视频生成产品Sora。但这导致了不同团队之间争夺有限计算资源的局面,特别是新产品开发团队和Orion研究团队之间发生了激烈竞争。

AI发展瓶颈?行业面临深度思考

GPT-5的困境或许揭示了一个更大的行业命题:AI是否已经接近发展的“瓶颈期”?业内人士指出,依靠海量数据和更大模型的策略正逐渐失效。前OpenAI科学家苏茨克维尔曾表示,“我们只有一个互联网”,数据的增长正在放缓,而这一推动AI飞跃的“化石燃料”正逐渐枯竭。

对于GPT-5的未来,Altman始终未给出明确的时间表。我们仍然无法确定OpenAI何时或者是否会推出一个值得称为GPT-5的模型。这场关于GPT-5的困境,也引发了人们对AI未来发展方向的深度思考。