在宾夕法尼亚大学,有位数学教授 Robert Ghrist 正在与一款名为 GPT-o1-mini 的 AI 模型展开一场有趣的 “智力对决”。这位教授在努力推导出一个更复杂的瓶颈对偶定理的推广时,经历了无数次的乐观与沮丧的交替。

Ghrist 曾尝试使用多个知名的 AI 模型,包括 GPT-4、Claude-3.5和 Gemini-1.5-Pro。这些模型虽然能做出一些假设并提供证据,但常常因一些微妙的错误而 “翻车”,这让 Ghrist 感到颇为挫败。最终,他与 OpenAI 的 GPT-o1-mini 模型携手,取得了突破。这个模型不仅分析了一个有缺陷的证明,找出了错误,还在短短43秒内生成了一个 “全新且巧妙的正确证明”,其优雅程度竟超过了人类的版本。

image

图源备注:图片由AI生成,图片授权服务商Midjourney

GPT-o1-mini 在逻辑任务中表现出色,采用了连锁思维技术,虽然它在逻辑和规划基准测试中超越了传统语言模型,但仍旧存在错误的可能性。Ghrist 对这次经历的总结是:“结果正好处于大型语言模型(LLM)能否证明的边界上。” 他解释说,识别模型的失败模式是这次实验的关键。

尽管获得了成功,Ghrist 也坦承,使用 AI 的过程并不一定比全靠自己来得更快。他甚至表示,依靠这些模型的帮助,最终的论文效果反而更佳。他的论文中还附上了一个附录,详细记录了 AI 模型在成果中的作用。

不过,事情并非总是一帆风顺。就在论文发表后不久,另一位数学家 Sridhar Ramesh 在社交媒体上指出,其实这个证明可以通过 Birkhoff 的一个定理轻松完成,这让 Ghrist 颇感意外。他幽默地承认道:“人类获胜了……” 这次与 AI 的合作,虽然收获了成果,但也让他意识到,有时候人类的智慧才是最有效的解决方案。