近日,谷歌 DeepMind 开发的一款 AI 系统 ——AlphaGeometry2,成功超越了国际数学奥林匹克(IMO)金牌选手的平均水平,在几何问题解答上表现优异。AlphaGeometry2是 DeepMind 在去年发布的 AlphaGeometry 系统的升级版,研究团队在最新的研究中指出,该系统能解决过去25年间 IMO 的84% 几何问题。
那么,为什么 DeepMind 会关注这样一个高中的数学竞赛呢?研究人员认为,解决复杂几何问题的新方法可能是提升 AI 能力的关键,尤其是在欧几里得几何方面。证明数学定理需要推理能力和选择合适解决步骤的能力,DeepMind 相信这些问题解决能力可能对未来通用 AI 模型的发展至关重要。
图源备注:图片由AI生成,图片授权服务商Midjourney
今年夏天,DeepMind 还展示了一种结合了 AlphaGeometry2与 AlphaProof(一个用于正式数学推理的 AI 模型)的系统,这个系统在2024年 IMO 的预选赛中解决了六道题中的四道。除了几何问题,这种方法还可能扩展到数学和科学的其他领域,甚至能够帮助处理复杂的工程计算。
AlphaGeometry2的核心包括来自谷歌 Gemini 家族的语言模型和一个 “符号引擎”。Gemini 模型帮助符号引擎利用数学规则推导出问题的解决方案。其工作流程是:Gemini 模型预测哪些构造(如点、线、圆)可能对解题有帮助,然后符号引擎根据这些构造进行逻辑推理。经过一系列复杂的搜索,AlphaGeometry2能够将 Gemini 模型的建议与已知原则结合,从而得出证明。
尽管 AlphaGeometry2在解决 IMO 的50道问题中成功解答了42道,超越了金牌选手的平均得分,但仍有一些局限性,比如无法解决变量数量不定的点、非线性方程和不等式。此外,在一些更难的题目上,AlphaGeometry2的表现并不理想,仅解决了29道题中20道。
这项研究再次引发了关于 AI 系统究竟应该基于符号操作还是更类脑的神经网络的讨论。AlphaGeometry2采用的是一种混合方法,结合了神经网络和基于规则的符号引擎。DeepMind 的团队指出,虽然大型语言模型可能在没有外部工具的情况下生成部分解决方案,但在当前情况下,符号引擎仍然是数学应用中的重要工具。