谷歌 DeepMind 研究实验室最新推出的 AI 系统 AlphaGeometry2,在解决几何问题方面表现出色,超越了国际数学奥林匹克(IMO)比赛中的平均金牌得主。该系统被认为是 AlphaGeometry 的改进版本,研究人员表示,AlphaGeometry2能够解决过去25年 IMO 中84% 的几何问题。
为什么 DeepMind 会关注这样的高中数学竞赛呢?他们认为,寻找解决复杂几何问题的新方法,特别是欧几里得几何,可能是提升 AI 能力的关键。证明数学定理或解释定理(如勾股定理)为何成立,需要逻辑推理和选择多个可能步骤的能力。如果 DeepMind 的理论成立,这些问题解决能力将对未来的通用 AI 模型非常重要。
今年夏天,DeepMind 展示了结合了 AlphaGeometry2与数学推理 AI 模型 AlphaProof 的系统,该系统在2024年 IMO 的六个问题中解决了四个。除了几何问题,这种方法还可以扩展到其他数学和科学领域,例如复杂的工程计算。
AlphaGeometry2的核心组成部分包括来自谷歌 Gemini 系列的语言模型和一个 “符号引擎”。Gemini 模型帮助符号引擎通过数学规则推导出问题的可行解。IMO 的几何问题通常基于需要添加 “构造” 的图形,例如点、线或圆。AlphaGeometry2的 Gemini 模型能够预测哪些构造可能对解决问题有帮助。
值得注意的是,AlphaGeometry2在解决 IMO 问题时,使用了 DeepMind 自己生成的超过3亿个定理和证明的合成数据进行训练。研究团队选择了过去25年中 IMO 的45个几何问题,并进行了扩展,最终形成了50个问题集。AlphaGeometry2成功解决了其中的42个,超越了金牌得主的平均得分。
不过,AlphaGeometry2仍存在一些局限性,例如它无法解决具有可变数量点、非线性方程和不等式的问题。尽管如此,这项研究仍然引发了关于 AI 系统应该基于符号操作还是神经网络的讨论。AlphaGeometry2采用了一种混合方法,结合了神经网络和基于规则的符号引擎。
AlphaGeometry2的成功为通用 AI 的未来发展提供了新的方向。尽管目前尚未完全自给自足,但 DeepMind 团队的研究表明,未来可能会有更多自足的 AI 模型问世。
论文入口:https://arxiv.org/pdf/2502.03544
划重点:
📊 AlphaGeometry2能够解决过去25年 IMO 中84% 的几何问题,超越了金牌得主的平均得分。
🔍 该系统结合了神经网络和符号引擎,采用混合方法解决复杂数学问题。
📈 DeepMind 希望通过解决几何问题,推动更强大通用 AI 的研究进展。