信息差

研究揭示：AI语音模型擅长归纳推理，演绎任务遇挑战

最近，加州大学洛杉矶分校和亚马逊的研究人员对大型语言模型（LLMs）的推理能力进行了深入分析。他们首次系统地区分了归纳推理和演绎推理这两种能力，探讨了这两者对 AI 系统的挑战程度。

图源备注：图片由AI生成，图片授权服务商Midjourney

归纳推理是指从具体的观察中推导出一般性规律，而演绎推理则是将一般规则应用于特定案例。研究的目的是了解哪种推理能力对大型语言模型来说更具挑战性。为此，研究团队开发了一种新的方法，称为 “SolverLearner”。这种方法使得模型通过少量示例学习一种函数，将输入映射到输出。接着，外部程序使用这个函数，从而避免与演绎推理混淆。

研究结果显示，像 GPT-4这样的语言模型在归纳推理方面表现相当出色，使用 “SolverLearner” 方法的情况下，准确率几乎达到100%。不过，在演绎推理，尤其是 “反事实” 任务上，模型们就显得力不从心了。例如，模型在十进制的算术任务上表现良好，但在其他数字系统的计算中就遇到了困难。此外，模型在分析一些词序不寻常或空间取向改变的句子时，也显得不够灵活。

研究人员总结道，演绎推理对于当前的 LLMs 来说是一大挑战。正确应用已学的规则，往往取决于这些任务在训练过程中的出现频率。尽管使用了如链式思维等提示方法，能够稍微提高模型的演绎推理能力，但效果仍然不够理想。值得一提的是，最近发布的 OpenAI 新模型 o1并未参与此次测试。

另一项由俄亥俄州立大学和卡内基梅隆大学的研究人员进行的研究，考察了 Transformer 模型的逻辑推理能力。他们研究模型是否可以通过 “grokking” 来获取隐含推论的能力，特别是在组合和比较任务中。

结果显示，这些模型确实可以在经过长时间训练后获得隐含推论的能力，但只有在比较任务中能够对未见过的示例进行泛化。研究人员指出，这种差异与所学电路的内部结构有关，并建议对 Transformer 架构进行调整，以期望在初步实验中实现质量提升。

划重点:

🌟 LLMs 在归纳推理方面表现出色，准确率接近100%。

🧩 演绎推理依然是个挑战，尤其在处理反事实任务时。

🔍 另一项研究显示，Transformer 模型在组合任务中能够获得隐含推论能力，但泛化能力有限。

如果觉得文章对你有用，请随意赞赏

快讯

研究揭示：AI语音模型擅长归纳推理，演绎任务遇挑战

https://soraor.com/archives/ai-today_20240924145328

作者

破晓

发布于

2024-09-24

更新于

2024-09-24

许可协议

CC BY 4.0