信息差

Meta新型Dualformer模型：借鉴人脑思维模式，融合快慢思考，推理能力实现显著增强

Meta 的 FAIR 团队最近推出了一款名为 Dualformer 的全新 Transformer 模型，该模型模仿人类的双重认知系统，能够无缝整合快速和慢速推理模式，在推理能力和计算效率上取得了显著突破。

人类的思维过程通常被认为是由两种系统控制的:系统1快速直观，系统2则更慢但更具逻辑性。

传统的 Transformer 模型通常只模拟了系统1或系统2中的一种，导致模型要么速度快但推理能力差，要么推理能力强但速度慢且计算成本高。

Dualformer 的创新之处在于其训练方式。研究人员利用随机推理轨迹对模型进行训练，在训练过程中随机丢弃轨迹的不同部分，类似于分析人类思维过程并创建捷径。这种训练策略使 Dualformer 能够在推理时灵活切换不同的模式:

快速模式:Dualformer 只输出最终解决方案，速度极快。

慢速模式:Dualformer 会输出完整的推理链和最终解决方案，推理能力更强。

自动模式:Dualformer 可以根据任务的复杂程度自动选择合适的模式。

实验结果表明，Dualformer 在迷宫导航和数学问题求解等任务上表现出色。在慢速模式下，Dualformer 能够以97.6% 的成功率解决30x30的迷宫导航任务，超越了只使用完整推理轨迹训练的 Searchformer 模型，同时推理步骤减少了45.5%。

在快速模式下，Dualformer 的成功率也高达80%，远高于只使用最终解决方案训练的 Solution-Only 模型。在自动模式下，Dualformer 则能够在保持高成功率的同时，显著减少推理步骤。

Dualformer 的成功表明，将人类认知理论应用于人工智能模型设计能够有效提升模型的性能。这种融合快慢思维的模式为构建更强大、更高效的 AI 系统提供了新的思路。

论文地址：https://arxiv.org/pdf/2410.09918

如果觉得文章对你有用，请随意赞赏

快讯

Meta新型Dualformer模型：借鉴人脑思维模式，融合快慢思考，推理能力实现显著增强

破晓

2024-10-17

2024-10-17

CC BY 4.0