最近,一项新研究显示,即便是先进的 AI 语言模型,比如 OpenAI最新的 o1-preview,在复杂的规划任务中也显得力不从心。
这项研究是由复旦大学、卡内基梅隆大学、字节跳动和俄亥俄州立大学的科学家们共同进行的,测试了 AI 模型在两个规划基准上的表现:BlocksWorld 和 TravelPlanner。
在 BlocksWorld 这个经典的规划任务中,大多数模型的准确率都低于50%,只有 o1-mini(略低于60%)和 o1-preview(接近100%)的表现相对较好。
然而,当研究者将目光转向更复杂的 TravelPlanner 时,所有模型的表现都令人失望。GPT-4o 的最终成功率仅为7.8%,而 o1-preview 则达到15.6%。其他一些模型如 GPT-4o-Mini、Llama3.1和 Qwen2的得分在0到2.2% 之间。虽然 o1-preview 相较于 GPT-4o 有了提升,但仍然远不及人类的规划能力。
研究者们指出了两个主要问题。首先,模型在整合规则和条件方面表现不佳,导致它们的计划经常违反预设的指导方针。其次,随着规划时间的增加,它们会逐渐失去对原始问题的关注。为了衡量不同输入成分对规划过程的影响,研究团队使用了一种 “排列特征重要性” 方法。
此外,研究团队还测试了两种常见的策略来提升 AI 的规划能力。第一种是使用情节记忆更新,从以往的规划尝试中获取知识,这虽然改善了对约束的理解,但并未导致对单个规则的更详细考虑。第二种是参数记忆更新,通过微调来增强任务对规划的影响,但随着计划的延长,核心问题 —— 影响力减弱 —— 依然存在。这两种方法虽然有所改进,但未能完全解决根本问题。
值得一提的是,研究相关的代码和数据将很快在 GitHub 上公开。
代码入口:https://github.com/hsaest/Agent-Planning-Analysis
划重点:
🌍 研究显示,OpenAI 的 o1-preview 等 AI 模型在复杂旅行规划上表现不佳,GPT-4o 成功率仅7.8%。
📉 大多数模型在 BlocksWorld 中表现尚可,但在 TravelPlanner 上均难以达到理想效果。
🧠 研究发现,模型主要存在对规则的整合不足及随时间推移而失去焦点的问题。