随着人工智能技术的发展,多智能体系统在各个领域的复杂任务处理能力越来越强。这些系统由多个专门的智能体组成,它们通过合作各自发挥特长,共同达成目标。这样的协作在复杂推理、编程、药物发现和安全保证等方面表现出色,因为智能体之间的结构化互动不仅提高了解决问题的效率,还可以相互校正,从而改进各自的输出。研究表明,这种协作方式在需要严格推理或事实验证的任务中,往往优于单一智能体的表现。
然而,优化多智能体系统仍面临重大挑战。一个主要问题是如何为每个智能体获得合适的训练信号。尽管可以获得任务级别的奖励反馈,但如何在各个智能体之间进行信用分配却变得模糊。由于语言模型的推理过程复杂且无结构,如何将成功或失败归因于每个智能体的具体决策和推理步骤变得更加困难,这与强化学习中的多智能体信用分配问题类似。
为了解决这一问题,斯坦福大学的研究人员推出了 SIRIUS 框架,这是一种自我改进的多智能体优化框架,利用推理驱动的学习。SIRIUS 通过保留成功的推理轨迹构建经验库,提供高质量的训练集。同时,对于不成功的尝试进行增强,丰富数据集。研究结果显示,SIRIUS 在推理和生物医学问答方面的表现提高了2.86% 到21.88%,并改善了竞争环境中的智能体谈判能力。智能体通过学习成功的互动,迭代改进合作策略,从而实现了无需直接监督的自我优化。
SIRIUS 框架还包括一个迭代微调的过程,智能体在一个自然语言环境中互动,生成响应、评估响应、改进低质量输出,并通过监督学习更新策略。通过持续的响应优化,SIRIUS 提升了语言基础多智能体系统中的推理和决策能力,随着时间的推移,实现了更加有效和连贯的互动。
在实验中,SIRIUS 与多种基线模型进行了比较,包括单智能体、STaR、CoMM 和 TextGrad。结果显示,SIRIUS 在问题解决、任务分解和智能体协作方面均表现优异。通过消融研究发现,专门的智能体角色、多智能体优化以及经验增强是提升性能的关键因素。SIRIUS 在演员 - 评论家和竞争环境中也表现出色,在 PubMedQA 和资源交换游戏等任务中均优于其他方法。
综上所述,SIRIUS 是一个旨在通过学习成功互动和改进失败案例来优化多智能体系统的框架。它构建了一个包含高质量推理步骤的经验库,作为系统优化的训练集,同时通过增强不成功的轨迹来丰富库的内容。这一框架显著提高了推理、生物医学问答和智能体谈判能力,推动了多智能体协作的持续自我改进。
论文:https://arxiv.org/pdf/2502.04780
划重点:
🌟 SIRIUS 框架通过自我改进和学习成功经验,优化多智能体系统的性能。
📈 研究表明,SIRIUS 在推理和生物医学问答等任务中,性能提升达2.86% 到21.88%。
🤝 多智能体之间的互动和经验库的构建是 SIRIUS 优化过程的核心,助力智能体在复杂任务中更有效合作。