熬夜肝文献综述?抓耳挠腮写论文?别慌!AI2的科研大神们带着他们的最新力作OpenScholar来拯救你了!这款科研效率神器,能让文献综述像逛公园一样轻松愉快!

OpenScholar的最大秘密武器,就是一个叫做OpenScholar-Datastore (OSDS)4.5亿篇开放获取论文,还有2.37亿个文章段落嵌入。有了这么强大的知识储备,OpenScholar才能游刃有余地应对各种科研难题。

当你遇到一个科研问题时,OpenScholar首先会派出它的得力干将——检索器和重新排序器,从OSDS中快速筛选出与你的问题相关的文章段落。接着,一个语言模型 (LM)包含参考文献的完整答案。更厉害的是,OpenScholar还会根据你的自然语言反馈不断改进答案,补充缺失的信息,直到你满意为止。

image

OpenScholar不仅自己很强大,还能帮助训练更小巧、更高效的模型。研究人员利用OpenScholar的流程,生成了海量的高质量训练数据,并用这些数据训练了一个名为OpenScholar-8B的80亿参数语言模型,以及其他检索模型。

为了全面检验OpenScholar的战斗力,研究人员还专门打造了一个名为SCHOLARQABENCH的全新测试擂台。这个擂台上设置了各种各样的科学文献综述任务,包括封闭式分类、多项选择和长篇生成,涵盖了计算机科学、生物医学、物理学和神经科学等多个领域。为了保证比赛的公平公正,SCHOLARQABENCH还采用了多方面评估方法,包括专家评审、自动指标以及用户体验测试。

经过多轮激烈角逐,OpenScholar最终脱颖而出!实验结果表明,它在各项任务中都表现出色,甚至超越了人类专家!这项突破性的成果必将掀起科研领域的一场革命,让科学家们告别文献综述的苦海,专注于探索科学的奥秘!

image

OpenScholar的强大功能主要得益于其独特的自我反馈检索增强推理机制。简单来说,就是它会先自己给自己提问题,然后根据自己的回答不断改进答案,最后再把最完美的答案呈现给你。是不是很神奇?

具体来说,OpenScholar的自我反馈推理过程分为三个步骤:初始答案生成、反馈生成和反馈整合。 首先,语言模型会根据检索到的文章段落生成一个初始答案。接着,它会像一个严厉的考官一样,对自己的答案进行自我批评,找出不足之处,并生成一些自然语言反馈,比如“答案只包含了关于问答任务的实验结果,请补充其他类型任务的结果”。 最后,语言模型会根据这些反馈重新检索相关文献,并整合所有信息,生成一个更加完善的答案。

为了训练更小巧但性能同样强大的模型,研究人员还利用OpenScholar的自我反馈推理流程生成了大量的高质量训练数据。 他们先从数据库中挑选出引用次数最多的论文,然后根据这些论文的摘要生成一些信息查询问题,最后再用OpenScholar的推理流程生成高质量的答案。这些答案和中间生成的反馈信息就构成了宝贵的训练数据。 研究人员将这些数据与现有的通用领域指令微调数据和科学领域指令微调数据混合在一起,训练出了一个名为OpenScholar-8B的80亿参数语言模型。

为了更全面地评估OpenScholar和其他类似模型的性能,研究人员还创建了一个名为SCHOLARQABENCH的全新基准测试。 这个基准测试包含了2967个由专家撰写的文献综述问题,涵盖了计算机科学、物理学、生物医学和神经科学等四个领域。每个问题都有专家撰写的长篇答案,平均每个答案需要专家花费大约一个小时的时间来完成。 SCHOLARQABENCH还采用了一种多方面评估方法,结合了自动指标和人工评估,可以更全面地衡量模型生成答案的质量。

实验结果表明,OpenScholar在SCHOLARQABENCH上的表现远远超过了其他模型,甚至在某些方面超越了人类专家! 例如,在计算机科学领域,OpenScholar-8B的正确率比GPT-4o高出5%,比PaperQA2高出7%。 而且,OpenScholar生成答案的引用准确率也与人类专家不相上下,而GPT-4o则高达78-90%凭空捏造的。

OpenScholar的出现,无疑是科研领域的一大福音!它不仅能帮助科研人员节省大量时间和精力,还能提高文献综述的质量和效率。相信在不久的将来,OpenScholar将会成为科研人员不可或缺的得力助手!

论文地址:https://arxiv.org/pdf/2411.14199

项目地址:https://github.com/AkariAsai/OpenScholar