虽然当下的LLM在多数场景下的常识问答中表现优异,但在学术领域,传统的谷歌搜索和谷歌学术依然占据主导地位。为了填补这一领域的空白,华盛顿大学NPL实验室和Ai2、Meta等机构联手开发了专门服务于科研人员的学术搜索工具——OpenScholar。
OpenScholar本质上是一个经过检索增强的语言模型,它外接了一个包含4500万篇论文的数据库。其性能可以优于专有系统,甚至媲类专家。为了方便评估,团队还推出了一款全新的大规模基准ScholarQABench,覆盖了CS、生物、物理等多个学科。
OpenScholar的独特之处在于其开源策略的完善无缺。它不仅公开了训练数据、代码和模型检查点,还包括了ScholarQABench的全部数据以及用于专家评估的自动化脚本。这无疑为学术界和工业界提供了一个强大的工具。
仓库地址如下:
huggingface.co/collections/OpenScholar/openscholar-v1-67376a89f6a80f448da411a6
值得一提的是,论文开头就给出了详细的网址链接,为读者提供了极大的便利。团队还构建了一个公开可用的搜索demo,该demo基于一个参数量为8B的语言模型,综合了超过100万篇CS领域的专业文献。
对于OpenScholar的介绍如下:
OpenScholar的核心在于其推理流程和模型设计。它通过检索增强技术,从庞大的数据库中检索出与输入查询相关的段落,作为下一步的上下文。然后,负责生成的语言模型根据这些段落和输入查询产生输出。
在模型训练方面,OpenScholar采用了自反馈检索增强推理的方法,以提高可靠性和引用准确性。为了确保训练数据的多样性和质量,团队还引入了数据过滤步骤。
在基准评估方面,ScholarQABench旨在评估模型理解和综合现有研究的能力。该基准涵盖了多个学科,并引入了多方面的评估方案,以确保评估的稳健和可重复性。
经过严格的评估,OpenScholar在多篇论文的任务中均表现出色,大大优于GPT-4o和其他的文献综述系统。特别是在没有检索增强的情况下,OpenScholar依然能够生成较为准确的输出,这表明其在没有外部数据源的情况下依然具有强大的生成能力。
尽管OpenScholar在许多方面都表现出色,但仍存在一些局限性。例如,在数据标注和论文出处查找方面还存在一定的挑战。虽然OpenScholar在多个学科领域都进行了评估,但仍需进一步扩大其应用范围和评估规模。