
AI
在医学、法律等特定领域,这些问题更为显著。比如,一项最新研究显示,向最先进的大型语言模型(LLMs)提出具体法律查询时,法律幻觉现象普遍且堪忧,幻觉率在69% - 88%之间。而且,要使用大量计算资源对LLMs进行特定领域或最新数据的微调,这使得解决幻觉问题难上加难,进而严重妨碍了LLMs在各类实际应用中的广泛应用。近期,为突破相关限制,人们着力于运用检索增强生成(RAG)提升大型语言模型(LLMs)在多种任务中的能力,尤其是像问答(QA)、AI4Science、软件工程这类需要最新且可靠知识的任务。举例来说,Lozano等人推出了一个基于动态检索科学文献的、专门用于科学领域的QA系统;MolReGPT借助RAG强化ChatGPT在分子发现方面的情境学习能力。1所示,基于LLM的对话系统难以很好地回应超出范围的查询。但借助RAG从外部数据源检索相关知识并融入生成过程时,对话系统就能成功为用户提供正确答案。鉴于RAG在推动LLMs发展方面取得了显著进步,当下迫切需要对检索增强型大型语言模型(RA - LLM)的最新进展开展系统性回顾。在语言模型的时代,RAG框架主要有检索、生成、增强这三个主要过程,还有判断是否检索的机制。对于来自大型语言模型(LLMs)输入的查询,RAG(检索增强生成)中的检索过程是要从外部知识源(开源或闭源,2所示)获取相关信息。检索器这个关键组件(详见图3)包含若干程序,它从整体上衡量查询与数据库文档的相关性,从而实现高效信息检索。检索的具体流程与是否有预检索和后检索过程有关。本小节将介绍传统和基于LLM的RAG在检索方面涉及的主要技术,如检索器类型、检索粒度、预检索和后检索增强以及数据库构建。
相比而言,密集检索把查询与外部知识嵌入向量空间,能轻松应用于多种数据格式。与之相反,密集检索会按照特定标准(如语义相似性)把查询和文档嵌入连续向量空间。由于密集检索方法大多可被训练,所以在适应性方面更灵活、更具潜力。嵌入模型作为密集检索器的核心部分,在现有的RAG模型里有着精心设计且各有不同。

ChatGPT
图3呈现的是RA - LLMs中的检索器,其可以通过密集型或者稀疏型的方式来实现,这两种方式都有若干关键操作。单编码器检索器一般借助对比学习在大规模的未对齐文档上开展预训练工作,所以在多功能性方面有着不错的表现,这表明其能在新的领域或者任务中更好地迁移和泛化。像Contriever和Spider这类通用的预训练检索器,在各种各样任务的LLMs里使用起来更加灵活,而且在许多RA - LLM方法中,像In - Context RALM、Atlas、Self - RAG等,都被证明是有效的。根据现有研究的实验成果,在开放域问答任务里,将未经微调的通用预训练检索器(Contriever)与InstructGPT配合使用,其性能和稀疏检索器(BM25)是相当的。不过,它们都比不上针对目标数据集进行微调后的DPR模型,这体现出针对特定任务和数据进行微调是有效的。2.2.1.2检索粒度检索粒度说的是在对索引语料库进行检索时的单位,像文档、段落、token或者其他诸如实体这样的级别。对于RAG而言,检索粒度的选择会对模型在有效性和效率方面的整体性能产生显著的影响,因为它们决定了数据库的存储空间以及搜索的计算成本。
按照训练策略,论文把这些基于训练的方法归为三类。
独立训练是把检索器和大型语言模型(LLMs)当作两个完全独立的训练过程来训练,在训练时检索器和LLMs没有交互。和无需训练的方法比起来,通过训练LLMs以利用检索到的知识,或者训练检索器来弥补信息检索和语言生成之间的差距,这样RAG赋能模型的性能能有效提高。LLMs的训练中,负对数似然损失是最具代表性的训练目标,它的目的是引导LLMs依据给定输入生成期望的输出。检索器可分为两类:独立训练是一种行之有效的方法,它能够在生成过程中运用外部知识。这是因为检索器和生成器可离线训练,还能使用任何现有的模型,从而避免产生额外的训练成本。为了进一步强化检索器与生成器之间的协同效果,人们已经提出了若干种按顺序训练检索器和大型语言模型(LLMs)的方法。在这些顺序训练方法里,通常会先对检索器或者生成器进行独立的预训练,之后将预训练好的模块固定,再对另一个模块进行训练。需要注意的是,像BERT、CLIP、T5等多种现有的模型能够直接被用作固定的检索器和生成器,这样就可以跳过首次预训练的步骤。与独立训练不同,顺序训练需要对检索器和生成器进行协同训练,在这个过程中可训练模块能够从固定模块那里获得助力。按照检索器和生成器之间的训练先后顺序,顺序训练可分为两类:一是检索器优先,二是LLMs优先。
图4是检索增强型大型语言模型(RA - LLMs)不同训练方法的示意图。RA - LLMs现有方法可分两大类:训练无关方法在推理时直接用检索信息,把检索知识整合进提示;基于训练的方法会微调检索器和生成器来提升性能。基于训练的方法按训练策略还能再分三组:独立训练,即检索器和生成器组件分开训练;顺序训练,按顺序训练二者;联合训练,二者同时训练。这些方法先训练检索模型并固定它,接着用检索到的知识对大型语言模型(LLMs)进行训练,像这样。
论文标题:关于检索增强生成(RAG)与大型语言模型(LLMs)的综述:迈向检索增强的大型语言模型论文链接:https://arxiv.org/pdf/2405.06211。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号