LLM领域RAG理论可解但实际未解决的问题

1个回答

147842

2026-02-11 10:35

给众多任务带来极大方便。在AI生成内容（AIGC）的时代，RAG强大的检索能力在提供额外知识方面表现突出，可辅助现有的生成式AI产出高质量成果。近期，大型语言模型（LLMs）虽在语言理解与生成上展现出变革性能力，却存在固有局限，像产生幻觉、内部知识陈旧等问题。由于RAG在提供最新且有用的辅助信息方面能力很强，检索增强的大型语言模型应运而生，这类模型借助外部权威知识库而非仅依靠自身内部知识，来提升LLMs的生成质量。近期，人们愈发努力去减轻大型语言模型（LLMs）存在的诸如产生幻觉、内部知识过时等局限性。方法是借助检索来提供最新的辅助信息，并且教导LLMs运用检索到的外部知识。随着检索增强大型语言模型（RA - LLMs）迅速发展，急需一份全面且系统的概述。为此，本文从架构、训练策略以及应用这几个方面对RA - LLMs进行了全方位回顾，让研究人员能深入理解。另外，鉴于RA - LLMs的研究还处在早期阶段，论文也探讨了当前的局限之处以及未来研究的若干潜在方向。

在医学、法律等特定领域，这些问题更为显著。比如，一项最新研究显示，向最先进的大型语言模型（LLMs）提出具体法律查询时，法律幻觉现象普遍且堪忧，幻觉率在69% - 88%之间。而且，要使用大量计算资源对LLMs进行特定领域或最新数据的微调，这使得解决幻觉问题难上加难，进而严重妨碍了LLMs在各类实际应用中的广泛应用。近期，为突破相关限制，人们着力于运用检索增强生成（RAG）提升大型语言模型（LLMs）在多种任务中的能力，尤其是像问答（QA）、AI4Science、软件工程这类需要最新且可靠知识的任务。举例来说，Lozano等人推出了一个基于动态检索科学文献的、专门用于科学领域的QA系统；MolReGPT借助RAG强化ChatGPT在分子发现方面的情境学习能力。1所示，基于LLM的对话系统难以很好地回应超出范围的查询。但借助RAG从外部数据源检索相关知识并融入生成过程时，对话系统就能成功为用户提供正确答案。鉴于RAG在推动LLMs发展方面取得了显著进步，当下迫切需要对检索增强型大型语言模型（RA - LLM）的最新进展开展系统性回顾。在语言模型的时代，RAG框架主要有检索、生成、增强这三个主要过程，还有判断是否检索的机制。对于来自大型语言模型（LLMs）输入的查询，RAG（检索增强生成）中的检索过程是要从外部知识源（开源或闭源，2所示）获取相关信息。检索器这个关键组件（详见图3）包含若干程序，它从整体上衡量查询与数据库文档的相关性，从而实现高效信息检索。检索的具体流程与是否有预检索和后检索过程有关。本小节将介绍传统和基于LLM的RAG在检索方面涉及的主要技术，如检索器类型、检索粒度、预检索和后检索增强以及数据库构建。

相比而言，密集检索把查询与外部知识嵌入向量空间，能轻松应用于多种数据格式。与之相反，密集检索会按照特定标准（如语义相似性）把查询和文档嵌入连续向量空间。由于密集检索方法大多可被训练，所以在适应性方面更灵活、更具潜力。嵌入模型作为密集检索器的核心部分，在现有的RAG模型里有着精心设计且各有不同。

ChatGPT
ChatGPT

图2是特定QA任务的检索增强大型语言模型（RA - LLMs）框架示意图，它有检索、增强、生成这三个主要组件。检索环节的设计多样，可选择包含预检索和后检索步骤。检索到的文档会被增强模块用于生成，而增强模块的设计会因在生成模型中的集成阶段不同而存在差异。

图3呈现的是RA - LLMs中的检索器，其可以通过密集型或者稀疏型的方式来实现，这两种方式都有若干关键操作。单编码器检索器一般借助对比学习在大规模的未对齐文档上开展预训练工作，所以在多功能性方面有着不错的表现，这表明其能在新的领域或者任务中更好地迁移和泛化。像Contriever和Spider这类通用的预训练检索器，在各种各样任务的LLMs里使用起来更加灵活，而且在许多RA - LLM方法中，像In - Context RALM、Atlas、Self - RAG等，都被证明是有效的。根据现有研究的实验成果，在开放域问答任务里，将未经微调的通用预训练检索器（Contriever）与InstructGPT配合使用，其性能和稀疏检索器（BM25）是相当的。不过，它们都比不上针对目标数据集进行微调后的DPR模型，这体现出针对特定任务和数据进行微调是有效的。2.2.1.2检索粒度检索粒度说的是在对索引语料库进行检索时的单位，像文档、段落、token或者其他诸如实体这样的级别。对于RAG而言，检索粒度的选择会对模型在有效性和效率方面的整体性能产生显著的影响，因为它们决定了数据库的存储空间以及搜索的计算成本。

按照训练策略，论文把这些基于训练的方法归为三类。

独立训练是把检索器和大型语言模型（LLMs）当作两个完全独立的训练过程来训练，在训练时检索器和LLMs没有交互。和无需训练的方法比起来，通过训练LLMs以利用检索到的知识，或者训练检索器来弥补信息检索和语言生成之间的差距，这样RAG赋能模型的性能能有效提高。LLMs的训练中，负对数似然损失是最具代表性的训练目标，它的目的是引导LLMs依据给定输入生成期望的输出。检索器可分为两类：独立训练是一种行之有效的方法，它能够在生成过程中运用外部知识。这是因为检索器和生成器可离线训练，还能使用任何现有的模型，从而避免产生额外的训练成本。为了进一步强化检索器与生成器之间的协同效果，人们已经提出了若干种按顺序训练检索器和大型语言模型（LLMs）的方法。在这些顺序训练方法里，通常会先对检索器或者生成器进行独立的预训练，之后将预训练好的模块固定，再对另一个模块进行训练。需要注意的是，像BERT、CLIP、T5等多种现有的模型能够直接被用作固定的检索器和生成器，这样就可以跳过首次预训练的步骤。与独立训练不同，顺序训练需要对检索器和生成器进行协同训练，在这个过程中可训练模块能够从固定模块那里获得助力。按照检索器和生成器之间的训练先后顺序，顺序训练可分为两类：一是检索器优先，二是LLMs优先。

图4是检索增强型大型语言模型（RA - LLMs）不同训练方法的示意图。RA - LLMs现有方法可分两大类：训练无关方法在推理时直接用检索信息，把检索知识整合进提示；基于训练的方法会微调检索器和生成器来提升性能。基于训练的方法按训练策略还能再分三组：独立训练，即检索器和生成器组件分开训练；顺序训练，按顺序训练二者；联合训练，二者同时训练。这些方法先训练检索模型并固定它，接着用检索到的知识对大型语言模型（LLMs）进行训练，像这样。

论文标题：关于检索增强生成（RAG）与大型语言模型（LLMs）的综述：迈向检索增强的大型语言模型论文链接：https://arxiv.org/pdf/2405.06211。

举报有用（18）分享收藏

LLM领域RAG理论可解但实际未解决的问题

1个回答

147842

热门话题

相关问题