RAG系统中检索器相关研究有哪些?

1个回答

写回答

Gw0911

2026-02-11 11:14

+ 关注

黄金
黄金

标题是:本文论述了RAG系统里检索对系统性能的影响。和传统大型语言模型不同,RAG系统借助引入外部数据增强生成能力。不过,多数有关RAG系统的研究侧重于语言模型的生成,忽视了信息检索(IR)的作用。经对文档相关性、位置和数量等多种要素评估发现,包含不相关文档竟能使准确性意外提升超30%。本文意在剖析信息检索组件给检索增强生成(RAG)系统带来的影响,探寻文献检索的重要特征,明确检索到的文献需具备何种特点,进而提升RAG系统的生成能力。论文提出了以下研究问题:构建问题所需检索器的基本特征有哪些?当前检索器是否理想?论文聚焦于检索器能够获取的三种主要文档类型,即直接相关、间接相关以及不相关(分别为relevant、related和irrelevant)。

为解决时间不匹配的问题,论文把原始NQ数据集里的黄金文档整合进维基百科文档集。最终的数据集包含21035236个文档,其训练集有72209个查询,测试集有2889个查询。

研究时,作者依照文档和查询的相关性及关系,把文档分成四种不同类型,且每种类型都用一个唯一符号表示。主要的研究内容为:采用两步法,这与典型的RAG设置相同。在收到查询后,检索器会依据给定的相似度衡量标准,从语料库中挑选出前k个文档。这些文档与任务指令、查询共同成为大型语言模型(LLM)生成回应的输入。NQopen数据集的结构规定,仅涵盖答案所含标记不超过5个的查询。所以,LLM的任务就是从所提供的文档里提取一个最多5个标记的回应。

NQ - open数据集里,每个查询可对应一系列潜在答案。一般而言,这些答案是同一概念的不同表述(像D. Roosevelt总统或者Roosevelt总统),不过有时一个查询会存在多个不同的正确答案。为评估大型语言模型(LLMs)所生成响应的准确性,论文采取如下做法:检查LLMs生成的响应中是否包含预先定义的至少一个正确答案,按照答案是否存在以二进制方式来衡量LLMs响应的正确性。一个关键问题是判定响应是否正确,尤其是在涉及日期表述或者表达相同意思但不同表述的短语时。比如,若大型语言模型(LLMs)针对查询给出Roosevelt的回应,而确定的正确答案是Roosevelt总统,按照论文现有的评估模式,这个回应会被判定为错误。相关但不包含答案的文档被检索器赋予了较高分数,这里指的是虽相关却无答案的文档。下面的表格展示了LLM在接受由黄金文档和数量不等的相关但无答案文档构成的提示进行评估后的结果。其中FarMidNear分别表示黄金文档处于不同位置,第一行的0表示未添加相关但无答案的文档,从第二行起相关文档数量依次增加。-表示输入超出了LLM支持的输入长度。

下图为添加相关但不含答案的文档后输出错误的示例,黄色部分表示金标准文档与正确答案。显然,这些相关但无答案的文档误导了LLM,使准确率降低。

此外,作者还展示了模型对相关但无答案文档和黄金文档的注意力分数()。模型过度关注相关但无答案的文档(最左边),却忽视黄金文档(最右边),这可能会引发错误的响应。为评估RAG系统对噪声的鲁棒性,在黄金文档里加入一定量从语料库随机选的文档作不相关文档(即噪声),实验结果见下表。

某些模型在无关文档设置下,噪声较多时仍能维持或提升性能。

实验显示,黄金文档所处位置对RAG系统性能影响显著。

这些发现表明,RAG系统中的检索器得精心设计,保证黄金文档处于最佳位置,从而提升系统整体的准确度。上述实验均基于能检索到标准答案这一假设开展,可在实际情形里,并非每次都能检索到含有答案的文档。于是作者设定了一个更贴合实际的场景:给定一个查询后,检索一组文档,这些文档可能是相关的,也可能是相关却无答案的。再向这组检索到的文档里添加无关文档,所示,行代表添加的不相关文档数量,列代表检索到的文档数量。

实验结果显示,添加无关文档基本都是有益的,能够提升准确度。而且,用稀疏检索器(如BM25)做实验时,准确度平均提升了3 - 4个百分点。这些结果显示,检索器设计要在相关与无关文档间找到最佳平衡点。上述实验显示,添加文档可提升性能,尽管这些文档被视作无关文档。但也许有人觉得它们并非真的无关,毕竟都源于同一语料库(维基百科),还可能让LLM的回答更贴合该语料库,不会带来实质噪声。于是,作者开展了另一项实验。在该实验里,无关文档是从Reddit Webis - TLDR - 17数据集中抽取的,其语气和风格与维基百科有显著差异。,左边部分呈现添加Reddit里无关文档的结果,右边部分展示由随机词汇构成无意义句子的结果。

能看到,不管噪声是Reddit语料库的无关文档,还是无意义句子,性能均有所提高。有文献指出,极低的注意力熵会使LLM生成退化输出,性能也会急剧下滑,这种情况被叫做熵崩塌。顺着这一研究思路,作者测量了仅提供金标准文档时注意力分数的熵,并与添加随机文档时的情况进行了对比。结果表明,引入随机文档后系统熵变为原来的4倍。不过这一现象无法完全解释噪声有效的原因,有待后续研究。RAG(检索增强生成)借助检索系统找出与用户问题相关的信息片段,再由大模型综合生成答案,这在很大程度上解决了大模型幻觉、信息更新不及时等问题,是大模型落地的重要方式。不过在检索时,经常会检索到与问题很相似,却不含答案或者存在干扰答案的片段,那这些与答案无关的片段会对大模型生成答案产生何种影响?本文的主要贡献是提出一种构建高质量无关信息的新方法,且经详细实验分析了它在多种场景下的性能表现。与过去的研究相比,该方法对无关信息给模型性能的影响考虑得更全面、细致,还提供实用技术手段助力RAG系统应对这一挑战。本文重点解决了两个问题。当前RAG系统确实面临着这些问题,本文所提解决方案能给它带来一定改进与提升。

例如:EntityQuestions是一个数据集,它以维基数据事实为依据,问题简单且富含实体信息。作者为使应用场景涵盖更多类型的问题,采用了另一个被广泛使用的以实体为中心的QA数据集的全部问题来增加多样性。为减少冗余,排除了POPQA中已处理过的关系,该数据集由此产生17种不同关系类型。按照POPQA的规模,从每种关系里随机抽取1500个条目用于后续实验。

直接通过检索器检索排名前10的段落。无关情况:为构建此类信息,作者会选择一个段落分数,这个分数来自具有最高相似性的相同关系(例如出生地),条件是该段落包含另一个主语和相应的宾语,将其作为无关信息。部分相关情况:从检索出的排名前10的段落里,选一个包含主语但缺少宾语的段落作为前半段;再找一个包含错误答案宾语的片段作为后半段。相关情况:和部分相关相比,相关片段与问题在语义上高度相关,不过并不包含正确答案,主要涉及误导性联系类型、共同特征类型和虚构轶事类型。

评估的指标。为便于评测,以多项选择题形式评估LLMs,提供正确答案错误答案不确定三个选项供LLMs选择。

无关信息增多会削弱LLMs识别相关信息能力,使其更易分心。

相较于不相关信息,LLMs更易被高语义相关的无关信息误导。

大型语言模型(LLMs)在自由形式问题格式下鲁棒性更强。

忽略式提示对结果有少许改善,而思维链(COT)、忽略式提示加即时学习(ICL)对结果不利,效果更糟。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号