Chain - of - Note如何提升RALM系统鲁棒性？

1个回答

hzpppppppppp

2026-02-17 19:21

人类

它可减少模型事实幻觉、改善知识过时状况并强化领域知识。常规的RALM方法通常是先把问题输入检索器（Retriever），由检索器在众多证据语料库中查找相关文档，之后阅读器（Reader）对这些文档进行检查，提取有用信息并输出答案。常规RALM方法有两个弊端。基于上述两个问题，作者给RALM系统的鲁棒性下了两个定义。

人类在检索信息与问题时，通常存在三种情况。从NQ数据集中抽取了10000条问题，由ChatGPT生成Note，Note设计的范式以in context learning的方式提供。在训练时，将LLaMa - 2 7B当作基座模型，并且运用了一个对Notes（注释）和Answers（答案）加权的技巧。这是因为在把next token prediction（下一个标记预测）用作损失时，由于注释的长度往往比答案长许多，这或许会使最终答案的质量下降，还会对模型收敛产生影响。所以有必要对二者加权。加权的方法很直接：50%的情形下，针对整个序列（注释+答案）计算损失，另外50%的情形，则只对最后的答案计算损失。结果肯定优于常规RALM。这里重点记录鲁棒性实验的设计方式。噪声鲁棒性的评估包含两个部分：一是利用检索得到的噪声文档（从检索集中删掉相关文档，保留排名靠前的不相关文档），二是采用从整个维基百科采样的完全随机文档。噪声检索到的文档和随机文档不同，因其与输入问题语义相似，所以通常包含误导性信息。值得关注的分析结果为：仅有噪声文档时，标准RALM和CON的性能均不及原始LLaMa - 2。不过，CON展现出无IR近似的性能，这体现出它在噪声环境中的鲁棒性以及忽略无关信息的能力。

图3显示，标准RALM和CON处理随机文档的效果优于处理噪声检索文档。这意味着语义相关的噪声文档更容易误导语言模型，使其产生错误信息。以RR（拒绝率：拒绝回答数/总问题数）为评估准则，这彰显出CON在识别与忽略预训练阶段不熟悉或未学到信息方面的增强能力。

举报有用（0）分享收藏

Chain - of - Note如何提升RALM系统鲁棒性？

1个回答

hzpppppppppp

热门话题

相关问题