
人类
人类在检索信息与问题时,通常存在三种情况。从NQ数据集中抽取了10000条问题,由ChatGPT生成Note,Note设计的范式以in context learning的方式提供。在训练时,将LLaMa - 2 7B当作基座模型,并且运用了一个对Notes(注释)和Answers(答案)加权的技巧。这是因为在把next token prediction(下一个标记预测)用作损失时,由于注释的长度往往比答案长许多,这或许会使最终答案的质量下降,还会对模型收敛产生影响。所以有必要对二者加权。加权的方法很直接:50%的情形下,针对整个序列(注释+答案)计算损失,另外50%的情形,则只对最后的答案计算损失。结果肯定优于常规RALM。这里重点记录鲁棒性实验的设计方式。噪声鲁棒性的评估包含两个部分:一是利用检索得到的噪声文档(从检索集中删掉相关文档,保留排名靠前的不相关文档),二是采用从整个维基百科采样的完全随机文档。噪声检索到的文档和随机文档不同,因其与输入问题语义相似,所以通常包含误导性信息。值得关注的分析结果为:仅有噪声文档时,标准RALM和CON的性能均不及原始LLaMa - 2。不过,CON展现出无IR近似的性能,这体现出它在噪声环境中的鲁棒性以及忽略无关信息的能力。
图3显示,标准RALM和CON处理随机文档的效果优于处理噪声检索文档。这意味着语义相关的噪声文档更容易误导语言模型,使其产生错误信息。以RR(拒绝率:拒绝回答数/总问题数)为评估准则,这彰显出CON在识别与忽略预训练阶段不熟悉或未学到信息方面的增强能力。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号