
人类
幻觉可分为情境相关幻觉和外部幻觉两类:大模型出现幻觉源于预训练数据集质量问题,以及微调时新知识引入的挑战。通过监督微调(SFT)更新大语言模型的知识存在一定风险,可能导致模型出现幻觉现象。尽管SFT与基于人类反馈的强化学习(RLHF)是优化预训练语言模型(如提升指令遵循能力)的常用方法,但在微调过程中难免会引入新知识。然而,对于小规模模型(例如7B参数量级的模型),其是否能够可靠地通过微调学习这些新知识仍需进一步验证。这表明,在小模型中使用SFT注入知识的效果具有不确定性。Gekhman等今年研究探讨,用新知识微调大语言模型是否会引发幻觉现象。研究显示,大模型学习含新知识的样本时速度较慢,尤其是相较于已有知识的样本;而学习这些新知识后,模型出现幻觉的概率会有所提高。
实验中有些有趣现象,其中验证集准确率被视作幻觉的象征性指标。

AI
为减少生成过程中的幻觉现象,可采用多种方法,包括从外部知识库检索信息、运用特定采样技术以及进行对齐微调等。此外,还有诸如RAG、ChAIn-of-Verification(CoVe)、RECITE和FLAME等技术框架,以及专注于提升事实准确性与归因能力的微调方案。这些方法的核心目标是增强模型输出内容的事实可靠性,同时有效降低幻觉出现的可能性。
研究发现,核采样效果可能不及贪婪采样,而推理时间干预(ITI)可通过检测激活状态,有效辨别输出内容的真伪。FLAME是一种融合了监督微调与基于人类反馈的强化学习的方法。在监督微调阶段,重点在于生成比模型原本输出更具事实依据的训练数据;而在强化学习阶段,则将事实性作为奖励信号进一步优化模型表现。整个微调过程高度注重内容的事实准确性,一方面通过构建更高质量、更精确的训练数据提升模型能力,另一方面借助事实性奖励机制引导模型生成更加真实可靠的输出,从而有效增强模型结果的可信度与正确性。这种方法确保了模型不仅能够生成流畅的内容,还能在信息真实性上达到更高标准。Self-RAG经端到端训练,让语言模型学会评估与检索自身生成内容,借助反思标记优化输出。CoVe通过动作链实现规划与执行验证,涵盖基线响应、规划检查、执行确认及最终输出,以降低幻觉风险。大型语言模型的外在幻觉是指模型生成了看似合理但实际错误的内容,这些内容与现实情况不符。这种现象可能源于训练数据偏差或模型架构局限,会导致用户误解信息。为减少此类问题,可通过优化算法、强化训练及引入外部知识库等方法提升模型准确性。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号