
大学
实际并非如此。最新论文指出,在法律领域,即便使用RAG,仍有17%-33%的幻觉现象。对此感兴趣的读者,可参阅以下文章:大语言模型的主要挑战在于幻觉问题。研究人员通过RAG方法有效应对这一难题,众多相关论文表明,RAG可显著降低大模型的幻觉现象,提升输出准确性。近期,斯坦福
大学与普林斯顿
大学合作发布了一篇题为Hallucination-Free? Assessing the Reliability of Leading
AI Legal Research Tools的论文。该研究聚焦于评估领先的人工智能法律研究工具在专业领域的可靠性,特别是基于检索生成(RAG)模型可能出现的幻觉问题。这一问题指的是模型在生成内容时可能会产生不准确或无根据的信息,对法律等高精度要求领域带来潜在风险。研究人员通过系统分析,揭示了现有技术的局限性,并为改进模型性能提供了重要参考。
这篇论文主要评估了当前领先的人工智能法律研究工具的可靠性,重点关注其在运用大型语言模型时产生的幻觉问题,即生成错误或误导性信息的情况。一些法律服务提供商宣称,通过采用检索增强生成(RAG)等方法能够消除或避免幻觉现象。然而,研究团队开发了一种实证研究工具,测试结果表明,尽管RAG能在一定程度上减少幻觉,但基于该技术的AI法律研究工具仍存在17%到33%的幻觉率,这说明其可靠性仍有待进一步提升。
近期,人工智能尤其是大型模型在法律领域的应用迅速增长。这些工具可辅助完成多项核心法律工作,如案例检索、内容总结及文件起草等。然而,大语言模型存在幻觉问题,即可能生成虚假信息,这使其在高风险场景下的使用充满隐患。例如,一位纽约律师因引用ChatGPT编造的案例撰写法律简报而面临处罚,类似事件屡见不鲜。2023年的司法年度报告中,首席大法官约翰·罗伯茨明确提到,幻觉现象已成为将AI应用于法律实践的主要障碍之一。这种问题提醒我们,在依赖技术的同时,必须谨慎对待其潜在缺陷,以确保法律工作的准确性和可靠性。RAG 的好处显而易见:通过将检索到的信息纳入提示,模型能够在开卷而非闭卷环境下生成回应。近期,一些法律研究供应商宣传,像 RAG 这样的技术能够消除或避免幻觉问题,甚至保证法律引用无幻觉。然而,这些断言均缺乏实证支持。由于相关系统通常封闭,对其主张进行系统评估颇具挑战性。需要强调的是,任何技术的实际效果仍需科学验证与透明评估。

AI
研究团队首次设计并完成了一项预注册的实证评估,针对人工智能驱动的法律研究工具展开测试。他们构建了一个全面且预先注册的数据集,旨在识别和分析这些系统中的潜在漏洞。在实验中,团队使用了200多个法律查询,分别在LexisNexis(Lexis+
AI)、Thomson Reuters(Ask Practical Law
AI)、Westlaw(
AI-Assisted Research)以及通用型聊天机器人GPT-4上运行。随后,研究人员手动检查了这些工具生成的结果,对其准确性及对法律权威依据的遵循程度进行了细致评估。这项研究为理解
AI法律工具的实际表现提供了重要参考。研究发现,尽管相比通用聊天机器人(如GPT-4),幻觉现象有所降低,但基于RAG的法律
AI研究工具,如LexisNexis(Lexis+
AI)和Thomson Reuters(Westlaw
AI辅助研究与Ask Practical Law
AI),仍存在17%到33%的幻觉率。这表明这些专业化工具在准确性方面仍有改进空间,用户在使用时需保持一定审慎态度,以确保信息的可靠性和适用性。
本文提出了四个关键贡献。若感兴趣,可查阅以下论文: