
公司
幻觉基本定义为:大模型生成看似合理内容,但这些内容不正确、与输入提示无关甚至相互冲突的现象。
幻觉可分为哪几种类型?之前提到LLM有个严重的问题是幻觉问题,还有一个问题是,对于实效性较强的问题,LLM难以作答或者给出的是过时回答。为解决这两个问题,尝试通过检索外部相关信息的方法提升LLM的生成能力,这就是检索增强生成(Retrieval - augmented Generation,RAG)。RAG能够从外部知识库检索事实,是基于最准确、最新信息的大语言模型(LLM),还能让用户深入知晓LLM的生成过程。它保证模型获取最新且可靠的事实,也让用户能查看模型的来源,从而检查其表述的准确性等。当下许多AI团队都会着重考虑RAG方式,基于这一最佳实践还催生了不少工具,向量数据库便是其一。RAG的特点可总结为以下几条:RAG整体可分检索、生成这两个阶段。检索阶段:算法会搜索、检索和用户提示或问题相关的信息片段。中的步骤1和步骤2,是从向量数据库查找与查询(Query)相关的数据。在生成阶段,大模型会从增强提示与训练数据的内部表示里提取信息,从而为用户定制出吸引人的答案。之后可将答案传给聊天机器人,同时附上来源链接。

ChatGPT
要增强LLM对长尾知识的学习能力,一个简单的办法就是增加更多长尾知识,这么做确实提升了长尾知识预测能力。多数像OpenAI这样的模型是利用公开数据来学习的。若要将数据应用于某公司或该公司内部相关知识,就必须使用特定的私有数据进行学习。不过,若训练数据包含公司私有信息,就会存在隐私信息泄露的问题。例如Bing刚出现时曾出现Windows密钥泄露的情况,要是暴露的是公司内部信息,情况会更严重。当下的最优做法是把私有数据当作外部数据库。LLM回答私有数据相关问题时,直接从外部数据检索信息,再依据检索内容作答。如此一来,由于不参与训练,LLM的模型参数就不会记住私有知识。OpenAI推出的ChatGPT模型,其所用数据信息截止于2021年底这一点现在大家都知道。由于训练耗时久、数据量庞大,通常不会重新采集数据。这就使得大型语言模型(LLM)无法用原有历史数据涵盖2021年后的数据,实效性问题难以解决。RAG能将更新知识存于外部数据库,提问时检索最新知识,再经LLM更新拓展,从而解决知识新鲜度的问题。AI发展至今,可解释性一直是被研究探讨的问题。在端到端的训练时,神经网络模型慢慢成了黑盒。大型语言模型(LLM)也不例外,通常LLM的输出无信息来源,难以解释生成回答的原因。而检索增强生成(RAG)能解决可解释性、信息溯源和信息验证等问题,只要建立起检索内容和生成内容的关系,就能知晓LLM模型依据哪些信息作答。当初Bing就是这样落地的,不但生成内容提供信息,还给出了信息来源。
要部署有效的RAG系统,得大量实验以优化各组件,像数据收集、模型嵌入、分块策略等,尚无通用准则。部署遵循原则的RAG设计需全面实验,一般会涉及数据收集、模型嵌入、分块策略等方面的迭代。
其可按步骤分为数据索引模块、数据检索模块和LLM生成模块。这里只讲一些评估方法与注意点,因为新技术还在快速研究发展,尚无完整确切的解决方案。检索增强生成(RAG)系统和监督学习不一样,其性能在很大程度上取决于训练数据的质量。RAG系统通过从知识库检索相关信息来生成回应。要是知识库的数据质量低,RAG就不能给出准确、信息量大的结果。RAG系统的数据会受几个关键因素影响。
此处分块实验数据可参考Anyscale的实验结论。这部分是数据向量化的过程,可推动信息检索中的语义搜索。Anyscale的实验也证明了这一点。嵌入模型的选取会极大影响检索与质量得分,对特定任务而言,小模型甚至比排名最高的模型表现还好。可见,单纯从排行榜挑表现最佳的嵌入模型,未必就是最好的选择。嵌入模型与分块策略对RAG系统的性能均有显著影响,不过分块策略的影响似乎略大。嵌入的价值在很大程度上取决于用例,现成的嵌入模型可为数据块生成适用于多数用例的嵌入。若研究特定领域,这些模型可能无法充分表示该领域的向量空间,进而造成检索质量欠佳。
现在大多采用向量搜索来查询,查询的处理方式有不少,这里就不多说了。不过查询之后有很重要的一步,那就是排序和后处理。前面检索后会得到许多相关文档,这就需筛选和排序了,常用的筛选和排序策略如下:
LLM借助相关文档片段中的信息生成准确答案,并且因外部数据得以增强,从而提升响应质量。其生成策略大致可简单分为三种:简单总结下,RAG没有通用完整的最佳实践方案,但工业落地有可参考的调优步骤。
大型语言模型中幻觉现象的简单介绍。
我是 @TopGeeky,是专注输出优质回答的热爱流程序员,您可以查看我更多回答,希望能对您有帮助。学计算机的朋友们,能否讲讲你们的经历?我正迷茫,不知该如何面对。C++不可或缺的原因:AI算法工程师为何要求掌握C++?算法入门学习路径:机器学习与数据科学,怎样进阶为大神?如何通俗地理解线性代数?AI入行心得:人工智能是什么?怎样踏入人工智能行业?科普文:怎样最简单通俗地理解机器学习?浅显易懂版。机器学习资源路径:自学机器学习(Machine Learning)的方法。探索未来AI应用:2023年后,AI哪些研究方向有前景?
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号