基于H2oGPT研究RAG技术及工业落地方案

1个回答

agatha617

2026-01-01 01:20

公司

此应用以H2oGPT开源项目为基础进行封装，能指定公司内部文档，运用检索增强生成（RAG）技术。在与研究团队就所有技术路线及部分技术交流之后，来聊聊RAG及其工业级实际的落地实施方案。本文约6000字，将详细解读RAG技术及其落地方案，阅读需15分钟左右，建议点赞收藏关注后慢慢看。我是@TopGeeky，我专注于输出编程、人工智能、大数据和科技领域的优质回答，是个热爱流程序员，关注我，看更多内容。自ChatGPT问世，大语言模型（Large Language Model，LLM）在各领域的应用便火爆起来。当前，LLM存在的幻觉问题依然是一项重大挑战。

幻觉基本定义为：大模型生成看似合理内容，但这些内容不正确、与输入提示无关甚至相互冲突的现象。

幻觉可分为哪几种类型？之前提到LLM有个严重的问题是幻觉问题，还有一个问题是，对于实效性较强的问题，LLM难以作答或者给出的是过时回答。为解决这两个问题，尝试通过检索外部相关信息的方法提升LLM的生成能力，这就是检索增强生成（Retrieval - augmented Generation，RAG）。RAG能够从外部知识库检索事实，是基于最准确、最新信息的大语言模型（LLM），还能让用户深入知晓LLM的生成过程。它保证模型获取最新且可靠的事实，也让用户能查看模型的来源，从而检查其表述的准确性等。当下许多AI团队都会着重考虑RAG方式，基于这一最佳实践还催生了不少工具，向量数据库便是其一。RAG的特点可总结为以下几条：RAG整体可分检索、生成这两个阶段。检索阶段：算法会搜索、检索和用户提示或问题相关的信息片段。中的步骤1和步骤2，是从向量数据库查找与查询（Query）相关的数据。在生成阶段，大模型会从增强提示与训练数据的内部表示里提取信息，从而为用户定制出吸引人的答案。之后可将答案传给聊天机器人，同时附上来源链接。

ChatGPT
ChatGPT

RAG属于相对较新的技术，2020年被首次提出，当前大部分场景还在探索。现阶段，不得不面临一些挑战，如下：微软Bing的问答技术属于RAG场景，RAG实质是搜索与LLM的结合。搜索技术发展至今已有十几年，而LLM技术仅有两三年。若想了解当下AI模型发展的新时代，需要有引路人。网络知学堂推出了为期两天的AGI大模型进阶之旅公开课，在此你能聆听行业顶尖大佬揭秘AI未来发展趋势，还可与大佬面对面交流，并且领取大佬提供的学习资料！要是仍然是0元，那你可得赶紧行动，能与AI领域的高手对话的机会非常难得啊！而且还能体验自主训练机器学习模型，做到理论与实践相结合。公开课链接就在上面！还有，添加课程后务必添加助教小姐姐的微信，这样就能私聊助教领取今年超火的大模型学习资源！当前，LLM（大型语言模型）的训练数据规模极为庞大，参数量也相当多，且数据来源广泛。在有限的参数下学习无限的知识、理解无尽的信息是不切实际的。所以，对于常见和比较大众化的知识，LLM往往能给出较为正确的答案；但对于长尾知识，其回复通常不可靠。ICML会议上的Large Language Models Struggle to Learn Long - TAIl Knowledge研究了LLM对基于事实的问答的准确性与预训练数据中相关领域文档数量之间的关系，发现二者相关性很强，即预训练数据里相关文档数量越多，LLM对事实性问答的回复准确性就越高，其对长尾知识的学习能力也较弱。

要增强LLM对长尾知识的学习能力，一个简单的办法就是增加更多长尾知识，这么做确实提升了长尾知识预测能力。多数像OpenAI这样的模型是利用公开数据来学习的。若要将数据应用于某公司或该公司内部相关知识，就必须使用特定的私有数据进行学习。不过，若训练数据包含公司私有信息，就会存在隐私信息泄露的问题。例如Bing刚出现时曾出现Windows密钥泄露的情况，要是暴露的是公司内部信息，情况会更严重。当下的最优做法是把私有数据当作外部数据库。LLM回答私有数据相关问题时，直接从外部数据检索信息，再依据检索内容作答。如此一来，由于不参与训练，LLM的模型参数就不会记住私有知识。OpenAI推出的ChatGPT模型，其所用数据信息截止于2021年底这一点现在大家都知道。由于训练耗时久、数据量庞大，通常不会重新采集数据。这就使得大型语言模型（LLM）无法用原有历史数据涵盖2021年后的数据，实效性问题难以解决。RAG能将更新知识存于外部数据库，提问时检索最新知识，再经LLM更新拓展，从而解决知识新鲜度的问题。AI发展至今，可解释性一直是被研究探讨的问题。在端到端的训练时，神经网络模型慢慢成了黑盒。大型语言模型（LLM）也不例外，通常LLM的输出无信息来源，难以解释生成回答的原因。而检索增强生成（RAG）能解决可解释性、信息溯源和信息验证等问题，只要建立起检索内容和生成内容的关系，就能知晓LLM模型依据哪些信息作答。当初Bing就是这样落地的，不但生成内容提供信息，还给出了信息来源。

要部署有效的RAG系统，得大量实验以优化各组件，像数据收集、模型嵌入、分块策略等，尚无通用准则。部署遵循原则的RAG设计需全面实验，一般会涉及数据收集、模型嵌入、分块策略等方面的迭代。

其可按步骤分为数据索引模块、数据检索模块和LLM生成模块。这里只讲一些评估方法与注意点，因为新技术还在快速研究发展，尚无完整确切的解决方案。检索增强生成（RAG）系统和监督学习不一样，其性能在很大程度上取决于训练数据的质量。RAG系统通过从知识库检索相关信息来生成回应。要是知识库的数据质量低，RAG就不能给出准确、信息量大的结果。RAG系统的数据会受几个关键因素影响。

此处分块实验数据可参考Anyscale的实验结论。这部分是数据向量化的过程，可推动信息检索中的语义搜索。Anyscale的实验也证明了这一点。嵌入模型的选取会极大影响检索与质量得分，对特定任务而言，小模型甚至比排名最高的模型表现还好。可见，单纯从排行榜挑表现最佳的嵌入模型，未必就是最好的选择。嵌入模型与分块策略对RAG系统的性能均有显著影响，不过分块策略的影响似乎略大。嵌入的价值在很大程度上取决于用例，现成的嵌入模型可为数据块生成适用于多数用例的嵌入。若研究特定领域，这些模型可能无法充分表示该领域的向量空间，进而造成检索质量欠佳。

现在大多采用向量搜索来查询，查询的处理方式有不少，这里就不多说了。不过查询之后有很重要的一步，那就是排序和后处理。前面检索后会得到许多相关文档，这就需筛选和排序了，常用的筛选和排序策略如下：

LLM借助相关文档片段中的信息生成准确答案，并且因外部数据得以增强，从而提升响应质量。其生成策略大致可简单分为三种：简单总结下，RAG没有通用完整的最佳实践方案，但工业落地有可参考的调优步骤。

大型语言模型中幻觉现象的简单介绍。

我是 @TopGeeky，是专注输出优质回答的热爱流程序员，您可以查看我更多回答，希望能对您有帮助。学计算机的朋友们，能否讲讲你们的经历？我正迷茫，不知该如何面对。C++不可或缺的原因：AI算法工程师为何要求掌握C++？算法入门学习路径：机器学习与数据科学，怎样进阶为大神？如何通俗地理解线性代数？AI入行心得：人工智能是什么？怎样踏入人工智能行业？科普文：怎样最简单通俗地理解机器学习？浅显易懂版。机器学习资源路径：自学机器学习（Machine Learning）的方法。探索未来AI应用：2023年后，AI哪些研究方向有前景？

举报有用（0）分享收藏

基于H2oGPT研究RAG技术及工业落地方案

1个回答

agatha617

热门话题

相关问题