个人文章主页RAG技巧更新包含哪些内容?

1个回答

写回答

895644681

2026-02-17 19:33

+ 关注

AI
AI

个人文章主页会不定期更新RAG细分领域的技巧相关文章,这些文章是以大模型检索增强生成作为开头的。文档切块这一工作涉及到较为棘手的数据处理事务。之前测试pdf.AI时,发现它在表格数据计算方面能够给出很好的回复。由此我推测,像目录、各级标题、表格等特殊信息,在进行文档切块之前,就应当考虑好如何对其进行整合。除了常见的滑动窗口切块、标点符号切块方式之外,还有一些基于模型的切块方法,例如借助bert的nsp能力来切块。

向量模型调优方面,要找到合适的向量模型,可以参考MTEB Leaderboard - a Hugging Face Space by mteb。在大模型辅助向量召回方面,可以查看Precise Zero - Shot Dense Retrieval without Relevance Labels (arxiv.org)、Active Retrieval Augmented Generation (arxiv.org)、transformers/examples/research_projects/rag - end2end - retriever at mAIn · huggingface/transformers (github.com)以及https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/llm_embedder。关于LLM生成,我觉得很多人都会参考webglm,通过它能够方便地进行溯源,具体可查看THUDM/WebGLM: WebGLM: An Efficient Web - enhanced Question Answering System (KDD 2023) (github.com)。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号