文档处理与语义挖掘难，大模型使用有何经验？

1个回答

Zzzz1128

2026-02-08 08:15

我觉得，要明确可解决的问题。有些问题当下确实难以解决，因为成本过高，得考量是否划算。此外，依靠大模型自身能力，善用提示词工程，能省去许多数据处理的代码与逻辑。首先要明确的是，我们要处理的知识或者问答数据大致属于什么类型。依据回答问题所需信息在文档中的分布，具体可大致分为以下三种情况：

（L2）相关信息分布于多个block，总数不超5 - 10个，最好处于大模型支持的有效长度范围内。

针对L3类问题，试过文档分段、用语义分割模型切分、分段总结摘要等方法，结果只是勉强可用。

我在用LangchAIn的API操作表格数据，研究源码后发现其核心是靠提示词工程实现的，它把复杂数据处理过程屏蔽了。我遇到过一些问题，像LangchAIn版本更新，致使部分依赖方法无法使用，只能自己想办法绕开，这很费时间。

此外，国产大模型当前Agent能力还不够强。尝试智普4.0模型时，发现根本无法接入LangchAIn框架。所以，现在不能使用Agent提示词模板来处理数据，只能等待大模型更新才行。我记得有个观点，向量模型和其训练数据不在同一空间，所以得微调才能用。我不太确定这观点对不对，不过我自己验证发现，bge的效果原本比m3e好，但微调后bge的效果反而下降了，也没发现是什么原因造成的。试过网易的bce和bge - m3，整体而言，二者在召回方面存在差距，但输入到大模型后的回答没什么明显不同。有一点提升很显著，即采用重排序策略，如今较常见的是cohere和bge的rerank模型。用户输入内容越短越难处理，此时往往转为搜索问题，要进行意图分析、实体识别等操作，使得整个链路很长。另一个方向是采用agent思想，让大模型分析用户输入，再路由到指定数据集或调用工具。该方法优势明显，能省去很多意图分析和识别步骤，但其缺点是极为依赖大模型自身的效果。并且用户要是进行多轮对话，效果就会更糟，例如用户先输入长方形的面积怎么计算？，再输入那正方形?召回该怎么做，这确实是个难题。一个可能的方向是，在产品应用时确定是多轮还是单轮对话，尝试合并用户多次输入再检索，或者每次都检索，把不同结果拼接后输入大模型。

举报有用（0）分享收藏

文档处理与语义挖掘难，大模型使用有何经验？

1个回答

Zzzz1128

热门话题

相关问题