样本设计工程，提升大模型下游任务微调效果的新方法？

1个回答

钟大大大

2025-12-27 19:55

公司

数据对大模型至关重要，其重要性甚至超越了模型算法本身。近期，我们开展了一项关于大语言模型（LLM）的以数据为中心的研究工作，即样本设计工程。尽管LLM功能强大，但在实际应用中，仍需通过下游样本的微调来优化性能。与大多数聚焦于改进模型或算法的以模型为中心研究不同，我们的研究从数据出发，探讨如何通过优化样本质量提升LLM在下游任务中的微调效果。希望这一工作能够启发更多围绕数据展开的LLM研究，为领域发展提供新思路。

无论是学术领域还是工业界，当前对提示工程（Prompt Engineering, PE）的研究大多围绕GPT-3、GPT-4、PaLM等超大规模且最先进的大模型展开。然而，由于成本高昂、政策限制以及数据安全等因素，许多中小企业和个人无法使用像GPT-3/4这样的顶级大模型，而是选择一些开源的小规模语言模型（LLMs），特别是参数量在10B左右的模型。在这种情况下，仅依靠PE技巧设计提示往往难以解决稍微复杂的下游任务，因此通常需要通过微调模型并结合一些下游样本进行优化。然而，与蓬勃发展的PE研究相比，如何设计用于微调的下游样本这一方向的相关研究却显得非常匮乏。实际上，正如不同的提示设计会对语言模型的零样本推理性能产生影响，不同的样本设计也可能显著影响微调后模型的表现。针对这一问题，本文首次提出了一种新的研究方向——样本设计工程（Sample Design Engineering, SDE），并对其进行了系统性的分析和实验探究。我们希望通过这一研究，能够推动学术界和工业界在未来围绕SDE展开更多深入探讨，从而进一步提升模型在实际应用中的表现和效率。下图显示了SDE与PE之间的关系：

下表列举了最明显的差异：为研究SDE影响及其提升LLM下游表现的机制，本文从以下思路展开分析与探讨：我们期望大模型能够解决的下游任务，通常具有较高复杂度。例如，多方面情感分析（Multi-Aspect Sentiment Analysis，简称 MASA），这是个极具商业价值的典型应用场景。然而，该任务涉及的模型输入与预测过程较为复杂。以下是一张展示 MASA 任务工作原理的示意图。

装修

所示，一位用户针对某餐厅撰写了一段详细的评价，内容涵盖了多个维度。无论是餐厅自身还是提供情感分析服务的供应商，都希望对大量类似评论进行多维度的情感分析。我们会预先设定一些重点关注的维度，例如菜品质量、饮品体验、卫生状况、价格合理性、服务态度以及停车便利性等。MASA任务旨在同时对所有预设方面完成情感分析。可以发现，对于此类任务，大语言模型可能需要应对较为复杂的输入与输出设计要求。通过分析与预先实践，我们对典型样本设计进行了分类，包括输入设计、输出设计和推理设计，同时提出了其中包含的一些常见 SDE 设计选项。

在设计输入时，我们可能面临以下选择：输入内容的编写方式暂不考虑，可视为输入本身的波动所致。在设计输出时，我们可能面临以下选择：需要指出的是，PE中的CoT成本较低，只需简单添加提示或提供少量推理示例即可。然而，为微调样本设计CoT成本较高，因为必须对每个微调样本都加入推理标注，工作量显著增加。针对这一问题，我们开展了大量实验，旨在探讨上节提到的每个设计选择所产生的影响。任务数据相关：我们以MASA为实验场景，采用合作公司提供的真实业务数据和标注，涵盖两个领域的情感标注。饮食、饮品、价位、环境卫生、服务人员态度及停车便利性。D2：交通、排队、上菜速度、装修与噪音表现综合评分。根据这两个领域，我们设计了两组领域内（ID）任务和两组跨领域（OOD）任务，分别是 D1->D1、D2->D2、D1->D2 和 D2->D1。对于跨领域任务，模型在前一个领域上完成训练后，在后一个领域上进行测试。模型：为研究样本设计在不同大模型上的差异与一致性，我们选取了3个系列中6种常用的开源模型进行分析。模型微调采用LoRA技术，实现参数高效优化，也支持使用其他微调方法。评估标准：

我们为输入、输出和推理分别设置了基准线，通过调整其中一个变量，分析其对模型性能的影響。每种选项进行了48次实验，涵盖6个模型、4类任务（2个ID任务与2个OOD任务）以及2种训练规模（500和1000）。随后，我们将ID和OOD结果分别取平均值，同时对不同训练规模的结果也进行平均处理，最终绘制出了上述柱状图。关于输入设计，我们有如下关键发现：输出方面，有着更加丰富多彩的发现：由此，我们得出以下推理结论：再看看格式遵循的表现：

总体来看可以发现：需要关注的是，任务理解与格式遵循在实际应用中互为补充，应根据业务需求加以平衡。经过前期大量实验，我们总结出一系列适用于多种大语言模型的通用规律。为深入检验SDE方法的效果与广泛适用性，我们计划基于现有实验依据，设计一套优质的SDE集成方案，并验证该方案能否延伸至其他新任务和新模型中。基于前期实验，我们提出了一种经验上更优的SDE方案——ES-SDE（Empirically-Strong SDE策略）。该方案采用以下设计：输入端为Inst-first、No-MI；输出端为Lines、PU和TxtLabel。鉴于CoT存在稳定性不足及成本较高的问题，本方案未纳入相关设计。这一策略在实际应用中表现出较强的优势，为后续研究提供了可靠的方向。作为对比，我们还设计了EW-SDE（经验弱型SDE策略）。其特点是采用Inst-last、Natural和OU选项，预计在该方面表现会逊于ES-SDE。此外，我们还借鉴了其他学术论文中的经验主义方法（heuristic strategy），即根据人工经验为某些下游任务设计提示词。其输入形式与本文的Inst-first和OU类似，但输出格式采用了一种接近列表（List）的形式呈现。这种方法结合了已有研究的经验，进一步优化了任务效果。我们采用3个新复杂下游任务数据集和2个新LLMs，对上述方面进行对比分析。在GENIA与MAVEN英文数据集上，我们使用LLaMA2-7B-Chat开展实验。而对于Review11中文数据集，我们选用新近发布的Qwen1.5-4B-Chat，因其表现出色、性能优越，适合进行相关实验探索。我们从三个角度分析样本设计方案的效果与鲁棒性：训练规模变化、decoding种子差异及instruction内容多样性。以下是实验结果：

可以看出，ES-SDE 是一种卓越而稳健的样本设计方法。在不同任务、模型、训练规模和扰动条件下，它均显著优于 EW-SDE 和启发式方案。例如，仅用 500 个 ES-SDE 样本即可达到约 2000 个 EW-SDE 或启发式样本的训练效果。这充分表明 ES-SDE 所生成的微调样本质量极高，能够在多种场景下有效提升性能。提示词就像一把解锁大模型内部奥秘的钥匙。由于预训练、微调和强化学习阶段的数据与训练细节通常不透明，提示词为我们提供了一种探索大模型特性和能力的方式。一个高效的提示词往往反映出大模型对某种模式更为熟悉或擅长。由此引出一个问题：优秀的提示词是否能够帮助我们生成高质量的样本？或者说，提示工程（PE）能否为样本设计工程（SDE）提供指导？这值得进一步研究与实践验证。为了解答这个问题，我们依据前面提到的各种 SDE 方案，构建对应的零样本（zero-shot）或基于示例推理（ICL）提示词，让模型在无需微调的情况下直接进行推理，从而评估不同提示词的效果。此外，有研究表明，困惑度（Perplexity，PPL）是衡量提示词质量的一个重要指标。一般来说，提示词的 PPL 值越低，其表现往往越好。因此，我们还进一步计算了 ICL 提示词及其预测结果的 PPL 值，以更全面地分析和优化提示词的设计效果。下图展示了 MASA 的 ID 任务中，不同 SDE 选项的各模型平均性能排名，以及相关 prompts 的 Zero-shot、ICL 和 PPL 排名情况。

由此可见，PE和SDE存在一些相同的模式：不过，依然存在一些显著的差异：这些结果说明，优质的提示词未必能生成优秀的样本，且位置编码无法直接引导规模解码。这一发现为后续研究开辟了新方向，希望更多学者共同探索规模解码的原理，助力大模型充分释放潜力，并推动其在下游应用场景中的有效落地。本文引入样本设计工程（Sample Design Engineering, SDE），深入探讨如何为大模型下游微调任务设计更优的样本。通过在6个主流大模型上开展一系列ID与OOD实验，我们挖掘出多个显著影响下游微调效果的样本设计因素，并总结了一些有趣的现象和规律。基于这些发现，我们提出了一种稳健的样本设计方案，在3个复杂的下游任务中展现出卓越且稳定的性能，远超传统经验驱动的设计方法。此外，通过对提示工程（PE）与样本设计工程关系的进一步分析，我们发现：即使某个提示在零样本或少样本推理场景下表现出色，也不一定适用于指导设计高效的下游微调样本。这一结果揭示了SDE背后隐藏的复杂机制，值得未来更多研究加以探索。预印本链接：欢迎读者提出宝贵意见，共同交流大模型样本设计经验！

举报有用（0）分享收藏

样本设计工程，提升大模型下游任务微调效果的新方法？

1个回答

钟大大大

热门话题

相关问题