
公司
无论是学术领域还是工业界,当前对提示工程(Prompt Engineering, PE)的研究大多围绕GPT-3、GPT-4、PaLM等超大规模且最先进的大模型展开。然而,由于成本高昂、政策限制以及数据安全等因素,许多中小企业和个人无法使用像GPT-3/4这样的顶级大模型,而是选择一些开源的小规模语言模型(LLMs),特别是参数量在10B左右的模型。在这种情况下,仅依靠PE技巧设计提示往往难以解决稍微复杂的下游任务,因此通常需要通过微调模型并结合一些下游样本进行优化。然而,与蓬勃发展的PE研究相比,如何设计用于微调的下游样本这一方向的相关研究却显得非常匮乏。实际上,正如不同的提示设计会对语言模型的零样本推理性能产生影响,不同的样本设计也可能显著影响微调后模型的表现。针对这一问题,本文首次提出了一种新的研究方向——样本设计工程(Sample Design Engineering, SDE),并对其进行了系统性的分析和实验探究。我们希望通过这一研究,能够推动学术界和工业界在未来围绕SDE展开更多深入探讨,从而进一步提升模型在实际应用中的表现和效率。下图显示了SDE与PE之间的关系:
下表列举了最明显的差异:为研究SDE影响及其提升LLM下游表现的机制,本文从以下思路展开分析与探讨:我们期望大模型能够解决的下游任务,通常具有较高复杂度。例如,多方面情感分析(Multi-Aspect Sentiment Analysis,简称 MASA),这是个极具商业价值的典型应用场景。然而,该任务涉及的模型输入与预测过程较为复杂。以下是一张展示 MASA 任务工作原理的示意图。

装修
在设计输入时,我们可能面临以下选择:输入内容的编写方式暂不考虑,可视为输入本身的波动所致。在设计输出时,我们可能面临以下选择:需要指出的是,PE中的CoT成本较低,只需简单添加提示或提供少量推理示例即可。然而,为微调样本设计CoT成本较高,因为必须对每个微调样本都加入推理标注,工作量显著增加。针对这一问题,我们开展了大量实验,旨在探讨上节提到的每个设计选择所产生的影响。任务数据相关:我们以MASA为实验场景,采用合作公司提供的真实业务数据和标注,涵盖两个领域的情感标注。饮食、饮品、价位、环境卫生、服务人员态度及停车便利性。D2:交通、排队、上菜速度、装修与噪音表现综合评分。根据这两个领域,我们设计了两组领域内(ID)任务和两组跨领域(OOD)任务,分别是 D1->D1、D2->D2、D1->D2 和 D2->D1。对于跨领域任务,模型在前一个领域上完成训练后,在后一个领域上进行测试。 模型:为研究样本设计在不同大模型上的差异与一致性,我们选取了3个系列中6种常用的开源模型进行分析。模型微调采用LoRA技术,实现参数高效优化,也支持使用其他微调方法。评估标准:
我们为输入、输出和推理分别设置了基准线,通过调整其中一个变量,分析其对模型性能的影響。每种选项进行了48次实验,涵盖6个模型、4类任务(2个ID任务与2个OOD任务)以及2种训练规模(500和1000)。随后,我们将ID和OOD结果分别取平均值,同时对不同训练规模的结果也进行平均处理,最终绘制出了上述柱状图。关于输入设计,我们有如下关键发现:输出方面,有着更加丰富多彩的发现:由此,我们得出以下推理结论:再看看格式遵循的表现:
总体来看可以发现:需要关注的是,任务理解与格式遵循在实际应用中互为补充,应根据业务需求加以平衡。经过前期大量实验,我们总结出一系列适用于多种大语言模型的通用规律。为深入检验SDE方法的效果与广泛适用性,我们计划基于现有实验依据,设计一套优质的SDE集成方案,并验证该方案能否延伸至其他新任务和新模型中。基于前期实验,我们提出了一种经验上更优的SDE方案——ES-SDE(Empirically-Strong SDE策略)。该方案采用以下设计:输入端为Inst-first、No-MI;输出端为Lines、PU和TxtLabel。鉴于CoT存在稳定性不足及成本较高的问题,本方案未纳入相关设计。这一策略在实际应用中表现出较强的优势,为后续研究提供了可靠的方向。作为对比,我们还设计了EW-SDE(经验弱型SDE策略)。其特点是采用Inst-last、Natural和OU选项,预计在该方面表现会逊于ES-SDE。此外,我们还借鉴了其他学术论文中的经验主义方法(heuristic strategy),即根据人工经验为某些下游任务设计提示词。其输入形式与本文的Inst-first和OU类似,但输出格式采用了一种接近列表(List)的形式呈现。这种方法结合了已有研究的经验,进一步优化了任务效果。我们采用3个新复杂下游任务数据集和2个新LLMs,对上述方面进行对比分析。在GENIA与MAVEN英文数据集上,我们使用LLaMA2-7B-Chat开展实验。而对于Review11中文数据集,我们选用新近发布的Qwen1.5-4B-Chat,因其表现出色、性能优越,适合进行相关实验探索。我们从三个角度分析样本设计方案的效果与鲁棒性:训练规模变化、decoding种子差异及instruction内容多样性。以下是实验结果:
可以看出,ES-SDE 是一种卓越而稳健的样本设计方法。在不同任务、模型、训练规模和扰动条件下,它均显著优于 EW-SDE 和启发式方案。例如,仅用 500 个 ES-SDE 样本即可达到约 2000 个 EW-SDE 或启发式样本的训练效果。这充分表明 ES-SDE 所生成的微调样本质量极高,能够在多种场景下有效提升性能。提示词就像一把解锁大模型内部奥秘的钥匙。由于预训练、微调和强化学习阶段的数据与训练细节通常不透明,提示词为我们提供了一种探索大模型特性和能力的方式。一个高效的提示词往往反映出大模型对某种模式更为熟悉或擅长。由此引出一个问题:优秀的提示词是否能够帮助我们生成高质量的样本?或者说,提示工程(PE)能否为样本设计工程(SDE)提供指导?这值得进一步研究与实践验证。为了解答这个问题,我们依据前面提到的各种 SDE 方案,构建对应的零样本(zero-shot)或基于示例推理(ICL)提示词,让模型在无需微调的情况下直接进行推理,从而评估不同提示词的效果。此外,有研究表明,困惑度(Perplexity,PPL)是衡量提示词质量的一个重要指标。一般来说,提示词的 PPL 值越低,其表现往往越好。因此,我们还进一步计算了 ICL 提示词及其预测结果的 PPL 值,以更全面地分析和优化提示词的设计效果。下图展示了 MASA 的 ID 任务中,不同 SDE 选项的各模型平均性能排名,以及相关 prompts 的 Zero-shot、ICL 和 PPL 排名情况。
由此可见,PE和SDE存在一些相同的模式:不过,依然存在一些显著的差异:这些结果说明,优质的提示词未必能生成优秀的样本,且位置编码无法直接引导规模解码。这一发现为后续研究开辟了新方向,希望更多学者共同探索规模解码的原理,助力大模型充分释放潜力,并推动其在下游应用场景中的有效落地。本文引入样本设计工程(Sample Design Engineering, SDE),深入探讨如何为大模型下游微调任务设计更优的样本。通过在6个主流大模型上开展一系列ID与OOD实验,我们挖掘出多个显著影响下游微调效果的样本设计因素,并总结了一些有趣的现象和规律。基于这些发现,我们提出了一种稳健的样本设计方案,在3个复杂的下游任务中展现出卓越且稳定的性能,远超传统经验驱动的设计方法。此外,通过对提示工程(PE)与样本设计工程关系的进一步分析,我们发现:即使某个提示在零样本或少样本推理场景下表现出色,也不一定适用于指导设计高效的下游微调样本。这一结果揭示了SDE背后隐藏的复杂机制,值得未来更多研究加以探索。预印本链接:欢迎读者提出宝贵意见,共同交流大模型样本设计经验!
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号