
人类
在RL阶段仅采用DPO,构建了包含有用性和无害性的DPO训练偏好数据,其候选数据直接由DeepSeek Chat生成。结果表明,DPO可提升模型开放式生成能力,但在标准基准测试中表现差异不明显。
未采用RL,仅用SFT来进行对齐。

DeepSeek
整体训练策略与DeepSeek - V2相同。其不同之处在于:在代码任务方面,未采用编译器的反馈,而是对Reward Model进行了训练。实验显示,奖励模型在RL训练里可优化并稳定训练信号,尤其在应对复杂代码生成任务时,能提供更可靠反馈,助力模型更好地学习与优化。
RL部分依旧采用V2系列的GRPO方法,Reward Model包含rule - based(基于规则)和model - based(基于模型)这两种类型。model - based(基于模型)的Reward Model是利用DeepSeek - V3的SFT(监督微调)的checkpoint进行训练的,这使其具备了SFT模型的能力。团队为提升奖励模型的可靠性,构建了带有思维链(CoT)的偏好数据,该数据除了给出最终奖励外,还会对模型的推理过程加以评估。论文未详细提及,所以无法确定是否使用了PRM。
在RL(强化学习)阶段采用的是标准的PPO。RM(奖励模型)的训练包含两个阶段:先是预训练(Preference Model PretrAIning, PMP),会运用大量对比数据(有包含两个不同响应的样本对及其偏好的数据);之后依据人类反馈进行微调,从而保证奖励模型能精准体现人类偏好。
无专门技术报告,blog提到在RL阶段用DPO和PPO做对齐。
整体运用DPO,包含离线与在线两个阶段。离线阶段直接使用偏好数据集,以DPO进行对齐;在线训练阶段,模型借助实时反馈持续优化自身表现。具体而言,从当前的策略模型中采集多个响应,随后奖励模型会挑选出最受偏好和最不受偏好的响应,组成偏好对,并在每个训练周期供DPO使用。似乎虽然没有直接采用PPO,但依然训练了奖励模型来挑选DPO偏好对。
Qwen2.5依旧采用两阶段的方式。在离线阶段运用DPO,借助执行反馈与答案匹配来保证生成响应的质量,这对数学、代码生成这类有标准答案却不易评估的任务尤为适用。而在线RL采用GRPO,借助RM对响应的反馈,增强了模型生成响应的精确性、连贯性以及与人类偏好的对齐能力。
Qwen2.5 - Coder依靠离线DPO来进行对齐操作。针对简单代码,借助多语言代码沙箱生成测试用例以验证其正确性;而对于复杂代码,则运用LLM - as - judge方法对代码质量予以评估。将代码DPO数据与通用数据相融合,用于离线DPO训练。
未到RL阶段,仅进行了指令微调的设计。
将Rejection Sampling与PPO相结合以进行迭代优化提升。Reward Model包含两个模型,一个保障Safety,另一个负责Helpful。每次迭代时,模型会生成多个回应,接着利用奖励模型选出得分最高的回应作为新的标准,再对模型进行微调。该方法经多次采样与选择逐步提高模型的性能。在拒绝采样的基础上,进一步采用PPO算法优化。
整体上和LLaMA - 2相似,运用迭代式策略来提升(论文提到迭代了6轮)。Reward Model的训练不同于LLaMA - 2,它去掉了损失函数中的margin项。之后采用DPO进行偏好优化,这和LLaMA - 2使用PPO也是有区别的。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号