开源大模型RL策略,DeepSeek、Qwen、LLaMA

1个回答

写回答

448591505

2025-12-08 15:00

+ 关注

人类
人类

RLHF(人类反馈强化学习)是非常关键的部分。随着开源模型不断发展,我们发现像DeepSeek、Qwen、LLaMA等主流开源大模型,在解决强化学习(RL)问题时有着不同的策略与实现方式。这些模型在学习过程设计和策略选取上各有特点,本文将对几个主流开源模型系列的RL策略予以探讨与总结。DeepSeek系列:早期模型靠DPO来对齐,之后慢慢转为采用PPO,近期在RLHF阶段的学习都运用GRPO。并且RM策略也一直在发展,rule - based RM和model - based RM同样受重视,在最新的DeepSeek - V3里还采用了self - rewarding策略,让模型能够持续自我提升。Qwen系列的发展是从早期的PPO逐步过渡到DPO(期间也会训练RM以进行样本选择),在过渡后,离线阶段采用DPO,在线阶段运用GRPO。并且最新的qwen2.5 - coder模型仅使用离线的DPO。LLaMA更倾向于运用迭代技术优化模型,在每一轮优化时,都会结合拒绝采样(Rejection Sampling)加上近端策略优化算法(PPO)或者直接偏好优化(DPO)。得出了几点结论:GRPO/PPO和DPO的竞争好像难分高下。LLaMA更倾向DPO,DeepSeek倾向采用GRPO,而Qwen是将二者结合起来。2. 不管是用GRPO/PPO,还是DPO,RM都极为关键(即便用DPO做RL,也得用RM做拒绝采样)。各个模型每次更新时,几乎都会提到一些RM的优化之处和关键要点。3. RL阶段基本是不可或缺的,在代码、数学这类强推理场景中更是如此,它对提升模型能力有关键意义。

在RL阶段仅采用DPO,构建了包含有用性和无害性的DPO训练偏好数据,其候选数据直接由DeepSeek Chat生成。结果表明,DPO可提升模型开放式生成能力,但在标准基准测试中表现差异不明显。

未采用RL,仅用SFT来进行对齐。

DeepSeek
DeepSeek

GRPO和PPO比较,GRPO省去了critic model,它通过对一组输出的基线值进行估计来优化策略模型。运用两阶段的训练策略:第一阶段的目标是提高推理能力,为此训练了一个侧重于代码和数学推理能力的奖励模型以实现对齐。第二阶段的目标是提高人类对齐能力。通过对安全、有用和基于规则这3个奖励模型进行加权来实现对齐。并且,在工程策略方面也进行了不少优化,从而提升训练效率。关于RL的一些观察与讨论:2. 在线强化学习(online RL):在偏好对齐实验里,在线强化学习明显比离线强化学习(offline RL)表现更优。于是,团队花费诸多精力构建了一个在线RL框架,从而更好地对DeepSeek - V2的偏好进行对齐。

整体训练策略与DeepSeek - V2相同。其不同之处在于:在代码任务方面,未采用编译器的反馈,而是对Reward Model进行了训练。实验显示,奖励模型在RL训练里可优化并稳定训练信号,尤其在应对复杂代码生成任务时,能提供更可靠反馈,助力模型更好地学习与优化。

RL部分依旧采用V2系列的GRPO方法,Reward Model包含rule - based(基于规则)和model - based(基于模型)这两种类型。model - based(基于模型)的Reward Model是利用DeepSeek - V3的SFT(监督微调)的checkpoint进行训练的,这使其具备了SFT模型的能力。团队为提升奖励模型的可靠性,构建了带有思维链(CoT)的偏好数据,该数据除了给出最终奖励外,还会对模型的推理过程加以评估。论文未详细提及,所以无法确定是否使用了PRM。

在RL(强化学习)阶段采用的是标准的PPO。RM(奖励模型)的训练包含两个阶段:先是预训练(Preference Model PretrAIning, PMP),会运用大量对比数据(有包含两个不同响应的样本对及其偏好的数据);之后依据人类反馈进行微调,从而保证奖励模型能精准体现人类偏好。

无专门技术报告,blog提到在RL阶段用DPO和PPO做对齐。

整体运用DPO,包含离线与在线两个阶段。离线阶段直接使用偏好数据集,以DPO进行对齐;在线训练阶段,模型借助实时反馈持续优化自身表现。具体而言,从当前的策略模型中采集多个响应,随后奖励模型会挑选出最受偏好和最不受偏好的响应,组成偏好对,并在每个训练周期供DPO使用。似乎虽然没有直接采用PPO,但依然训练了奖励模型来挑选DPO偏好对。

Qwen2.5依旧采用两阶段的方式。在离线阶段运用DPO,借助执行反馈与答案匹配来保证生成响应的质量,这对数学、代码生成这类有标准答案却不易评估的任务尤为适用。而在线RL采用GRPO,借助RM对响应的反馈,增强了模型生成响应的精确性、连贯性以及与人类偏好的对齐能力。

Qwen2.5 - Coder依靠离线DPO来进行对齐操作。针对简单代码,借助多语言代码沙箱生成测试用例以验证其正确性;而对于复杂代码,则运用LLM - as - judge方法对代码质量予以评估。将代码DPO数据与通用数据相融合,用于离线DPO训练。

未到RL阶段,仅进行了指令微调的设计。

将Rejection Sampling与PPO相结合以进行迭代优化提升。Reward Model包含两个模型,一个保障Safety,另一个负责Helpful。每次迭代时,模型会生成多个回应,接着利用奖励模型选出得分最高的回应作为新的标准,再对模型进行微调。该方法经多次采样与选择逐步提高模型的性能。在拒绝采样的基础上,进一步采用PPO算法优化。

整体上和LLaMA - 2相似,运用迭代式策略来提升(论文提到迭代了6轮)。Reward Model的训练不同于LLaMA - 2,它去掉了损失函数中的margin项。之后采用DPO进行偏好优化,这和LLaMA - 2使用PPO也是有区别的。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号