开源大模型RL策略，DeepSeek、Qwen、LLaMA

1个回答

448591505

2025-12-08 15:00

人类

RLHF（人类反馈强化学习）是非常关键的部分。随着开源模型不断发展，我们发现像DeepSeek、Qwen、LLaMA等主流开源大模型，在解决强化学习（RL）问题时有着不同的策略与实现方式。这些模型在学习过程设计和策略选取上各有特点，本文将对几个主流开源模型系列的RL策略予以探讨与总结。DeepSeek系列：早期模型靠DPO来对齐，之后慢慢转为采用PPO，近期在RLHF阶段的学习都运用GRPO。并且RM策略也一直在发展，rule - based RM和model - based RM同样受重视，在最新的DeepSeek - V3里还采用了self - rewarding策略，让模型能够持续自我提升。Qwen系列的发展是从早期的PPO逐步过渡到DPO（期间也会训练RM以进行样本选择），在过渡后，离线阶段采用DPO，在线阶段运用GRPO。并且最新的qwen2.5 - coder模型仅使用离线的DPO。LLaMA更倾向于运用迭代技术优化模型，在每一轮优化时，都会结合拒绝采样（Rejection Sampling）加上近端策略优化算法（PPO）或者直接偏好优化（DPO）。得出了几点结论：GRPO/PPO和DPO的竞争好像难分高下。LLaMA更倾向DPO，DeepSeek倾向采用GRPO，而Qwen是将二者结合起来。2. 不管是用GRPO/PPO，还是DPO，RM都极为关键（即便用DPO做RL，也得用RM做拒绝采样）。各个模型每次更新时，几乎都会提到一些RM的优化之处和关键要点。3. RL阶段基本是不可或缺的，在代码、数学这类强推理场景中更是如此，它对提升模型能力有关键意义。

在RL阶段仅采用DPO，构建了包含有用性和无害性的DPO训练偏好数据，其候选数据直接由DeepSeek Chat生成。结果表明，DPO可提升模型开放式生成能力，但在标准基准测试中表现差异不明显。

未采用RL，仅用SFT来进行对齐。

DeepSeek

GRPO和PPO比较，GRPO省去了critic model，它通过对一组输出的基线值进行估计来优化策略模型。运用两阶段的训练策略：第一阶段的目标是提高推理能力，为此训练了一个侧重于代码和数学推理能力的奖励模型以实现对齐。第二阶段的目标是提高人类对齐能力。通过对安全、有用和基于规则这3个奖励模型进行加权来实现对齐。并且，在工程策略方面也进行了不少优化，从而提升训练效率。关于RL的一些观察与讨论：2. 在线强化学习（online RL）：在偏好对齐实验里，在线强化学习明显比离线强化学习（offline RL）表现更优。于是，团队花费诸多精力构建了一个在线RL框架，从而更好地对DeepSeek - V2的偏好进行对齐。

整体训练策略与DeepSeek - V2相同。其不同之处在于：在代码任务方面，未采用编译器的反馈，而是对Reward Model进行了训练。实验显示，奖励模型在RL训练里可优化并稳定训练信号，尤其在应对复杂代码生成任务时，能提供更可靠反馈，助力模型更好地学习与优化。

RL部分依旧采用V2系列的GRPO方法，Reward Model包含rule - based（基于规则）和model - based（基于模型）这两种类型。model - based（基于模型）的Reward Model是利用DeepSeek - V3的SFT（监督微调）的checkpoint进行训练的，这使其具备了SFT模型的能力。团队为提升奖励模型的可靠性，构建了带有思维链（CoT）的偏好数据，该数据除了给出最终奖励外，还会对模型的推理过程加以评估。论文未详细提及，所以无法确定是否使用了PRM。

在RL（强化学习）阶段采用的是标准的PPO。RM（奖励模型）的训练包含两个阶段：先是预训练（Preference Model PretrAIning, PMP），会运用大量对比数据（有包含两个不同响应的样本对及其偏好的数据）；之后依据人类反馈进行微调，从而保证奖励模型能精准体现人类偏好。

无专门技术报告，blog提到在RL阶段用DPO和PPO做对齐。

整体运用DPO，包含离线与在线两个阶段。离线阶段直接使用偏好数据集，以DPO进行对齐；在线训练阶段，模型借助实时反馈持续优化自身表现。具体而言，从当前的策略模型中采集多个响应，随后奖励模型会挑选出最受偏好和最不受偏好的响应，组成偏好对，并在每个训练周期供DPO使用。似乎虽然没有直接采用PPO，但依然训练了奖励模型来挑选DPO偏好对。

Qwen2.5依旧采用两阶段的方式。在离线阶段运用DPO，借助执行反馈与答案匹配来保证生成响应的质量，这对数学、代码生成这类有标准答案却不易评估的任务尤为适用。而在线RL采用GRPO，借助RM对响应的反馈，增强了模型生成响应的精确性、连贯性以及与人类偏好的对齐能力。

Qwen2.5 - Coder依靠离线DPO来进行对齐操作。针对简单代码，借助多语言代码沙箱生成测试用例以验证其正确性；而对于复杂代码，则运用LLM - as - judge方法对代码质量予以评估。将代码DPO数据与通用数据相融合，用于离线DPO训练。

未到RL阶段，仅进行了指令微调的设计。

将Rejection Sampling与PPO相结合以进行迭代优化提升。Reward Model包含两个模型，一个保障Safety，另一个负责Helpful。每次迭代时，模型会生成多个回应，接着利用奖励模型选出得分最高的回应作为新的标准，再对模型进行微调。该方法经多次采样与选择逐步提高模型的性能。在拒绝采样的基础上，进一步采用PPO算法优化。

整体上和LLaMA - 2相似，运用迭代式策略来提升（论文提到迭代了6轮）。Reward Model的训练不同于LLaMA - 2，它去掉了损失函数中的margin项。之后采用DPO进行偏好优化，这和LLaMA - 2使用PPO也是有区别的。

举报有用（0）分享收藏

开源大模型RL策略，DeepSeek、Qwen、LLaMA

1个回答

448591505

热门话题

相关问题