
DeepSeek
报告中的这种方式解决了我的一个疑惑:Claude - 3.5 - sonnet这类模型既具备很强的推理能力,又能用于日常任务,它是如何训练的?像o1这类专门的推理模型用于日常任务时,常常会过度思考,输出也很别扭;而4o等非推理模型在处理逻辑较复杂的请求时,表现欠佳。V3方案针对推理类query,会保留专家模型答案的准确与简洁性以及R1推理模式。在RL阶段,利用高温采样融合不同风格,让奖励信号决定采用何种风格,这是一种自然且可扩展的做法。DeepSeep - V3发布后,之前传言的Claude - 3.5 - Opus已训练好,Anthropic暂未放出而是内部用于合成数据这一消息的可信度更高了。用内部更强的模型合成数据进行自举(bootstrapping)似乎已成一种常见做法。有了足够强大的模型辅助合成训练数据后,因所需人工干预远少于模型较弱时,所以迭代速度只会比以前更快。同时,这些年该领域研究路线的演化也很令人感慨。个人觉得这种改变是越来越接近问题本质的,不管模型架构有何差异,最终决定模型行为和特性的只有数据。之前在一篇研究类文章(Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback)里,发现奖励模型与其下游策略(policy)在表现上存在不一致的情况。有这样一个现象,在榜单上表现较好的奖励模型所训练出的策略模型,竟然还不如由表现较差的奖励模型优化得到的策略模型。这或许和优化过程中的不稳定因素存在一定关联,但我个人认为,奖励模型不够稳健(容易对一些表面模式过度拟合、操纵指标)是很重要的原因。而V3的实践表明,如今我们在提高奖励信号的可靠性方面已经取得了显著的进展。通过构建各类规则/沙盒,严格判定模型给出的解决方案,并将其作为奖励信号,这为模型在高难度的数学(如AIME)和代码(如Codeforces、SWE - Bench)等任务的探索提供了稳固的基础。
对于开放性任务或请求,我们能通过让RM生成中间推理过程来使模型得到较靠谱的reward,这样做还具有更好的透明度与可解释性,这在过去一年是个热门话题。

专家
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号