DeepSeek - v3技术报告有哪些亮点?

DeepSeek

1个回答

写回答

zyw931207

2025-10-14 21:00

+ 关注

DeepSeek
DeepSeek

在看到正式发布的消息后,我马上浏览了DeepSeek - v3的技术报告。看完后,我发现有几个值得重点关注(主要着眼于后训练部分)的地方。效果方面就无需赘述了。不管是主流的benchmark,还是像livebench这种第三方评测,DeepSeek - V3差不多是首个能与已开放服务的商业模型比肩甚至超越它们的开源模型。在此恭喜DeepSeek

报告中的这种方式解决了我的一个疑惑:Claude - 3.5 - sonnet这类模型既具备很强的推理能力,又能用于日常任务,它是如何训练的?像o1这类专门的推理模型用于日常任务时,常常会过度思考,输出也很别扭;而4o等非推理模型在处理逻辑较复杂的请求时,表现欠佳。V3方案针对推理类query,会保留专家模型答案的准确与简洁性以及R1推理模式。在RL阶段,利用高温采样融合不同风格,让奖励信号决定采用何种风格,这是一种自然且可扩展的做法。DeepSeep - V3发布后,之前传言的Claude - 3.5 - Opus已训练好,Anthropic暂未放出而是内部用于合成数据这一消息的可信度更高了。用内部更强的模型合成数据进行自举(bootstrapping)似乎已成一种常见做法。有了足够强大的模型辅助合成训练数据后,因所需人工干预远少于模型较弱时,所以迭代速度只会比以前更快。同时,这些年该领域研究路线的演化也很令人感慨。个人觉得这种改变是越来越接近问题本质的,不管模型架构有何差异,最终决定模型行为和特性的只有数据。之前在一篇研究类文章(Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback)里,发现奖励模型与其下游策略(policy)在表现上存在不一致的情况。有这样一个现象,在榜单上表现较好的奖励模型所训练出的策略模型,竟然还不如由表现较差的奖励模型优化得到的策略模型。这或许和优化过程中的不稳定因素存在一定关联,但我个人认为,奖励模型不够稳健(容易对一些表面模式过度拟合、操纵指标)是很重要的原因。而V3的实践表明,如今我们在提高奖励信号的可靠性方面已经取得了显著的进展。通过构建各类规则/沙盒,严格判定模型给出的解决方案,并将其作为奖励信号,这为模型在高难度的数学(如AIME)和代码(如Codeforces、SWE - Bench)等任务的探索提供了稳固的基础。

对于开放性任务或请求,我们能通过让RM生成中间推理过程来使模型得到较靠谱的reward,这样做还具有更好的透明度与可解释性,这在过去一年是个热门话题。

专家
专家

总结而言,更强大且特定领域的模型可为现有模型合成模仿数据,在强化学习阶段提供探索入口,从而得到更强的版本。而这个更强的版本又能用于训练更有能力的特定领域(如推理场景)模型和更鲁棒的奖励模型,如此层层递进。

举报有用(4分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号