
OpenAI
在那个知名的aha moment中,DeepSeek着重指出了R1 - Zero存在语言混杂以及可读性方面的缺陷。
为解决这些问题,DeepSeek重新训练了R1,引入冷启动数据与多阶段训练流程,来提升模型输出的可读性。

DeepSeek
有人觉得,对AI而言,不管是中文、英文,还是符号,最后都只是token。AI只会以其效率最高的方式检索与输出,要是特意去指定并对齐语言,AI的性能反而会降低(存在某种对齐税)。怎么讲,感觉智商被AI碾压了,AI还得解释说明好让我们能看懂。顺便反驳一下那些诸如DeepSeek一开源,OpenAI就自研o3输出中文就是抄袭DeepSeek R1之类的言论。玩梗没问题,但别太当真。DeepSeek R1论文里也提到,DeepSeek - R1是针对中英文优化的,在回答非中英文问题时,可能也会用英文来呈现思考过程。
好的,读完R1的论文后,我们能推测o系列模型或许也碰到了相同的问题,并且可能解决得不太理想。OpenAI在发布o1的时候曾表示:
简单来讲,OpenAI想要借o1模型的思考流程,搞明白大语言模型工作时的所思所想,因此未对o系列模型的思考行为开展对齐或人类偏好训练。不过,这些未对齐的思考过程不能直接展示给用户,于是OpenAI单独总结了这些思维后呈现给用户。DeepSeek R1发布之后,它直接将思维链展示给用户。用户觉得这种模型逐步推理的思考过程很有用,于是倒逼OpenAI决定公开更详细的思维链。
但事实上,o3 - mini输出的思考过程并非真正意义上的思考过程,依旧是二次总结的结果,只是相比以前总结得更完备,输出的内容更长一点罢了。国外网友扒出了o3 - mini模型总结CoT(思维链)的系统提示(System Prompt),这个系统提示很长。关键在于,其中特意强调永远不要透露完整、未经处理的思考过程。System Prompt的缩略版大致如下:
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号