OpenAI o系列模型思考过程存在哪些问题?

OpenAI

1个回答

写回答

vv3hi

2026-01-23 23:26

+ 关注

OpenAI
OpenAI

推理模型在思考的时候,其语言本身就是杂乱的,甚至可能不属于某种特定的语言;其二,OpenAI o3 - mini所给出的并非真正的思维过程,而是由专门模型总结生成的,所以可能是二次补全生成思维链(CoT)时产生的幻觉。OpenAI的o系列未公开细节,那我们直接重新回顾DeepSeek R1的论文。在该论文的摘要里就着重指出了DeepSeek R1 - Zero存在诸如可读性和语言混杂等问题。

在那个知名的aha moment中,DeepSeek着重指出了R1 - Zero存在语言混杂以及可读性方面的缺陷。

为解决这些问题,DeepSeek重新训练了R1,引入冷启动数据与多阶段训练流程,来提升模型输出的可读性。

DeepSeek
DeepSeek

具体而言,要解决DeepSeek - R1 - Zero的语言混合问题,R1会引入冷启动数据与多阶段训练流程,以此提升模型输出的可读性和语言一致性。再如,曾有国外网友分享,两个DeepSeek R1聊天的输出中有许多神秘符号(也有人怀疑是炒作,可看原帖)。

有人觉得,对AI而言,不管是中文、英文,还是符号,最后都只是token。AI只会以其效率最高的方式检索与输出,要是特意去指定并对齐语言,AI的性能反而会降低(存在某种对齐税)。怎么讲,感觉智商被AI碾压了,AI还得解释说明好让我们能看懂。顺便反驳一下那些诸如DeepSeek一开源,OpenAI就自研o3输出中文就是抄袭DeepSeek R1之类的言论。玩梗没问题,但别太当真。DeepSeek R1论文里也提到,DeepSeek - R1是针对中英文优化的,在回答非中英文问题时,可能也会用英文来呈现思考过程。

好的,读完R1的论文后,我们能推测o系列模型或许也碰到了相同的问题,并且可能解决得不太理想。OpenAI在发布o1的时候曾表示:

简单来讲,OpenAI想要借o1模型的思考流程,搞明白大语言模型工作时的所思所想,因此未对o系列模型的思考行为开展对齐或人类偏好训练。不过,这些未对齐的思考过程不能直接展示给用户,于是OpenAI单独总结了这些思维后呈现给用户。DeepSeek R1发布之后,它直接将思维链展示给用户。用户觉得这种模型逐步推理的思考过程很有用,于是倒逼OpenAI决定公开更详细的思维链。

但事实上,o3 - mini输出的思考过程并非真正意义上的思考过程,依旧是二次总结的结果,只是相比以前总结得更完备,输出的内容更长一点罢了。国外网友扒出了o3 - mini模型总结CoT(思维链)的系统提示(System Prompt),这个系统提示很长。关键在于,其中特意强调永远不要透露完整、未经处理的思考过程。System Prompt的缩略版大致如下:

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号