
OpenAI
o3和R1这类模型会有漫长的思维链(CoT)过程,其间会生成额外令牌来分解问题、推理、测试不同答案,最终得出解决方案。而此前,OpenAI的推理模型未展示思维链,仅提供推理步骤的高层次概要。这让用户和开发者难以理解模型的推理逻辑,也不易更改指令和提示以引导模型走向正确方向。OpenAI将思维链视作竞争优势,为防对手复制用于模型训练而隐藏它。不过,R1等开放模型展示了完整推理轨迹,这种情况下,缺乏透明度就成了OpenAI的劣势。新版o3 - mini呈现出更详尽的思维链(CoT),虽依旧无法看到原始令牌,但推理过程更明晰了。它对应用程序重要的原因是什么?在之前针对o1和R1所做的实验里,我们察觉到o1在处理数据分析与推理问题时稍占优势。但它有个重要局限,就是我们弄不清模型出错的原因。要知道,面对从网络获取的杂乱现实数据时,模型很容易出错。而R1的思维链能让我们排查故障,还能调整提示以优化推理。比如在我们的一次实验里,两个模型都没给出正确答案。不过因为R1有详细的思维链,我们才发现问题不在模型,而是信息检索阶段(从网络收集信息时)。在别的实验中,当R1无法解析所给信息时,其思维链能给我们提示,o1却只能很粗略地说明响应形成过程。
o3 - mini的CoT这次作用巨大。先是推导出Mag 7的含义,接着在添加了非Mag 7股票的数据中过滤数据,只留下相关股票。然后计算出每月投资每只股票的金额,最终算出正确答案。在提供给模型的数据里,投资组合的价值最晚在数据登记时间会达到2200美元左右。OpenAI仍有许多细节未公开,所以要做更多测试才能知晓新思路的局限。不过在我们的氛围检查里,新格式好像更有用。这对OpenAI而言意味着什么?DeepSeek - R1发布之际,相比OpenAI推理模型,其有着开放、廉价、透明这三个显著优势。之后,OpenAI成功缩小了差距。o1每百万输出令牌成本为60美元,o3 - mini成本仅4.40美元,且在诸多推理基准测试中表现优于o1。在美国供应商那里,R1每百万个代币成本约7到8美元。DeepSeek在自家服务器上以每百万个代币2.19美元的价格提供R1,但因托管在中国,很多组织无法使用。OpenAI因CoT输出有新变化,已成功解决透明度方面的问题。OpenAI会如何开源其模型仍需观察。自发布起,R1就被众多实验室和公司修改、分叉与托管,这或许会让它成为企业进行推理的首选模型。OpenAI的首席执行官Sam Altman近期承认,自己在开源辩论里站错了队。我们且拭目以待,看这种想法会在OpenAI的后续版本里怎样体现。Venture Beat,2025年2月7日。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号