
OpenAI
o1在富有挑战性的推理基准方面,远胜GPT - 4o。其中,实线代表pass@1准确率,阴影区域代表64个样本的多数投票(共识)表现。从图中能够发现,o1基本未参与主流榜单测评,在很多重要评价类目上还不如GPT - 4o,像不能处理文件和图像、常识理解方面表现不好等,不过o1的实力大家也都看得见。OpenAI让o1参加国际数学奥林匹克资格考试时,GPT - 4o的正确率为13%,而o1的正确率高达83%。俗话说,是骡子是马,拉出来遛遛。不少国产新模型发布时爱跟OpenAI最新模型比,用测试集跑分,部分单项得分还超过GPT - 4o。然而,o1发布之后,国内没有一家厂商站出来宣称我们的大模型可与o1相媲美。对大语言模型厂商而言,大模型加思维链这种模式确实是一种新范式。OpenAI使大家认识到,大模型不再仅仅着眼于预训练,强化学习的后训练能让引入思维链的大语言模型性能更优。从理论上讲,采用这种训练方式的话,未来在每个领域都有诞生性能超越AlphaGo的超级模型的可能。在大模型不断更新换代之际,我们得特别留意一点:很多企业都在持续利用AI重塑业务形态。大厂都在奋力向前,这个过程需要大量的AI人才,同时也催生了许多高薪岗位,像北京的AI产品经理,基本月薪35000元以上,AI训练师的月薪也在30000元以上……确实很诱人。若想抓住这个机会,不被淘汰,我们唯一能做的就是加速获取大模型相关知识。当然了,AI这方面的内容有些复杂,掌握其底层原理和应用方式是了解它的最佳途径。我是通过这个AI解决方案公开课学习的,课上有AI技术原理讲解、应用案例分析、行业趋势揭秘等内容,而且课上讲的落地案例还能运用到自己的工作中。入口放在下面了,直接听就行↓对了,听完课要找老师领AI+人才核心技能图谱,看了对未来职业路径大有帮助,别忘记。
o1重点运用了思维链(ChAIn of Thought,CoT)方案,把复杂问题分解成多个子问题,从而提高推理能力。o1将思维链融入模型后,提示词工程的难度大大降低。这很可能使AI产品经理日后无需再设计复杂提示词,刚兴起一年多的提示词工程师岗位变得岌岌可危,AI产品经理也会因此遭受很大冲击。另一方面,o1代码能力大幅提高后,代码编写门槛有所降低,AI产品经理能一条龙完成设计、开发、上线工作,这极大地提升了AI产品MVP迭代的效率。在实际使用时,o1模型的推理环节越长,响应速度就越慢。推理环节增多的话,token的消耗相当惊人。所以现阶段,o1 - preview每周的消息限额为30条,o1 - mini为50条,并且API只对第五级用户开放。使用机会难得,我还整理了一些o1的实战内容放在下面了。 物理题

资格考试
首先,o1将输出解这道题所需的物理定理与公式,接着用相应物理公式分析各个选项,最后输出正确选项。 解码
用上面例子进行解码。
这是一个数学方面的问题。
中间推理过程略去,直接出结果了,有数学专业的能看看结果正确与否吗?在试用的时候,我发现o1在求解复杂数学推理问题方面表现很出色。我还对24点、化学PH计算、填字游戏等不少问题进行了评测。o1试用结果太长难以展示,若想了解o1调用的实际情况,可在评论区留言。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号