
OpenAI
OpenAI在2024年9月12日发布o1模型,并于次日正式公开。在发布之前,O1模型在OpenAI内部的代号为草莓。OpenAI视o1为全新能力的体现,对其极为重视。他们几乎彻底舍弃了GPT品牌,版本号回归1,以当前的GPT-4为起点,将新系列命名为OpenAI o1,开启新的发展篇章。相比GPT-4o,OpenAI o1的推理能力更为强大。
主要呈现两个较为显著的特征。加强学习锻炼o1模型的核心是采用强化学习方法训练。这种方法让模型通过持续试错优化决策策略,进而提升在复杂推理任务中的表现。深度思考链构建在回答问题前,会构建一个内部思维链,逐步推导并分解问题,形成清晰的解答思路。它模拟人类思考方式,使模型深入理解问题,从而给出更准确的答案。

草莓
在GPQA-diamond基准测试中,o1于化学、物理及生物学领域全面超越人类博士专家的表现,彰显了其卓越的专业知识水平。
在Codeforces编程竞赛中,o1的代码能力达到参赛者89%的百分位,远超GPT-4o模型,充分展现了o1模型在编程竞赛领域的卓越实力。GitHub将o1模型融入AI编程助手Copilot,显著优化代码质量与性能表现。
在安全性方面,即使面对最难的越狱测试(评估模型在用户尝试规避安全规则时的合规性),o1-preview模型仍取得84/100的高分,显著优于GPT-4o的22/100。OpenAI的o1系列包含三个版本:正式版o1、预览版o1-preview以及迷你版o1-mini。目前,o1-preview和o1-mini已对ChatGPT Plus及Team订阅用户开放,其余用户也将陆续开放使用权限。OpenAI计划为所有免费用户开放o1-mini的访问权限,不过具体发布日期仍未确定。对开发者而言,o1的API价格偏高。o1预览版输入每百万15美元,输出60美元;o1 mini更实惠,输入仅3美元,输出12美元。
当前的OpenAI o1更像是个逻辑思维出色的理工科生,但在文科方面表现平平。o1模型擅长复杂推理,适用于数学、编码、科学等领域的问题解决,助力多场景需求。o1在推理能力上表现惊人,远超多数人类,但在部分自然语言处理任务中,如写作和文字编辑,不如GPT-4出色。此外,o1不具备浏览网页及处理文件和图像的功能。OpenAI的o1模型优缺点明显,与ChatGPT 4o代表了人工智能探索的两个不同方向。专注多模态研究,模拟人类表情、意识与情绪,探索人机交互的感性层面。进行推理思考,模拟人类思维,专注于理工科领域。最终,有望实现兼具文采与理性的通用人工智能。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号