OpenAI发布GPT-4 Turbo，对Agent领域有何影响？

1个回答

fgjjh

2026-01-05 15:50

作为一名从事AI Agent领域的创业者，感觉OpenAI dev day并没有特别出彩，发布的内容都在预料之中，可能是因为同行之间容易产生轻视的缘故。

代理领域并没有太多令人惊艳的创新，主要是构建了一个代理平台。强制使用 JSON 格式的 API 输出以及支持多函数调用确实非常实用。然而，代理最核心的记忆能力、自主意识、任务规划、性格设定和情感模拟等问题，在这次 OpenAI 的发布会上并未得到解决。如果在 OpenAI 发布会之后，一家代理公司的核心竞争力似乎消失了，那首先需要反思的是其技术壁垒是否过于薄弱。毕竟，真正的竞争优势应该源于对关键技术问题的深入探索与突破，而不是依赖外部框架或工具的简单应用。最令人惊艳的是GPT-4 Turbo，它具备多项重要特性：

这确实很出色，知识库已从2021年9月更新至2023年4月。更新基础模型的知识库颇具挑战性。数据清洗的质量尤为关键。据悉，在开发GPT-3.5和GPT-4的过程中，OpenAI经历了一些人员变动，导致新数据清洗工作长时间停滞，从而使模型有一年半未得到更新。更新知识库后的模型通常需重新训练，要将新数据（知识截止点后产生的数据）与旧数据按一定比例混合训练。不能仅用新数据训练，否则会导致灾难性遗忘，即学了新知识却忘了旧知识。如何在向现有模型添加大量新知识的同时，尽量降低重新训练的成本，是一个非常值得探索的研究方向。OpenAI 近期推出了多个多模态模型，其中 GPT-4V 擅长图片理解，DaLLE-3 专注于图片生成，二者均代表了当前图片处理领域的顶尖水平。遗憾的是，此前 GPT-4V 和 DaLLE-3 仅能在网页端使用，未提供 API 接口。如今，OpenAI 终于开放了这两者的 API，并且还推出了 TTS（语音合成）API。结合已有的 Whisper，目前在图片、语音的输入输出等方面已经实现了多模态的全面覆盖。GPT-4V价格亲民，输入1024x1024图片仅需765个token，费用为$0.00765，性价比颇高。DaLLE-3生成图片的费用相对较高，例如一张1024x1024分辨率的图片需要$0.04，与Midjourney定价相近。而如果自行托管Stable Diffusion SDXL模型，生成单张图片的成本可降至$0.01以下。不过，DaLLE-3在图像质量上显著优于SDXL，能够更好地解决一些技术难题。比如，SDXL常出现的手指绘制不自然问题、难以生成带有指定文字的Logo问题，以及复杂物体间的位置关系处理问题，DaLLE-3均能表现得更加出色和精准，从而提供更高质量的视觉效果。Whisper 开源的原本是 V2 版本，这次推出的是 V3 版本，不仅提供 API，还继续开源。之前我就注意到，ChatGPT 的语音通话功能在识别效果上比我自己部署的 Whisper V2 模型更好，看来 OpenAI 确实留了一手。但无论 V2 还是 V3，两者的识别精度都已经非常出色了。除了人名和专有名词外，日常英语的识别准确率几乎达到 100%。即便存在极少数错误，也完全不影响大模型对语义的理解。

OpenAI
OpenAI

目前开源的VITS以及Google的TTS技术已相当成熟，而OpenAI的模型在语音合成效果上表现得更为出色。期待 OpenAI 尽快推出基于自定义语音数据微调 TTS 的功能。在许多场景下，我们需要合成特定人物或角色的独特声音，而非通用的标准化音色。不过，微调后的模型在推理阶段无法进行批量处理，这会显著增加计算成本。长远来看，更可行的方案可能是提取特定人物或角色声音的音色特征，并将其转化为若干个标记（token），再输入到一个通用模型中。这样无需针对每个特定声音单独微调模型，即可实现用单一模型生成多种不同人物的语音，从而提升效率并降低成本。GPT-3.5 16K 版本与 GPT-4-Turbo 均已支持模型微调功能，这一进步值得肯定。此外，OpenAI 还为复杂需求的大型客户提供了定制化服务。然而，微调后的模型在推理过程中面临一些挑战，例如无法高效进行 batching 处理（尤其是 LoRA 部分不能对不同微调模型合并处理），这导致推理成本高于原始模型。这对推理基础设施提出了更高要求，需要进一步优化以应对性能和效率的双重考验。与GPT-4相比，GPT-4-Turbo将输入token的成本降至原来的1/3，输出token的成本降至1/2，这无疑是巨大的进步。然而，即使经过优化，GPT-4-Turbo的成本仍远高于GPT-3.5-Turbo。具体来看，输入token成本是后者的10倍（每1K tokens为0.01美元对比0.001美元），而输出token成本更是高达15倍（每1K tokens为0.03美元对比0.002美元）。对于注重成本的应用场景来说，这种差距使得开发者必须在性能和费用之间做出取舍。因此，在选择模型时，需根据实际需求和预算综合考量。

微软曾发表并撤回了一篇论文，其中提到 GPT-3.5-Turbo 是一个 20B 参数的模型，但我对此持怀疑态度。从 API 运行成本来看，结合 temperature 设为 0 时输出结果仍存在不确定性的现象，可以推测 GPT-3.5-Turbo 更可能是一个参数量超过 100B 的 MoE（专家混合）模型。此前已有关于 GPT-4 是 MoE 架构的泄露信息，而 GPT-3.5-Turbo 同样采用 MoE 架构的可能性也非常高。这种设计能够更高效地平衡性能与计算资源消耗。为解决 MoE 模型在 batching 及 temperature > 0 时输出不稳定的问题，OpenAI 在 dev day 上推出了重复输出功能。该功能通过设定固定种子，确保相同 prompt 下的输出结果一致，从而便于调试与验证。未来应用或许需要模型路由功能，根据问题类型选择适合的模型，简单问题用低成本模型，复杂问题调用高端模型。这样既能降低成本，又可确保性能基本不变，毕竟大多数用户提问以简单问题为主，无需动用如GPT-4这样的高性能模型。之前 GPT-4 的速率限制很低，稍不注意就会触达上限，根本没法用于处理高并发用户请求的线上服务。如今 GPT-4 的速率限制已提高到每分钟 300K token，这个量级应该足以支持小规模的服务需求。不过，如果完全用满 300K token，每分钟将花费 3 美元，因此得先评估账户余额是否能承受这样的开销。用户每月可用配额增加，这是好事。以前超出120美元需单独申请，现在额度提升了。

目前 GPT-4-Turbo 的配额非常有限，每日仅支持 100 个请求，与网页版 GPT-4 同样受限。希望未来能尽快提升 GPT-4-Turbo 的速率限制，以便在生产环境中得以应用。早就传闻OpenAI在Agent领域酝酿大动作，果然在本次OpenAI开发日的后半段，焦点集中在了Agent上。OpenAI 早就推出了插件系统，希望打造一个大模型应用的 App Store，但体验一直不佳。此次发布的 GPTs 让这一目标更近了一些。GPT的最大创新是推出了Agent Platform，这相当于一个Agent的App Store，能让各种插件在此上架运行。大模型技术让用户能够打造专属的智能助手，使其更好地满足日常生活、特定任务、工作或家庭需求，还可以与他人共享。例如，它能帮你掌握任意棋盘游戏规则，辅导孩子学数学，甚至设计贴纸。无需编程基础，每个人都能轻松创建自己的智能助手。构建这样一个助手就像开启一段对话，只需给出指示、补充相关知识，再选择其功能范围，比如浏览网页、生成图像或分析数据等。本月晚些时候，OpenAI 将上线 GPT 商店，用户可在此购买 GPT（虽然购买 GPT听起来有些奇怪，或许叫 Agent 更合适）。商店支持搜索 GPT，并设有排行榜。此外，GPT 的创作者能够从中获得收益分成。一开始我觉得GPT这个名字不太好听，甚至觉得用Agent可能会更好。但后来Sam Altman给出了他的解释：随着时间的推移，GPT和助手会成为通向Agent的前奏，并且能够承担更多、更复杂的工作。它们将逐步具备规划能力，同时可以代表用户完成更加复杂的任务。从这段话可以看出，Sam Altman对Agent寄予了很高的期望。他认为目前这些应用还远未达到被称为Agent的标准，因为在任务规划等核心问题上仍然存在挑战。这或许正是OpenAI没有直接使用Agent这个词的原因所在。换句话说，虽然现在的模型已经非常强大，但它们更多的还是专注于回答问题或提供帮助，而在自主性、复杂任务处理以及全面代表用户行动方面还有很长的路要走。Agent的概念显然指向一种更加智能、独立且多功能的存在，而不仅仅是一个语言生成工具。因此，在Sam Altman的愿景中，GPT是通向这一目标的重要阶段，但它还不是最终形态。

OpenAI 推出了 Assistants API，助力用户更便捷地开发 GPT（即 Agent 应用）。该 API 提供持久且无限长度的对话线程、代码解释器、搜索和函数调用等核心功能。过去需要借助 LangChAIn 实现的任务，如今大部分通过 Assistants API 即可完成，极大简化了开发流程，提升了创作效率。

这个持久且无限长的对话线看似仅增加了存储功能，将无状态对话转变为有状态，但实际上，它是实现记忆功能、增强用户粘性的关键举措。如果一个平台仅提供无状态的 API，那么它随时可能被替代。目前许多大模型的 API 与 OpenAI 兼容，只需导入 OpenAI 并设置接口地址即可完成替换。因此，OpenAI 的核心优势仅在于模型性能和成本控制。一旦有更具竞争力的模型出现，OpenAI 很可能会迅速失去市场地位。有状态的线程有所不同，它记录了用户与助手互动的过程。随着时间发展，助手将更了解你，如同相识多年的老友，难以被替代。我一直觉得代理的记忆极为重要，这不仅能够优化用户体验，减少双方沟通成本，还能增强用户黏性，让用户对其产生依赖感。这种持续积累的理解，是建立深度连接的关键所在。此外，助手还可根据需要调用新工具，涵盖以下方面：代码解释器：可在沙箱执行环境下编写、运行Python代码，生成图表，处理多类型数据与文件格式。助手能通过运行代码解决复杂代码及数学问题。检索增强生成（RAG）：通过引入大模型之外的知识，提升助手的能力，比如专业领域数据、产品详情或用户文档。OpenAI 自动处理 embedding 的计算与存储，完成文档拆分及搜索算法优化，让用户无需自行摸索。这类似于 SaaS 模式的 LangChAIn，方便快捷地整合外部信息以生成更精准的内容。函数调用是OpenAI为构建Agent推出的重磅功能，具备两大亮点。

首先，新增了对严格 JSON 格式输出的支持。以往的模型往往会为生成的 JSON 添加多余的前后缀内容，导致需要额外处理才能满足 API 输入要求。如今已可设置为纯 JSON 格式输出，更加便捷高效。其次，实现一次生成多次函数调用的功能。过去，大型模型通常只能在一次运行中输出一个函数调用，若流程中需要多个外部 API 协同工作，则必须多次调用大模型，这不仅会增加处理延迟，还会提高 token 消耗成本。而 OpenAI 借助其出色的代码生成能力，可以让单次模型调用生成一系列连续的函数调用，有效减少复杂工作流场景下的延迟与成本开销。OpenAI 展示的应用案例虽不错，但多为他人做过的内容。其目的在于展现该平台便于创建个性化 Agent 的特点。就像旅行助手 Agent 的例子，这让我想起昨天自己的经历。昨天上午我去南加大游玩，在校园里碰到几位游客，他们问我能否带他们参观一下。我回应说这是我的第一次来这里，不如让人工智能助手陪着大家一起逛。接着，我就用自己开发的 AI 助手带领着我们参观了几处具有代表性的建筑。

借助 Whisper、TTS、GPT-4V 和 DaLLE-3，制作多模态 Agent 变得简单。DevDay 展示的一个支持语音聊天抽奖的 App，就是利用 Whisper 和 TTS 实现的。这些技术让交互更加自然流畅，提升了用户体验。

最后的AI抽奖环节，加上送给每个人500美元API额度的彩蛋，简直将活动氛围拉满，果然不愧为人工智能界的年度盛事。ChatGPT 整合了 GPT-4 中的必应搜索、DaLLE-3 等功能，用户不必切换模型。它能自动选择合适的插件来响应请求，提供更便捷的服务体验。此外，ChatGPT 新增了直接处理 PDF 及多种文件类型的功能，类似 ChatPDF 的工具因此失去了市场优势，几乎被彻底取代。这一更新显著提升了 ChatGPT 的多功能性与实用性。许多人看完OpenAI开发日活动后感慨，大模型生态中曾有众多公司，如今似乎只剩OpenAI独占鳌头。

过去，许多创业者曾担忧：如果我开发的产品，OpenAI 也做了，该怎么办？这个问题与国内互联网创业圈之前的经典难题相同：如果我做的产品腾讯也做了，该怎么办？我的回答很明确：要么做OpenAI不做之事，要么做他们暂时无法实现的内容。以我们公司开发的陪伴型机器人（companion bot）为例，这是OpenAI明确表示不会涉足的领域。萨姆·阿尔特曼多次提到，类人Agent并没有太大价值，真正有意义的是帮助人类高效完成工作的工具。OpenAI与微软的价值取向较为一致，专注于企业级和通用型应用，对泛娱乐化的产品兴趣不大。尽管陪伴型Agent这一赛道竞争激烈，几乎所有大模型公司都推出了相关产品，但至今还没有一款能够达到电影她中Samantha那样的水平。这个领域仍然存在许多基础性问题亟待解决，比如任务规划、记忆管理、角色塑造、情感表达以及自主思考能力等。这些问题的复杂性和挑战性使得该领域的上限非常高，未来还有巨大的发展空间等待探索。还有一个例子是开源模型和低成本模型，这可能是 OpenAI 不太会涉足的领域。OpenAI 的目标是朝着通用人工智能（AGI）方向发展，专注于不断提升模型的能力，因此像 7B 这样规模的小型模型根本无法引起他们的兴趣。然而，我们已经看到 GPT-4 的使用成本非常高，即使是相对便宜的 GPT-4-Turbo，价格依然居高不下。实际上，在面向消费者的许多场景中，即使是 GPT-3.5-Turbo 的价格也显得过于昂贵。因此，在很多情况下，我们需要自行部署 7B 或 13B 规模的模型，以满足用户大部分基础需求。据说，Character.AI 使用的是自主研发、大约 7B 参数量的对话模型，其每个请求的成本低于 GPT-3.5-Turbo API 的十分之一。虽然 Character.AI 在某些方面表现得不够智能，比如记忆功能和情感处理不够完善，但它的低成本优势非常明显。在许多应用场景中，这种低成本模型可能成为企业的核心竞争力。毕竟，对于一些简单的任务，用户并不需要一个能力超强但价格昂贵的模型。第三个例子是游戏领域，大模型必将对游戏行业产生深远影响。不过，OpenAI 应该不会直接进入游戏行业，即使涉足，也会选择与专业游戏公司合作。例如近期热门的完蛋！我被美女包围了！，还有深受宅男宅女喜爱的 GaLGame，目前大多采用玩家做选择题的形式推动剧情发展。如果玩家能够通过自然语言与游戏角色互动，并且剧情根据个人偏好动态生成，这将带来一种前所未有的沉浸式游戏体验。那么，OpenAI 当前难以实现的是什么？例如视频输入与生成，这类技术短期内可能不会推出，即便推出，成本也可能较高。OpenAI 致力于大模型的前沿探索，更倾向于用足够强大的模型生成高质量视频，而非追求廉价却低质的效果。目前 RunwayML Gen2 的成本已相当高，生成 7.5 分钟视频需花费 90 美元。而 AnimateDiff 虽然成本较低，但效果尚待优化，近期社区对此进行了不少改进。Live2D 和 3D 模型则面临较高的建模成本，且主要局限于人物相关模型，难以生成复杂的交互式视频内容。这些领域正是后来者可以发力的方向。除了软件领域，OpenAI 在硬件相关方面也存在局限。例如，Rewind 的录音吊坠、Humane 推出的类似电影她中可放置于上衣口袋的 AI Pin，这些都是独具创意的硬件产品。同时，像智能手机上的 Siri 等语音助手，作为重要的人机交互入口，也是 OpenAI 难以替代的存在。存在数据壁垒的场景也是OpenAI难以取代的，比如互联网公司在自家App中加入大模型推荐功能，凭借数据优势，其他企业很难涉足这一领域。萨姆·阿尔特曼请微软首席执行官萨提亚·纳德拉分享了一些重要内容，其中最关键的一点便是基础设施的重要性。Azure 作为 OpenAI 训练与推理的基础设施，为像 GPT-4 这样的大规模模型提供了万卡训练集群。目前，大多数公司还无法拥有这样高效的基础设施，尤其是万卡集群所需的高速网络通信能力以及自动故障恢复功能，这些技术门槛仍然很高。训练和推理成本下，Infra 将成大模型公司未来 2-3 年制胜关键因素之一。

举报有用（0）分享收藏

OpenAI发布GPT-4 Turbo，对Agent领域有何影响？

1个回答

fgjjh

热门话题

相关问题