
AI
代理领域并没有太多令人惊艳的创新,主要是构建了一个代理平台。强制使用 JSON 格式的 API 输出以及支持多函数调用确实非常实用。然而,代理最核心的记忆能力、自主意识、任务规划、性格设定和情感模拟等问题,在这次 OpenAI 的发布会上并未得到解决。如果在 OpenAI 发布会之后,一家代理公司的核心竞争力似乎消失了,那首先需要反思的是其技术壁垒是否过于薄弱。毕竟,真正的竞争优势应该源于对关键技术问题的深入探索与突破,而不是依赖外部框架或工具的简单应用。最令人惊艳的是GPT-4 Turbo,它具备多项重要特性:
这确实很出色,知识库已从2021年9月更新至2023年4月。更新基础模型的知识库颇具挑战性。数据清洗的质量尤为关键。据悉,在开发GPT-3.5和GPT-4的过程中,OpenAI经历了一些人员变动,导致新数据清洗工作长时间停滞,从而使模型有一年半未得到更新。更新知识库后的模型通常需重新训练,要将新数据(知识截止点后产生的数据)与旧数据按一定比例混合训练。不能仅用新数据训练,否则会导致灾难性遗忘,即学了新知识却忘了旧知识。如何在向现有模型添加大量新知识的同时,尽量降低重新训练的成本,是一个非常值得探索的研究方向。OpenAI 近期推出了多个多模态模型,其中 GPT-4V 擅长图片理解,DaLLE-3 专注于图片生成,二者均代表了当前图片处理领域的顶尖水平。遗憾的是,此前 GPT-4V 和 DaLLE-3 仅能在网页端使用,未提供 API 接口。如今,OpenAI 终于开放了这两者的 API,并且还推出了 TTS(语音合成)API。结合已有的 Whisper,目前在图片、语音的输入输出等方面已经实现了多模态的全面覆盖。GPT-4V价格亲民,输入1024x1024图片仅需765个token,费用为$0.00765,性价比颇高。DaLLE-3生成图片的费用相对较高,例如一张1024x1024分辨率的图片需要$0.04,与Midjourney定价相近。而如果自行托管Stable Diffusion SDXL模型,生成单张图片的成本可降至$0.01以下。不过,DaLLE-3在图像质量上显著优于SDXL,能够更好地解决一些技术难题。比如,SDXL常出现的手指绘制不自然问题、难以生成带有指定文字的Logo问题,以及复杂物体间的位置关系处理问题,DaLLE-3均能表现得更加出色和精准,从而提供更高质量的视觉效果。Whisper 开源的原本是 V2 版本,这次推出的是 V3 版本,不仅提供 API,还继续开源。之前我就注意到,ChatGPT 的语音通话功能在识别效果上比我自己部署的 Whisper V2 模型更好,看来 OpenAI 确实留了一手。但无论 V2 还是 V3,两者的识别精度都已经非常出色了。除了人名和专有名词外,日常英语的识别准确率几乎达到 100%。即便存在极少数错误,也完全不影响大模型对语义的理解。

OpenAI
微软曾发表并撤回了一篇论文,其中提到 GPT-3.5-Turbo 是一个 20B 参数的模型,但我对此持怀疑态度。从 API 运行成本来看,结合 temperature 设为 0 时输出结果仍存在不确定性的现象,可以推测 GPT-3.5-Turbo 更可能是一个参数量超过 100B 的 MoE(专家混合)模型。此前已有关于 GPT-4 是 MoE 架构的泄露信息,而 GPT-3.5-Turbo 同样采用 MoE 架构的可能性也非常高。这种设计能够更高效地平衡性能与计算资源消耗。为解决 MoE 模型在 batching 及 temperature > 0 时输出不稳定的问题,OpenAI 在 dev day 上推出了重复输出功能。该功能通过设定固定种子,确保相同 prompt 下的输出结果一致,从而便于调试与验证。未来应用或许需要模型路由功能,根据问题类型选择适合的模型,简单问题用低成本模型,复杂问题调用高端模型。这样既能降低成本,又可确保性能基本不变,毕竟大多数用户提问以简单问题为主,无需动用如GPT-4这样的高性能模型。之前 GPT-4 的速率限制很低,稍不注意就会触达上限,根本没法用于处理高并发用户请求的线上服务。如今 GPT-4 的速率限制已提高到每分钟 300K token,这个量级应该足以支持小规模的服务需求。不过,如果完全用满 300K token,每分钟将花费 3 美元,因此得先评估账户余额是否能承受这样的开销。用户每月可用配额增加,这是好事。以前超出120美元需单独申请,现在额度提升了。
目前 GPT-4-Turbo 的配额非常有限,每日仅支持 100 个请求,与网页版 GPT-4 同样受限。希望未来能尽快提升 GPT-4-Turbo 的速率限制,以便在生产环境中得以应用。早就传闻OpenAI在Agent领域酝酿大动作,果然在本次OpenAI开发日的后半段,焦点集中在了Agent上。OpenAI 早就推出了插件系统,希望打造一个大模型应用的 App Store,但体验一直不佳。此次发布的 GPTs 让这一目标更近了一些。GPT的最大创新是推出了Agent Platform,这相当于一个Agent的App Store,能让各种插件在此上架运行。大模型技术让用户能够打造专属的智能助手,使其更好地满足日常生活、特定任务、工作或家庭需求,还可以与他人共享。例如,它能帮你掌握任意棋盘游戏规则,辅导孩子学数学,甚至设计贴纸。无需编程基础,每个人都能轻松创建自己的智能助手。构建这样一个助手就像开启一段对话,只需给出指示、补充相关知识,再选择其功能范围,比如浏览网页、生成图像或分析数据等。本月晚些时候,OpenAI 将上线 GPT 商店,用户可在此购买 GPT(虽然购买 GPT听起来有些奇怪,或许叫 Agent 更合适)。商店支持搜索 GPT,并设有排行榜。此外,GPT 的创作者能够从中获得收益分成。一开始我觉得GPT这个名字不太好听,甚至觉得用Agent可能会更好。但后来Sam Altman给出了他的解释:随着时间的推移,GPT和助手会成为通向Agent的前奏,并且能够承担更多、更复杂的工作。它们将逐步具备规划能力,同时可以代表用户完成更加复杂的任务。从这段话可以看出,Sam Altman对Agent寄予了很高的期望。他认为目前这些应用还远未达到被称为Agent的标准,因为在任务规划等核心问题上仍然存在挑战。这或许正是OpenAI没有直接使用Agent这个词的原因所在。换句话说,虽然现在的模型已经非常强大,但它们更多的还是专注于回答问题或提供帮助,而在自主性、复杂任务处理以及全面代表用户行动方面还有很长的路要走。Agent的概念显然指向一种更加智能、独立且多功能的存在,而不仅仅是一个语言生成工具。因此,在Sam Altman的愿景中,GPT是通向这一目标的重要阶段,但它还不是最终形态。
OpenAI 推出了 Assistants API,助力用户更便捷地开发 GPT(即 Agent 应用)。该 API 提供持久且无限长度的对话线程、代码解释器、搜索和函数调用等核心功能。过去需要借助 LangChAIn 实现的任务,如今大部分通过 Assistants API 即可完成,极大简化了开发流程,提升了创作效率。
这个持久且无限长的对话线看似仅增加了存储功能,将无状态对话转变为有状态,但实际上,它是实现记忆功能、增强用户粘性的关键举措。如果一个平台仅提供无状态的 API,那么它随时可能被替代。目前许多大模型的 API 与 OpenAI 兼容,只需导入 OpenAI 并设置接口地址即可完成替换。因此,OpenAI 的核心优势仅在于模型性能和成本控制。一旦有更具竞争力的模型出现,OpenAI 很可能会迅速失去市场地位。有状态的线程有所不同,它记录了用户与助手互动的过程。随着时间发展,助手将更了解你,如同相识多年的老友,难以被替代。我一直觉得代理的记忆极为重要,这不仅能够优化用户体验,减少双方沟通成本,还能增强用户黏性,让用户对其产生依赖感。这种持续积累的理解,是建立深度连接的关键所在。此外,助手还可根据需要调用新工具,涵盖以下方面:代码解释器:可在沙箱执行环境下编写、运行Python代码,生成图表,处理多类型数据与文件格式。助手能通过运行代码解决复杂代码及数学问题。检索增强生成(RAG):通过引入大模型之外的知识,提升助手的能力,比如专业领域数据、产品详情或用户文档。OpenAI 自动处理 embedding 的计算与存储,完成文档拆分及搜索算法优化,让用户无需自行摸索。这类似于 SaaS 模式的 LangChAIn,方便快捷地整合外部信息以生成更精准的内容。函数调用是OpenAI为构建Agent推出的重磅功能,具备两大亮点。
首先,新增了对严格 JSON 格式输出的支持。以往的模型往往会为生成的 JSON 添加多余的前后缀内容,导致需要额外处理才能满足 API 输入要求。如今已可设置为纯 JSON 格式输出,更加便捷高效。其次,实现一次生成多次函数调用的功能。过去,大型模型通常只能在一次运行中输出一个函数调用,若流程中需要多个外部 API 协同工作,则必须多次调用大模型,这不仅会增加处理延迟,还会提高 token 消耗成本。而 OpenAI 借助其出色的代码生成能力,可以让单次模型调用生成一系列连续的函数调用,有效减少复杂工作流场景下的延迟与成本开销。OpenAI 展示的应用案例虽不错,但多为他人做过的内容。其目的在于展现该平台便于创建个性化 Agent 的特点。就像旅行助手 Agent 的例子,这让我想起昨天自己的经历。昨天上午我去南加大游玩,在校园里碰到几位游客,他们问我能否带他们参观一下。我回应说这是我的第一次来这里,不如让人工智能助手陪着大家一起逛。接着,我就用自己开发的 AI 助手带领着我们参观了几处具有代表性的建筑。
借助 Whisper、TTS、GPT-4V 和 DaLLE-3,制作多模态 Agent 变得简单。DevDay 展示的一个支持语音聊天抽奖的 App,就是利用 Whisper 和 TTS 实现的。这些技术让交互更加自然流畅,提升了用户体验。
最后的AI抽奖环节,加上送给每个人500美元API额度的彩蛋,简直将活动氛围拉满,果然不愧为人工智能界的年度盛事。ChatGPT 整合了 GPT-4 中的必应搜索、DaLLE-3 等功能,用户不必切换模型。它能自动选择合适的插件来响应请求,提供更便捷的服务体验。此外,ChatGPT 新增了直接处理 PDF 及多种文件类型的功能,类似 ChatPDF 的工具因此失去了市场优势,几乎被彻底取代。这一更新显著提升了 ChatGPT 的多功能性与实用性。许多人看完OpenAI开发日活动后感慨,大模型生态中曾有众多公司,如今似乎只剩OpenAI独占鳌头。
过去,许多创业者曾担忧:如果我开发的产品,OpenAI 也做了,该怎么办?这个问题与国内互联网创业圈之前的经典难题相同:如果我做的产品腾讯也做了,该怎么办?我的回答很明确:要么做OpenAI不做之事,要么做他们暂时无法实现的内容。以我们公司开发的陪伴型机器人(companion bot)为例,这是OpenAI明确表示不会涉足的领域。萨姆·阿尔特曼多次提到,类人Agent并没有太大价值,真正有意义的是帮助人类高效完成工作的工具。OpenAI与微软的价值取向较为一致,专注于企业级和通用型应用,对泛娱乐化的产品兴趣不大。尽管陪伴型Agent这一赛道竞争激烈,几乎所有大模型公司都推出了相关产品,但至今还没有一款能够达到电影她中Samantha那样的水平。这个领域仍然存在许多基础性问题亟待解决,比如任务规划、记忆管理、角色塑造、情感表达以及自主思考能力等。这些问题的复杂性和挑战性使得该领域的上限非常高,未来还有巨大的发展空间等待探索。还有一个例子是开源模型和低成本模型,这可能是 OpenAI 不太会涉足的领域。OpenAI 的目标是朝着通用人工智能(AGI)方向发展,专注于不断提升模型的能力,因此像 7B 这样规模的小型模型根本无法引起他们的兴趣。然而,我们已经看到 GPT-4 的使用成本非常高,即使是相对便宜的 GPT-4-Turbo,价格依然居高不下。实际上,在面向消费者的许多场景中,即使是 GPT-3.5-Turbo 的价格也显得过于昂贵。因此,在很多情况下,我们需要自行部署 7B 或 13B 规模的模型,以满足用户大部分基础需求。据说,Character.AI 使用的是自主研发、大约 7B 参数量的对话模型,其每个请求的成本低于 GPT-3.5-Turbo API 的十分之一。虽然 Character.AI 在某些方面表现得不够智能,比如记忆功能和情感处理不够完善,但它的低成本优势非常明显。在许多应用场景中,这种低成本模型可能成为企业的核心竞争力。毕竟,对于一些简单的任务,用户并不需要一个能力超强但价格昂贵的模型。第三个例子是游戏领域,大模型必将对游戏行业产生深远影响。不过,OpenAI 应该不会直接进入游戏行业,即使涉足,也会选择与专业游戏公司合作。例如近期热门的完蛋!我被美女包围了!,还有深受宅男宅女喜爱的 GaLGame,目前大多采用玩家做选择题的形式推动剧情发展。如果玩家能够通过自然语言与游戏角色互动,并且剧情根据个人偏好动态生成,这将带来一种前所未有的沉浸式游戏体验。那么,OpenAI 当前难以实现的是什么?例如视频输入与生成,这类技术短期内可能不会推出,即便推出,成本也可能较高。OpenAI 致力于大模型的前沿探索,更倾向于用足够强大的模型生成高质量视频,而非追求廉价却低质的效果。目前 RunwayML Gen2 的成本已相当高,生成 7.5 分钟视频需花费 90 美元。而 AnimateDiff 虽然成本较低,但效果尚待优化,近期社区对此进行了不少改进。Live2D 和 3D 模型则面临较高的建模成本,且主要局限于人物相关模型,难以生成复杂的交互式视频内容。这些领域正是后来者可以发力的方向。除了软件领域,OpenAI 在硬件相关方面也存在局限。例如,Rewind 的录音吊坠、Humane 推出的类似电影她中可放置于上衣口袋的 AI Pin,这些都是独具创意的硬件产品。同时,像智能手机上的 Siri 等语音助手,作为重要的人机交互入口,也是 OpenAI 难以替代的存在。存在数据壁垒的场景也是OpenAI难以取代的,比如互联网公司在自家App中加入大模型推荐功能,凭借数据优势,其他企业很难涉足这一领域。萨姆·阿尔特曼请微软首席执行官萨提亚·纳德拉分享了一些重要内容,其中最关键的一点便是基础设施的重要性。Azure 作为 OpenAI 训练与推理的基础设施,为像 GPT-4 这样的大规模模型提供了万卡训练集群。目前,大多数公司还无法拥有这样高效的基础设施,尤其是万卡集群所需的高速网络通信能力以及自动故障恢复功能,这些技术门槛仍然很高。训练和推理成本下,Infra 将成大模型公司未来 2-3 年制胜关键因素之一。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号