API化方法是抄近路实则走远路?为何?

1个回答

写回答

18607075618

2026-01-08 16:40

+ 关注

IOS
IOS

作为Claude博客和技术报告中computer use评测的OSWorld基准的作者(之前也曾主力开发OpenAgents项目里的Plugins Agent和Web Agent),在此提出一个或许与一些朋友认知不同的观点:很可能,基于API的方法或者某些AIOS的思路,短期内看似抄了近路,实际上却是走了远路。理由如下:其一,软件开发者在设计软件或者网页时,首要任务是供人使用,其次才是构建开发者API,最后才是构建适合AI使用的API。对开发者而言,这三件事的收益依次递减,而阻力却依次递增。如果想要越过这个顺序,搭建一套完整的设施,比如将所有事务都API化,使整个电脑或者整个终端设备只有一种语言或图文接口,没有鼠标、键盘、触屏等其他交互形式,这其实是一种更激进、更遥远的未来设想。OpenAI的plugins和GPTs的失败,以及无数纯语音交互助手的失败,都能证明这一点。其二,计算机最初是没有用户界面(UI)的,UI的出现才使计算机得以普及,这其中有一个核心原因,那就是UI用户界面有一套通用范式。例如,打开浏览器时,人们很自然地就知道上方是地址栏,可以输入网址;而如果采用API形式,就没有一个统一的定义,仍然需要提示(例如通过function calling的形式预定义),这是一个很大的问题。设计人形机器人的原因在于,世界上的多数设计范式是遵循人类自身的,要彻底改变这一情况,整个社会需要花费大量时间重新接受,可能面临的阻力并不乐观。其三,computer use并非不能像人类一样编写代码,实际上这是一种包含关系,而且成本不高(只不过是多打开一个集成开发环境(IDE)罢了,君不见那些集成到IDE中的代码生成产品需要做多少整合工程)。在产品方面,computer use这种建模非常容易转化为产品使用,业务代码相对较少,更适合AI初创企业展示产品。API看似步骤少、更直接,但是先不说生态问题、经验共享性、阅读文档的难度以及写出正确调用的尝试等方面,我认为它的难度并不比看起来步骤稍多一些的agent低,而且我对agent这条路的优化算法充满信心。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号