OpenAI的算法题突破真的能证明LLM的能力吗？

1个回答

喵喵是不是喵喵呀

2025-09-25 07:36

公司

这件事暂时没有带来太多影响。然而，在o1发布之前，各大公司就已经开始竞相研究算法题，而o1更是公开声明他们使用了强化学习（RL）和蒙特卡洛树搜索（MCTS）等技术。结合围棋和电竞的故事背景，人们大致可以推测出，像编译器和测试用例这种信息充分的任务被攻克只是时间问题。需要指出的是，做算法题与成为一名程序员其实是两个截然不同的任务。大多数程序员在实际工作中很少使用复杂的算法，通常只在大学一二年级的算法课上以及校招季准备笔试时才会用到这些知识。其他时候，能熟练运用红黑树这样的数据结构已经算是非常出色了，很多人甚至可能连递归都不会写。因此，宣称一种模型能够在算法题上击败99.9%的人类，并不代表它真的能够胜任程序员的工作。令我感到惊讶的是，这个模型在解答前沿数学问题的速度上取得了显著的进步。毕竟，这类问题看上去很难设计出中间奖励机制，但即便如此，似乎解题能力并没有带来实质性的影响。有人可能会说，解题能力证明了强化学习（RL）的无限潜力，但实际上，自2016年AlphaGo击败李世石之后，大家就已经承认了这一点。尽管如此，我还是看好这种解题任务中的奖励分配技术（尽管我不清楚具体实现方式），并认为它有迁移到其他领域的潜力（如果真的能够迁移的话）。然而，实际上让LLM代理变得复杂的原因在于，现实生活中几乎没有像数学题和算法题这样明确定义的任务。现实生活中的挑战往往源于环境的复杂性和信息的不充分性，这使得构建一个用于强化学习模型的完整流程变得异常困难。即使是在模拟环境中进行强化学习已经非常具有挑战性，更不用说从模拟环境迁移到真实世界了。OpenAI并没有真正解决这个问题，而是选择了两个极为炫酷且无需处理现实复杂性的案例来展示模型的能力。更何况价格问题，o1的价格官方宣称是4o的6倍，但实际上可能高达30倍。现在又推出了一个价格可能是o1上百倍的新产品，估计没几个人用得起。前段时间我曾批评过在大型语言模型中应用强化学习的做法，如今看来依然适用：OpenAI用国际数学奥林匹克金牌来证明其模型的智力水平，那为什么不选择为那些社会上存在的实际需求（例如帮助黑人打官司）来证明模型的巨大价值？难道他们不想吗？今天我要再加一条批评，OpenAI最近一年最常用的广告词就是所谓的大型语言模型可以解决博士级科学问题，给人一种他们的模型已经达到了与顶尖科学家比肩的错觉。然而，如果你真的拥有博士学位，就会对这种说法感到反感。博士学位并不是通过掌握一些现有知识就可以获得的，而是要通过创新性的科研工作来证明自己的能力。科研过程是一个复杂且与环境高度互动的过程，远不是单轮问答所能测试的。

举报有用（4）分享收藏

OpenAI的算法题突破真的能证明LLM的能力吗？

1个回答

喵喵是不是喵喵呀

热门话题

相关问题