
OpenAI
读完
OpenAI O1的技术文档后,感觉
OpenAI此次的核心思想仅有一个,那就是运用思维链(Ch
AIn of thought)来模拟树搜索的流程,进而解决复杂的推理难题。
OpenAI.com/index/learning">https://
OpenAI.com/index/learning - to - reason - with - llms/ 在利用树搜索解决复杂问题方面,整个领域相关研究并不匮乏,像著名的思维树便是如此。不过,这些研究工作仍然需要外部算法来支撑整个推理进程,要依据相应的问题定制搜索算法的推理流程,依旧缺乏一种能推广到一般问题的方法。然而,要是能让大型模型自动模拟树搜索过程,也就是以思维链的形式将整个复杂的树结构线性化展开,只要树的结构没有复杂到指数级,这似乎是能够做到的。但树搜索为何如此有效?根本原因还是在于基本的
计算机科学计算复杂度问题。许多复杂的难题,若以计算问题来表述,其时间复杂度往往很高,例如著名的子集和问题(subset - sum puzzle)就被证明是NP - 完全(np - complete)的。如果我们能够让Transformer直接学习到一个简单的策略,且能在多项式(polynomial)时间内运行,那么这似乎就直接证明了P = NP,这显然是不现实的。尽管很多极为复杂的问题,其最佳解法可能很简短,就像许多复杂的数学问题,很多时候其证明过程实际上不需要很多步骤。但问题在于,发现这个最完
美的证明过程,可能需要非常漫长的搜索过程,这便是NP问题的一个机制特性:计算复杂度很高(NP),但验证成本很低(polynomial)。所以,针对这些问题,最常见的方法就是搜索,搜索过程可能很长,但能够很明确地验证自己目前是否已经搜索到正确答案。反之,如果试图直接学习多项式长度的、最优的策略,那就又回到了前面的悖论:目前看来P = NP是不可能的,所以直接学习最短最优的策略是无法泛化的,除非能够记住所有问题的所有最佳策略,可这样又不符合机器学习(machine learning)的初衷,最终就变成了信息检索问题。