OpenAI o1涉及技术有哪些?

OpenAI

1个回答

写回答

OpenAI
OpenAI

早在2017年就已被提出。像MCTS(蒙特卡洛树搜索),在AlphaGO的传统强化学习里,被用于多步自举采样。大型语言模型(LLM)在解决复杂推理问题时,和AlphaGO在游戏里预测未来多步的状态类似。在逐步思考时,要基于已有的思考步骤,考虑是否有路径能达到正确的推理结果,所以自然就会想到用MCTS来搜索。什么是Inference Time Scaling Law(推理时间缩放定律)?在LLM的预训练、退火和监督微调(SFT)阶段,通常会考虑缩放定律,这样就能在中小规模模型上找到适合当前基座的最佳参数规模和训练标记(token)数量,进而预估百亿、千亿大模型参数所需的总标记数量和算力成本。推理阶段的缩放定律与之类似,但它关注的是在推理过程中若采用MCTS对未来步骤进行预估探索时可能产生的不可预期的显存开销,所以要提前探究不同基座在不同类型复杂推理任务上MCTS可能搜索的深度和广度,将其作为目标优化微调。Self - play RL(自我对弈强化学习)是一种从弱到强的技术,比较经典的有迭代式直接偏好优化(DPO)和自举推理(STaR)。它通过自举方法让上一轮的LLM策略模型生成一定数量的解释依据(rationale),再通过结果监督筛选出正确的依据,作为下一轮LLM策略微调的数据。对于复杂推理任务来说,它不同于传统的通用问答(QA),属于逐步推理的形式,所以采用过程监督(PRM)更有助于LLM在微调阶段感知到细粒度的信息。最后推荐一个GitHub,它一直在搜集和整理与OpenAI o1相关的技术论文和信息。相关论文参考:GitHub - wjn1996/Awesome - LLM - Reasoning - OpenAI - o1 - Survey,这里有关于OpenAI o1的相关工作和背景技术。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号