O1模型在解决数学题上的表现如何?

1个回答

写回答

Jenny1&K

2026-01-10 03:30

+ 关注

小学
小学

很惊艳,可以用泥潭中一道广受讨论的数学题来试一试。

不妨暂停片刻,思考一下需要多久才能解出答案。我许久未曾接触小学奥数题,花了十多分钟才理出头绪,之前尝试其他方法均未成功。解题的关键在于从亮亮爸爸的角度思考:由于提前了12分钟,亮亮爸爸往返少开了12分钟,单程则少开6分钟。 进一步需要认识到,这6分钟正是相遇时距离正常放学剩余的时间。 至此,答案自然清晰。 亮亮步行15分钟与爸爸相遇,而相遇点离放学还有6分钟路程。 因此,总共提前的时间为15+6=21分钟。为防止各模型中文水平不一,我们用英文撰写提示语。接下来,我们让o1来尝试一下:

先不考虑那些计算步骤,最终结果确实是21分钟。下面尝试让它提供一个妙解:

奥数
奥数

它准确抓住了两个关键点,成功解答了题目。我们重新开启一个对话,清空记忆,将数字调整为61+43÷2=61+21.5=82.5,并直接要求以妙解的方式解答此题:

一次就对,同样精彩。其他模型在相同问题上的表现如何?六分钟内完成任务

不准列方程:27分钟

GPT4:列方程15分钟,不列方程18分钟。

克劳德3号奥普斯:0分钟(设方程)与18分钟(不设方程)。

克劳德3.5十四行诗:列方程用时30分钟,不列方程则需27分钟。

当其他模型给出五花八门的错误答案时,o1却能稳定地解答正确,这让我感到十分惊艳。它仅用二十秒思考的问题,我却需要十分钟。如果给它几个月的时间去深入思考,或者进一步扩大参数规模,增加强化学习的训练轮数,它的潜力将无可估量,未来值得期待。当然,这道题只是尝试,可能存在诸多漏洞,比如它或许就在o1的训练集中。不过,网上数据中网友的答案五花八门,而其他模型(其训练集与o1相差无几)却全都未能成功解答。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号