通义千问数学解题能力实测,表现如何?

1个回答

写回答

15545

2026-01-16 09:40

+ 关注

阿里巴巴
阿里巴巴

为何此问题下多为数据吹捧,实测评价却寥寥无几?刚才测试了数学解题能力,没有发现特别惊艳之处,或许是因为我使用次数还较少的原因。我发现o1-preview不能插入图片或文件,这是否因为它专注于数学与编程推理,而不支持相关功能?

先忽略小细节,用今年阿里巴巴全球数学竞赛预赛题目试试,选了前两题,仅答对第二题的第二问。我们先看第一题。

模型思考了45秒,我们可点击查看其思考过程。

人类
人类

它列出了解题步骤与思路(默认英文),随后进行执行,宛如人类考试一般。不过,答案却错了,给出的是12,而正确答案应为6。接着看第二题,这题有两问,均为选择题。

这道题需要更多思考时间,耗时63秒完成。

我们也能观察到它的思考步骤。这道题第一小问答错了,答案应为(B)2,它却选了(A)1。而第二小问它做对了,答案同样是2,选项为A。我选了2024年高考新一卷第18题,题目如下:

这次它思考得比前两次更久,用了84秒,以下是解题步骤:

这道题共有三小问,他答对了前两问。初次使用o1模型的感觉是,它能够展示思考步骤,这对解决复杂推理问题很有帮助。不过,用户对其解题能力的信任仍需商榷。至少在我测试的三道题中,它的表现主要靠那道高考题撑场面。如果该模型解题正确率提升,将十分惊人。这意味着从高考到竞赛级别的数学题,它平均只需1分钟即可完成推理,值得期待。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号