通义千问数学解题能力实测，表现如何？

1个回答

写回答

15545

2026-01-16 09:40

+ 关注

阿里巴巴

为何此问题下多为数据吹捧，实测评价却寥寥无几？刚才测试了数学解题能力，没有发现特别惊艳之处，或许是因为我使用次数还较少的原因。我发现o1-preview不能插入图片或文件，这是否因为它专注于数学与编程推理，而不支持相关功能？

先忽略小细节，用今年阿里巴巴全球数学竞赛预赛题目试试，选了前两题，仅答对第二题的第二问。我们先看第一题。

模型思考了45秒，我们可点击查看其思考过程。

人类

它列出了解题步骤与思路（默认英文），随后进行执行，宛如人类考试一般。不过，答案却错了，给出的是12，而正确答案应为6。接着看第二题，这题有两问，均为选择题。

这道题需要更多思考时间，耗时63秒完成。

我们也能观察到它的思考步骤。这道题第一小问答错了，答案应为(B)2，它却选了(A)1。而第二小问它做对了，答案同样是2，选项为A。我选了2024年高考新一卷第18题，题目如下：

这次它思考得比前两次更久，用了84秒，以下是解题步骤：

这道题共有三小问，他答对了前两问。初次使用o1模型的感觉是，它能够展示思考步骤，这对解决复杂推理问题很有帮助。不过，用户对其解题能力的信任仍需商榷。至少在我测试的三道题中，它的表现主要靠那道高考题撑场面。如果该模型解题正确率提升，将十分惊人。这意味着从高考到竞赛级别的数学题，它平均只需1分钟即可完成推理，值得期待。

举报有用（0）分享收藏

通义千问数学解题能力实测，表现如何？

1个回答

15545

热门话题

相关问题