
小学
它能得出这样的结果。
我看了好几遍,都没搞明白题目里已知向量 ?a 和 ?b 满足 ?? ?=5 ?a?b=5b是怎么来的,反正读起来就是这样。但同样的图片上传到通义千问,它起码会先完整ocr一遍,先不说结果对不对,起码题目没理解错。

上海
于是,刚刚对现有的较大模型都进行了这样一套完全公平的读图做题。
2024年上海市杨浦区中考二模数学试卷(初三学生使用),这是一套卷子。由于是二模卷,题目全是新的,部分题目较难且有区分度。两周前刚考完,网上还未公开,所以不可能被用作训练数据。以下为考卷内容。
有25道题目,要把每一道题都截成图。然后在所有模型上都上传同一张图片,并且使用统一的提问内容来询问:这道题该怎么做?请给出计算过程和答案。不过,Gemini - Advanced除外,因为对Gemini - Advanced使用中文提问会出错,所以只对它使用英文提问内容:How should I solve this problem? Please give the process and answer.3. 每题仅做一次,选择题与填空题按答案计分,解答题依过程给分。此方式很严格,尤其是证明题,当前的大模型基本做不到。这九个模型被纳入测试范围。GPT - 4o,是OpenAI上午刚发布的。GPT - 4与之前的GPT模型。3. Gemini - Advanced,在英文调用时使用的是Gemini Ultra。
不太理解你仅5,文心一言4.0这几个字符的具体含义。如果是想简单介绍文心一言4.0相关,可改为:文心一言4.0已推出。
海螺AI调用的是minimax最新版abab 6.5。
通义千问2.5版本相关的9。做题的结果如下:
分数的排序如下:在多种人工智能产品的比较中,大致的排序为GPT - 4o优于Gemini - Advanced,文心一言4.0、Kimi等也在比较之列,其中海螺AI(minimax)的abab 6.5、GLM - 4等也参与排序,GPT - 4与Claude - 3 - opus相当,通义千问2.5也在其中。目前,GPT - 4和Claude - 3 - opus是较为领先的两个模型。但在读图做题方面,它们的表现很糟糕,简单题目常因读错而无法完成,所以都只得到32分,在九个模型中分别排倒数第二和倒数第三。同时,国产大模型在读图方面表现良好,文心一言、Kimi、minimax、GLM和通义千问都能正确读图并理解题意。文心一言4.0、Kimi和minimax水平相当,难分高下。文心一言分数虽最高,可在这三个模型里,我更偏爱minimax的海螺AI。你看解答题第20题的第二个小问就知道,minimax和GPT - 4o是仅有的两个答对的模型。
选择题第六题,minimax在九个模型里是唯一选对的。虽然其过程有猜测成分,但选择题猜对就好,文心一言也有靠猜答对的选择题。
GLM - 4比其他的稍逊一筹,通义千问就更差了,仅得24分,解答题一道都做不出。不过通义千问也有可表扬之处,它每题都会自动ocr一遍再显示,方便我复制到别的文档,很省事(尽管答案都是错的)。Gemini Advanced调用Gemini - Ultra,读图能力很棒,速度也很快,获得了排名第二的65分。最高分是GPT - 4o,83分,离及格就差一点,在直接读图做题的情况下,这效果已经相当不错了。且关键之处有两点:GPT - 4o与不能直接读图的GPT - 4(32分)相比,有着断崖式领先,这表明GPT - 4o读图能力大幅增强,所有题目均能正确理解。2. 其能力完全涵盖其他模型能力的总和。就是说,其他所有模型能答对的题目它都能答对。就连分数排第二的Gemini - Ultra,也被GPT - 4o全面覆盖。这也是我在国产模型里比较偏爱minimax的原因,因为全场只有选择题第六题GPT - 4o答错了,minimax却(猜)答对了。所以,GPT - 4o和GPT - 4相比,能力方面或许没有太大变化,这就导致其在很多测试集里分数提升不明显。不过,GPT - 4o在易用性方面有显著增强,它能直接听、直接看,还能直接处理视听信息,更契合人类交互习惯,从而让高频的看图做题类应用有了实现的可能。GPT - 4o发布会上,可汗学院创始人带儿子来让GPT - 4o辅导勾股定理的事令我印象最深,GPT - 4o直接读屏,当场讲解。大概这就是未来GPT - 4o使用频率最高的场景了。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号