GPT - 4o如何改善GPT - 4的读图做题能力？

1个回答

835184565

2026-02-08 15:33

小学

很多人都测试过GPT - 4o的语音效果了，我不再赘述，在此主要想着重讲讲眼睛。去年3月GPT - 4发布的时候，它就像缸中大脑。没有视听器官，只能经接口输入编码信息，大脑才能解析。后来即便集成了DallE和Whisper，情况也没多大改善。Whisper和DallE似乎能把语音、图片信息转为token，但GPT - 4读取后的信息有很多扭曲之处。于是，我们能够察觉到，GPT - 4相较于其他模型（包括国产大模型）存在一个严重的不足。它可以说出图中有哪些内容，然而不具备OCR功能，无法识别图片里的文字。拿带有文字的图片让GPT阅读并依据图中的内容进行推理，它时而能识别正确，时而却会得出一些荒诞的结果。这种能力的缺失，让GPT在一项常用任务上完全缺席，这个任务就是——没错，就是做中小学生的数学、物理题。学生和家长都有做题的刚需。当前一些教育类app拍照解题的效果欠佳，搜索旧题效率低，面对新题更是毫无办法，于是就想到用大模型来解题。但要是给GPT拍个照让它做题，尤其是中文题？结果往往令人忍俊不禁。就像有一道题，我复制到GPT里让它做。

它能得出这样的结果。

我看了好几遍，都没搞明白题目里已知向量 ?a 和 ?b 满足 ?? ?=5 ?a?b=5b是怎么来的，反正读起来就是这样。但同样的图片上传到通义千问，它起码会先完整ocr一遍，先不说结果对不对，起码题目没理解错。

上海

之前的GPT - 4就像盲人，给它图它看不到。得靠其他模型来解读图中有什么，可这种解读不太可靠，这就导致在很多时候它的能力无法正常发挥。但如今的GPT - 4o，就像是给GPT - 4装上了有用的眼睛和耳朵，使其可用范围得到极大拓展。GPT - 4o把语言流、影像流和之前用过的文字流进行了统一编码，这样向大脑传输时信息就不会损失了。像之前的题目让GPT - 4o重做一次，效果会好很多，解答也完全正确。

于是，刚刚对现有的较大模型都进行了这样一套完全公平的读图做题。

2024年上海市杨浦区中考二模数学试卷（初三学生使用），这是一套卷子。由于是二模卷，题目全是新的，部分题目较难且有区分度。两周前刚考完，网上还未公开，所以不可能被用作训练数据。以下为考卷内容。

有25道题目，要把每一道题都截成图。然后在所有模型上都上传同一张图片，并且使用统一的提问内容来询问：这道题该怎么做？请给出计算过程和答案。不过，Gemini - Advanced除外，因为对Gemini - Advanced使用中文提问会出错，所以只对它使用英文提问内容：How should I solve this problem? Please give the process and answer.3. 每题仅做一次，选择题与填空题按答案计分，解答题依过程给分。此方式很严格，尤其是证明题，当前的大模型基本做不到。这九个模型被纳入测试范围。GPT - 4o，是OpenAI上午刚发布的。GPT - 4与之前的GPT模型。3. Gemini - Advanced，在英文调用时使用的是Gemini Ultra。

不太理解你仅5，文心一言4.0这几个字符的具体含义。如果是想简单介绍文心一言4.0相关，可改为：文心一言4.0已推出。

海螺AI调用的是minimax最新版abab 6.5。

通义千问2.5版本相关的9。做题的结果如下：

分数的排序如下：在多种人工智能产品的比较中，大致的排序为GPT - 4o优于Gemini - Advanced，文心一言4.0、Kimi等也在比较之列，其中海螺AI（minimax）的abab 6.5、GLM - 4等也参与排序，GPT - 4与Claude - 3 - opus相当，通义千问2.5也在其中。目前，GPT - 4和Claude - 3 - opus是较为领先的两个模型。但在读图做题方面，它们的表现很糟糕，简单题目常因读错而无法完成，所以都只得到32分，在九个模型中分别排倒数第二和倒数第三。同时，国产大模型在读图方面表现良好，文心一言、Kimi、minimax、GLM和通义千问都能正确读图并理解题意。文心一言4.0、Kimi和minimax水平相当，难分高下。文心一言分数虽最高，可在这三个模型里，我更偏爱minimax的海螺AI。你看解答题第20题的第二个小问就知道，minimax和GPT - 4o是仅有的两个答对的模型。

选择题第六题，minimax在九个模型里是唯一选对的。虽然其过程有猜测成分，但选择题猜对就好，文心一言也有靠猜答对的选择题。

GLM - 4比其他的稍逊一筹，通义千问就更差了，仅得24分，解答题一道都做不出。不过通义千问也有可表扬之处，它每题都会自动ocr一遍再显示，方便我复制到别的文档，很省事（尽管答案都是错的）。Gemini Advanced调用Gemini - Ultra，读图能力很棒，速度也很快，获得了排名第二的65分。最高分是GPT - 4o，83分，离及格就差一点，在直接读图做题的情况下，这效果已经相当不错了。且关键之处有两点：GPT - 4o与不能直接读图的GPT - 4（32分）相比，有着断崖式领先，这表明GPT - 4o读图能力大幅增强，所有题目均能正确理解。2. 其能力完全涵盖其他模型能力的总和。就是说，其他所有模型能答对的题目它都能答对。就连分数排第二的Gemini - Ultra，也被GPT - 4o全面覆盖。这也是我在国产模型里比较偏爱minimax的原因，因为全场只有选择题第六题GPT - 4o答错了，minimax却（猜）答对了。所以，GPT - 4o和GPT - 4相比，能力方面或许没有太大变化，这就导致其在很多测试集里分数提升不明显。不过，GPT - 4o在易用性方面有显著增强，它能直接听、直接看，还能直接处理视听信息，更契合人类交互习惯，从而让高频的看图做题类应用有了实现的可能。GPT - 4o发布会上，可汗学院创始人带儿子来让GPT - 4o辅导勾股定理的事令我印象最深，GPT - 4o直接读屏，当场讲解。大概这就是未来GPT - 4o使用频率最高的场景了。

举报有用（6）分享收藏

GPT - 4o如何改善GPT - 4的读图做题能力？

1个回答

835184565

热门话题

相关问题