GPT - 4o如何改善GPT - 4的读图做题能力?

1个回答

写回答

835184565

2026-02-08 15:33

+ 关注

小学
小学

很多人都测试过GPT - 4o的语音效果了,我不再赘述,在此主要想着重讲讲眼睛。去年3月GPT - 4发布的时候,它就像缸中大脑。没有视听器官,只能经接口输入编码信息,大脑才能解析。后来即便集成了DallE和Whisper,情况也没多大改善。Whisper和DallE似乎能把语音、图片信息转为token,但GPT - 4读取后的信息有很多扭曲之处。于是,我们能够察觉到,GPT - 4相较于其他模型(包括国产大模型)存在一个严重的不足。它可以说出图中有哪些内容,然而不具备OCR功能,无法识别图片里的文字。拿带有文字的图片让GPT阅读并依据图中的内容进行推理,它时而能识别正确,时而却会得出一些荒诞的结果。这种能力的缺失,让GPT在一项常用任务上完全缺席,这个任务就是——没错,就是做中小学生的数学、物理题。学生和家长都有做题的刚需。当前一些教育类app拍照解题的效果欠佳,搜索旧题效率低,面对新题更是毫无办法,于是就想到用大模型来解题。但要是给GPT拍个照让它做题,尤其是中文题?结果往往令人忍俊不禁。就像有一道题,我复制到GPT里让它做。

它能得出这样的结果。

我看了好几遍,都没搞明白题目里已知向量 ?a 和 ?b 满足 ?? ?=5 ?a?b=5b是怎么来的,反正读起来就是这样。但同样的图片上传到通义千问,它起码会先完整ocr一遍,先不说结果对不对,起码题目没理解错。

上海
上海

之前的GPT - 4就像盲人,给它图它看不到。得靠其他模型来解读图中有什么,可这种解读不太可靠,这就导致在很多时候它的能力无法正常发挥。但如今的GPT - 4o,就像是给GPT - 4装上了有用的眼睛和耳朵,使其可用范围得到极大拓展。GPT - 4o把语言流、影像流和之前用过的文字流进行了统一编码,这样向大脑传输时信息就不会损失了。像之前的题目让GPT - 4o重做一次,效果会好很多,解答也完全正确。

于是,刚刚对现有的较大模型都进行了这样一套完全公平的读图做题。

2024年上海市杨浦区中考二模数学试卷(初三学生使用),这是一套卷子。由于是二模卷,题目全是新的,部分题目较难且有区分度。两周前刚考完,网上还未公开,所以不可能被用作训练数据。以下为考卷内容。

有25道题目,要把每一道题都截成图。然后在所有模型上都上传同一张图片,并且使用统一的提问内容来询问:这道题该怎么做?请给出计算过程和答案。不过,Gemini - Advanced除外,因为对Gemini - Advanced使用中文提问会出错,所以只对它使用英文提问内容:How should I solve this problem? Please give the process and answer.3. 每题仅做一次,选择题与填空题按答案计分,解答题依过程给分。此方式很严格,尤其是证明题,当前的大模型基本做不到。这九个模型被纳入测试范围。GPT - 4o,是OpenAI上午刚发布的。GPT - 4与之前的GPT模型。3. Gemini - Advanced,在英文调用时使用的是Gemini Ultra。

不太理解你仅5,文心一言4.0这几个字符的具体含义。如果是想简单介绍文心一言4.0相关,可改为:文心一言4.0已推出。

海螺AI调用的是minimax最新版abab 6.5。

通义千问2.5版本相关的9。做题的结果如下:

分数的排序如下:在多种人工智能产品的比较中,大致的排序为GPT - 4o优于Gemini - Advanced,文心一言4.0、Kimi等也在比较之列,其中海螺AI(minimax)的abab 6.5、GLM - 4等也参与排序,GPT - 4与Claude - 3 - opus相当,通义千问2.5也在其中。目前,GPT - 4和Claude - 3 - opus是较为领先的两个模型。但在读图做题方面,它们的表现很糟糕,简单题目常因读错而无法完成,所以都只得到32分,在九个模型中分别排倒数第二和倒数第三。同时,国产大模型在读图方面表现良好,文心一言、Kimi、minimax、GLM和通义千问都能正确读图并理解题意。文心一言4.0、Kimi和minimax水平相当,难分高下。文心一言分数虽最高,可在这三个模型里,我更偏爱minimax的海螺AI。你看解答题第20题的第二个小问就知道,minimax和GPT - 4o是仅有的两个答对的模型。

选择题第六题,minimax在九个模型里是唯一选对的。虽然其过程有猜测成分,但选择题猜对就好,文心一言也有靠猜答对的选择题。

GLM - 4比其他的稍逊一筹,通义千问就更差了,仅得24分,解答题一道都做不出。不过通义千问也有可表扬之处,它每题都会自动ocr一遍再显示,方便我复制到别的文档,很省事(尽管答案都是错的)。Gemini Advanced调用Gemini - Ultra,读图能力很棒,速度也很快,获得了排名第二的65分。最高分是GPT - 4o,83分,离及格就差一点,在直接读图做题的情况下,这效果已经相当不错了。且关键之处有两点:GPT - 4o与不能直接读图的GPT - 4(32分)相比,有着断崖式领先,这表明GPT - 4o读图能力大幅增强,所有题目均能正确理解。2. 其能力完全涵盖其他模型能力的总和。就是说,其他所有模型能答对的题目它都能答对。就连分数排第二的Gemini - Ultra,也被GPT - 4o全面覆盖。这也是我在国产模型里比较偏爱minimax的原因,因为全场只有选择题第六题GPT - 4o答错了,minimax却(猜)答对了。所以,GPT - 4o和GPT - 4相比,能力方面或许没有太大变化,这就导致其在很多测试集里分数提升不明显。不过,GPT - 4o在易用性方面有显著增强,它能直接听、直接看,还能直接处理视听信息,更契合人类交互习惯,从而让高频的看图做题类应用有了实现的可能。GPT - 4o发布会上,可汗学院创始人带儿子来让GPT - 4o辅导勾股定理的事令我印象最深,GPT - 4o直接读屏,当场讲解。大概这就是未来GPT - 4o使用频率最高的场景了。

举报有用(6分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号