Gemini与GPT-4对比实测效果如何？

1个回答

wx871118

2026-02-14 14:33

Gemini
Gemini

Gemini并未明显超越GPT-4。同时，我对比了Bard与Bing、文心一言4.0的效果，各有千秋。在此之前，我们先来看Google发布的Gemini模型展示的多模态效果，视频来自官网，已添加中文字幕。12月6日，谷歌推出最新大型语言模型Gemini。在MMLU测试中，通过思维链提示与32次选优策略，其表现超越GPT-4，展现出更强的多任务语言理解能力。

不过，这一测试标准的公平性却遭到了行业内的质疑。有观点认为，Gemini展示能力的视频似乎经过剪辑，并非实时拍摄。随后，谷歌解释称，视频确实是多模态交互的演示，使用了静态图片与多段提示词组合而成。不过，这一说明能否消除外界质疑，仍有待时间验证。

Gemini的Pro版已融入谷歌聊天机器人Bard，具体效果还需用户实际体验后评估。更高阶的Gemini Ultra版预计明年发布，其性能能否实现更大突破，同样令人期待。

Google
Google

虽然Gemini在部分编程能力评测中表现出色，但在图形推理与图像识别任务上仍有较大提升空间。这表明，尽管Gemini在一些领域占据优势，却并非能在所有方面超越其他模型，仍存在局限性和待改进之处。Gemini的未来发展前景及实际应用效果，还需依据真实数据与用户反馈，作出更全面客观的评估。思维链（ChAIn of Thought）简称Cot，是一种让模型逐步思考的方法，通过生成中间推理步骤，实现逻辑推导过程的分解与呈现。研究团队发现，GPT-4能够为训练样本创建思维链。相比专家手动编写，其自动生成的思维链包含更长的推理过程和更细致的分步逻辑。这种方法提升了推理的深度与精度。

在MedQA数据集（美国医师执照考试题）中，MedPrompt使GPT-4的准确率首次突破90%，成功超越BioGPT、Med-PaLM等众多微调方法，表现更为出色。研究团队指出，Medprompt 方法具有广泛适用性，不仅限于医学领域，还能延伸至电气工程、机器学习和法律等专业。此外，在消融实验中发现，自动思维链步骤的生成对性能提升起到了最关键的作用。在题目挑选上，我会选择逻辑判断、数学题以及图片分析等与智力相关的题目。以下所选题目能够展现思考反应能力，同时附上标准答案，题目来源于网络资源。另外，我尝试运用近期学到的一种有趣提示词技巧进行实验。在第一道复杂的分析题中，分别以无特殊提示和加入嘉奖提示（灵感源于之前提到的小费方法）两种方式测试了三个模型：Bard、搭载GPT-4的必应搜索以及文心一言4.0版，观察它们的表现是否存在差异。

特别说明，为确保客观性，所有测试仅进行一次，均为随机选取，非特意挑选。鉴于个人时间和精力有限，无法广泛测试，结果仅供参考。此外，据知情人士透露，Bard仅在英文环境且IP地址位于美国时才会调用Gemini。基于此，我作出相应调整，假设Bard在这些条件下确实使用的是Gemini Pro进行工作。

秋风起，落叶飘，岁月如流水般逝去。

最终测试结果：Bard(Gemni)选C正确，Bard(PaLM)选甲错误，Bing(GPT4)选丁错误，文心一言选丁和丙，未给出明确结论。附加提示词测试时，可在尾部增加提示词以观察效果变化。分析过程图片过长，为保证观看体验，仅截取部分展示。

结论：Bard(Gemni)选C正确，文心一言选丙正确，Bard(PaLM)与Bing(GPT4)分别选乙和丁，均错误。

测试结果直接显示：全部错误，无一正确。不过，有一些非常有趣的信息：处罚方式全部都是我的错，我尝试着在结尾加上这样的提示词：我尝试了惩罚模式，发现回答质量变得更差。Bard会反PUA回应，Bing甚至拒绝回答，还挺有趣的。

描述这张图片，看看他们的解释是否合理：

Bard的草稿模式已开启Bard在回答时启用了草稿模式，我觉得很有意思。它通过多轮判断逐步推导，最终得出结果，这应该就是链式思维的一种形式吧。

这一结论颇有趣味。尽管我的测试样本有限，难以评估大模型的实际情况，但从中可略见一斑：Gemini的表现或许没有视频中那么夸张和震撼。我对后续所有大模型采用Cot技巧以提升能力充满期待。我是德里克文，从事设计多年，热衷于AI绘画与人工智能。若喜欢我的文章，欢迎关注、点赞、收藏，感谢支持！

举报有用（6）分享收藏

Gemini与GPT-4对比实测效果如何？

1个回答

wx871118

热门话题

相关问题