
Gemini
不过,这一测试标准的公平性却遭到了行业内的质疑。有观点认为,Gemini展示能力的视频似乎经过剪辑,并非实时拍摄。随后,谷歌解释称,视频确实是多模态交互的演示,使用了静态图片与多段提示词组合而成。不过,这一说明能否消除外界质疑,仍有待时间验证。
Gemini的Pro版已融入谷歌聊天机器人Bard,具体效果还需用户实际体验后评估。更高阶的Gemini Ultra版预计明年发布,其性能能否实现更大突破,同样令人期待。

Google
在MedQA数据集(美国医师执照考试题)中,MedPrompt使GPT-4的准确率首次突破90%,成功超越BioGPT、Med-PaLM等众多微调方法,表现更为出色。研究团队指出,Medprompt 方法具有广泛适用性,不仅限于医学领域,还能延伸至电气工程、机器学习和法律等专业。此外,在消融实验中发现,自动思维链步骤的生成对性能提升起到了最关键的作用。在题目挑选上,我会选择逻辑判断、数学题以及图片分析等与智力相关的题目。以下所选题目能够展现思考反应能力,同时附上标准答案,题目来源于网络资源。另外,我尝试运用近期学到的一种有趣提示词技巧进行实验。在第一道复杂的分析题中,分别以无特殊提示和加入嘉奖提示(灵感源于之前提到的小费方法)两种方式测试了三个模型:Bard、搭载GPT-4的必应搜索以及文心一言4.0版,观察它们的表现是否存在差异。
特别说明,为确保客观性,所有测试仅进行一次,均为随机选取,非特意挑选。鉴于个人时间和精力有限,无法广泛测试,结果仅供参考。此外,据知情人士透露,Bard仅在英文环境且IP地址位于美国时才会调用Gemini。基于此,我作出相应调整,假设Bard在这些条件下确实使用的是Gemini Pro进行工作。
秋风起,落叶飘,岁月如流水般逝去。
最终测试结果:Bard(Gemni)选C正确,Bard(PaLM)选甲错误,Bing(GPT4)选丁错误,文心一言选丁和丙,未给出明确结论。附加提示词测试时,可在尾部增加提示词以观察效果变化。分析过程图片过长,为保证观看体验,仅截取部分展示。
结论:Bard(Gemni)选C正确,文心一言选丙正确,Bard(PaLM)与Bing(GPT4)分别选乙和丁,均错误。
测试结果直接显示:全部错误,无一正确。不过,有一些非常有趣的信息:处罚方式全部都是我的错,我尝试着在结尾加上这样的提示词:我尝试了惩罚模式,发现回答质量变得更差。Bard会反PUA回应,Bing甚至拒绝回答,还挺有趣的。
描述这张图片,看看他们的解释是否合理:
Bard的草稿模式已开启Bard在回答时启用了草稿模式,我觉得很有意思。它通过多轮判断逐步推导,最终得出结果,这应该就是链式思维的一种形式吧。
这一结论颇有趣味。尽管我的测试样本有限,难以评估大模型的实际情况,但从中可略见一斑:Gemini的表现或许没有视频中那么夸张和震撼。我对后续所有大模型采用Cot技巧以提升能力充满期待。我是德里克文,从事设计多年,热衷于AI绘画与人工智能。若喜欢我的文章,欢迎关注、点赞、收藏,感谢支持!
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号