人工智能评价体系存在哪些不公平性?

1个回答

写回答

Lisa0704

2026-02-14 14:30

+ 关注

AI
AI

我们对这个问题并不陌生。最近,在技术领域的一次深度研讨中,我们和共同创始人@SIY.Z以及@KAI.W对当下人工智能评价体系里的一些困惑展开了探讨。这两位在评估方面都是经验丰富的行家,他们的观点让我们对AI评测中可能存在的不公平性有了更深层次的认识。我们首先探讨了在与GPT - 4进行对比测试时所出现的不平等情况,特别是在运用思维链(CoT)方法时存在的不公平现象。在这些测试里,GPT - 4被设定为使用少量示例(few - shot),而另一个模型却使用了CoT。很明显,使用CoT的模型在推理任务中的能力表现得更强,这就好比在考试的时候,有些人可以使用草稿纸,而另外一些人却只能进行心算一样。接下来是关于未对齐和已对齐模型的比较。我们知道,模型对齐在一定程度上会牺牲知识的广度来提升推理能力。我们对GPT - 3.5未对齐的内部版本进行测试时发现,它能够获取某些专业领域教授的详细信息。可是,一旦经过了对齐处理,这个模型就只能提供比较一般性的信息了,例如大学校长是谁。所以,把未对齐的Gemini和已经过对齐处理的GPT - 4进行对比,显然是不合理的。即便如此,我们还是觉得Gemini的性能是超过GPT - 3.5的,它是一个值得信赖的模型,不过与GPT - 4相比可能还是存在差距。

举报有用(6分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号