人工智能评价体系存在哪些不公平性？

1个回答

Lisa0704

2026-02-14 14:30

我们对这个问题并不陌生。最近，在技术领域的一次深度研讨中，我们和共同创始人@SIY.Z以及@KAI.W对当下人工智能评价体系里的一些困惑展开了探讨。这两位在评估方面都是经验丰富的行家，他们的观点让我们对AI评测中可能存在的不公平性有了更深层次的认识。我们首先探讨了在与GPT - 4进行对比测试时所出现的不平等情况，特别是在运用思维链（CoT）方法时存在的不公平现象。在这些测试里，GPT - 4被设定为使用少量示例（few - shot），而另一个模型却使用了CoT。很明显，使用CoT的模型在推理任务中的能力表现得更强，这就好比在考试的时候，有些人可以使用草稿纸，而另外一些人却只能进行心算一样。接下来是关于未对齐和已对齐模型的比较。我们知道，模型对齐在一定程度上会牺牲知识的广度来提升推理能力。我们对GPT - 3.5未对齐的内部版本进行测试时发现，它能够获取某些专业领域教授的详细信息。可是，一旦经过了对齐处理，这个模型就只能提供比较一般性的信息了，例如大学校长是谁。所以，把未对齐的Gemini和已经过对齐处理的GPT - 4进行对比，显然是不合理的。即便如此，我们还是觉得Gemini的性能是超过GPT - 3.5的，它是一个值得信赖的模型，不过与GPT - 4相比可能还是存在差距。

举报有用（6）分享收藏

人工智能评价体系存在哪些不公平性？

1个回答

Lisa0704

热门话题

相关问题