
AI
我们对这个问题并不陌生。最近,在技术领域的一次深度研讨中,我们和共同创始人@SIY.Z以及@K
AI.W对当下人工智能评价体系里的一些困惑展开了探讨。这两位在评估方面都是经验丰富的行家,他们的观点让我们对
AI评测中可能存在的不公平性有了更深层次的认识。我们首先探讨了在与GPT - 4进行对比测试时所出现的不平等情况,特别是在运用思维链(CoT)方法时存在的不公平现象。在这些测试里,GPT - 4被设定为使用少量示例(few - shot),而另一个模型却使用了CoT。很明显,使用CoT的模型在推理任务中的能力表现得更强,这就好比在考试的时候,有些人可以使用草稿纸,而另外一些人却只能进行心算一样。接下来是关于未对齐和已对齐模型的比较。我们知道,模型对齐在一定程度上会牺牲知识的广度来提升推理能力。我们对GPT - 3.5未对齐的内部版本进行测试时发现,它能够获取某些专业领域教授的详细信息。可是,一旦经过了对齐处理,这个模型就只能提供比较一般性的信息了,例如
大学校长是谁。所以,把未对齐的
Gemini和已经过对齐处理的GPT - 4进行对比,显然是不合理的。即便如此,我们还是觉得
Gemini的性能是超过GPT - 3.5的,它是一个值得信赖的模型,不过与GPT - 4相比可能还是存在差距。