
OpenAI
在codeforce这个领域,有一则堪称核弹级别的新闻。发布会的表格里,有一行特别醒目的数字:2727,这是
OpenAI在codeforce(cf)评级(rating)中的最大值。要找出能达到这种水平的
人类,可能是那些入选信息学竞赛国家集训队的选手,他们可是具备保送
清华北大资格的;也可能是有资格参加国际
大学生程序设计竞赛(icpc)世界总决赛(wf)的选手,实际上,wf资格所要求的评级比2700低不少。从cf评级规则来看:要是选手a比选手b的评级高200分,那么选手a大概有75%的可能性比选手b强;若高400分,这个可能性就会达到约90%。而o3在最高的时候,比o1的评级高出800分,按照评级规则,几乎强了两个段位。目前在cf平台上,不算不活跃用户的话,仅有175位选手达到了2727的评级,这无疑代表着该领域的顶尖水平。在gemini2表现出色的情况下,我觉得
OpenAI不是唯一有能力做出这样产品的
公司。也许在两年内,会有大批的
AI公司在各自的细分领域,做出不逊色于o3水平的模型,然后又被更新、更强大的模型所取代。这里要说明一下:由于选手都是国内高中生,cf比赛时间通常是22:35(utc+8),所以多数选手不一定能参加,这就导致样本数量比较少。还要补充一点:本年度国际
大学生程序设计竞赛(也就是常说的acm,实际上叫icpc)的ec赛区区域赛(包括
香港、
杭州、
南京、
上海、
沈阳、
昆明、
成都),除
香港只有150支队伍外,其余赛站正式队伍都超过300支,每队3人且每人不能参加超过两个赛站比赛,2700的评级大体上是这些选手中赛站前十名队伍主力队员的水平(当然也有实力超强的选手)。