
AI
仅评估大语言模型的智商。截至今日,效果排名如下:在当前的
AI模型对比中,GPT-4o表现最为出色,紧随其后的是claude 3.5和sonnet。文心4-turbo也展现出强劲实力,略胜通义max和通义plus/2.5 72B。文心3.5与豆包pro水平相近,智谱4和kimi则处于同一梯队,整体性能稍逊一筹。若论图像理解多模态,文心家族目前尚未涉及。若论绘画能力,Dalle-3最优,豆包次之,文心与通义相近。从各应用的日活跃用户数来看,豆包居首,其次为kimi、文心、智谱,通义排在最后。展望未来一年或更长时间的趋势,我认为豆包最具潜力。当前的大模型主要依赖海量参数、数据和算力。例如,llama 3.1使用了15万亿的数据,而
阿里则用了18万亿。这三个关键因素归根结底都与资金投入密切相关。字节跳动注重资源集中,以高投入博取高回报,其砸钱运营的成功率相当可观。明年大家拭目以待吧。