
阿里
杨立昆在场时,Qwen2表现超越Llama3,充分证明了这一成果的客观真实性。2024年6月13日,AbacusAI联合AI领域先驱杨立昆、英伟达等团队,发布LiveBench AI平台。这一平台被称为全球首个无法被操控的LLM基准测试,为大语言模型评估树立了全新标准。
LiveBench AI的试题难度较大,像GPT-4-Turbo这样的先进模型,在LiveBench上的整体正确率也仅约50%左右。这充分体现了测试的挑战性与高标准要求。LiveBench AI会不断推出新任务和更高难度版本,确保能持续区分各模型的能力差异。LiveBench AI目前包含18个任务,覆盖数学、编码、推理、语言、指令遵循及数据分析等六大类别。

AI
评测结果显示,GPT-4o以总分第一领先,超越GPT-4-turbo;Claude Opus在数据处理与语义理解上优势明显;开源模型通义千问72B力压Meta的Llama 3-70B,成为性能最优的开源大模型。详情请参阅论文:
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号