Qwen2在LiveBench AI测试中超越Llama 3,如何评价其表现?

AI

1个回答

写回答

18155083770

2026-02-03 03:07

+ 关注

阿里
阿里

阿里Qwen2的表现令人自豪!向国产开源的先锋致敬!

杨立昆在场时,Qwen2表现超越Llama3,充分证明了这一成果的客观真实性。2024年6月13日,AbacusAI联合AI领域先驱杨立昆、英伟达等团队,发布LiveBench AI平台。这一平台被称为全球首个无法被操控的LLM基准测试,为大语言模型评估树立了全新标准。

LiveBench AI的试题难度较大,像GPT-4-Turbo这样的先进模型,在LiveBench上的整体正确率也仅约50%左右。这充分体现了测试的挑战性与高标准要求。LiveBench AI会不断推出新任务和更高难度版本,确保能持续区分各模型的能力差异。LiveBench AI目前包含18个任务,覆盖数学、编码、推理、语言、指令遵循及数据分析等六大类别。

AI
AI

每个任务都富有挑战,有的需用最新数据集,有的源于高难度基准测试。LiveBench AI首份成绩单出炉,34个模型同台竞技,涵盖多款知名闭源与开源模型。

评测结果显示,GPT-4o以总分第一领先,超越GPT-4-turbo;Claude Opus在数据处理与语义理解上优势明显;开源模型通义千问72B力压Meta的Llama 3-70B,成为性能最优的开源大模型。详情请参阅论文:

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号