Qwen2在LiveBench AI测试中超越Llama 3，如何评价其表现？

1个回答

18155083770

2026-02-03 03:07

阿里

阿里Qwen2的表现令人自豪！向国产开源的先锋致敬！

杨立昆在场时，Qwen2表现超越Llama3，充分证明了这一成果的客观真实性。2024年6月13日，AbacusAI联合AI领域先驱杨立昆、英伟达等团队，发布LiveBench AI平台。这一平台被称为全球首个无法被操控的LLM基准测试，为大语言模型评估树立了全新标准。

LiveBench AI的试题难度较大，像GPT-4-Turbo这样的先进模型，在LiveBench上的整体正确率也仅约50%左右。这充分体现了测试的挑战性与高标准要求。LiveBench AI会不断推出新任务和更高难度版本，确保能持续区分各模型的能力差异。LiveBench AI目前包含18个任务，覆盖数学、编码、推理、语言、指令遵循及数据分析等六大类别。

每个任务都富有挑战，有的需用最新数据集，有的源于高难度基准测试。LiveBench AI首份成绩单出炉，34个模型同台竞技，涵盖多款知名闭源与开源模型。

评测结果显示，GPT-4o以总分第一领先，超越GPT-4-turbo；Claude Opus在数据处理与语义理解上优势明显；开源模型通义千问72B力压Meta的Llama 3-70B，成为性能最优的开源大模型。详情请参阅论文：

举报有用（0）分享收藏

Qwen2在LiveBench AI测试中超越Llama 3，如何评价其表现？

1个回答

18155083770

热门话题

相关问题