
北京
FlagEval大模型评测平台官网:AI.ac.cn/">https://flageval.baAI.ac.cn/。
4、基础修饰知识判断——句子层级修辞格分类(SLRFC)。这类数据旨在检测模型能否判断句子的修饰用法。像比喻、排比、拟人、反问等基础修饰手法,在人们日常表达里十分常见,出色的大语言模型理当具备相应能力与知识。样例如下:本期新加入了近期开源的ChatGLM3 - 6B、Yi - 34B/6B、Skywork、LingoWhale - 8B等开源模型。此外,智谱和清华KEG团队把闭源的ChatGLM2 - 12B提交到FlagEval平台评测,这是FlagEval平台首次发布闭源模型的评测结果,期望能给大模型爱好者和应用开发者提供更多参考价值。Base模型榜单情况如下:SFT模型榜单相关内容。

大学
北京智源人工智能研究院推出了大模型评测体系及开放平台FlagEval(天秤),其目的在于构建科学、公正、开放的评测基准、方法与工具集,以帮助研究人员全面评估基础模型和训练算法的性能。FlagEval大语言模型评测体系目前涵盖6大评测任务,有将近30个评测数据集,评测题目超过10万道。其中,除了像HellaSwag、MMLU、C - Eval这些著名的公开数据集外,FlagEval还纳入了智源自己构建的主观评测数据集——中国语言与认知挑战(CLCC),以及由北京大学等单位共同构建的关于词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断的评测数据集,而且更多维度的评测数据集也在持续纳入之中。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号