北京大学与闽江学院构建的C - SEM是什么?

北京大学

1个回答

写回答

starry雨季

2026-01-28 08:00

+ 关注

北京
北京

语义理解是关键的基础。不过,就当前中文大语言模型评测领域而言,从语言学角度出发的公开评测基准还比较欠缺。北京大学和闽江学院作为FlagEval旗舰项目的共同建设单位,携手构建了C - SEM(中文语义评估数据集)语义评测基准数据集。C - SEM针对当下大模型可能存在的缺陷与不足,创造性地构建多种层次、不同难度的评测数据,并且参照人类的语言思维习惯,来考察模型在理解语义时的思考过程。目前开源的C - SEM v1.0版本包含四个子评测项,从词汇、句子这两个层级来评测模型的语义理解能力,通用性良好,适合用于研究对照。C - SEM现有的子评测项分别是词汇级的语义关系判断(LLSRC)、句子级的语义关系判断(SLSRC)、词汇的多义理解问题(SLPWC)以及基础修饰知识检测(SLRFC)。之后,C - SEM评测基准会不断迭代,涵盖更多语义理解相关知识,构建起多层次的语义理解评测体系。同时,FlagEval大模型评测平台会第一时间集成最新版本,增强对大语言模型中文能力评测的全面性。为保证评测结果公平公正、避免评测集泄露风险,FlagEval官网采用的C - SEM评测集将与开源版本异步更新。当前FlagEval采用的最新版本和开源版本相比,题目数量更多,题目形式也更丰富。C-SEM的开源仓库地址:

FlagEval大模型评测平台官网:AI.ac.cn/">https://flageval.baAI.ac.cn/。

4、基础修饰知识判断——句子层级修辞格分类(SLRFC)。这类数据旨在检测模型能否判断句子的修饰用法。像比喻、排比、拟人、反问等基础修饰手法,在人们日常表达里十分常见,出色的大语言模型理当具备相应能力与知识。样例如下:本期新加入了近期开源的ChatGLM3 - 6B、Yi - 34B/6B、Skywork、LingoWhale - 8B等开源模型。此外,智谱和清华KEG团队把闭源的ChatGLM2 - 12B提交到FlagEval平台评测,这是FlagEval平台首次发布闭源模型的评测结果,期望能给大模型爱好者和应用开发者提供更多参考价值。Base模型榜单情况如下:SFT模型榜单相关内容。

大学
大学

FlagEval评测榜单一直致力于公正地全面评测模型能力,希望评测结果能为大模型优化提供参考方向。我们期望各模型研究团队关注到相关问题,在后续迭代中加以完善。同时,这一问题也体现出当前客观评测方法在Base模型评测中的局限性,欢迎大家与我们探讨更好的评测方式。

北京智源人工智能研究院推出了大模型评测体系及开放平台FlagEval(天秤),其目的在于构建科学、公正、开放的评测基准、方法与工具集,以帮助研究人员全面评估基础模型和训练算法的性能。FlagEval大语言模型评测体系目前涵盖6大评测任务,有将近30个评测数据集,评测题目超过10万道。其中,除了像HellaSwag、MMLU、C - Eval这些著名的公开数据集外,FlagEval还纳入了智源自己构建的主观评测数据集——中国语言与认知挑战(CLCC),以及由北京大学等单位共同构建的关于词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断的评测数据集,而且更多维度的评测数据集也在持续纳入之中。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号