北京大学与闽江学院构建的C - SEM是什么？

1个回答

starry雨季

2026-01-28 08:00

北京

语义理解是关键的基础。不过，就当前中文大语言模型评测领域而言，从语言学角度出发的公开评测基准还比较欠缺。北京大学和闽江学院作为FlagEval旗舰项目的共同建设单位，携手构建了C - SEM（中文语义评估数据集）语义评测基准数据集。C - SEM针对当下大模型可能存在的缺陷与不足，创造性地构建多种层次、不同难度的评测数据，并且参照人类的语言思维习惯，来考察模型在理解语义时的思考过程。目前开源的C - SEM v1.0版本包含四个子评测项，从词汇、句子这两个层级来评测模型的语义理解能力，通用性良好，适合用于研究对照。C - SEM现有的子评测项分别是词汇级的语义关系判断（LLSRC）、句子级的语义关系判断（SLSRC）、词汇的多义理解问题（SLPWC）以及基础修饰知识检测（SLRFC）。之后，C - SEM评测基准会不断迭代，涵盖更多语义理解相关知识，构建起多层次的语义理解评测体系。同时，FlagEval大模型评测平台会第一时间集成最新版本，增强对大语言模型中文能力评测的全面性。为保证评测结果公平公正、避免评测集泄露风险，FlagEval官网采用的C - SEM评测集将与开源版本异步更新。当前FlagEval采用的最新版本和开源版本相比，题目数量更多，题目形式也更丰富。C-SEM的开源仓库地址：

FlagEval大模型评测平台官网：AI.ac.cn/">https://flageval.baAI.ac.cn/。

4、基础修饰知识判断——句子层级修辞格分类（SLRFC）。这类数据旨在检测模型能否判断句子的修饰用法。像比喻、排比、拟人、反问等基础修饰手法，在人们日常表达里十分常见，出色的大语言模型理当具备相应能力与知识。样例如下：本期新加入了近期开源的ChatGLM3 - 6B、Yi - 34B/6B、Skywork、LingoWhale - 8B等开源模型。此外，智谱和清华KEG团队把闭源的ChatGLM2 - 12B提交到FlagEval平台评测，这是FlagEval平台首次发布闭源模型的评测结果，期望能给大模型爱好者和应用开发者提供更多参考价值。Base模型榜单情况如下：SFT模型榜单相关内容。

大学

FlagEval评测榜单一直致力于公正地全面评测模型能力，希望评测结果能为大模型优化提供参考方向。我们期望各模型研究团队关注到相关问题，在后续迭代中加以完善。同时，这一问题也体现出当前客观评测方法在Base模型评测中的局限性，欢迎大家与我们探讨更好的评测方式。

北京智源人工智能研究院推出了大模型评测体系及开放平台FlagEval（天秤），其目的在于构建科学、公正、开放的评测基准、方法与工具集，以帮助研究人员全面评估基础模型和训练算法的性能。FlagEval大语言模型评测体系目前涵盖6大评测任务，有将近30个评测数据集，评测题目超过10万道。其中，除了像HellaSwag、MMLU、C - Eval这些著名的公开数据集外，FlagEval还纳入了智源自己构建的主观评测数据集——中国语言与认知挑战（CLCC），以及由北京大学等单位共同构建的关于词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断的评测数据集，而且更多维度的评测数据集也在持续纳入之中。

举报有用（0）分享收藏

北京大学与闽江学院构建的C - SEM是什么？

1个回答

starry雨季

热门话题

相关问题