MiniCPM 3.0模型的性能及微调方法详解?

1个回答

写回答

日夜追

2026-01-23 23:26

+ 关注

Swift
Swift

再度实现以小胜大。该模型参数量达 4B,性能媲美甚至超越 GPT-3.5。经过量化处理后,内存占用仅 2GB,更适应端侧部署需求,高效且轻量。重点来了,本次发布的关键内容是:MiniCPM 3.0 的开源地址为:代码地址:https://github.com/OpenBMB/MiniCPM 这是一个开源项目链接,欢迎访问查看相关内容。请提供模型链接

MiniCPM 3.0 模型表现如何:

MiniCPM 3.0 在端侧功能调用性能方面表现出色,在伯克利功能调用排行榜上,其性能已接近 GPT-4o,展现出卓越的效率与实力。MiniCPM 3.0全新推出强大的RAG外挂三件套,包括卓越的检索模型MiniCPM-Embedding、高效的重排序模型MiniCPM-Reranker,以及专为RAG场景设计的LoRA插件生成模型,每个组件都表现出色。本文将介绍利用 ms-Swift 对 MiniCPM3-4B 进行分类任务的微调,以及微调后模型的推理过程。Swift 是魔搭社区提供的官方工具箱,适用于 300 多种大语言模型和 80 多种多模态大模型,从微调到部署全流程支持。其开源地址为:https://github.com/modelscope/ms-Swift。通过该工具,用户可以高效完成模型定制与应用开发。一般而言,大模型微调会用自定义数据集。下面将展示可直接运行的示例。我们采用 jd-sentiment-zh 中文情感分类数据集进行古文翻译风格的微调,该数据集可在 modelscope 平台上获取。

开始微调前,请确保环境已正确安装。稍作调整脚本:优化显存使用:

微调过程的损失函数可视化(仅微调了200个步骤):

微调后的推理脚本如下,其中的ckpt_dir需改为训练生成的last checkpoint文件夹路径。对验证集进行推理以评估微调后模型性能。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号