MiniCPM 3.0模型的性能及微调方法详解？

1个回答

日夜追

2026-01-23 23:26

Swift
Swift

再度实现以小胜大。该模型参数量达 4B，性能媲美甚至超越 GPT-3.5。经过量化处理后，内存占用仅 2GB，更适应端侧部署需求，高效且轻量。重点来了，本次发布的关键内容是：MiniCPM 3.0 的开源地址为：代码地址：https://github.com/OpenBMB/MiniCPM 这是一个开源项目链接，欢迎访问查看相关内容。请提供模型链接

MiniCPM 3.0 模型表现如何：

MiniCPM 3.0 在端侧功能调用性能方面表现出色，在伯克利功能调用排行榜上，其性能已接近 GPT-4o，展现出卓越的效率与实力。MiniCPM 3.0全新推出强大的RAG外挂三件套，包括卓越的检索模型MiniCPM-Embedding、高效的重排序模型MiniCPM-Reranker，以及专为RAG场景设计的LoRA插件生成模型，每个组件都表现出色。本文将介绍利用 ms-Swift 对 MiniCPM3-4B 进行分类任务的微调，以及微调后模型的推理过程。Swift 是魔搭社区提供的官方工具箱，适用于 300 多种大语言模型和 80 多种多模态大模型，从微调到部署全流程支持。其开源地址为：https://github.com/modelscope/ms-Swift。通过该工具，用户可以高效完成模型定制与应用开发。一般而言，大模型微调会用自定义数据集。下面将展示可直接运行的示例。我们采用 jd-sentiment-zh 中文情感分类数据集进行古文翻译风格的微调，该数据集可在 modelscope 平台上获取。

开始微调前，请确保环境已正确安装。稍作调整脚本：优化显存使用：

微调过程的损失函数可视化（仅微调了200个步骤）：

微调后的推理脚本如下，其中的ckpt_dir需改为训练生成的last checkpoint文件夹路径。对验证集进行推理以评估微调后模型性能。

举报有用（0）分享收藏

MiniCPM 3.0模型的性能及微调方法详解？

1个回答

日夜追

热门话题

相关问题