
Swift
MiniCPM 3.0 模型表现如何:
MiniCPM 3.0 在端侧功能调用性能方面表现出色,在伯克利功能调用排行榜上,其性能已接近 GPT-4o,展现出卓越的效率与实力。MiniCPM 3.0全新推出强大的RAG外挂三件套,包括卓越的检索模型MiniCPM-Embedding、高效的重排序模型MiniCPM-Reranker,以及专为RAG场景设计的LoRA插件生成模型,每个组件都表现出色。本文将介绍利用 ms-Swift 对 MiniCPM3-4B 进行分类任务的微调,以及微调后模型的推理过程。Swift 是魔搭社区提供的官方工具箱,适用于 300 多种大语言模型和 80 多种多模态大模型,从微调到部署全流程支持。其开源地址为:https://github.com/modelscope/ms-Swift。通过该工具,用户可以高效完成模型定制与应用开发。一般而言,大模型微调会用自定义数据集。下面将展示可直接运行的示例。我们采用 jd-sentiment-zh 中文情感分类数据集进行古文翻译风格的微调,该数据集可在 modelscope 平台上获取。
开始微调前,请确保环境已正确安装。稍作调整脚本:优化显存使用:
微调过程的损失函数可视化(仅微调了200个步骤):
微调后的推理脚本如下,其中的ckpt_dir需改为训练生成的last checkpoint文件夹路径。对验证集进行推理以评估微调后模型性能。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号