LLAMA PRO后预训练方法有何创新之处?

1个回答

写回答

qwemnb123456

2026-01-03 08:25

+ 关注

人类
人类

该方法能提升大型语言模型(LLMs)在特定领域的性能,且不影响其原有的通用能力。它靠扩展Transformer块来加深模型深度,在不损害原有性能的前提下,提高模型在编程、数学和一般语言任务上的表现。LLAMA PRO模型以LLAMA2 - 7B为基础,用块扩张法构建而成,在编程、代码和数学领域表现优异。另外,论文还介绍了指令版的LLAMA PRO - INSTRUCT,其在各类基准上达到先进性能。实验结果显示,LLAMA PRO不但在通用语言任务上保持高水平表现,在编程和数学任务上性能也显著提高。以往的微调方法,像指令调优(Instruction Tuning)以及参数高效调优(Parameter - Efficient Fine - Tuning)中的LoRA等,尽管能提升大型语言模型(LLMs)在特定领域的性能,不过也有若干不足之处:LLaMA PRO在现有的大型语言模型(LLM)里添加额外的Transformer块以增加模型深度。这些块初始化为零,然后在特定领域的语料库上微调。该方法让模型在学习新知识时,不会遗忘原有知识。另外,LLaMA PRO还运用了指令跟随技术。它经过大概80M tokens的监督指令微调,让模型能力得到进一步提升。该技术能让模型更好地理解并执行人类指令,于是在各类任务里都能展现出更出色的性能。

(a),先从一个大型语言模型(LLM)入手,它在大量未标注语料库上预训练后具备很强的通用能力,这里为方便选取了现成的LLaMA2。(b)接着进行骨干扩展,用特定领域语料库对扩展的身份块微调,同时冻结基础模型的继承块。预训练后的模型就能像平常一样用于指令调优了。

,横轴是Code Tasks Avg,纵轴为Language Tasks Avg,圆点大小和训练的令牌数量成正比例关系。比较不同训练策略的评估结果,展示通用任务与法律特定任务的表现。能发现超参数为Add 8 Block时平局分数最高。

AI
AI

群内分享,共同讨论。AI变现项目、前沿技术、NLP知识技术分享,还有前瞻思考、面试技巧、找工作相关内容。个人IP塑造、自媒体副业、向上社交,还有我的日常见闻与思考。找一群人同行,慢慢走向富裕。期待与同频的朋友一起蜕变!

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号