大模型微调中底模的作用及相关问题?

1个回答

写回答

xys1792836

2025-12-23 14:00

+ 关注

其实其他的大型语言模型(llm)也都适用。比如说,在对人像进行lora微调之后,你会发现这个模型在之前的其他场景下仍然表现出色。在过去进行检测分割时,这种情况是完全不可能出现的。实际上,就算你有条件做全参微调,得到的结果也是一样的,那就是泛化性非常好。所以,这实际上是底模的功劳。你可能会怀疑这是不是sd特殊的扩散过程所导致的,我也曾这么想过。但是当你训练llm的时候,会发现同样的情况依旧存在。那么,我们或许可以得出一个不太严谨的结论,这是由参数规模造成的。对于大模型而言,其结果是由众多的层所决定的。微调时修改一部分参数并不会完全破坏原有的空间。你可以这样理解,一个优秀的底模已经依据物理逻辑将每个场景分配到了不同的层里,就像是不同的空间一样,这一点很难用公式去严格解释,这时候看看国内张老师的符号解释或许能让自己心里舒服些。有了一个强大的底模之后,你使用自己的数据进行微调,只要这批数据符合底模训练的规律,就能够以最小的损失进行嵌入。那么,它是不是真的可以随意操作?当然不是。在学习的过程中,它会随机跳跃,如果一个参数的梯度过大,后续可能会引发连锁反应。所以,梯度截断能够很好地避免这种情况,辅助新数据的学习。不过,即便如此,过度的全参微调也会导致后续模型崩溃,对于卷积神经网络(CNN)来说这种情况更容易发生。而lora确实能够防止这种情况,不至于崩溃得太严重,但是它的上限不如全参微调,不适合难度较大、精度要求较高的任务。总结一下就是,别折腾了,如果想要有质的改变,就老老实实地准备大量数据然后进行训练吧。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号