大模型微调中底模的作用及相关问题？

1个回答

xys1792836

2025-12-23 14:00

其实其他的大型语言模型（llm）也都适用。比如说，在对人像进行lora微调之后，你会发现这个模型在之前的其他场景下仍然表现出色。在过去进行检测分割时，这种情况是完全不可能出现的。实际上，就算你有条件做全参微调，得到的结果也是一样的，那就是泛化性非常好。所以，这实际上是底模的功劳。你可能会怀疑这是不是sd特殊的扩散过程所导致的，我也曾这么想过。但是当你训练llm的时候，会发现同样的情况依旧存在。那么，我们或许可以得出一个不太严谨的结论，这是由参数规模造成的。对于大模型而言，其结果是由众多的层所决定的。微调时修改一部分参数并不会完全破坏原有的空间。你可以这样理解，一个优秀的底模已经依据物理逻辑将每个场景分配到了不同的层里，就像是不同的空间一样，这一点很难用公式去严格解释，这时候看看国内张老师的符号解释或许能让自己心里舒服些。有了一个强大的底模之后，你使用自己的数据进行微调，只要这批数据符合底模训练的规律，就能够以最小的损失进行嵌入。那么，它是不是真的可以随意操作？当然不是。在学习的过程中，它会随机跳跃，如果一个参数的梯度过大，后续可能会引发连锁反应。所以，梯度截断能够很好地避免这种情况，辅助新数据的学习。不过，即便如此，过度的全参微调也会导致后续模型崩溃，对于卷积神经网络（CNN）来说这种情况更容易发生。而lora确实能够防止这种情况，不至于崩溃得太严重，但是它的上限不如全参微调，不适合难度较大、精度要求较高的任务。总结一下就是，别折腾了，如果想要有质的改变，就老老实实地准备大量数据然后进行训练吧。

举报有用（0）分享收藏

大模型微调中底模的作用及相关问题？

1个回答

xys1792836

热门话题

相关问题