LLaMA2 7B模型训练加速及异常问题探讨

1个回答

lijing7890

2026-02-25 07:45

训练速度没有上限，只会更快，在相同资源下更快速地完成训练，想必是大家共同的追求。这篇文章将更新一些我自己测试与使用过的训练加速方法，欢迎大家一同探讨。为便于讨论，这里给出的测试数据都以LLaMA2 7B模型为例，在A100机器上运行，其他基本配置如下：不运用其他优化方法，使用Torch + Transformers + DeepSpeed Zero2进行分布式训练。参照（此处）实现FlashAttention2，测试结果如下：从torch2.0开始推出了torch.compile编译优化功能，详情可查看官网，在这里只需在加载好模型之后添加一行代码就行，如下：测试结果如下：问题在于，能够发现，在2机16卡的情况下，速度出现异常，没有像单机8卡那样按照预期提升，这个问题我还在研究解决之中，如果有知道原因的朋友还请不吝赐教。尚未结束，还会持续更新其他优化方法……

举报有用（0）分享收藏

LLaMA2 7B模型训练加速及异常问题探讨

1个回答

lijing7890

热门话题

相关问题