LLaMA2 7B模型训练加速及异常问题探讨

1个回答

写回答

lijing7890

2026-02-25 07:45

+ 关注

训练速度没有上限,只会更快,在相同资源下更快速地完成训练,想必是大家共同的追求。这篇文章将更新一些我自己测试与使用过的训练加速方法,欢迎大家一同探讨。为便于讨论,这里给出的测试数据都以LLaMA2 7B模型为例,在A100机器上运行,其他基本配置如下:不运用其他优化方法,使用Torch + Transformers + DeepSpeed Zero2进行分布式训练。参照(此处)实现FlashAttention2,测试结果如下:从torch2.0开始推出了torch.compile编译优化功能,详情可查看官网,在这里只需在加载好模型之后添加一行代码就行,如下:测试结果如下:问题在于,能够发现,在2机16卡的情况下,速度出现异常,没有像单机8卡那样按照预期提升,这个问题我还在研究解决之中,如果有知道原因的朋友还请不吝赐教。尚未结束,还会持续更新其他优化方法……

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号