客观来讲,transformer是一代经典模型,想要全方位超越它是不现实的。在某些方面比transformer强是有机会的。我甚至认为,transformer未必就是未来的发展方向。Transformer现阶段与GPU计算模型最适配,所以表现最为突出。若未来出现比GPU更佳的计算硬件,必然也会有更适配硬件的模型架构崭露头角。在计算效率与效果方面,RWKV并不逊于transformer,其训练时loss的下降速度甚至比GPT还快。下面这个nanoRWKV对标karpathy的nanoGPT的项目,是十分公平的对比。
然后讲讲与其他新架构的比较。先看和RetNet的对比,RetNet比RWKV - 4略胜一筹,不过优势不大,RWKV - 5胜过RetNet不在话下,更何况现在都已经迭代到RWKV - 6了。
接着和Mamba作比较,Mamba的官方版本确实很强大,不过RWKV升级到6.1版之后,也已经稳稳地占据上风了。
上述对比是关于架构的,某个版本的模型炼成需要架构、数据、训练方法这三者。RWKV架构虽强,但也得有数据和训练方法相配合,才会打造出更好的模型。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号