RetNet,大型语言模型架构有何创新?

1个回答

写回答

笑妹妹

2026-01-31 18:30

+ 关注

AI
AI

这篇论文也不例外,你可以通过https://arxiv.org/pdf/2307.08621.pdf查看。这篇论文名为Retentive Network: A Successor to Transformer for Large Language Models,作者是Yutao Sun、Li Dong、Shaohan Huang、Shuming Ma、Yuqing Xia、Jilong Xue、Jianyong Wang以及Furu Wei。该论文发表于arXiv,编号为2307.08621v4,发表日期是2023年8月9日。为了方便那些不想自己查看论文的人,我用AI生成了文章摘要:作者提出了一种基础架构Retentive Network(RetNet),用于大型语言模型。RetNet达成了训练并行性、低成本推理以及良好的性能。在文章里,作者从理论上推导出循环和注意力之间的联系,并且提出一种保留机制用于序列建模。该机制支持三种计算范式,分别为并行、递归和分块递归。具体而言,平行模式能够实现训练并行性;递归模式使推理成本达到O(1),在不牺牲性能的前提下提升了解码吞吐量、减少了延迟并优化了GPU内存;分块递归模式有助于高效地对长序列进行建模,其复杂度为线性,每个分块并行编码的同时递归地汇总块。实验结果表明,RetNet在语言建模方面有着良好的扩展结果、能够并行训练、低成本部署并且推理高效。这些有趣的特性让RetNet成为适用于大型语言模型的Transformer的强有力的替代者。这篇文章主要有以下贡献和特点:其一,提出了Retentive Network(RetNet)这种新型的大型语言模型架构。其二,通过引入保留机制,RetNet支持并行、递归和分块递归这三种计算范式。其三,RetNet在维持训练并行性的同时,达成了低成本的O(1)推理,优化了解码吞吐量、延迟和GPU内存的使用。其四,RetNet在长序列建模方面展现出线性复杂度,能够有效地处理长序列数据。其五,实验结果显示,在语言建模任务中,RetNet与Transformer相比具有竞争力,并且在扩展性、并行训练和推理成本方面表现更为出色。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号