RetNet，大型语言模型架构有何创新？

1个回答

笑妹妹

2026-01-31 18:30

这篇论文也不例外，你可以通过https://arxiv.org/pdf/2307.08621.pdf查看。这篇论文名为Retentive Network: A Successor to Transformer for Large Language Models，作者是Yutao Sun、Li Dong、Shaohan Huang、Shuming Ma、Yuqing Xia、Jilong Xue、Jianyong Wang以及Furu Wei。该论文发表于arXiv，编号为2307.08621v4，发表日期是2023年8月9日。为了方便那些不想自己查看论文的人，我用AI生成了文章摘要：作者提出了一种基础架构Retentive Network（RetNet），用于大型语言模型。RetNet达成了训练并行性、低成本推理以及良好的性能。在文章里，作者从理论上推导出循环和注意力之间的联系，并且提出一种保留机制用于序列建模。该机制支持三种计算范式，分别为并行、递归和分块递归。具体而言，平行模式能够实现训练并行性；递归模式使推理成本达到O(1)，在不牺牲性能的前提下提升了解码吞吐量、减少了延迟并优化了GPU内存；分块递归模式有助于高效地对长序列进行建模，其复杂度为线性，每个分块并行编码的同时递归地汇总块。实验结果表明，RetNet在语言建模方面有着良好的扩展结果、能够并行训练、低成本部署并且推理高效。这些有趣的特性让RetNet成为适用于大型语言模型的Transformer的强有力的替代者。这篇文章主要有以下贡献和特点：其一，提出了Retentive Network（RetNet）这种新型的大型语言模型架构。其二，通过引入保留机制，RetNet支持并行、递归和分块递归这三种计算范式。其三，RetNet在维持训练并行性的同时，达成了低成本的O(1)推理，优化了解码吞吐量、延迟和GPU内存的使用。其四，RetNet在长序列建模方面展现出线性复杂度，能够有效地处理长序列数据。其五，实验结果显示，在语言建模任务中，RetNet与Transformer相比具有竞争力，并且在扩展性、并行训练和推理成本方面表现更为出色。

举报有用（0）分享收藏

RetNet，大型语言模型架构有何创新？

1个回答

笑妹妹

热门话题

相关问题