
达能
Efficient Transformer在某些情况下可能并没有预期的那么高效,题目为Do Efficient Transformers Really Save Computation?。这引发了对Transformer效率的重新思考。2024年4月15日补充:另一篇论文RNNS ARE NOT TRANSFORMERS (YET): THE KEY BOTTLENECK ON IN-CONTEXT RETRIEVAL进一步探讨了RNN与Transformer之间的差异。当前的研究趋势显示,结合Transformer和RNN特点的混合模型或许具有更大的潜力。这类模型理论上具备不逊于Transformer的表
达能力,同时显存占用更少,并且在长序列处理上速度更快。例如,Jamba作为一种混合型语言模型,融合了Transformer与Mamba的优点,在性能和效率之间取得了更好的平衡。这种混合架构可能成为未来研究的一个重要方向,尤其是在需要兼顾计算资源和复杂任务处理能力的场景下,显示出独特的优势。