去除KV cache的变体与Transformer有何异同？

1个回答

妮妮不吃啦

2026-02-11 10:15

公司

是一种理想架构，但成本过高，目前性价比很低，小公司难以涉足LLM（大型语言模型），这一点确实值得批判。那么那些没有KV cache以及不进行QK两两度量的变体，它们与transformer本质上有哪些相同和不同之处？相同点在于：确实都实现了全局感受野，而且这种整合是有一定道理且具备计算效率的，这一点非常关键，它为模型能力设定了一个不低的下限。不同点在于：一种是未来（q）选择历史（众多v），另一种是历史（v）预先设置对未来（众多q）的贡献，这一点决定了模型能力的上限或者说潜力。一个历史上的token对未来某个时刻的token的贡献是有规律可循的，这个规律就是位置，因为除了位置，未来的其他信息（如token）是无法知晓的。这样做可行，但并非尽善尽美。所以，不管公式或者形式转换多么复杂，只要能写成rnn形式（不含KV cache），就都摆脱不了上述结论，它们都不具备transformer（这里特指包含全局扫描过程的版本）的上限能力。当然，具体到实际效果，未必就比transformer差，小任务用小方法就足够了。也许就当前的算力、数据规模以及目标期望等情况而言，所有任务（包括LLM、ChatGPT）实际上还只是在处理小任务，transformer目前可能只是一种冗余的存在。

举报有用（0）分享收藏

去除KV cache的变体与Transformer有何异同？

1个回答

妮妮不吃啦

热门话题

相关问题