去除KV cache的变体与Transformer有何异同?

1个回答

写回答

妮妮不吃啦

2026-02-11 10:15

+ 关注

公司
公司

是一种理想架构,但成本过高,目前性价比很低,小公司难以涉足LLM(大型语言模型),这一点确实值得批判。那么那些没有KV cache以及不进行QK两两度量的变体,它们与transformer本质上有哪些相同和不同之处?相同点在于:确实都实现了全局感受野,而且这种整合是有一定道理且具备计算效率的,这一点非常关键,它为模型能力设定了一个不低的下限。不同点在于:一种是未来(q)选择历史(众多v),另一种是历史(v)预先设置对未来(众多q)的贡献,这一点决定了模型能力的上限或者说潜力。一个历史上的token对未来某个时刻的token的贡献是有规律可循的,这个规律就是位置,因为除了位置,未来的其他信息(如token)是无法知晓的。这样做可行,但并非尽善尽美。所以,不管公式或者形式转换多么复杂,只要能写成rnn形式(不含KV cache),就都摆脱不了上述结论,它们都不具备transformer(这里特指包含全局扫描过程的版本)的上限能力。当然,具体到实际效果,未必就比transformer差,小任务用小方法就足够了。也许就当前的算力、数据规模以及目标期望等情况而言,所有任务(包括LLM、ChatGPT)实际上还只是在处理小任务,transformer目前可能只是一种冗余的存在。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号