
AI
在这篇文章里,作者把动态减少激活神经元数量当作加速大型语言模型(LLM)推理的一种手段。人类的思维过程给了作者启发,人类面对简单问题往往能快速作答,而对于复杂问题(像与知识有关的问题)则要花更多时间深入思考(就像思考快与慢里的系统1和系统2那样)。之前的研究显示,简单任务在较浅的层次激活,困难任务则在较深的层次激活。此外,还有增长策略,它分阶段添加参数从而降低LLM的训练成本。这启发了我们,在推理过程中减少计算参数也许是除现有典型累积方法之外的有效方式。各种任务的LLM统计结果表明,在LLM推理时减少参数是可行的。所以,让大型语言模型(LLM)高效推理的一个自然方式,就是依据输入实例自适应地确定何时终止推理进程。像给简单样本分配较少计算资源,提升运营效率。而且,探索自适应推理也许能把LLM和大脑的信息处理联系起来,有助于分析样本处理时网络模块的激活情况,识别影响最终预测的关键输入要素。具体而言,作者提出了AdAInfer,这是一种简单且有效的实例感知自适应推理算法。AdAInfer的关键在于数据驱动决策。通常,获取决策信号有两种途径:一是更新大型语言模型(LLM)参数,这种方式需要训练,成本高昂,还可能削弱模型的泛化能力;二是保持参数不变,这是更理想且更具成本效益的方法,能够保留模型的固有能力。在这项工作里,我们运用早停策略,在不改变模型参数的情况下提升了效率。我们首先对LLM的每个块特征(如logits、隐藏状态、mlp和注意力激活值)进行统计分析。接着,我们选取logits构建特征,并采用经典的统计分类器(即支持向量机SVM和条件随机场CRF)来推动早期退出策略。业界首次尝试为LLM推理设计早停策略。对Llama2系列和OPT等知名LLM的实验显示,AdAInfer平均能节省14.8%的计算资源,在情感任务上节省资源可高达50%,且性能相当。更为关键的是,AdAInfer与其他模型加速技术相结合,有进一步提升推理效率的潜力。观察发现:推理时并非所有LLM层都必要,早停会有效果。在运用Llama2 - 13B(40层)模型做情感分析时,每个输入平均激活21层,方差是5.1。这一现象很直观。比如,简单输入像我喜欢相机A会激活16层,而复杂些的输入如相机A在图像质量上优于相机B会激活24层。后一句话涉及相机A和相机B在质量方面的比较情绪,有更复杂的语义,所以在这种复杂实例下会有更深的层次被激活。
观察2:任务难度有别,激活层亦有别。越简单就越容易较早停止,而复杂则会更深入发展。在大型语言模型(LLM)里,不同任务会激活不同的层,简单任务大多在较浅的层,复杂任务则在较深的层。图1展示了Llama2 - 7B模型在情感分析(Socher等人,2013年)和MMLU(Hendrycks等人,2021年)这两项任务里跨越32层的性能情况。就像情绪分类这种简单任务,其准确度与第24层(最后一层)的准确度相当。但对于MMLU这类复杂任务来说,准确性往往随着层数加深而提高。

人类
文中,作者先是给出证据表明推理过程并非所有层都是必要的,还提供了统计证据加以佐证。接着,作者提出AdAInfer这一简单有效的算法,它能依据输入实例确定停止推理的恰当时间,如此一来,在不改动模型参数的状况下就能提升推理效率与适应性。实验结果显示,AdAInfer在保持性能相当的同时,平均可减少14.8%的计算资源,在情感任务上最多能减少50%。并且,AdAInfer与其他模型加速技术兼容,有望进一步提升推理效率。除了现有的有效方法外,AdAInfer还构建了一种新的高效推理范式。论文:arxiv.org上的2403.02181.pdf。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号