业界大模型推理框架众多，优缺点及选择策略

1个回答

czy0829

2026-02-17 18:56

新研究提出在推理大语言模型时也进行早停，就是在前向传递时于中间层停止。大语言模型规模庞大且层数众多。而先前像ShortGPT之类的研究表明，大语言模型中的部分层可能是冗余的（感兴趣可查看文章）求索：ShortGPT通过删除冗余层使大模型运行更快速。论文大模型推理过程中并不是所有层都是必须的（Not all Layers of LLMs are Necessary during Inference）里，作者设计了一种名为AdAInfer（自适应推理）的算法，该算法可动态判定能够停止前向传递的层。他们训练二元分类器，该分类器使用两个特征。1. argmax所对应的Token的概率分数。2. 排名居前的Token与排名第二的Token概率得分的差异。作者像在大语言模型最后一层隐藏表示之上训练线性层来预测每个Token的概率分数那样，对大语言模型的每一层都使用线性层（不确定这些线性层是新的，还是和最后一层的预测头相同），如此就能轻松算出上面提及的两个特征。他们基于这些特征训练SVM，用以判断是否应停止向前传递。推理时，随着前向传递，SVM会对每一层预测是/否。当SVM首次预测为是的那一层，我们就停止，并将该层输出（预测Token）当作最终输出。作者发现，AdAInfer的性能与全模型相比，差距保持在5%以内，并且依据任务的不同，能节省2% - 41%的总FLOPs，在情绪分类任务上节省的FLOPs相当高。可见，在部分任务中，仅考虑输入的动态适应性时，AdAInfer的表现比全模型推理要好。

在这篇文章里，作者把动态减少激活神经元数量当作加速大型语言模型（LLM）推理的一种手段。人类的思维过程给了作者启发，人类面对简单问题往往能快速作答，而对于复杂问题（像与知识有关的问题）则要花更多时间深入思考（就像思考快与慢里的系统1和系统2那样）。之前的研究显示，简单任务在较浅的层次激活，困难任务则在较深的层次激活。此外，还有增长策略，它分阶段添加参数从而降低LLM的训练成本。这启发了我们，在推理过程中减少计算参数也许是除现有典型累积方法之外的有效方式。各种任务的LLM统计结果表明，在LLM推理时减少参数是可行的。所以，让大型语言模型（LLM）高效推理的一个自然方式，就是依据输入实例自适应地确定何时终止推理进程。像给简单样本分配较少计算资源，提升运营效率。而且，探索自适应推理也许能把LLM和大脑的信息处理联系起来，有助于分析样本处理时网络模块的激活情况，识别影响最终预测的关键输入要素。具体而言，作者提出了AdAInfer，这是一种简单且有效的实例感知自适应推理算法。AdAInfer的关键在于数据驱动决策。通常，获取决策信号有两种途径：一是更新大型语言模型（LLM）参数，这种方式需要训练，成本高昂，还可能削弱模型的泛化能力；二是保持参数不变，这是更理想且更具成本效益的方法，能够保留模型的固有能力。在这项工作里，我们运用早停策略，在不改变模型参数的情况下提升了效率。我们首先对LLM的每个块特征（如logits、隐藏状态、mlp和注意力激活值）进行统计分析。接着，我们选取logits构建特征，并采用经典的统计分类器（即支持向量机SVM和条件随机场CRF）来推动早期退出策略。业界首次尝试为LLM推理设计早停策略。对Llama2系列和OPT等知名LLM的实验显示，AdAInfer平均能节省14.8%的计算资源，在情感任务上节省资源可高达50%，且性能相当。更为关键的是，AdAInfer与其他模型加速技术相结合，有进一步提升推理效率的潜力。观察发现：推理时并非所有LLM层都必要，早停会有效果。在运用Llama2 - 13B（40层）模型做情感分析时，每个输入平均激活21层，方差是5.1。这一现象很直观。比如，简单输入像我喜欢相机A会激活16层，而复杂些的输入如相机A在图像质量上优于相机B会激活24层。后一句话涉及相机A和相机B在质量方面的比较情绪，有更复杂的语义，所以在这种复杂实例下会有更深的层次被激活。

观察2：任务难度有别，激活层亦有别。越简单就越容易较早停止，而复杂则会更深入发展。在大型语言模型（LLM）里，不同任务会激活不同的层，简单任务大多在较浅的层，复杂任务则在较深的层。图1展示了Llama2 - 7B模型在情感分析（Socher等人，2013年）和MMLU（Hendrycks等人，2021年）这两项任务里跨越32层的性能情况。就像情绪分类这种简单任务，其准确度与第24层（最后一层）的准确度相当。但对于MMLU这类复杂任务来说，准确性往往随着层数加深而提高。

人类

上述观察较为直观。需要注意的是，这种观察结果在卷积神经网络的视觉任务中同样适用。令人意外的是，在大型语言模型（LLM）推理时也能观察到该现象。借助这一现象，可对LLM开展实例感知自适应推理，针对不同测试样本动态调整其结构与参数，进而在推理效率和适应性上取得卓越优势。日后将运用这一观察结果达成自适应推理。图2a与2b分别阐述了AdAInfer的工作流程及其达成的计算效率。AdAInfer的核心在于怎样找到早停信号，并且维持大型语言模型（LLM）的原有能力。AdAInfer借助对关键特征（也就是间隙和顶部概率）的评估来动态算出停止信号。这一过程包含两个主要部分：特征选择模块与分类器模块。在每一层，特征选择都会针对当前输入实例构建一个特征向量。接着，分类器（通常为支持向量机（SVM）或者条件随机场（CRF））对停止信号的强度进行评估。强度足够的信号会引发早停，进而能够绕开后续的解码器层。

文中，作者先是给出证据表明推理过程并非所有层都是必要的，还提供了统计证据加以佐证。接着，作者提出AdAInfer这一简单有效的算法，它能依据输入实例确定停止推理的恰当时间，如此一来，在不改动模型参数的状况下就能提升推理效率与适应性。实验结果显示，AdAInfer在保持性能相当的同时，平均可减少14.8%的计算资源，在情感任务上最多能减少50%。并且，AdAInfer与其他模型加速技术兼容，有望进一步提升推理效率。除了现有的有效方法外，AdAInfer还构建了一种新的高效推理范式。论文：arxiv.org上的2403.02181.pdf。

举报有用（0）分享收藏

业界大模型推理框架众多，优缺点及选择策略

1个回答

czy0829

热门话题

相关问题