核心优势为可绕过对已知内容的重复生成流程。
采用推测解码(speculative decoding)的方式来减少GPT - 4o和GPT - 4o - mini的延迟。在自然语言处理领域,模型生成输出时往往要对输入进行复杂运算。传统做法是从零开始逐步生成输出。而Predicted Outputs特性提供一个参考字符串(reference string),模型可依据这个已知参考信息进行推测解码,这能削减模型的计算量。比如,更新一篇文档里的博客文章时,按传统模式,模型得重新分析和生成整个文档;但有了Predicted Outputs功能,模型可以参考已有文档内容(当作参考字符串),重点处理需要更新的部分,跳过无需重新计算的部分,极大地降低了计算资源的消耗,从而减少了延迟。
有这样一个特性,它基于一种假设:在众多任务场景里,语言模型(LLM)的多数输出是能够提前知晓或者合理推测的。就拿编程任务来说,要是对现有代码做小范围修改,像是更改变量名或者微调某个函数的内部逻辑,代码的大部分结构以及其他部分是不会改变的。在使用Predicted Outputs的时候,可以把现有的代码文件当作参考字符串提供给模型。模型会以这个参考字符串为起始点,在此基础上生成修改部分。这就像是给模型一个提示,让它明白不需要重新构建整个代码的逻辑和结构,只要关注需要改动之处就好。如此一来,模型就不用从头开始重新生成整个输出内容了,这样能节省时间,提升生成效率,达到降低延迟的目的。在文档更新任务里,例如更新一篇博客文章的部分内容时,文档的整体框架、格式还有大部分文字内容也许无需改变。Predicted Outputs特性可让用户将原始文档当作参考字符串提供给模型。模型能够识别出文档里无需修改之处,再依据用户的要求,像是更新某个段落的观点或者补充新信息,对特定部分进行修改和补充。如此,模型不必重新解析和生成整个文档,只需对有变动需求的部分操作,进而加快了处理速度。在需要对之前的回答进行迭代优化时,可把之前的响应内容当作参考字符串。比如在对话场景里,前一轮回答也许已经有部分正确信息和逻辑框架,只是要在此基础上进一步完善或调整。模型使用Predicted Outputs功能,以前面的回答为依据,按照新要求(像提供更多细节、修正某个观点等)有针对性地调整补充,而非重新生成全新回答,这样能大幅缩短响应时间。
Predicted Outputs功能并不改变模型输出的实质。它只是优化输出速度的一种方式,即提供参考字符串以引导模型更高效地生成输出内容。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号