OpenAIPredicted Outputs如何降低延迟？

1个回答

烦烦烦烦好烦

2026-01-05 18:36

核心优势为可绕过对已知内容的重复生成流程。

采用推测解码（speculative decoding）的方式来减少GPT - 4o和GPT - 4o - mini的延迟。在自然语言处理领域，模型生成输出时往往要对输入进行复杂运算。传统做法是从零开始逐步生成输出。而Predicted Outputs特性提供一个参考字符串（reference string），模型可依据这个已知参考信息进行推测解码，这能削减模型的计算量。比如，更新一篇文档里的博客文章时，按传统模式，模型得重新分析和生成整个文档；但有了Predicted Outputs功能，模型可以参考已有文档内容（当作参考字符串），重点处理需要更新的部分，跳过无需重新计算的部分，极大地降低了计算资源的消耗，从而减少了延迟。

有这样一个特性，它基于一种假设：在众多任务场景里，语言模型（LLM）的多数输出是能够提前知晓或者合理推测的。就拿编程任务来说，要是对现有代码做小范围修改，像是更改变量名或者微调某个函数的内部逻辑，代码的大部分结构以及其他部分是不会改变的。在使用Predicted Outputs的时候，可以把现有的代码文件当作参考字符串提供给模型。模型会以这个参考字符串为起始点，在此基础上生成修改部分。这就像是给模型一个提示，让它明白不需要重新构建整个代码的逻辑和结构，只要关注需要改动之处就好。如此一来，模型就不用从头开始重新生成整个输出内容了，这样能节省时间，提升生成效率，达到降低延迟的目的。在文档更新任务里，例如更新一篇博客文章的部分内容时，文档的整体框架、格式还有大部分文字内容也许无需改变。Predicted Outputs特性可让用户将原始文档当作参考字符串提供给模型。模型能够识别出文档里无需修改之处，再依据用户的要求，像是更新某个段落的观点或者补充新信息，对特定部分进行修改和补充。如此，模型不必重新解析和生成整个文档，只需对有变动需求的部分操作，进而加快了处理速度。在需要对之前的回答进行迭代优化时，可把之前的响应内容当作参考字符串。比如在对话场景里，前一轮回答也许已经有部分正确信息和逻辑框架，只是要在此基础上进一步完善或调整。模型使用Predicted Outputs功能，以前面的回答为依据，按照新要求（像提供更多细节、修正某个观点等）有针对性地调整补充，而非重新生成全新回答，这样能大幅缩短响应时间。

Predicted Outputs功能并不改变模型输出的实质。它只是优化输出速度的一种方式，即提供参考字符串以引导模型更高效地生成输出内容。

举报有用（0）分享收藏

OpenAIPredicted Outputs如何降低延迟？

1个回答

烦烦烦烦好烦

热门话题

相关问题