为什么说PLD的投机采样让用户花费更多？

1个回答

gaolen

2026-01-05 18:18

OpenAI
OpenAI

最让人意想不到的是，使用了PLD的投机采样后，成本反而更高了，具体可参考这篇文章：周博洋投机采样的显性化——OpenAI新功能：Predicted Outputs。从成本角度来看，原本采用PD分离或分块预填充（chunked prefill）的方式，一次前向计算可以处理多个token的解码（PD分离），或者完成多次预填充加上少量解码（chunked prefill）。然而，引入投机采样后，验证失败的token变成了额外开销，导致单次前向计算的吞吐量下降。之前研究投机采样的团队都在思考一个问题：尽管这种方式提升了单个用户的体验，但整体吞吐量降低、成本上升的问题该如何解决？而OpenAI给出的答案很简单——将这部分额外成本转嫁给用户。这种做法虽然优化了用户体验，但从长期来看，可能会对用户产生更大的经济压力。

举报有用（0）分享收藏

为什么说PLD的投机采样让用户花费更多？

1个回答

gaolen

热门话题

相关问题