
OpenAI
最让人意想不到的是,使用了PLD的投机采样后,成本反而更高了,具体可参考这篇文章:周博洋投机采样的显性化——
OpenAI新功能:Predicted Outputs。从成本角度来看,原本采用PD分离或分块预填充(chunked prefill)的方式,一次前向计算可以处理多个token的解码(PD分离),或者完成多次预填充加上少量解码(chunked prefill)。然而,引入投机采样后,验证失败的token变成了额外开销,导致单次前向计算的吞吐量下降。之前研究投机采样的团队都在思考一个问题:尽管这种方式提升了单个用户的体验,但整体吞吐量降低、成本上升的问题该如何解决?而
OpenAI给出的答案很简单——将这部分额外成本转嫁给用户。这种做法虽然优化了用户体验,但从长期来看,可能会对用户产生更大的经济压力。