[ACL 2024] Graph-structured Speculative Decoding
龚卓成关于大模型投机解码的论文《Graph-structured Speculative Decoding》被ACL 2023 Findings接收。
投机解码是大模型推理加速的常用技术,它使用一个小型语言模型来草拟生成文本,然后由大型语言模型对小模型的输出进行验证,从而加速了大型语言模型的推理过程。这种方法的有效性很大程度上依赖于小模型的性能与效率之间的平衡。在我们的研究中,我们通过让小模型生成多个选项,大模型在小模型输出的所有选项中找到符合质量标准的最长序列,以此来提高小模型输出被大模型接受的成功率。我们的分析表明,小模型生成的众多输出序列共享许多常见的词语片段,这些片段在不同的选项中被重复地生成,这其中存在节约计算的潜力。利用这一观察,我们引入了一种创新方法,使用有向无环图(DAG)来管理小模型生成的所有选项。这种结构使我们能够高效地预测和合并重复出现的词语片段,大大减少了小模型的计算开销。我们将这种方法称为图结构投机解码(GSD)。我们在70B语言模型上验证GSD,观察到显著的加速效果。