实验室动态

[NLPCC 2024] FIRP: Faster LLM inference via future intermediate representation prediction

吴鹏飞使用基于隐向量的投机采样算法加速大模型生成的论文《FIRP: Faster LLM inference via future intermediate representation prediction》被NLPCC2024接受。

投机采样是通过小模型预测-大模型验证的方式,缓解大模型自回归生成过程中所出现的Memory-Bound现象,提高大模型对于GPU计算能力利用,最终提高生成速度。本文通过设计一种对语言模型中间层隐向量预测的方法,在引入少量参数的情况下,实现了推理加速。