实验室动态

[EMNLP 2023] Length-Adaptive Distillation: Customizing Small Language Model for Dynamic Token Pruning

[EMNLP 2023] Length-Adaptive Distillation: Customizing Small Language Model for Dynamic Token Pruning

刘畅关于语言模型知识蒸馏的论文《Length-Adaptive Distillation: Customizing Small Language Model for Dynamic Token Pruning》被Findings of EMNLP 2023接收。

现有的模型轻量化方法通常单独采用模型压缩或动态计算技术,或者简单地将两种方法结合起来(例如直接在经过压缩的小语言模型上应用动态计算方法)。我们认为这些简单结合模型压缩和动态计算的方法不是最优的,因为在模型压缩的过程中没有让模型同步获得对动态计算的适应性,这会导致小模型在动态计算时有较大的性能损失。为了解决这个问题并使语言模型的推理速度更快,我们提出了长度自适应蒸馏算法(Length-adaptive-distillation)。我们把知识蒸馏分为通用知识蒸馏和特定任务知识蒸馏两个阶段。在通用知识蒸馏阶段,我们在向学生模型传递通用知识的过程中为学生模型引入动态词剪枝机制,通过基于对比学习的方法使词剪枝后的学生模型拟合或重建未经过剪枝的教师模型的相应表示以使学生模型获得对动态词剪枝的适应性。在特定任务知识蒸馏阶段,我们在向学生模型传递特定任务知识的过程中同样为学生模型引入动态词剪枝机制,通过基于对比学习的方法使词剪枝后学生模型用于分类的特殊符号的表示与教师模型一致从而进一步提升学生模型在特定任务中对动态词剪枝的适应性。经过两阶段知识蒸馏,学生模型在推理时能在动态词剪枝算法的加持下获得更好的推理速度。我们在GLUE数据集上进行实验,结果显示,我们的方法可以使小语言模型对动态词剪枝具有更好的适应性,从而相比基线模型实现了更好的速度-性能权衡。