[ACL 2022] Multi-Granularity Structural Knowledge Distillation for Language Model Compression
[ACL 2022] Multi-Granularity Structural Knowledge Distillation for Language Model Compression
尽管预训练语言模型在广泛的自然语言处理任务上取得了出色的性能,这些模型通常有大量的参数和复杂的计算图,使其难以应用到计算资源受限的场景中。为此,研究者们将大模型压缩成小模型以提升推理速度,并尽可能地使其相比大模型有较小的性能损失。本项工作研究如何利用知识蒸馏提升小模型在特定任务上的性能。近年来,大量知识蒸馏的工作发现,对模型中间表示进行蒸馏是一种提高小模型性能的有效方式。在这个方面,常用的知识蒸馏方法通常单独考虑了某种语义粒度(例如词粒度、样本粒度等)的表示,而没有充分利用其他粒度的表示。同时,大多数基于表示的知识蒸馏方法通常逐一对其教师模型的表示和学生模型的表示、或对其教师模型和学生模型各自的表示之间的简单关系,忽略了表示之间更复杂的结构化关系信息。为此,我们提出一种新的知识蒸馏方法:基于多粒度表示的结构化知识蒸馏,首先从模型中抽取出词粒度、短语粒度、文本粒度的多粒度语义表示,然后将需要传递的“知识”抽象为多粒度语义表示之间每对表示的点积关系和每三个表示的角度关系,最后通过约束教师模型和学生模型各自的多粒度表示之间的结构化关系相近来训练学生模型。我们在GLUE数据集上进行实验,结果显示,通过我们提出的基于多粒度表示的结构化知识蒸馏方法,使得4层的TinyBERT模型的平均性能超过12层的BERT-base,验证了方法的有效性。