[EMNLP 2022] Rethinking Task-Specific Knowledge Distillation: Contextualized Corpus as Better Textbook
[EMNLP 2022] Rethinking Task-Specific Knowledge Distillation: Contextualized Corpus as Better Textbook
知识蒸馏方法基于训练语料将大模型的知识传递给小模型。在这个过程中,作为“课本”的语料库起着不可或缺的作用。现有的方法采用两阶段蒸馏范式:首先使用下游任务无关的通用语料库进行对学生模型进行普适蒸馏,然后使用特定任务的语料库对学生模型进行特定任务蒸馏。我们认为这样的模式可能不是最优的。一方面,在普适蒸馏中,蒸馏多样性强但是没有指向性的通用知识对于参数量较少、模型容量有限的学生模型来说是困难的;另一方面,在特定任务蒸馏中,特定任务的语料又通常是有限的,这使得学生模型没有足够的任务相关数据去从教师模型那里学习到足够的知识。为了缓解这些问题,我们为学生模型的学习提供了一种更好的训练语料:语境化数据集,通过基于相关性的文本检索系统,利用大规模通用语料库来对特定任务的语料库进行情境化扩充。通过这种方法,我们提出的语境化数据集同时具备了数据量大、多样性强、任务相关性好的优点,使其更适用于知识蒸馏。