[ACL 2023] Attend, Select and Eliminate: Accelerating Multi-turn Response Selection with Dual-attention-based Content Elimination
[ACL 2023] Attend, Select and Eliminate: Accelerating Multi-turn Response Selection with Dual-attention-based Content Elimination
梁建新基于对偶attention的方法在多轮对话选择任务的推理加速《Attend, Select and Eliminate: Accelerating Multi-turn Response Selection with Dual-attention-based Content Elimination》被ACL 2023接收。
预训练语言模型显著推动了多轮回复选择任务的研究前沿,但也存在高额计算成本的问题。为了缓解这个问题,使基于预训练模型的回复选择既有效又高效,我们提出了一个推理框架,通过在上下文-回复双重注意力的指导下逐步选择和消除不重要的内容来模型加速推理速度。具体来说,在每个编码层,我们首先根据上下文对回复和回复对上下文的注意力来识别每个词的重要性,然后选择一些不重要的词进行消除,同时将剩余的表示传递到更深的层,然后依靠从进化搜索中得到的保留配置决定加速每层的删减强度。为了缓解内容消除引起的训练-推理的不一致带来的性能下降,我们引入了一个后训练策略,其中我们使用动态知识蒸馏来迫使具有逐步消除内容的模型模仿没有内容消除的原始模型的预测。同时我们的推理框架可以很灵活地与transformer encoder结构的模型。在三个基准数据集上的实验表明,我们的方法可以有效地加速SOTA模型,而不会造成性能下降,并且比以前的方法显示出更好的速度和性能之间的平衡。