[WWW 2023] Learning Disentangled Representation via Domain Adaptation for Dialogue Summarization
[WWW 2023] Learning Disentangled Representation via Domain Adaptation for Dialogue Summarization
李金鹏关于用Domain Adaptation方法来缓解对话摘要领域数据不足问题的论文《Learning Disentangled Representation via Domain Adaptation for Dialogue Summarization》被WWW 2023接收。
目前端到端模型主要由数据驱动,而获得高质量的标注数据成本很高,尤其在对话摘要任务中,数据标注难度大开销高。因此为了利用丰富的外部数据,先前的工作在其他领域(例如新闻领域)的数据上对模型进行预训练,然后在对话领域上进行微调。但在训练过程中,对话结构(通常是非正式的、多个参与者等)和传统新闻结构(通常是正规的和简洁的)之间的巨大差异被忽略了。
基于此,这项工作提出使用解耦表征向量的方法来减少不同域中数据之间的偏差。具体来讲,输入数据被解耦为域不变向量和域特定向量,前者携带的上下文信息应该是跨领域的(如新闻、对话),后者表明输入数据属于某个特定领域。为了使映射函数有效,本文使用对抗性学习和对比学习来约束被拆分的表征到目标空间。此外,本文提出了两种新的重构策略,即回溯重建和跨轨重建,旨在减少域外数据的领域特征,缓解模型在数据建模过程中的领域偏差。在三个对话摘要公开数据集上的实验结果表明,本文提出的方法取得了具有竞争力的结果。