实验室动态

[ACL 2023] RankCSE : Unsupervised Sentence Representation Learning via Learning to Rank

[ACL 2023] RankCSE : Unsupervised Sentence Representation Learning via Learning to Rank

无监督的句子表征学习是自然语言处理中的基本问题之一,有各种下游应用。最近,对比学习被广泛使用于句子表征学习,它通过将相似的语义拉近,将不相似的语义推远来获得高质量的句子表征。然而,这些方法未能捕捉到句子之间的细粒度排序信息,每一个句子只被视为正例或者负例。在许多现实世界的场景中,人们需要根据句子与查询句子的相似性进行区分和排序,例如,非常相关、中等相关、不太相关、不相关等等。 在本文中,我们提出了一种新的方法,即RankCSE,用于无监督的句子表征学习,它将排序一致性和排序蒸馏与对比性学习纳入一个统一的框架。具体而言,我们通过同时确保两个具有不同dropout掩码的表征之间的排序一致性,以及从教师那里蒸馏出列表排序知识,来学习具有语义区分度的句子表征。我们在语义文本相似性和迁移学习任务上进行了大量的实验。实验结果表明,我们的方法比几个最先进的基线有更高的性能。