北京大学王选所网络信息处理实验室

实验室动态

[ACL 2023] RankCSE : Unsupervised Sentence Representation Learning via Learning to Rank

无监督的句子表征学习是自然语言处理中的基本问题之一，有各种下游应用。最近，对比学习被广泛使用于句子表征学习，它通过将相似的语义拉近，将不相似的语义推远来获得高质量的句子表征。然而，这些方法未能捕捉到句子之间的细粒度排序信息，每一个句子只被视为正例或者负例。在许多现实世界的场景中，人们需要根据句子与查询句子的相似性进行区分和排序，例如，非常相关、中等相关、不太相关、不相关等等。在本文中，我们提出了一种新的方法，即RankCSE，用于无监督的句子表征学习，它将排序一致性和排序蒸馏与对比性学习纳入一个统一的框架。具体而言，我们通过同时确保两个具有不同dropout掩码的表征之间的排序一致性，以及从教师那里蒸馏出列表排序知识，来学习具有语义区分度的句子表征。我们在语义文本相似性和迁移学习任务上进行了大量的实验。实验结果表明，我们的方法比几个最先进的基线有更高的性能。