实验室动态

[WSDM 2025] RetriEVAL: Evaluating Text Generation with Contextualized Lexical Match

李臻关于无监督生成文本评测指标的工作《RetriEVAL: Evaluating Text Generation with Contextualized Lexical Match》被WSDM 2025接收。

现有的生成文本评测指标可以分为有监督和无监督的指标。相比于有监督,无监督的指标不需要人工标注的训练数据去优化,因此有更好的泛化性。而现在代表性的无监督指标BERTSCORE,在对生成文本的评测中,由于考虑了参考文本和生成文本中所有词,其中包含语义无关的词,从而容易引入噪声。为此,受到基于词嵌入和词匹配的信息检索方法的启发,我们提出一种BERT-based评测指标。参考文本和待评估生成文本都分别经过BERT编码之后得到每个词的嵌入向量。对于参考文本和生成文本中相同的词,进行精确匹配,也就是直接计算词嵌入之间的点积;对于不同的词,进行动态匹配,利用BERT模型的masked language model (MLM)层,计算每个不同词最相关的词集合,如果参考文本和生成文本不同词的相关词集合中有相同的词,说明这两个词也具有一定的相关性,为此则对这两个词进行匹配,匹配方式就是计算这两个词之间词嵌入的点积,并利用相关词的相关性作为动态匹配权重。最终的指标分数是精确匹配、动态匹配与文本整体语义匹配分数的结合。

我们在Summeval和Topical-Chat进行实验,所提出的评估指标在system-level和sample-level的相关系数都优于目前的无监督指标,并在一些评估维度上优于有监督评估指标。此外,和基于大模型的评估指标相比,我们的指标调用成本更低,拥有更高的时间效率,方便拓展于多个backbone模型,更适合应用于时间敏感的评估场景。