实验室动态

[ACL 2022] Does Recommend-Revise Produce Reliable Annotations? An Analysis on Missing Instances in DocRED

[ACL 2022] Does Recommend-Revise Produce Reliable Annotations? An Analysis on Missing Instances in DocRED

先利用已有的知识库或模型进行粗标注,然后进行人工筛查的方式,被广泛应用于各种任务的标注之中。但是,已有的知识库或模型并不是完美的,尤其是知识库,可能会遗漏大量的信息,而这些遗漏的信息,很难在后续人工筛查中补充进来。我们以文档集关系抽取这个任务为例,分析了常用的数据集DocRED,我们发现利用知识库辅助标注的方式,会导致最终的数据集存在大量遗漏,并且这种遗漏是系统性的。标注得到的数据集偏好常见的实体和关系,而忽视不常见的。更糟糕的是,这种偏见会进一步传递到利用DocRED训练的模型中,从而影响后续用户的使用。