[AAAI 2025] Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding
王越千关于多模态多方对话的论文《Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding》被AAAI 2025接收。
多模态多方对话(Multi-modal Multi-party Conversation,MMC)是一个相对较少研究但却非常重要的课题,因为它与现实世界场景高度契合,因此具有潜在的广泛应用。与传统的多模态对话相比,MMC要求更强的以人物为中心的对话情境理解能力,因为在视觉和文本上下文中都会出现多个对话者。
为了促进该问题的研究,本文提出了Friends-MMC,这是一个包含24,000多个utterance且配有视频情境的MMC数据集。为了探索对话的人物中心理解,我们还标注了每个发言的发言人、出现在视频中的人物名字以及人脸的bounding box。基于提出的Friends-MMC数据集,我们进一步研究了两个基础的MMC任务:对话发言人识别和对话回复预测。在对话发言人识别任务上,我们展示了现有方法(如预训练模型)的低效性,并提出了一种简单却有效的方法,该方法利用二次优化求解器来结合两种模态的上情景信息,从而取得更好的性能。
在对话回复预测方面,我们在Friend-MMC数据集上微调了生成性对话模型,并分析了加入发言人信息对建模对话的好处。
为了促进对多模态对方对话的研究,我们在https://github.com/yellow-binary-tree/Friends-MMC上公开了本研究所用的数据集和代码。