北京大学王选所网络信息处理实验室

实验室动态

[AAAI 2025] Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

王越千关于多模态多方对话的论文《Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding》被AAAI 2025接收。

多模态多方对话（Multi-modal Multi-party Conversation，MMC）是一个相对较少研究但却非常重要的课题，因为它与现实世界场景高度契合，因此具有潜在的广泛应用。与传统的多模态对话相比，MMC要求更强的以人物为中心的对话情境理解能力，因为在视觉和文本上下文中都会出现多个对话者。

为了促进该问题的研究，本文提出了Friends-MMC，这是一个包含24,000多个utterance且配有视频情境的MMC数据集。为了探索对话的人物中心理解，我们还标注了每个发言的发言人、出现在视频中的人物名字以及人脸的bounding box。基于提出的Friends-MMC数据集，我们进一步研究了两个基础的MMC任务：对话发言人识别和对话回复预测。在对话发言人识别任务上，我们展示了现有方法（如预训练模型）的低效性，并提出了一种简单却有效的方法，该方法利用二次优化求解器来结合两种模态的上情景信息，从而取得更好的性能。

在对话回复预测方面，我们在Friend-MMC数据集上微调了生成性对话模型，并分析了加入发言人信息对建模对话的好处。

为了促进对多模态对方对话的研究，我们在https://github.com/yellow-binary-tree/Friends-MMC上公开了本研究所用的数据集和代码。