北京大学王选所网络信息处理实验室

实验室动态

[NAACL 2025] ReasVQA: Advancing VideoQA with Imperfect Reasoning Process

梁建新的关于基于推理增强的视频问答的论文《ReasVQA: Advancing VideoQA with Imperfect Reasoning Process》被NAACL 2025接收。

ReasVQA 旨在提升视频问答模型对复杂视觉与时序关系的理解能力，其核心思想是将由多模态大模型生成的推理过程纳入训练，从而显式增强模型的推理能力。具体而言，方法包含推理生成、推理精炼和基于推理学习三个阶段：首先利用额外的多模态大模型为每个样本生成详细的推理链；随后通过过滤与质量控制对这些推理进行精炼；最终在多任务学习框架下，将这些可能仍不完美的推理作为监督信号，引导 VideoQA 模型更好地解释视频内容并回答问题。实验结果显示，ReasVQA 在 NExT-QA、STAR 和 IntentQA 上分别取得 +2.9、+7.3 和 +5.9 的显著提升，刷新了当前性能记录。进一步的分析表明，该方法在不同骨干网络和不同 MLLM 推理来源下均保持稳定有效，验证了以推理监督提升 VideoQA 的普适性。ReasVQA 为利用高级推理信号改进视频问答提供了新的视角，并为该领域树立了新的性能基线。

基于推理过程增强的视频问答方法