[NAACL 2025] ReasVQA: Advancing VideoQA with Imperfect Reasoning Process
梁建新的关于基于推理增强的视频问答的论文《ReasVQA: Advancing VideoQA with Imperfect Reasoning Process》被NAACL 2025接收。
ReasVQA 旨在提升视频问答模型对复杂视觉与时序关系的理解能力,其核心思想是将由多模态大模型生成的推理过程纳入训练,从而显式增强模型的推理能力。具体而言,方法包含推理生成、推理精炼和基于推理学习三个阶段:首先利用额外的多模态大模型为每个样本生成详细的推理链;随后通过过滤与质量控制对这些推理进行精炼;最终在多任务学习框架下,将这些可能仍不完美的推理作为监督信号,引导 VideoQA 模型更好地解释视频内容并回答问题。实验结果显示,ReasVQA 在 NExT-QA、STAR 和 IntentQA 上分别取得 +2.9、+7.3 和 +5.9 的显著提升,刷新了当前性能记录。进一步的分析表明,该方法在不同骨干网络和不同 MLLM 推理来源下均保持稳定有效,验证了以推理监督提升 VideoQA 的普适性。ReasVQA 为利用高级推理信号改进视频问答提供了新的视角,并为该领域树立了新的性能基线。

基于推理过程增强的视频问答方法
王选计算机研究所