[NLPCC 2025] End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling
梁建新的关于端到端视频问答的论文《End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling》被NLPCC 2025接收。
VidF4 针对视频问答中“均匀采样无法捕获关键语义、全帧特征聚合引入大量冗余”这一核心问题,提出了一个融合问题引导帧选择的端到端 VideoQA 框架。其方法通过三种同时考虑问题相关性与帧间相似度的帧评分机制来评估每一帧的重要性,并进一步引入可微分的自适应帧采样模块,使帧选择器能够与答案生成器联合优化,从数据中自动学习最有助于回答问题的关键时刻。实验表明,这种问题驱动的关键帧选择策略显著增强了视频—文本交互的有效性,VidF4 在三个主流数据集上均取得优于现有模型的性能,体现了高效帧选择对 VideoQA 的重要作用。
该论文被NLPCC 2025主会接收,并获得NLPCC 2025 CCF杰出论文奖。

基于帧打分和动态采样得端到端视频问答方法
王选计算机研究所