北京大学王选所网络信息处理实验室

实验室动态

[COLING 2024] Probing Multimodal Large Language Models for Global and Local Semantic Representation.

Probing Multimodal Large Language Models for Global and Local Semantic Representation. Mingxu Tao, Quzhe Huang, Kun Xu, Liwei Chen, Yansong Feng, Dongyan Zhao.

大型语言模型的成功激发了研究人员将其卓越的表示能力转移到其他模态。最近的几项研究利用图像字幕对齐数据集训练多模态大型语言模型（），这些模型在图像到文本任务上实现了最先进的性能。然而，鲜有研究探讨是否真正理解完整的图像信息，即全局信息，还是仅能捕捉一些局部对象信息。在本研究中，我们发现模型的中间层可以编码更多的全局语义信息，其表示向量在视觉语言蕴涵任务中表现更好，而不是顶层。我们进一步通过目标检测任务探究模型的局部语义表示。我们得出结论，顶层可能过于关注局部信息，导致编码全局信息的能力下降。