实验室动态

[ACL 2024] Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data

刘潇、伍子睿等同学关于评价大语言模型进行基于数据的定量推理能力的论文《Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data》被ACL 2024 Findings接收。

定量推理是分析数据的关键技能,但对这种能力的评估比较有限。为了弥补这一不足,我们引入基于数据的定量推理(QRData)基准,旨在评估大语言模型利用真实世界数据进行统计和因果推理的能力。该基准包含从教科书、在线学习材料和学术论文中收集的411个问题和对应的数据。为了比较模型在数据和文本上的定量推理能力,我们额外收集了290个纯文本问题,即 QRText。我们在不同的模型上评估了多种基于文本、代码、和智能体的推理方式。评估发现最强模型 GPT-4的准确率为58%,还有较大的提升空间。在开源模型中,Deepseek-coder获得了37%的最高准确率。分析表明,模型在数据分析和因果推理方面遇到了困难,尤其是在需要同时使用因果知识和所提供的数据时。