实验室动态

[ACL 2024] Pptc benchmark: Evaluating large language models for powerpoint task completion

郭一铎和张泽楷同学的论文《Pptc benchmark: Evaluating large language models for powerpoint task completion》被ACL 2024 接收。最近对大型语言模型(LLM)的评估集中在测试其用于基本自然语言任务的零样本/少搜索功能以及将指令转换为工具API的能力。然而,利用复杂工具在复杂多模态环境中完成多匝多模态指令的LLM评估尚未得到研究。为了弥补这一差距,我们引入了PowerPoint任务完成(PPTC)基准,以评估LLM根据用户指令创建和编辑PPT文件的能力。它包含279个多回合会议,涵盖了不同的主题和数百个涉及多模式操作的指令。我们还提出了PPTX-Match评估系统,该系统基于预测文件而不是标签API序列来评估LLM是否完成指令,因此它支持各种LLM生成的API序列。我们测量了3个封闭式LLM和6个开源LLM。结果表明,GPT-4在单圈对话测试中的准确率为75.1%,优于其他LLM,但在完成整个会话方面面临挑战,仅达到6%的会话准确率。我们在基准测试中发现了三个主要的错误原因:多回合会话中的错误累积、长PPT模板处理和多模态感知。这些对未来的LLM和代理系统构成了巨大的挑战。