北京大学王选所网络信息处理实验室

实验室动态

[ACL 2025] MiLiC-Eval: Benchmarking Multilingual LLMs for China's Minority Languages

张晨的论文《MiLiC-Eval: Benchmarking Multilingual LLMs for China's Minority Languages》被ACL 2025接收。

大语言模型（LLMs）在高资源语言上表现出色，但在低资源语言（LRLs）上仍面临显著挑战，尤其是中国少数民族使用的语言，如藏语、维吾尔语、哈萨克语和蒙古语。为系统性地跟踪这些语言上的研究进展，本文提出了 MiLiC-Eval，一个面向中国少数民族语言的评测基准，涵盖 9 项任务、共 2.4 万条实例。MiLiC-Eval 聚焦于长期被忽视的书写系统，其在任务与语言之间的并行设计能够对语言能力和问题求解能力进行真实且细粒度的评估。评测结果表明，开源大语言模型在句法密集型任务以及多文字系统语言上表现较差。进一步地，本文展示了 MiLiC-Eval 如何推动低资源语言研究，特别是在处理多样化书写系统以及理解语言适配过程方面的研究进展。