实验室动态

[ACL 2024] MC$^2$: Towards Transparent and Culturally-Aware NLP for Minority Languages in China

张晨关于低资源语言语料收集的论文《Towards Transparent and Culturally-Aware NLP for Minority Languages in China》被ACL 2024接收。

现有的大语言模型在低资源语言上的能力存在不足,这一现象在中国的少数民族语言中尤为严重。这一限制源于可用的预训练数据稀缺。为了解决这一挑战,我们收集了MC$^2$,这是迄今为止最大的中国少数民族语言语料库。MC$^2$ 包括四种低资源语言:藏语、维吾尔语、哈萨克语和蒙古语。我们特别关注了中国国内哈萨克语和蒙古语使用的书写系统,即哈萨克阿拉伯文字和传统蒙古文字,这在之前的语料库建设工作中长期被忽视。考虑到现有语料库中语言污染的问题,我们采用了以质量为中心的标准来收集MC$^2$,优先考虑准确性,同时增强多样性。此外,我们强调书写系统多样性的重要性,并指出其与模型文化意识的密切关系。