北京大学王选所网络信息处理实验室

研究进展
学术报告

实验室动态

研究进展
学术报告

[ICLR 2024] Can Perplexity Reflect Large Language Model's Ability in Long Text.

Yutong Hu, Quzhe Huang, Mingxu Tao, Chen Zhang, Yansong Feng. “Can Perplexity Reflect Large Language Model's Ability in Long Text.” ICLR 2024 Tiny Papers Track
近期研究表明，大型语言模型（LLM）具有处理极长文本的潜力。许多工作仅评估LLM在语言建模任务上的长文本处理能力，以困惑度（PPL）作为评估指标。然而，本文发现PPL和LLM的长文本理解能力之间没有相关性。此外，PPL可能只反映模型对本地信息建模的能力，而非捕捉远程依赖关系。因此，仅仅用PPL来证明模型可以处理长文本是不合适的。在评估模型的长文本中能力时，研究者应更多地关注 PPL 的局限性，并避免对其过度依赖。