实验室动态

[NeurIPS 2024] xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token

程信关于模型上下文压缩的论文< xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token>被NeurIPS 2024接收.

检索增强生成(Retrieval-Augmented Generation, RAG)近来在知识密集型任务中展现了显著优势,其通过从非参数知识库中检索领域特定及最新信息,将语言模型的能力扩展到更广泛的问题解答和推理任务中。然而,传统RAG方法由于直接将整篇文档插入提示中,不仅显著增加了推理时的计算成本,还面临模型上下文长度的限制。例如,在生成准确回复时,模型需要处理包含原始查询及多倍扩展文档的上下文,带来了推理效率的巨大挑战。为应对这些问题,本文提出了xRAG,一种创新的上下文压缩方法,专为检索增强生成任务设计。不同于传统压缩方法关注于文档的表面形式(如LLMLingua、AutoCompressor),xRAG从多模态融合的视角重新定义了文档嵌入的使用方式。通过独特的检索模态特征方法,xRAG将原本用于检索的文档高维嵌入直接融合到语言模型的表示空间中,无需再引用文档的文本内容,从而实现了极高的压缩率(从数百个Token压缩为单个Token)。 xRAG的设计中,检索器和语言模型均保持冻结状态,仅通过一个小型的modality bridge实现特征整合。这一设计不仅支持离线使用预构建的文档嵌入,还维护了RAG系统的即插即用属性。在训练阶段,xRAG采用了两阶段的优化策略——段落重述预训练及上下文感知指令微调,从而提升了模型对嵌入特征的理解与利用能力。 实验结果显示,在广泛的知识密集型任务测试中(如Open-Domain QA、Multi-hop QA等),xRAG在大幅降低计算成本的情况下,性能持续超过现有压缩方法,甚至在部分数据集上达到与未压缩模型相当的水平。详细分析表明,其在减少推理开销方面表现突出,与传统RAG模型相比,xRAG平均减少了3.53倍的FLOPs,同时推理速度提升约1.64倍。更重要的是,xRAG在面对冗余或误导性检索内容时表现出更高的鲁棒性,较大程度上避免了因错误检索内容导致的回答偏差。