[EMNLP 2025] ReMamba: Equip Mamba with Effective Long-Sequence Modeling
袁旦龙的论文《ReMamba: Equip Mamba with Effective Long-Sequence Modeling》被EMNLP 2025接收。
我们的评测显示Mamba在长文本能力测试上远弱于transformer。同时我们观察到Mamba的过于频繁更新的状态空间容易导致Mamba长文本信息遗忘。通过修改Mamba选择遗忘变量delta的计算方法,我们在Mamba上设计了可导的Top-K提示压缩方法,显示保留关键信息并且减少状态空间更新次数,取得了长文本效果提升,长文本性能逼近transformer,同时保持极低的额外推理开销。
王选计算机研究所