实验室动态

[EMNLP 2025] English as Defense Proxy: Mitigating Multilingual Jailbreak via Eliciting English Safety Knowledge

张泽楷的论文《English as Defense Proxy: Mitigating Multilingual Jailbreak via Eliciting English Safety Knowledge》被EMNLP 2025接收。

当前大型语言模型的安全性保障存在显著的跨语言差异,例如,模型对英文输入的安全响应通常优于低资源语言。这种不一致性带来了潜在攻击风险:即使攻击者不精通某低资源语言,也可通过简单翻译绕过安全机制。传统解决方案通常将英语安全数据翻译为目标语言,并在此基础上进行多语言对齐,这一过程往往面临显著的“多语言对齐税”,即模型需在通用能力与安全性之间做出权衡。区别于传统方法对“翻译性英语安全知识”的依赖,我们提出直接利用模型在广泛英语对齐过程中所内化的“参数性英语安全知识”。前期实验表明,低资源语言的安全性主要与输出语言空间相关。基于此,我们提出E-Proxy(English as Defense Proxy),通过将英语作为统一的安全锚点,实现跨语言安全泛化。在对齐阶段,E-Proxy借助英语越狱提示激发模型内隐的安全知识,再通过语言映射机制将其迁移至其他语言。在多语言安全与通用能力的基准测试中,E-Proxy在安全性与通用性两方面均取得最优表现。进一步地,我们从机制层面揭示了其有效性来源:(1)英语提示能够有效激发参数中的安全知识。通过分析下一个token的logit分布,我们发现英语提示可显著激活表达拒绝行为的英语安全词,并从定性与定量角度验证了这一现象。(2)英语提示能够减少参数扰动,从而维持通用能力。通过计算训练前后模型参数的Principal Angle Distance,我们在多个模型上验证了E-Proxy所引起的参数变化更小,这为其保持优异通用能力提供了理论解释。