[ACL 2024] Harder Task Needs More Experts: Dynamic Routing in MoE Models
黄曲哲的论文《Harder Task Needs More Experts: Dynamic Routing in MoE Models》被 ACL 2024 接收。在本工作中,我们提出了一种新颖的动态专家选择框架,旨在通过根据输入难度调整激活专家的数量来提高混合专家模型(Mixture of Experts, MoE)的计算效率和模型性能。与依赖固定TopK路由的现有MoE方法不同,我们的方法基于对每个输入的路由模块置信度动态分配专家。这使得计算资源得以更有效地利用:在需要高级推理的复杂任务中激活更多的专家,而对于简单任务则激活较少的专家。实验显示,我们的动态路由方法在各种基准测试中能带来明显提升,能在只激活90%参数的情况下,相较于Top2路由平均提升0.7%的效果。进一步分析表明,我们的模型在处理诸如BBH等需要复杂推理技能的任务时分配了更多的专家,验证了其根据输入复杂度动态分配计算资源的能力。我们的研究还发现,Transformer模型不同层所需的专家数量存在差异,这为设计异质MoE框架提供了启示。