Google 提出的新模型架构 MoR,Transformer 之外的一条新路径
Update: 2025-07-20
Description
Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
这篇研究论文介绍了Mixture-of-Recursions (MoR),这是一个针对大型语言模型(LLMs)效率的新框架。MoR通过参数共享(重复使用一套共享层)和自适应计算(轻量级路由器动态分配不同递归深度给单个令牌)来降低计算和内存成本。该研究探讨了两种主要的路由策略——专家选择和令牌选择——以及两种键值(KV)缓存策略,以优化性能。实验结果表明,MoR在相同的计算预算下,显著提升了LLMs的验证困惑度和少量样本准确性,并实现了更高的推理吞吐量,证明其在降低大型模型成本方面是有效的。
论文原文:https://www.alphaxiv.org/abs/2507.10524
Comments
In Channel