在深度学习领域,归一化层被视为现代神经网络中不可或缺的组件之一。最近,一项由 Meta FAIR 研究科学家刘壮主导的研究成果 ——“没有归一化层的 Transformer” 引发了广泛关注。这项研究不仅提出了一种名为动态 tanh(Dynamic Tanh,DyT)的新技术,还展示了在不使用传统归一化层的情况下,Transformer 架构依然可以实现高效的训练和推理。

归一化层,尤其是层归一化(Layer Normalization,LN),在过去的十年中对优化深度学习模型起到了至关重要的作用。LN 层通过将输入激活进行缩放和压缩,从而加速模型的收敛速度。然而,研究者们发现,LN 层的广泛使用并不是唯一的选择。他们的研究始于观察 LN 层的行为,提出了一种新的替代方法 DyT。这种元素级运算不仅能够模拟 LN 层的缩放和压缩效果,而且省去了复杂的激活数据计算。

image

图源备注:图片由AI生成,图片授权服务商Midjourney

在实验中,研究团队用 DyT 替换了多个 Transformer 架构中的传统归一化层,结果显示,使用 DyT 的模型能够稳定训练并获得更高的最终性能。更令人振奋的是,这种新方法通常不需要对原始架构进行超参数调整,降低了模型训练的复杂度。

研究者们通过对三个不同 Transformer 模型的前向传播过程进行分析,发现早期的 LN 层表现出线性关系,但在更深层次的 LN 层中,输入和输出之间的关系却呈现出与 tanh 函数相似的 S 型曲线。这种发现让研究团队感到惊讶,也为 DyT 的有效性提供了有力的实证支持。

刘壮表示,这项工作帮助他深入理解了归一化层的作用,并期待 DyT 能够为降低模型训练和推理的成本带来新的可能性。未来,DyT 有望成为效率导向的网络设计中重要的候选方案,推动深度学习的进一步发展。