论文信息
Dynamic Tanh (DyT) 是由Meta、NYU、MIT和Princeton的研究团队提出的一种新方法,旨在取代Transformer模型中的归一化层(如LayerNorm和RMSNorm)。论文的核心目标是挑战深度学习中“归一化层不可或缺”的传统认知,提出一种更简单、更高效的替代方案。
DyT 的提出基于以下观察:
- Transformer中的LayerNorm通常会生成类似于tanh函数的S型输入输出映射。
- 这种映射的主要作用是压缩极端值并调整输入范围。
- 论文链接:https://arxiv.org/pdf/2503.10622
- GitHub链接:https://jiachenzhu.github.io/DyT/
创新点
- 归一化层的替代:
- DyT完全取代了传统的归一化层,而不是对其进行修改。
- 它通过简单的数学操作实现了归一化层的核心功能(压缩极端值和调整输入范围),无需计算激活统计信息。
- 轻量化设计: