什么是层归一化（Layer Normalization，LN）

AI解读 1个月前硕雀

41 0 0

层归一化（Layer Normalization，LN）是深度学习中一种重要的归一化技术，主要用于解决神经网络训练中的内部协变量偏移问题，通过稳定数据分布来加速模型收敛并提高泛化能力。以下是其核心要点：

归一化对象
与批量归一化（BN）的区别
- BN：对同一批次中所有样本的同一特征维度进行归一化，依赖批次统计量，对小批量敏感；
- LN：对单个样本的所有特征维度进行归一化，独立于批次大小，更适合动态网络（如RNN、Transformer）。

稳定训练过程
- 减少内部协变量偏移（Internal Covariate Shift），即网络参数更新导致各层输入分布剧烈变化的问题；
- 使梯度传播更稳定，缓解梯度消失/爆炸，允许使用更大的学习率加速收敛。
提升模型泛化能力
- 通过对样本内部特征进行归一化，降低模型对单个样本的过拟合风险，尤其在NLP任务中效果显著。
动态网络适配性
- 适用于RNN等动态结构，每个时间步可独立归一化，避免批量统计量在变长序列中的计算问题。

NLP领域
- 在Transformer、BERT等模型中广泛应用，因文本数据的嵌入（Embedding）由模型动态生成，LN能有效稳定不同位置的词向量分布。
小批量或单样本训练
- 不依赖批次统计量，在小批量或在线学习场景中表现稳定，优于BN。
对比其他归一化方法
- Instance Normalization：单样本单通道归一化，常用于图像风格迁移；
- Group Normalization：将通道分组后归一化，适合小批量CNN任务。

import torch.nn as nn

# 定义层归一化（输入特征维度为512）
layer_norm = nn.LayerNorm(512)

# 前向传播（输入维度：[batch_size, seq_len, 512]）
output = layer_norm(input_tensor)

层归一化通过其样本内归一化的特性，成为处理动态网络和小批量训练的关键技术，尤其在NLP和序列模型中表现卓越。实际应用中需结合任务特点选择归一化方法。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！