什么是批量归一化（Batch Normalization，简称BN）

AI解读 2个月前硕雀

47 0 0

批量归一化（Batch Normalization，BN）是深度学习中用于加速训练和提升模型稳定性的关键技术，其核心作用在于通过规范化神经网络各层的输入分布，缓解内部协变量转移（Internal Covariate Shift）问题。以下从原理、实现、优势及局限性等方面展开说明：

解决内部协变量转移
在深度网络中，底层参数的微小变化会随着层数加深被放大，导致高层输入分布剧烈变化，迫使网络不断适应新分布，降低训练效率。BN通过将每层输出归一化为均值为0、方差为1的标准分布，减少这种分布偏移。
缓解梯度问题
若激活函数（如Sigmoid）的输入分布偏移到饱和区（如极值附近），会导致梯度消失。BN将输入拉回激活函数敏感区域（如Sigmoid的线性区），增大梯度并加速收敛。
自适应参数调整
BN引入可学习的缩放参数（γ）和平移参数（β），允许网络在标准化后恢复原有表达能力，避免归一化导致的信息丢失。

适用场景
- 深层网络（如ResNet、VGG）。
- 需快速收敛的任务（如图像分类、目标检测）。
局限性
- 小批量数据：统计量估计不准确，影响效果。
- 生成模型：像素级任务（如GAN）可能因归一化丢失细节。
- 序列模型：RNN因动态序列长度难以应用BN。

import torch.nn as nn

# 全连接层中的BN
model = nn.Sequential(
nn.Linear(784, 256),
nn.BatchNorm1d(256), # 归一化
nn.ReLU()
)

# 卷积层中的BN
model.add_module('conv_bn', nn.Sequential(
nn.Conv2d(3, 64, kernel_size=3),
nn.BatchNorm2d(64), # 通道维归一化
nn.ReLU()
))

论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》
应用案例：VGG-16的BN改进版本

通过结合标准化与可学习参数，BN已成为现代深度网络的标配组件，显著提升了模型的训练效率和泛化能力。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！