回顾:神经网络
从神经元、感知机到多层感知机(MLP);激活函数、前向传播、损失函数、反向传播(BP)与梯度下降,以及归一化与过拟合等深度学习基石。
🎯学习目标
- 理解机器学习中的数据、先验与假设,掌握经验风险与期望风险的关系;
- 掌握神经元、感知机与多层感知机(MLP)的结构;
- 熟悉 Sigmoid / Tanh / ReLU 等激活函数及其优缺点;
- 理解前向传播、损失函数(交叉熵)与反向传播(BP)算法;
- 掌握梯度下降、批大小(batch)、学习率,以及过拟合与正则化、归一化层。
1机器学习基础:数据、先验与假设
机器学习的目标是从数据中、借助先验(priors),在一族假设(hypotheses)中找到最能解释数据的模型。深度网络就是其中一类高度灵活的假设族。
蒙特卡洛(Monte Carlo)估计期望
很多目标都写成期望 𝔼x~p[f(X)]。无法解析积分时,用采样平均近似:
1. 从分布 p(x) 抽取 N 个样本 x₁,…,x_N
2. 计算 f̂ = (1/N) Σ f(xᵢ)
3. 返回 f̂ 作为 𝔼[f(X)] 的近似
2神经元与感知机
一个人工神经元先对输入做线性加权求和(含偏置 b),再经过一个非线性激活函数得到输出:
z = w₁x₁ + w₂x₂ + … + wₙxₙ + b (线性)
a = σ(z) (非线性激活)
只含一个神经元、激活为阶跃函数的模型即感知机(Perceptron),只能解决线性可分问题(无法表示异或 XOR)。把许多神经元堆叠成层,就得到深度网络。
3激活函数 ⭐(核心考点)
非线性激活是深度网络表达力的来源——没有它,多层线性层等价于单层线性层。点击卡片翻转查看要点:
Sigmoid
σ(x)=1/(1+e⁻ˣ)Tanh
tanh(x)ReLU
max(0,x)Leaky ReLU
max(0.01x,x)4前向传播与多层感知机(MLP)
MLP 由输入层、若干隐藏层、输出层组成:每一层做一次线性变换 + 非线性激活,逐层把数据映射到下一层表示。
第 l 层: a⁽ˡ⁾ = σ( W⁽ˡ⁾ a⁽ˡ⁻¹⁾ + b⁽ˡ⁾ )
输入: a⁽⁰⁾ = x
输出: ŷ = softmax( a⁽ᴸ⁾ )
5损失函数:经验风险近似期望风险
真实分布 p(x,y) 未知,我们用 i.i.d. 采样得到训练集 {(xₙ,yₙ)}。理论目标是最小化期望风险 𝔼p(x,y)[ℒ(ŷ,y)],实践中只能最小化经验风险:
ℒ = (1/N) Σₙ ℒ(ŷ(xₙ), yₙ) ← 经验风险(训练集平均损失)
分类常用交叉熵损失:网络输出各类别概率,取真实类别的 −log(prob) 作为损失。预测越准、该项越接近 0。
| 损失 | 用途 | 说明 |
|---|---|---|
| 交叉熵 (Cross-Entropy) | 分类 | −Σ y·log(ŷ),配合 softmax |
| 均方误差 (MSE) | 回归 | (ŷ−y)² 的平均 |
6反向传播与梯度下降 ⭐
训练一个深度网络分类器的流程,本质是用梯度下降反复迭代:
Forward: 逐层计算激活值 a⁽ˡ⁾,最终得到损失 ℒ
Backward: 由 ℒ 出发,用链式法则逐层回传梯度 ∂ℒ/∂W
Update: W ← W − η · ∂ℒ/∂W (η 为学习率)
… 重复以上三步
批大小(batch)与学习率
| 超参数 | 含义 | 影响 |
|---|---|---|
| 学习率 η | 每步更新的步长 | 太大震荡/发散,太小收敛慢 |
| 批大小 batch | 每次估计梯度用的样本数 | 大批稳定但费内存,小批噪声大但泛化常更好 |
常见有批量梯度下降、随机梯度下降(SGD)、小批量(mini-batch)三种;小批量是工程实践主流。
7归一化层
归一化层基于一群神经元的取值,把激活值压缩到更优的数值范围,有利于训练稳定与加速收敛。
| 类型 | 归一化对象 |
|---|---|
| 数据归一化 (Data Norm) | 每个变量在数据集上变成零均值、单位方差 |
| 批归一化 (BatchNorm) | 对激活张量的一列(同一特征跨样本)做标准化:减均值、除方差 |
| 层归一化 (LayerNorm) | 对激活张量的一行(同一样本跨特征)做标准化 |
8过拟合与正则化
过拟合:模型在训练集表现好,但在未见数据(测试集 / OOD)表现差——把噪声也"背"了下来。常用对策:
权重正则化
L2 / L1 惩罚大权重,偏好更简单的模型(奥卡姆剃刀)。
Dropout
训练时随机丢弃部分神经元,减少共适应、增强泛化。
提前停止
验证集误差回升时停止训练,避免继续拟合噪声。
⭐重点例题
Forward :逐层算激活,得到预测 ŷ 与损失 ℒ
Backward:从 ℒ 出发,链式法则逐层求 ∂ℒ/∂W
Update :W ← W − η·∂ℒ/∂W(η 学习率)
关键点:反向传播是链式求导的高效实现;梯度下降沿负梯度方向更新使损失下降。
ℒ = −Σ yᵢ·log(ŷᵢ),因 y 只有真实类为 1,故等于真实类的 −log(prob)。预测概率越接近 1,损失越接近 0。
🎯自测(点击展开)
没有激活函数(非线性)的多层网络等价于什么?
Sigmoid 的主要缺点是什么?
经验风险与期望风险是什么关系?
学习率太大或太小分别会怎样?
BatchNorm 和 LayerNorm 的区别?
列举两种缓解过拟合的方法。
📝强化题库
选择题点选即时判分;填空题输入后"检查"或"显示答案"。