表征学习
从数据到嵌入(embedding)的编码学习:基于压缩(自编码器、对比学习、聚类、信息瓶颈)与基于预测(自监督、缺失填补)两大原则,以及 KL 散度、交叉熵、互信息等信息论工具。
🎯学习目标
- 理解表征学习问题:编码 f:𝒳→𝒵 与向量嵌入(embedding);
- 掌握"好表征"应具备的性质,以及压缩原则与奥卡姆剃刀;
- 熟悉自编码器、对比学习、聚类(k-means)等压缩方法;
- 理解自监督学习、代理任务(pretext task)与缺失填补;
- 掌握 KL 散度、交叉熵、信息熵、互信息与信息瓶颈原则;
- 了解迁移学习与预训练(如 CLIP)。
1什么是表征学习
深度网络逐层变换数据点,每一层都是数据的一种不同表示。两个方向:
表征学习
前向:从观测数据 → 潜在嵌入(latent embedding)。学习编码器 f:𝒳→𝒵。
生成式建模
反向:从潜在嵌入 → 观测数据。即解码 / 生成。
表示学习的目标是学习如何把数据点 x∈𝒳 映射到抽象表示 z∈𝒵,这种映射称为"编码",学得函数 f:𝒳→𝒵。通常 x、z 都是高维向量,z 被称为 x 的向量嵌入(embedding)。
2好表征应具备的性质
训练映射 f 的目的是让 z 具备某些理想属性,使 𝒵 成为比 𝒳 更简单、更抽象、组织更好的表示空间:
- z 的维度低于 x(压缩);
- z 的分布 p(z) 具有简单结构(如单位正态分布);
- z 各维度是解耦的(disentangled);
- z 是可解释的。
3基于压缩的学习原则 ⭐
好的表示是简约的(parsimonious),只捕捉数据中对任务必需的本质特征。压缩的必要性体现在三层面:
| 层面 | 含义 |
|---|---|
| 存储 | 压缩表示占用更少内存 |
| 不变性 | 压缩是对无关干扰因素(nuisance factors)保持不变性的方式 |
| 奥卡姆剃刀 | 同等解释数据的假设中,最简单的往往最可能真实 |
表征学习器的类型
| 学习方法 | 学习原则 | 摘要 |
|---|---|---|
| 自编码 Autoencoding | 压缩 | 移除冗余信息 |
| 对比学习 Contrastive | 压缩 | 实现对观察变换的不变性 |
| 聚类 Clustering | 压缩 | 把连续数据量化为离散类别 |
| 未来预测 Future prediction | 预测 | 预测未来 |
| 缺失填补 Imputation | 预测 | 预测缺失数据 |
| 代理任务 Pretext tasks | 预测 | 预测数据的抽象属性 |
4自编码器(Autoencoders)
自编码器是一个把数据映射回其自身的函数,但中间必须经过一个低维表示瓶颈。它强制网络学到数据的紧凑编码(移除冗余)。
5对比学习(Contrastive Learning)
对比学习让表征被监督对特定观察变换保持不变性,产生只捕获不同数据"视图"之间共有属性的压缩表示。监督信号以正样本对和负样本对的形式提供。
基于变换
同一图像的两个增强视图(裁剪/旋转/颜色抖动)应有相近嵌入(正对)。
基于共现
常一起出现的内容(如配对的图文)应有相近嵌入。
6聚类与 k-means
聚类同样源于压缩原则:若能仅用一个离散类别标签很好地概括一个信号,这个概括就成为后续推理更轻量、更抽象的基础。
k-means:把数据点映射到整数(即聚类),映射方式使每个数据点尽可能接近其所属聚类的均值。可看作 Encoder(数据→聚类)+ Decoder(聚类→均值)的离散版自编码。
7基于预测的原则与自监督学习
拥有视觉系统的意义在于能采取行动实现理想未来。预测泛指在给定观测下推断世界的任意属性(未来、过去、因果等)。视觉中大多数表征学习算法都在学习世界的压缩编码,同时这些编码要对未来有预测能力。
自监督学习(Self-Supervised Learning)
- 把无监督问题转化为有监督的经验风险最小化问题;
- 代理任务(pretext task):直接从原始数据本身"炮制/构造"出标签(预测目标)。
有趣的发现:在场景分类等任务上训练的深层 CNN,会自发涌现出物体检测器(Object Detectors Emerge in Deep Scene CNNs)。
8信息论与信息瓶颈 ⭐
KL 散度(相对熵 / 信息增益)
衡量从认知 q(x) 到 p(x) 我们的认知"更新了多少"。具有非负性、非对称性等性质:
D_KL(p‖q) = Σ p(x)·log[ p(x)/q(x) ] (离散)
性质:D_KL(p‖q) ≥ 0, D_KL(p‖q) ≠ D_KL(q‖p)(非对称)
信息熵与交叉熵编码
H(X) = −Σ p(X)·log p(X) 熵:描述不确定性
理想码长 = −log₂ p_j(对真实概率 p)
实际码长(按模型 q 编码) → 交叉熵 H_ce(p,q) = −Σ p_j·log q_j
H_ce(p,q) − H(p) = D_KL(p‖q) 实际比理想多用的比特数
压缩编码核心:对出现概率大的符号用短码,概率小的用长码;平均码长下界即熵 H(X)。
互信息与信息瓶颈
互信息 I(X;Y):衡量两变量依赖性,即从 p(X)p(Y) 到 p(X,Y) 的信息增益。
min β·I(z;x) − I(z;y):让 Z 对 Y 的信息 I(z;y) 最大(充分),同时对 X 的信息 I(z;x) 最小(最小充分统计)。若 y⊥x|z,则称 Z 对预测 Y 是充分的。9迁移学习与预训练
表征学习的重要价值在于得到的嵌入可迁移:先在大规模数据上预训练一个通用表征,再迁移到下游小数据任务上微调。
| 概念 | 说明 |
|---|---|
| 预训练 (Pre-training) | 在大规模数据上学通用表征 |
| 迁移学习 (Transfer) | 把预训练表征迁移到下游任务 |
| 微调 (Fine-tuning) | 在下游小数据上调整参数 |
| 嵌入 (Embedding) | 数据的低维向量表示,可复用 |
⭐重点例题
min β·I(z;x) − I(z;y)。直观:让表征 Z 保留对标签 Y 有用的信息(I(z;y) 大),同时尽量丢弃 X 中无关信息(I(z;x) 小),从而得到最小充分统计。
H_ce(p,q) = H(p) + D_KL(p‖q)。其中 H(p) 是真实分布的熵(常量),D_KL≥0 是用模型 q 编码相对最优编码多花的比特。最小化交叉熵 = 最小化 KL = 极大似然。
🎯自测(点击展开)
表征学习和生成式建模分别是哪个方向?
自编码器为什么要设一个低维瓶颈?
对比学习的监督信号以什么形式提供?
自监督学习如何获得标签?
KL 散度为什么是非对称的?
信息瓶颈中"Z 对 Y 充分"是什么意思?
📝强化题库
选择题点选即时判分;填空题输入后"检查"或"显示答案"。