🎓 总站 🏠 本课目录 01 图像基础 02 空间滤波 03 频率滤波 04 彩色处理 05 神经网络 06 表征学习 07 Transformer 08 CNN
视觉计算 · 第1章

数字图像基础

从光的形成到像素矩阵 · 取样量化、分辨率、内插、邻域邻接连通性与 D4/D8/Dm 距离度量。

📚 学习进度
0%

🎯学习目标

  • 理解数字图像的定义、形成模型(照度×反射)与表示方法;
  • 掌握图像取样与量化的概念,以及空间分辨率、灰度分辨率;
  • 理解图像内插(最近邻、双线性)及其应用;
  • 掌握像素间的邻域(4/D/8)、邻接(4/8/m)、通路、连通、区域与边界;
  • 熟练计算欧氏距离、D4(城市街区)、D8(棋盘)距离;
  • 理解直方图、概率统计量(均值、方差)等数学工具。

1什么是数字图像

图像可定义为一个二维函数 f(x,y),其中 x、y 是空间平面坐标,在任一坐标处的幅值 f 称为图像在该点的强度灰度

💡 数字图像的关键x、yf 都是有限的离散数值时,称该图像为数字图像。它由有限数量的元素组成,每个元素称为像素(picture element / pixel)。
  • 单色(灰度)图像:每个像素亮度用一个数值表示,通常 0~255,0 为黑、255 为白,中间为灰度。
  • 彩色图像:用红、绿、蓝三元组的二维矩阵表示,每个分量也在 0~255 之间,0 表示该基色不存在,255 表示取最大值。
  • 像素的二维排列可用矩阵表示。

数字图像处理的起源与应用

方向典型任务
人类分析(增强/复原)图像传输后复原、空间应用增强、医学图像;增强或复原模糊/损毁的图像
机器感知OCR 字符识别、人脸识别、指纹/生物特征识别
最新领域数码相机/摄像机、基于内容的图像/视频检索、水印、电影特技、VR、文生图、文生视频

2简单的图像形成模型

坐标处的幅值满足 0 < f(x,y) < ∞,可由两个分量表征:

f(x,y) = i(x,y) · r(x,y)
i(x,y) —— 入射分量(光源照射到场景的总量)   0 < i(x,y) < ∞
r(x,y) —— 反射分量(物体反射光的总量)        0 < r(x,y) < 1

单色图像在 (x₀,y₀) 处的强度 l = f(x₀,y₀),且 L_min ≤ l ≤ L_max。区间 [L_min, L_max] 称为灰度级,通常移位为 [0, L-1]l=0 为黑色,l=L-1 为白色。

⭐ 记忆点图像的"亮度"来自照度 i反射 r 的乘积。i 不受限上界、r 在 0~1 之间(反射不可能超过入射)。

3图像取样与量化 ⭐

把传感器获取的连续图像变成数字图像,需要两个离散化过程:

📐

取样 Sampling

坐标值 (x,y) 进行离散数字化 —— 把 xy 平面分成网格。

📊

量化 Quantization

幅值 f 进行离散数字化 —— 把灰度分成有限级。

连续信号 取样(坐标离散) 量化(幅值离散)
图1 · 连续图像 → 取样(坐标网格化)→ 量化(灰度分级)→ 数字图像

数字图像的表示

表示为 M×N 的数字阵列,每个元素是一个像素。出于存储与硬件考虑,灰度级数通常取 2 的整数次幂:

灰度区间 [0, L-1],   L = 2^k       (k 为量化比特数)
存储所需比特数 b = M × N × k
例:512×512、256 灰度级图像的存储量L=256 ⇒ k=8 bit。b = 512×512×8 = 2,097,152 bit = 256 KB。

4空间分辨率与灰度分辨率

类型含义度量
空间分辨率图像中可分辨的最小细节单位距离的线对数 / 像素数(如 dpi 每英寸点数:1250/300/150/72 dpi)
灰度分辨率灰度级中可分辨的最小变化量化灰度所用比特数(如 8/12/16 bit)
💡 注意空间分辨率必须针对空间单位规定才有意义(例如"每英寸点数")。降低灰度级数(256→2 级)会出现伪轮廓

5图像内插(重取样)

内插:使用已知数据估计未知值,用于放大、收缩、旋转、几何校正等(增加或减少像素数量),也叫图像重取样

🔲

最近邻内插

Nearest Neighbor
把原图中最近邻的灰度赋给每个新位置。落在 A 区(u<0.5,v<0.5)取左上角灰度,B/C/D 区分别取右上/左下/右下。速度快但常有锯齿、效果不理想
📈

双线性内插

Bilinear
利用待求点四个邻像素在两个方向作线性内插:v=ax+by+cxy+d。先沿一个方向插值再沿另一方向。比最近邻平滑
双线性内插(插值点 (i+u, j+v),u,v∈[0,1]):
g_A = f(i,j)   + [f(i,j+1)   - f(i,j)]   · v
g_B = f(i+1,j) + [f(i+1,j+1) - f(i+1,j)] · v
g(i+u, j+v) = g_A + (g_B - g_A) · u

6像素间的基本关系 ⭐

相邻像素:4 邻域、D 邻域、8 邻域

N4(p) · 4邻域 P ND(p) · 对角邻域 P N8(p)=N4+ND P
图2 · 4 邻域(上下左右)+ D 邻域(对角线)= 8 邻域
邻域坐标集合
N4(p)(x+1,y), (x-1,y), (x,y+1), (x,y-1)
ND(p)(x+1,y+1), (x+1,y-1), (x-1,y+1), (x-1,y-1)
N8(p)N4(p) ∪ ND(p),共 8 个

邻接性、通路、连通、区域与边界

V 为定义邻接性的灰度值集合:

  • 4 邻接:p、q 灰度都在 V 中,且 q 在 N4(p) 中;
  • 8 邻接:p、q 灰度都在 V 中,且 q 在 N8(p) 中;
  • m 邻接(混合邻接):p、q 灰度都在 V 中,且满足 ① q 在 N4(p) 中, ② q 在 ND(p) 中 N4(p)∩N4(q) 中没有 V 中的像素。
    m 邻接用于消除 8 邻接带来的多通路二义性
⭐ 通路与闭合通路从 p(x,y) 到 q(s,t) 的通路是一个像素序列,相邻像素彼此邻接,n 为通路长度。若起点等于终点则称闭合通路。两像素若存在通路则连通;连通像素集合构成区域,区域外缘像素构成边界

7距离度量 ⭐(必考)

距离函数 D 须满足:① D(p,q)≥0(p=q 时为 0);② D(p,q)=D(q,p)(对称);③ D(p,z)≤D(p,q)+D(q,z)(三角不等式)。设 p(x,y)、q(u,v):

距离公式等距轮廓
欧氏距离 De√[(x-u)² + (y-v)²]
D4(城市街区/曼哈顿)|x-u| + |y-v|菱形
D8(棋盘)max(|x-u|, |y-v|)正方形
D4≤2 → 菱形 D8≤2 → 正方形 De≤2 → 圆
图3 · 与中心点距离 ≤ r 的像素:D4 菱形、D8 正方形、De 圆
例:p(0,0)、q(3,4) 的三种距离De=√(9+16)=√25=5;D4=|3|+|4|=7;D8=max(3,4)=4

8数学工具与直方图

阵列运算与线性操作

图像可用矩阵表示,阵列相乘是逐元素相乘,矩阵相乘是线性代数乘法。一个算子 H 若同时满足加性同质性,则为线性操作

H[a·f1 + b·f2] = a·H[f1] + b·H[f2]   (线性)

代数运算

运算定义应用
加法C(x,y)=A(x,y)+B(x,y)多帧平均去除叠加性噪声(g=(g₁+…+g_N)/N,噪声均值0且互不相关)、图像叠加
减法C(x,y)=A(x,y)-B(x,y)检测两幅图像差异/变化、去除不需要的叠加图案(如 DSA 血管造影)

几何空间变换与图像配准

仿射变换可对坐标做尺度、旋转、平移、偏移;分前向映射(扫描输入像素算输出位置,可能多对一/空洞)与后向映射(扫描输出位置回算输入,更有效)。图像配准用约束点(控制点)求解 8 个系数,需至少 4 对点。

直方图与概率统计

灰度级 r_k 的归一化直方图:p(r_k)=n_k/n(n_k 为灰度 r_k 的像素数,n 为总像素数)。统计量:

平均灰度(均值)  m  = Σ z_k · p(z_k)
方差             σ² = Σ (z_k - m)² · p(z_k)    ← 反映对比度
💡 含义方差越大,灰度分布越分散,图像对比度越高。直方图是后续直方图均衡化的基础。

重点例题

例题1:D4/D8/De 距离计算 已知 p 坐标 (1,1),q 坐标 (4,5),求三种距离。
解:Δx=|4-1|=3,Δy=|5-1|=4。
欧氏 De = √(3²+4²) = √25 = 5
D4(城市街区) = 3 + 4 = 7
D8(棋盘)     = max(3,4) = 4
记忆:恒有 D8 ≤ De ≤ D4。
例题2:存储比特数 一幅 1024×768 的图像,量化为 256 个灰度级,需多少存储空间?
解:L=256 ⇒ k=log₂256=8 bit。b=1024×768×8=6,291,456 bit ≈ 768 KB
例题3:m 邻接为何被引入? 答:8 邻接会在某些像素配置下产生多条通路(二义性),使连通区域计数混乱。m 邻接在"对角邻接"上加了附加条件(N4(p)∩N4(q) 中无 V 像素),从而消除多通路二义性,得到唯一的连通关系。

🎯自测(点击展开)

取样和量化分别离散化什么?
取样离散化坐标 (x,y)(空间网格化);量化离散化幅值 f(灰度分级)。
图像形成模型 f=i·r 中 i 和 r 的取值范围?
入射 i:0<i<∞;反射 r:0<r<1(反射不会超过入射)。
N8(p) 怎么由 N4 和 ND 组成?各有几个像素?
N4 是上下左右 4 个,ND 是 4 个对角,N8=N4∪ND 共 8 个。
D4、D8、欧氏距离的等距轮廓各是什么形状?
D4 菱形、D8 正方形、欧氏距离圆。
引入 m 邻接的目的是什么?
消除 8 邻接带来的多通路二义性,使连通关系唯一。
方差在图像里反映什么?
反映图像的对比度,方差越大对比度越高。

📝强化题库

选择题点选即时判分;填空题输入后"检查"或"显示答案"。

已答 0/0答对 0正确率
已答 0/0答对 0