Lecture7 卷积神经网络

前面存在的问题：并没有利用图像的空间结构（将其展开成向量）

1.Convolution layer 卷积层

超参数：（卷积层大小、层数、填充、步长）

构成：①输入三维张量（depth x width x height）

②权重矩阵 filter（也是三维）

存在约束：filter与input的depth必须相同。（filter会覆盖input的整个深度）

计算：

将filter在输入张量上滑动，选定一块区域进行点积，再加上偏差，得到一个标量结果。对input所有可能的位置进行该操作。

使用举例：

填充（padding）

卷积时会造成像素损失，所以在图片周围进行填充，以减少损失（如下：0填充）

same padding(不改变空间大小)：将p设置为（k-1）/2

步长Stride

定义：一次移动一个步长，会将概念域翻对应倍数。

概念域Receptive Field

定义：输出张量的一个元素与input的局部区域对应，所对应的域即为概念域。

举例：1x1 卷积

对空间中每一个网格的特征向量操作，用来改变三维张量的通道维数。

举例：全连接层（fully connected layer）

用来展开张量、破坏空间结构，得到一个向量输出。

总结：

其他卷积：一维卷积：（例如处理音频数据）

三维卷积：（例如处理点云数据）

2.池化层 Pooling layer：向下采样

包含de超参：内核大小、步长、池化函数

举例：最大池化max pooling

空间维度减半

3.正则化

形成零均值和零平均单位方差，对数据处理，

作用：1.稳定加速神经网络的训练。

改善梯度流动。

允许更高的学习率，更快的收敛。

更加鲁棒性。

一般放在全连接层后，非线性函数前

举例：①批正则化（xk-均值/标准差）

N：批量参数（n个向量）

D：向量维数

添加学习尺度、偏差bias两个参数，生成新的输出

测试时：所用的\mu和\thgma都是对训练中的值求平均（两个常数），归一化变成线性操作。

存在问题：1.优化原理不清晰 2.训练/测试时方法不同

举例：②层标准化Layer Normalization

举例：③实例归一化Instance Normalization

三者区别:

批正则：对批和空间正则

层：对空间和通道正则

实例：对通道正则

CS231N-Lecture7 卷积神经网络