Lecture8 CNN经典架构

input：227x227x3

① CONV1: 96 11x11 filters at stride 4 pad 2.

输出？W’ = (W-k+2p)/s +1=55 [55x55x96]

总参数？(11113+1)96 = 35k 一层有：（输入通道内核大小+偏差）

浮点运算（乘法和加法）? （C_outH’W’）(C_ink*k)

② POOL1: 3x3 filters at stride 2 pad 1

输出？[27x27x96]向下取整

浮点运算？(C_outH’W’)(KK)

不改变通道数量

总结规律：1.池化的计算次数远小于卷积
2.主要的内存使用在早期卷积层
3.参数主要在全连接层中
4.主要的浮点运算在卷积层

设计规则：

1. 1. All conv 3x3 stride 1 pad 1
  2. All max pool 2x2 stride 2
  3. After pool, double channels.

为什么使用小卷积层？三个3x3层与一个7x7层的概念域相等，计算更少，允许更多非线性计算。

为什么双倍通道？这样做之后，该层与上一层计算次数相同。

用stem network在开始时采样，减小空间开销

使用并行处理，在同一时间进行多个卷积

在卷积前使用池化，减少通道数量。

用全局平均池化取代全连接层，对通道求平均，减少元素总数，来摧毁空间。

使深网络更好地模拟浅层网络，改善梯度流。

1x1收缩通道-3x3卷积-1x1扩张通道。

增加了层数，但计算复杂度不变，减少误差。

使用并行路径，计算成本与左侧相同。

CS231N Lecture8 CNN经典架构