Lecture14 Visualizing &Understand

可视化模型&帮助理解

对第一层过滤器使用有效，对更高层多通道图像作用不大

对更高层：将其切割为灰度图像，但效果不明显。

常见方法：PCA（主成分分析：线性降维）、t-SNE(非线性降维算法)（降低维度的同时，尽量保持原有结构）

将图像的n个切片（每个切片对于一个conv层）可视化为灰度图像

方法步骤

选择层和通道：

在 CNN 中，选择一个特定的层（例如，conv5）和一个特定的通道（例如，第 17 个通道）。每一层的输出通常是一个三维张量，包含多个通道，每个通道对应不同的特征检测器。
输入图像并记录激活值：

将大量图像输入到网络中，并记录所选通道的激活值。对于每张图像，网络会在该通道上生成一个激活图（activation map），表示该通道在不同空间位置上的响应强度。
识别最大化激活的 patches：

对于每个图像，找到激活图中值最高的位置。这些位置对应于输入图像中导致该通道最大激活的 patches。

提取这些 patches 并可视化它们。这些 patches 通常代表了该通道所检测的特定特征。

使用掩码遮挡图像、移动掩码位置，观察预测概率值的变化。可以画出“显著图”saliency map。

（可以用于判断是否在看正确的图像部分，而不是“作弊”，但计算成本很高）

计算（非标准化）class score相对于图像像素的梯度，取绝对值和RGB通道上的最大值

如图，偏见为用背景有无雪来区分wolf/dog

通过反向传播，找到哪个像素，对中间神经元影响最大。

将负的上游梯度和负的区域梯度都归零。这样操作得到的输出图更好看。

能让我们找出影响神经元值的像素。

生成一个图片，让生成的图片能够最大激活神经元。

其中，f(I)是神经元的值，R(I)是一个图像正则器，让生成的图片看上去更自然。I*是生成的图片。

为了让图片更自然、而不是生成对抗性样本，正则化很重要。

正则化方法：

优化手段如下：

(1)高斯模糊图像

(2)将小梯度像素剪辑为0

(3)将小梯度像素剪辑为0

在FC6进行优化，由于FC6是高层特征表示，能够生成更真实的图片。

给定一张输入图像，通过CNN前向传播，提取某一层的特征表示向量
从提取的特征表示出发，通过优化方法（如梯度下降）重建一张新的图像，使得这张新图像通过CNN前向传播后，能够生成与原始特征表示尽可能接近的特征。（从而帮助理解哪些特征被CNN表示/抛弃）
loss函数（此处）：给定图像特征表示与生成图像特征表示在L2范数上是否接近