更好的理解分析深度卷积神经网络

2016/06/10来源：PKU Visualization Blog评论1,914

深度卷积神经网络（CNNs）在特征识别相关任务中取得的效果，远比传统方法好。因此，CNNs常用于图像识别、语音识别等。但是，因为CNNs结构庞大，一般都会包含几十个神经层，每一层，又有数百至数千个神经元；同时，CNNs任意两层之间神经元的相互影响错综复杂。这两个主要的因素，导致CNNs难以理解、分析。为此，用户很难从失败或成功的例子中学习到如何设计一个好的卷积神经网络。因此，设计一个效果好的神经网络，往往需要依靠大量的尝试。

这篇文章提出了一个可视分析系统，CNNVis，支持机器学习专家更好的理解、分析、设计深度卷积神经网络。

在介绍可视分析系统之前，我将简要的介绍卷积神经网络。

图1. 典型的卷积神经网络结构

上图展示的是一个典型的卷积神经网络结构。这个网络包含两个卷积层（convolution layer），两个池化层（pooling layer）和一个全连接层（fully connected layer）。

图2. 卷积操作示意图

卷积层，采用各种卷积核对输入图片进行卷积处理，基本卷积过程如图2所示。卷积操作具有平移不变性。因而，能够支持神经元学习到鲁棒性比较高的特征。

图3. 最大池化层。从特定区域中，选取最大值作为输出值

池化层的操作，是一种降采样操作。该操作是在一个小区域内，采取一个特定的值作为输出值。比如图3，在每个特定的小区域内，我们选取最大值作为输出值。池化层的操作可以达到一定的空间不变性效果。

卷积神经网络中的激励函数，根据一系列的输入值，神经元之间连接的权值以及激励规则，刺激神经元。

卷积神经网络中的损失函数，在训练阶段，用于评估网络输出结果与实际值的差异。然后用损失函数的值更新每个神经元之间的权重值。卷积神经网络的训练目的就是最小化损失函数值。

图4. CNNVis的设计流程图

CNNVis的设计流程图如图四所示，主要包含四个部分。

DAG转换主要是将卷积神经网络转换为有向非循环网络（directed acyclic graph）；神经元群簇可视化的目的在于，给用户一个直观的可视化形式分析神经元群簇在整个网络中的作用；基于双边聚类的边捆绑技术的目的是减少视图的混乱；此外，系统还支持一系列的交互，比如支持用户修改聚类结果等，以便用户更好的分析探索整个卷积神经网络。

图5. DAG转换及聚类过程

DAG转换环节，由于一个卷积神经网络往往会有很多层，每一层会有很多神经元。为了提供总览图，方便用户建立对整个卷积神经网络的认识，他们首先对层进行了聚类。然后在每个层聚类中，对内部的神经元进行了聚类（如图5所示）。

图6. CNNVis中，矩阵表现形式

在神经元群簇可视化部分，他们采用矩阵填充技术，将群簇内神经元的输出图像填充成一个矩阵来表示该群簇特征。同时，为了方便用户分析每个神经元在不同类别上性能，他们采用矩阵形式来表示此类信息。一个群簇用一个矩阵表示。在矩阵中，每一行表示一个神经元，每一列表示一个类别，颜色的深浅表示该神经元在该类别上的判别能力（如图6所示）。为了更好的表现出该群簇的特点，他们对矩阵中的行进行了重排序，最大化邻近的两个行的相似性之和。

图7. 基于双边聚类的边捆绑技术示意图

接着，为了减少视图的混乱，线的交叉，他们提出了基于双边聚类的边捆绑技术。此处的双边分别指两层之间输入的边和输出的边。如图7所示，双边聚类之后，对每个聚类结果分别进行边捆绑操作。图中，绿色表示边的权值为正，红色表示其权值为负。

接下来，我将通过一个样例，展示CNNVis的实用性。在这个例子中，专家们首先设计了包含10个卷积层， 4个池化层和2个全连接层的卷积神经网络BaseCNN，该网络主要用于图像识别。在CNNVis中，专家们发现在比较低的层，神经元倾向于学习一些简单的模式（图8（A）），比如边缘，颜色，条带灯；在比较高的层，神经元能够检测到一些抽象的特征（图8（C）），比如整辆轿车等。

图8. 用CNNVis分析BaseCNN