ResNet论文笔记

退化问题

2013年以来cnn飞速发展，从比较简单的LeNet、AlexNet,到结构对称美观的VGGNet（经典结构之一，SegNet、SSD等都使用它作为基础网络），再到可以大量减少参数的GoogleNet（Inception），一直到本文主角ResNet的出现，它们都有一个共同的特点：网络层数在不断加深。

按理说，深度cnn网络集成了特征提取器与特征分类器，并且特征水平可以通过层数的堆砌来提升。层数越深，网络的学习能力应该越强，网络的准确度也应该越高，那只要不断加深cnn网络的层数不就好了？确实是这样的，但是，总归没有那么简单。 issue

从上图我们可以看到，56层网络的训练错误率与测试错误率反而比20层的（在CIFAR-10上）要高。没错，传统cnn网络随心所欲的增加层数是不行的,当更深的网络开始收敛时，会出现退化问题。（层数增多，准确率反而下降，因为深层网络会出现梯度消失）

ResNet的做法

ResNet为了解决cnn网络层数增加，学习能力反而下降的问题，提出了一种 residual 结构。

如上图，增加了一个恒等映射（identity mapping），将原始需要学习的函数H(X)转换成F(x)+x。作者认为对残差F(x)做优化会比直接对H(x)做优化要简单很多。这个公式的实现是通过上图的shortcut connections，这并不会增加额外参数和计算复杂性。

其中，H(x) = y = F(x)+x,F(x)为要学习的残差映射。但是，我们都知道输入与输出的维度很有可能会发生变化，因此shortcut的方式，需要认真考虑。针对深度增加的情况，论文中提出了两种解决方法： 1. zero_padding:依然是恒等映射，对于增加的层填充0,这样不会有额外的参数; 2. projection:采用1×1卷积核来增加维度。