@coolwyj 2015-10-25T14:12:26.000000Z 字数 2737 阅读 13121

DeepLearning 笔记（一） ImageNet Classification with Deep Convolutional Neural Networks

DeepLearning 论文

DeepLearning 笔记（一） ImageNet Classification with Deep Convolutional Neural Networks

1. ReLU

ReLU（Rectified Linear Units）其实就是普通神经网络中的激活函数，其形式如： $f(x)=max(x,0)$ ，它是不饱和线性函数。
最原始的神经网络输出函数是sigmoid： $f(x)=(1+e^{-x})^{-1}$ 或者 tanh: $f(x) = tanh(x)$ ，它们是饱和线性函数。

究竟啥是饱和非线性函数呢？可以分成两部分来理解。饱和其实就是看函数自变量x很大的时候其函数值如果变动很小，那么就称其为饱和。而非线性就无需多讲。

这些函数的缺点之一是计算所耗时间比较长，在CIFAR-10数据集上，训练到25%的错误率，ReLU的速度是tanh的6倍。还有一个缺点是对于该层输入的数据最好是要做归一化，否则当逐层累积后输入数据可能会变得很大，导致激励函数的输出值变动不大，非线性的性质被削弱。而ReLU则没有这种问题。

2. Multi-GPU

官方新版caffe已经支持多GPU训练，但是还没有试过，也没有读过源码，所以这部分先略过。

3. LRN

LRN（Local Response Normalization）层是用来做归一化的。此片论文的作者发现，虽然ReLU层对于很大的输入x，仍然可以有效的学习，但是他们发现即使这样，对数据进行归一化对于学习来说还是有帮助的。PS：最近读的一篇paper说这个层没什么卵用，具体在以后的笔记中介绍啦。

令 $a_{x,y}^{i}$ 表示在(x,y)这个位置上，以kernel i来计算后，经过的激励后的输出。经过LRN层后，作为下一层输入的数据 $b_{x,y}^{i}$ 变为：

b i x, y = a i x, y / (k + α \sum j = m a x (0, i - n / 2) m i n (N - 1, i + n / 2) (a i x, y) 2) β

$b_{x,y}^{i} = a_{x,y}^{i}/(k+\alpha \sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}(a_{x,y}^{i})^{2})^{\beta}$
其中N是该层的feature map总数，n表示取该feature map为中间的左右各n/2个feature map来求均值。论文中使用的参数是：

k=2,n=5,α=10−4,β=0.75 $k=2,n=5,\alpha=10^{-4},\beta = 0.75$ 。每一层ReLU后面都接一层LRN。

论文中提到使用LRN来训练他们的网络，在imageNet上top-1和top-5的错误率分别下降了1.4%，1.2%

4. Overlapping Pooling

Pooling层一般用于降维，将一个kxk的区域内取平均或取最大值，作为这一个小区域内的特征，传递到下一层。传统的Pooling层是不重叠的，而本论文提出使Pooling层重叠可以降低错误率，而且对防止过拟合有一定的效果。

个人理解，使Pooling层重叠，可以减少信息的损失，所以错误率会下降。但是对防止过拟合的效果，文章也只是说slightly，目测意义不大。

5. Reducing Overfiltering

过拟合一直是DeepLearning的大敌，它会导致训练集的error rate非常小，而测试集的error rate大部分时候很大。克服过拟合本文提到了两个方法：

<1>数据扩增

简而言之就是对现有数据进行变换，使得总数据量得到提升。可以对图片进行集合变换，如平移，水平翻转等，论文中把原始图像缩放到256X256，然后分别取四个corner以及中间的224X224大小的patch，以及其flip后的patch来训练。论文还提到了对图片的RGB通道进行强度改变。即在训练集的RGB通道上做PCA，但是不降维，只取特征向量和特征值，对训练集上每张图片的每个像素 $I_{x,y}=[I_{x,y}^{R},I_{x,y}^{G},I_{x,y}^{B}]^{T}$ 加上值：

[p 1, p 2, p 3] [α 1 λ 1, α 2 λ 2, α 3 λ 3] T

$[p_{1},p_{2},p_{3}][\alpha_{1}\lambda_{1},\alpha_{2}\lambda_{2},\alpha_{3}\lambda_{3}]^{T}$
其中

pi $p_{i}$ 和

λi $\lambda_{i}$ 分别表示特征向量和特征值，

α $\alpha$ 表示高斯随机变量（均值为0，方差为0.1）.

<2>Dropout

dropout层一般用在FC层之后，每次forward的时候FC之前层的每个神经元会以一定的概率不参与forward，而backward的时候这些单元也不参与。这种方式使得网络强制以部分神经元来表示当前的图片，很大限度上降低过拟合。但是这样一定程度上会延长训练的时间，因为随机性不只是会打乱过拟合的过程，也会打乱正常拟合的过程。
在test的时候，不使用dropout，使所有神经元参与运算，给他们的结果乘以0.5来作为输出值。

其实，最后不乘0.5也是可以的。如果在分类的时候使用的不是原来的softmax，那么只要特征之间可以区分就行了，乘不同的系数只是放大或者缩小了这种差别。

6. weight decay

v i + 1 = 0.9 \cdot v i - 0.0005 \cdot l r \cdot ω i - l r \cdot ⟨ \partial L \partial ω | ω i ⟩ D i

$v_{i+1}=0.9 \cdot v_{i} - 0.0005 \cdot lr \cdot \omega_{i} - lr \cdot \langle \frac{\partial L}{\partial \omega}|_{\omega_{i}}\rangle_{D_{i}}$

ω i + 1 = ω i + v i + 1

$\omega_{i+1} = \omega_{i}+v_{i+1}$

其中， $\omega$ 是最后的结果， $v$ 是增量， $lr$ 是学习率，0.0005是weight decay的值，0.9是momentum的系数。
weight decay一般是作为正则化项来避免过拟合的，但是论文说这里的weight decay可以减少训练错误率，还没有想到是为啥，欢迎大神指点。。。