@songying
2018-11-30T19:20:30.000000Z
字数 423
阅读 2092
调参
在深层网络中的一大阻碍是梯度消失与梯度爆炸问题。 虽然通过初始化方案和batch normalization已经能够很好的克服该问题,但一些architectures incorporating skip-connections如highway,resnet能够比上述方案表现的更好。
在本文中,我们提出“the shattered gradients problem”。 具体来说,我们证明了在潜亏神经网络中,梯度之间的相关性随着深度的增加而呈指数衰减,这种梯度类似白噪声。 与此相反,在skip-connection架构中能够有效抵抗衰减。
最后我们提出了一种新的初始化方案:"looks linewr" 初始化, 初步实验表明,新的初始化允许训练非常深的网络而无须添加skip-connections。