@songying
2019-01-19T17:33:47.000000Z
字数 2723
阅读 3652
deep-learning
https://www.jiqizhixin.com/articles/2017-10-10-3
综述paper: 《Activation Functions: Comparison of Trends in Practice and Research for Deep Learning》
sigmoid 函数大多数情况下用于前馈神经网络中。 当出现在输出层时,主要用于二分类问题, sigmoid易于理解,常常出现在浅层神经网络中。在使用sigmoid时, 权重初始化需要避免使用小的随机权重值。
- 梯度消失,梯度爆炸
- 降低收敛速度
- non-zero centred output
hard-sigmoid 与 sigmoid 相比计算成本下降很多,使得收敛速度加快。作者强调hard-sigmoid在二分类问题上获得了很好的表现。
pass
pass
tanh函数也不能很好地解决sigmoid函数所遇到的梯度消失问题。该函数的主要优点是它产生零中心输出,从而帮助反向传播过程。
tanh 函数只有在 x=0
,导数才为1, 这使得tanh函数在计算过程中会产生一些 dead neurons
相比tanh来说计算效率更高.
与 sigmoid 和 tanh 相比提供了更高的performance和泛化能力。 ReLU是一个近似线性的函数,因此保留了线性模型的特性,这使得其易于使用梯度下降法进行优化。
Relu 大大减少了训练中发生梯度消失的情况。
Relu的一大优点就是快,因为其求导没有那么复杂。 Relu的另一个特性是由于其在 x<0
时均未0, 因此其引入了稀疏性。
Relu 相比较于Sigmoid来说更容易过拟合, 采用dropout可以极大的减轻过拟合。
Relu的一大问题: Dead RELU, 为了减轻这一问题, Leaky Relu 提出。
主要是为了解决 Dead Relu 问题。 a 常常是一个很小的值如: 0.01
其中 是可学习的参数。
softplus 是Relu的光滑版本,具有平滑和非零梯度特性,从而增强了深层神经网络的稳定性和性能。
softmax 常用于多分类模型, 常用于模型的输出层中。sigmoid 与 softmax 不同之处在于 sigmoid 用于二分类问题中,而 softmax 用于多分类问题。
常用于回归问题中。 与tanh 的以指数方式收敛不同, softsign 以多项式方式收敛