[关闭]
@songying 2019-01-19T17:33:47.000000Z 字数 2723 阅读 3652

常见激活函数

deep-learning


https://www.jiqizhixin.com/articles/2017-10-10-3

综述paper: 《Activation Functions: Comparison of Trends in Practice and Research for Deep Learning》

sigmoid 及其三个变体

sigmoid 函数大多数情况下用于前馈神经网络中。 当出现在输出层时,主要用于二分类问题, sigmoid易于理解,常常出现在浅层神经网络中。在使用sigmoid时, 权重初始化需要避免使用小的随机权重值。

  • 梯度消失,梯度爆炸
  • 降低收敛速度
  • non-zero centred output

1. sigmoid

2. hard-sigmoid

hard-sigmoid 与 sigmoid 相比计算成本下降很多,使得收敛速度加快。作者强调hard-sigmoid在二分类问题上获得了很好的表现。

3. SiLU: Sigmoid-Weighted Linear Units

pass

4. dSiLU: Derivative of Sigmoid-Weighted Linear Units

pass

tanh 及其变体

tanh函数也不能很好地解决sigmoid函数所遇到的梯度消失问题。该函数的主要优点是它产生零中心输出,从而帮助反向传播过程。

1. tanh

tanh 函数只有在 x=0 ,导数才为1, 这使得tanh函数在计算过程中会产生一些 dead neurons

2. Hard Hyperbolic Function

相比tanh来说计算效率更高.

Relu及其变体

与 sigmoid 和 tanh 相比提供了更高的performance和泛化能力。 ReLU是一个近似线性的函数,因此保留了线性模型的特性,这使得其易于使用梯度下降法进行优化。

Relu 大大减少了训练中发生梯度消失的情况。

Relu的一大优点就是快,因为其求导没有那么复杂。 Relu的另一个特性是由于其在 x<0 时均未0, 因此其引入了稀疏性。

Relu 相比较于Sigmoid来说更容易过拟合, 采用dropout可以极大的减轻过拟合。

Relu的一大问题: Dead RELU, 为了减轻这一问题, Leaky Relu 提出。

1. Relu

2. Leaky Relu

主要是为了解决 Dead Relu 问题。 a 常常是一个很小的值如: 0.01

3. PReLU(参数化修正线性单元)

其中 是可学习的参数。

4. PReLU

5. SReLU

softplus

softplus 是Relu的光滑版本,具有平滑和非零梯度特性,从而增强了深层神经网络的稳定性和性能。

ELU 及其变体

1. ELU

2. PELU

3. SELU

Maxout Function

softmax

softmax 常用于多分类模型, 常用于模型的输出层中。sigmoid 与 softmax 不同之处在于 sigmoid 用于二分类问题中,而 softmax 用于多分类问题。

softsign

常用于回归问题中。 与tanh 的以指数方式收敛不同, softsign 以多项式方式收敛

linear

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注