@devilogic
2016-01-18T12:29:29.000000Z
字数 3955
阅读 797
devilogic
反向传播算法可用来学习这个网络的权值。它采用剃度下降方法试图最小化网络输出值和目标值之间的误差平方。我们来重新定义。
BACKPROPAGATION(, , , , )
中每一个训练样例是形式为的序偶,其中是网络输入值向量,是目标输出值。是学习速率(例如:)。是网络输入的数量,是隐藏层数量,是输出单元数量。从单元到单元的输入表示为,单元到单元的权值表示为。
两个矩阵(同样的行数与列数)融合成,取出两个矩阵的同行同列的对应值。如果做均值。这样融合不能反应两个值的比重问题。我们在值前面取一个比率。其中。则。如果越小则输出结果越偏向,如果越小则输出越偏向。则的取值又与其偏差权值矩阵中值相关。由于采用的是相同的算法,所以取这两个值的归一化,。则
永远让新计算出的量更偏向于误差小的一方。
因为是两个值做归一化操作,所以这里其实是做了交换偏差操作,误差小的一方所占比重要在新值中大,误差大的一方所占比重要在新值中小。
所以最终等式为:
首先让我们看一下正常的情况怎样的?
设四个权值矩阵,其中后一个的值依赖前一个的值。则,而。而这样如果存在个训练样例,函数的下标对应了使用第几个训练样例,它表示了权值调整函数。一般对于每个训练样例的目标值与输出,它的主要任务是负责计算误差,而是一个关于输入样本的连续函数,是一个常数值,所以是关于输入向量的连续函数。随后在原始权值矩阵的基础上。
那么最终的训练结果为
而我们的想要解决的问题是
这里的,其中是一个有符号的实数。
,其中,。
则上述可以替换为:
当时,。
当时,。
。
其中,我们设等于其下标对应样本索引为串行化运算的权值偏差。而表示采用并行化运算的权值偏差
从上式可以看出,的最终值最后一次送入样本后的融合的关系最大。样本越靠后的,影响关系越大。而之前的样本训练越小。犹豫都取每次偏差的一定比率,所以如果在总样本数量上比小,则最终比大,反之小。如果样本无误差则相等。但是这个等式太忽略最初的训练样本,太依赖靠后的训练样本。如果训练样本过大的话,将可以直接忽略之前的训练。而这也是假定与相等的情况下。但真实的情况是与一个是依赖,一个是依赖。是经过修订的后的权值,而是一直没有修订过的,所以对应的误差偏差。