[关闭]
@dongxi 2017-08-13T20:11:10.000000Z 字数 4429 阅读 2507

拉格朗日对偶性

数理统计 0未完成


前言

       本文主要是对机器学习领域中比较常见的一个数学工具拉格朗日对偶性进行简单的介绍与证明。

原始问题

       拉格朗日对偶性是一种寻找多元函数在其自变量受到一个或者多个条件约束时的极值的方法。这种方法可以将一个有个变量和个约束条件的最优化问题转换为一个解有个变量的方程组问题。
       首先,定义一下我们的原问题:假设是定义在上的连续可微函数,有如下具有约束的最优化问题:


       那么我们就可以将上式称为约束最优化问题的原始问题。我们可以和明显的得到其定义域(表示对其取定义域):

       对于这个原始问题我们并不是可以通过简单的求导得到其最优值,在中学时代对于这种问题,一般都是采用线性规划的方式进行求解,在这里我们会以纯代数的方式来解决这一问题。

拉格朗日函数

       对于上述问题,我们可以引入广义拉格朗日函数:


       经过上述转换,我们的定义域变为,其中被称为拉格朗日乘子,特别要求
       现在我们可以将看做是关于的函数,需要求解其最大值,即:

       那么,我们如何将两者联系到一起?下面通过是否满足约束条件两方面分析上述函数
       考虑某个违反了原始的约束,即或者,那么存在满足下式:

       如果,我们可以去即可,同理当时,只需
       考虑满足原始的约束,那么:

       当我们选择合适的时,我们就可以很容易的得到的便是其本身
       我们可以对上述内容进行简单的归纳,可以得出:

pictemp.png-9.3kB
       那么,在满足约束的条件下,我们有:

       所以,我们与原优化问题等价,所以经常会使用代表原始问题,为了方便接下来的表述,我们用表示原始问题的最优值,即:

对偶问题

       接下来到了我们的重点部分,有些时候原始问题的形式,我们难以求解,我们可以对这些问题进行对称化。
       定义关于的函数:


       这里需要注意到一点,在本定义中,等式右侧是关于的函数最小化,最小值是一个关于的函数。
       我们对求最大化,那么会有:

       我们将这个问题定义为原始问题的对偶问题,我们将原始问题写出来:

       两者在形式上极其相似,只是交换了的相对位置,将原问题转变成了先固定,优化,然后在确定参数
       与上文相似,为了方便表示我们定义:

对偶问题与原始问题的关系

       原始问题和对偶问题并不是一定相等的,他们的关系有如下定理:
定理:原始问题与对偶问题都有最优值,则:


       对于上述定理其实是可以很容易想到的,但是“拍脑门”不是我们的目的,其证明如下:

对于任意的,我们有:


即:

由于原始问题与对偶问题都有最优值,那么会有:

即:

       那么,原始问题的最优解不小于对偶问题的最优解,这是一个很有用的结论,但并不是我们想得到的。如果我们希望使用对偶问题去求解原始问题,那么就必须要求对偶问题的最优值和原始问题最优值相等才可以,那么在什么条件下才能使呢?这个条件就是所谓的条件。

KTT条件

       当成立时,满足的条件被称为条件。我们来简单的推导一下条件,首先为了方便讨论我们对约束条件进行一定的简化:


       很明显,我们的目标函数为:

       根据数学知识我们可以知道,取得最小值的必要条件为:


       其中第一个方程,我们成为定常方程(stationary equation),第二个则称为束缚条件。通过上面两式,我们可以很容易的得到最优值时的的取值。
       接下来,增加一下复杂度,现在的约束条件为:

       束缚不等式成为原始可行性(primal feasibility),据此我们可以定义可行域(这在前面有所提及)。假设为满足束缚条件的最佳解,对于最佳解存在两种情况:

  1. ,最佳解位于内部,称为内部解,这时束缚条件无效。
  2. ,最佳解位于内部,成为边界解,这使束缚条件则是有效的。

       对于这两种情况采用的解决方式是不同的,对于内部解的情况,实际上就是约束无效的情况,也就不会产生效果,有约束问题退化成了无约束问题,因此只需要满足。而对于边界解时,束缚条件退化成了在之前我们提及到得模型,那么很显然会有,这里的是有意义的,以本题为例,我们希望最小化,而梯度(函数在点上升最快的方向)一般指向可行域内部,但是却指向的外部区域,所以,这项性质成为对偶可行性。
       同时我们可以发现无论是内部解还是边界解,都会有成立,这项性质称为补松弛。整合上述两种情况,最佳解需要的四个条件为:定常方程式原始可行性对偶可行性补松弛(三个性质待补充):


       同样,如果我们要最大化,并且将原始可行性更改为,那么要将对偶可信性更改成
       对于多个约束的条件,我们也可以很容易得到条件,对于:

       我们可以推导出条件为:

结语

       本篇博客基本上就算是初稿完成了,还是有很多地方说的不清不楚,不明不白的,这些部分等我看完线性代数的知识或者学习完《凸优化》再进行补充,应该也不会太晚,应该在今年之内。

参考
拉格朗日乘数
凸优化(八)——Lagrange对偶问题
简易解说拉格朗日对偶(Lagrange duality)
Karush-Kuhn-Tucker (KKT) 條件

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注