@nrailgun 2015-11-05T13:15:34.000000Z 字数 2268 阅读 1750

Newton Method and Quasi Newton Method

机器学习

Newton Method

Considering unconstrainted optimization problem

min x \in R n f (x)

$\min_{x\in \mathbf R^n} f(x)$
where

x∗ $x^*$ is the minimum of objective function.

Assuming $f(x)$ is twice differentiable, and $x^{(k)}$ is value of $x$ in $k$ -th iteration, the taylor expansion of $f(x^{(k)})$ is

f (x) = f (x (k)) + g T k (x - x (k)) + 1 2 (x - x (k)) T H (x (k)) (x - x (k))

$f(x) = f(x^{(k)}) + g_k^T(x - x^{(k)}) + \frac 1 2 (x - x^{(k)})^T H(x^{(k)}) (x - x^{(k)})$
where

gk=g(x(k))=∇f(x(k)) $g^k = g(x^{(k)}) = \nabla f(x^{(k)})$ , and

H(x(k)) $H(x^{(k)})$ is Hesse matrix of

f(x) $f(x)$

H (x) = [\partial 2 f \partial x i \partial x j] n \times n

$H(x) = \left[ \frac{\partial^2 f}{\partial x_i \partial x_j} \right]_{n \times n}$

Input: objective function $f(x)$ , gradient $g(x) = \nabla f(x)$ , Hesse matrix $H(x)$ ;
Output: minimum $x^*$ .

Calculating $H^{-1}$ is rather expensive. Quasi newton method approximates $H_k^{-1}$ with $G_k = G(x^{(k)})$ .

In newton method, we have

g k + 1 - g k = H k (x (k + 1) - x (k))

$g_{k+1} - g_k = H_k(x^{(k+1)} - x^{(k)})$
Let

yk=gk+1−gk $y_k = g_{k+1} - g_k$ and

δk=x(k+1)−x(k) $\delta_k = x^{(k+1)} - x^{(k)}$ ,

y k = H k δ k

$y_k = H_k \delta_k$
The equation above are called quasi newton condition. Algorithms picking

Gk $G_k$ approximating

H−1k $H_k^{-1}$ or

Bk $B_k$ approximating

Hk $H_k$ are called quasi newton method.

Approxiamate $H$ with

B k + 1 = B k + y k y T k y T k δ k - B k δ k δ T k B k δ T k B k δ k

$B_{k+1} = B_k + \frac{y_k y_k^T}{y_k^T \delta_k} - \frac{B_k \delta_k \delta_k^T B_k}{\delta_k^T B_k \delta_k}$
where

yk=gk+1−gk $y_k = g_{k+1} - g_k$ and

δk=x(k+1)−x(k) $\delta_k = x^{(k+1)} - x^{(k)}$ .

Input: objective function $f(x)$ , $g(x) = \nabla f(x)$ , precision $\epsilon$ ;
Output: minimum $x^*$ of $f(x)$ .

Pick init point $x^{(0)}$ , positive-definite matrix $B_0$ , $k=0$ .
Calculate $g_k = g(x^{(k)})$ , stop if $\| g_k \| \lt \epsilon$ , let $x^* = x^{(k)}$ .
Calculate $p_k$ with $B_k p_k = -g_k$ .
1D search:
$f (x (k) + λ k p k) = min λ \geq 0 f (x (k) + λ p k)$ $f(x^{(k)} + \lambda_k p_k) = \min_{\lambda \ge 0} f(x^{(k)} + \lambda p_k)$
Let $x^{(k+1)} = x^{(k)} + \lambda_k p_k$ .
Calculate $B_{k+1}$ :
$B k + 1 = B k + y k y T k y T k δ k - B k δ k δ T k B k δ T k B k δ k$ $B_{k+1} = B_k + \frac{y_k y_k^T}{y_k^T \delta_k} - \frac{B_k \delta_k \delta_k^T B_k}{\delta_k^T B_k \delta_k}$
Set $k = k + 1$ , goto step (2).