@dongxi 2017-07-28T06:57:16.000000Z 字数 1287 阅读 1929

损失函数J(θ)(平方形式)

机器学习 CS229

概述

本篇文章是简单的从概率论角度解释一下，主要还是参考了Andrew Ng大佬公开课的笔记。

概率解释

一般来说，我们接触到的第一个损失函数就是 $J(\theta) = \frac{1}{2} \sum_{i = 1}^{m}(h_\theta(x^{(i)}) - y^{(i)})^2$ ，说实话，第一次看到这个的时候我根本无法理解这里的 $\frac{1}{2}$ 是什么，那时我认为这个损失函数就是最小的欧式距离之和而已，至于为什么不用其他的，平方形式有什么数学意义一概不知，后来进行了一定的学习以后算是对其有了初步的了解。
跟往常一样，我们还是引入一些数学知识，我们假设 $\epsilon \sim N(0, \sigma^2)$ 成立，也就是服从均值为0，方差为 $\sigma$ 的高斯分布，根据定义我们有：

$P(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma}exp \left( -\frac{(\epsilon^{(i)})^2}{2\sigma^2} \right)$
对于我们的问题（采用统计机器学习完成的任务数据量一定足够大，那么会满足中心极限定理，即趋向正态分布），则有：

$P(y^{(i)}|x^{(x)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp \left( -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \right)$
上述概率表示的是，在

、

$\theta、 x^{(i)}$ 的条件下

$y^{(i)}$ 取值的概率，我们可以尝试使用最大似然估计来求概率最大的条件：

$L(\theta) = \prod_{i = 1}^{m} P(y^{(i)}|x^{(x)};\theta) \\ = \prod_{i = 1}^{m} \frac{1}{\sqrt{2\pi}\sigma}exp \left( -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \right)$
依照最常规的处理方法，对等式左右两端取对数：

$l(\theta) = log L(\theta) = log\prod_{i = 1}^{m} P(y^{(i)}|x^{(x)};\theta) \\ = \sum_{i = 1}^{m} log\frac{1}{\sqrt{2\pi}\sigma}exp \left( -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \right) \\ = mlog\frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{\sigma^2}\frac{1}{2}\sum_{i = 1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2$
很显然，我们只需要让

$\frac{1}{2}\sum_{i = 1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2$ 取最小值即可。

扩展

关于损失函数的解释还有采用导数进行的，相关的内容可以参见线性回归损失函数为什么要用平方形式，等过两天有时间，可能会将其中的内容整合进来。

损失函数J(θ)(平方形式)

概述

概率解释

扩展

内容目录