[关闭]
@a335031 2014-09-13T16:16:31.000000Z 字数 1959 阅读 2875

斯坦福-机器学习

斯坦福 机器学习


第一讲

机器自己和自己下棋,从中不断学习成长,最终战胜创造该程序的作者。

无监督聚类算法实现2D到3D的转换。
从合成的声音中分开。

第二讲

Today:

我们称学习问题是一个回归问题,如果目标变量是连续的。相对地,我们称一个学习问题是分类问题,如果目标变量是离散的。
在学习算法中,我们称输入为特征,输出为目标。
通常我们会对要处理问题做一些假设(hypothesis)。例如,我们假设问题是线性的:

hθ(x)=θ0+i=1nθixi

其中h被称为假设。
另外,如果设x0=1,则公式可以写的更紧凑一些:
hθ(x)=i=0nθixi=θTx

在线性回归中,学习指的就是寻找最优的参数,其中我们使用最小二乘来刻画最优性,即:
J(θ)=12j=1m(hθ(x(j))y(j))2θ~=argθminJ(θ)

递归下降算法

批(batch)递归下降算法:

θ(k+1)=θ(k)αJ(θ(k))θ(k+1)i=θ(k)iαθiJ(θ(k))θiJ(θ)=j=1m(hθ(x(j))y(j))x(j)i

其中α被称为学习速度。
该算法能够保证收敛,因此在数据量较小时表现很好。

随机(stochastic)递归下降算法:
很容易想到,重新安排计算的顺序,来简化实际编码:

θ(k+1)i=θ(k)iα(hθ(k)(x(k))y(k))x(k)ix(k)x(((k1)%m)+1)y(k)y(((k1)%m)+1)

注意上标的变化,该算法不是简单地重排了批方法的计算顺序。另外,还有一点值得注意,该方法并不会收敛,而是在最小值附近徘徊。在大数据量的学习中,该方法很有效。

解析解

XTXθ=XTy
简化求导运算的方法:
trABC=trCAB=trBCA
AtrAB=BT
AtrABATC=CAB+CTABT

符号定义

x(i)j表示第i个样本的第j个特征。

第三讲

局部加权线性回归中的局部体现在其大权值在局部集中,例如:

J(θ)=12i=1mwi(hθ(xi)yi)2wi=exp((xix)22τ2)

其中τ被称为带宽(bandwidth)参数。
局部加权线性回归算法的无参数体现在你不必考虑要提取多少特征。在线性回归中,太少的特征会造成欠拟合,而过多的特征则会造成过拟合。之所以会产生这些麻烦是因为我们对于要学习的内容并不了解,即甚至不知道它有多少特征,如果我们能确定将要学习的内容的所有特征,那么我们就不必使用局部回归了。

我们为什么要选择最小二乘作为最优性的度量呢?有很多假设可以使得最小二乘变得有意义。需要指出的是,有些假设并不一致。
我们希望J(θ)与似然函数相似。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注