斯坦福-机器学习
斯坦福
机器学习
第一讲
机器自己和自己下棋,从中不断学习成长,最终战胜创造该程序的作者。
无监督聚类算法实现2D到3D的转换。
从合成的声音中分开。
第二讲
Today:
- Linear regression
- Gradient descent
- Normal equations
我们称学习问题是一个回归问题,如果目标变量是连续的。相对地,我们称一个学习问题是分类问题,如果目标变量是离散的。
在学习算法中,我们称输入为特征,输出为目标。
通常我们会对要处理问题做一些假设(hypothesis)。例如,我们假设问题是线性的:
hθ(x)=θ0+∑i=1nθixi
其中
h被称为假设。
另外,如果设
x0=1,则公式可以写的更紧凑一些:
hθ(x)=∑i=0nθixi=θTx
在线性回归中,学习指的就是寻找最优的参数,其中我们使用最小二乘来刻画最优性,即:
J(θ)=12∑j=1m(hθ(x(j))−y(j))2θ~=argθminJ(θ)
递归下降算法
批(batch)递归下降算法:
θ(k+1)=θ(k)−α▽J(θ(k))θ(k+1)i=θ(k)i−α∂∂θiJ(θ(k))∂∂θiJ(θ)=∑j=1m(hθ(x(j))−y(j))x(j)i
其中
α被称为学习速度。
该算法能够保证收敛,因此在数据量较小时表现很好。
随机(stochastic)递归下降算法:
很容易想到,重新安排计算的顺序,来简化实际编码:
θ(k+1)i=θ(k)i−α(hθ(k)(x(k))−y(k))x(k)ix(k)≡x(((k−1)%m)+1)y(k)≡y(((k−1)%m)+1)
注意上标的变化,该算法不是简单地重排了批方法的计算顺序。另外,还有一点值得注意,该方法并不会收敛,而是在最小值附近徘徊。在大数据量的学习中,该方法很有效。
解析解
XTXθ=XTy
简化求导运算的方法:
trABC=trCAB=trBCA
▽AtrAB=BT
▽AtrABATC=CAB+CTABT
符号定义
x(i)j表示第i个样本的第j个特征。
第三讲
局部加权线性回归中的局部体现在其大权值在局部集中,例如:
J(θ)=12∑i=1mwi(hθ(xi)−yi)2wi=exp(−(xi−x)22τ2)
其中
τ被称为带宽(bandwidth)参数。
局部加权线性回归算法的无参数体现在你不必考虑要提取多少特征。在线性回归中,太少的特征会造成欠拟合,而过多的特征则会造成过拟合。之所以会产生这些麻烦是因为我们对于要学习的内容并不了解,即甚至不知道它有多少特征,如果我们能确定将要学习的内容的所有特征,那么我们就不必使用局部回归了。
我们为什么要选择最小二乘作为最优性的度量呢?有很多假设可以使得最小二乘变得有意义。需要指出的是,有些假设并不一致。
我们希望J(θ)与似然函数相似。