@lyc102
2017-04-10T08:49:40.000000Z
字数 5930
阅读 3428
machine_learning
预测输出与真实输出之间的差异称为误差(error)
我们希望得到泛化误差小的学习器,实际能做的是努力使经验误差最小化。为了在新样本上表现好,应该从训练样本中学习出所有潜在样本的“普遍规律”。
过拟合是机器学习面临的关键障碍,是无法彻底避免的,所能做的只是“缓解”。深层次的原因:问题本身是NP的,算法是P的。相信“NP P",则过拟合就不可避免。
模型选择(model selection)问题。理想方案:最小化泛化误差。但泛化误差无法直接获取。最小化训练误差又会导致过度拟合。
用“测试误差”,即模型在测试集上的误差,作为泛化误差的近似。测试集应该尽可能与训练集互斥。
对数据集 做适当处理,从中产生训练集 和测试集 。
.
训练和测试集的划分要尽可能保持数据分布的一致性,避免因数据划分引入额外的偏差。一种保留类别比例的采样:stratified sampling.
单次使用留出法得到的估计结果不够稳定可靠。一般采用若干次随机划分、重复实验取平均值。
常见做法:大约 的样本用于训练,剩余样本用于测试。
将 做一个个大小相似的partition, . 留下一个做测试集,其他作为训练集,从而得到 次训练和测试。划分本身还要随机重复 次,最终的评估结果是这 次 折交叉验证结果的均值。
特殊例子:, 称为留一法(LOO). 当 很大时工作量太大。
自助采样(bootstrap sampling):sampling with replacement.
有一部分样本会重复出现,有一部分不会出现。样本在 次采样中始终不被采到的概率是:
自助法在数据集较小、难以有效划分时有用。但自助法改变了初始数据集的分布,会引入估计偏差。
参数空间太大,调参的工作量很大。在不少应用中,参数调得好不好往往对最终模型性能有关键性影响。
如果误差函数对参数是光滑的,可以用优化算法寻找最优参数
模型评估与选择中用于评估测试的数据集称为 validation set,和测试集不同,属于训练数据中的一部分。
回归任务最常用的是“均方误差”(mean squared error)
对于数据分布 和 p.d.f. , 错误率
以信息检索为例:
查准率和查全率是一对矛盾的度量。P-R曲线。若一个学习器的曲线被另一个完全包住,则后者更优,如果交叉,则难以断言。比较合理的依据是P-R曲线所包含的面积,越大越好。
平衡点(Break-Event Point)是两者相等的点。可以根据平衡点的大小来度量。
F1是基于查准率和查全率的调和平均:
多次训练/测试的结果,可以先算查准率和查全率,再对两者做平均,或者先对数据做平均,再算查准率和查全率。
机器学习中性能比较比想象的要复杂。原因有三:
1. 希望比较泛化性能,但获得的度量是测试集上的,两者有差别;
2. 测试集上的性能和测试集的选取有关;
3. 算法的随机性。
统计假设检验(hypothesis test). 若在测试集上学习器A比B好,则A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。
假设:
把一个确定性的不等式 转化为以一定概率成立的 statement, e.g. or .
考虑分类问题。样本总数为 ,则误分类个数的上届是 . Let be the random variable representing the number of correct classification examples. Then . Given a small number , we consider the inequality
draw a picture here.
Then we compare the test error with ,
if , we can conclude that:
能以 的置信度认为,。
if , we can conclude that:
在 的显著度下,.
Student t-distribution and t-test
From Wiki. Let be i.i.d random variables with mean and variance . Let
The t-distribution is symmetric and bell-shaped, like the normal distribution, but has heavier tails, meaning that it is more prone to producing values that fall far from its mean. Student's t-distribution with zero mean and degree has the probability density function given by
figure here
应用到交叉检验。假设有k个测试错误率, we can form a random variable
Given an , we find an interval , 称为置信区间, such that
Bias-variance decomposition
and thus are random variables. So is . and are numbers.
The bias-variance decomposition can be easily proved by using the orthogonality and .
bias-variance dilemma. 偏差与方差是有冲突的。初期是偏差主导,后期是方差主导。