@Vany
2016-01-27T14:37:34.000000Z
字数 1249
阅读 923
统计学习
ESL
笔记
Ch1 - Introduction
学习(Learning),只有人类才具有的特性,一种智能的体现
人工智能是人们一直以来梦寐以求追求的终极目标,但我认为在图灵机这种确定性模型上很难产生智能,因为所有指令都是人类主观编好的,如果有一个地方出错,后面可能全部都错了,因此其鲁棒性不强,但是提供了高精确性;而人脑,是高度模糊化的,处理不了高速的运算,但是能够提供联想、想象、创造力。这就是两者最大的差别,而我们除非造出能够自动生成程序的程序,否则很难。
从另一个视角,Learning from 'data'。程序、指令是精确的,不可能有模糊化的东西在这里面,但是从data的角度来看,我们仍然拥有机会。以神经网络为例,神经网络就是一种利用大量的数据,训练出来的一个模型,这个模型内部可能包含大量冗余,信息也是连续的(也就是说不会出现当内部一个参数变化后,整体程序不能运行的状况)。
Supervised Learning, 有 Label,做预测
UnSupervised Learning, 主要是发掘数据中的结构,例如聚类、流形学习
很多时候是作为Supervised Learning的preprocessor
下面将介绍一些书上列出的例子以及自己的想法。
垃圾邮件检测问题,Supervised-Learning,Classification Problm。
根据已知的一些Spam数据,我们知道了各种词语在Spam中和在普通Email中出现的频次,进而我们选出一些在两类中出现次数相差较大的词语来进行判断。
例如,在作者给的例子中,George(应该是邮箱主人的名字)是一个关键词,在Spam方面的数值为0,在Email方面的数值很大,这是因为Spam邮件不会包括你的个人信息,因此这是一个有力的判据来判断Email/Spam。
另外,作者还提到了一个问题,就是说当我们做Spam筛选时,一般要注意不能把有用的邮件放到Spam里,因此做算法时要考虑这一点,书后面会讲很多方法。
可以有空实现以下,
- [ ] Classification Problem
- [ ] Iris
plot the data, visualization is very important
选取feature, 做模型,
Feature是根据实际对象进行选取,而且不一定是一成不变的。例如,在Email Spam的例子中,如果有人学会了把个人信息(例如姓名)加入到邮件中,那么我们之前用名字是否出现在邮件中来判断spam的模型就完全不好使了。也就是说,我们的对象是变的,那么我们的feature也要重新选过。
大千世界,那么多feature,如何选择?
模型的可解释性其实有时候也非常重要,特别是在医疗领域