[关闭]
@Vany 2016-01-27T14:37:34.000000Z 字数 1249 阅读 923

ESL学习笔记-Ch1

统计学习 ESL 笔记


Ch1 - Introduction

Learning

你所认为的学习(Learning)

学习(Learning),只有人类才具有的特性,一种智能的体现

人工智能是人们一直以来梦寐以求追求的终极目标,但我认为在图灵机这种确定性模型上很难产生智能,因为所有指令都是人类主观编好的,如果有一个地方出错,后面可能全部都错了,因此其鲁棒性不强,但是提供了高精确性;而人脑,是高度模糊化的,处理不了高速的运算,但是能够提供联想、想象、创造力。这就是两者最大的差别,而我们除非造出能够自动生成程序的程序,否则很难。

从另一个视角,Learning from 'data'。程序、指令是精确的,不可能有模糊化的东西在这里面,但是从data的角度来看,我们仍然拥有机会。以神经网络为例,神经网络就是一种利用大量的数据,训练出来的一个模型,这个模型内部可能包含大量冗余,信息也是连续的(也就是说不会出现当内部一个参数变化后,整体程序不能运行的状况)。

Supervised & Unsupervised Learning

Supervised Learning, 有 Label,做预测
UnSupervised Learning, 主要是发掘数据中的结构,例如聚类、流形学习
很多时候是作为Supervised Learning的preprocessor


Example from the book

下面将介绍一些书上列出的例子以及自己的想法。

Email Spam

垃圾邮件检测问题,Supervised-Learning,Classification Problm。

根据已知的一些Spam数据,我们知道了各种词语在Spam中和在普通Email中出现的频次,进而我们选出一些在两类中出现次数相差较大的词语来进行判断。

例如,在作者给的例子中,George(应该是邮箱主人的名字)是一个关键词,在Spam方面的数值为0,在Email方面的数值很大,这是因为Spam邮件不会包括你的个人信息,因此这是一个有力的判据来判断Email/Spam。

另外,作者还提到了一个问题,就是说当我们做Spam筛选时,一般要注意不能把有用的邮件放到Spam里,因此做算法时要考虑这一点,书后面会讲很多方法。

Handwritten digit Recognition

可以有空实现以下,
- [ ] Classification Problem
- [ ] Iris


Deal with Data

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注