@FE40536
2019-06-22T19:37:29.000000Z
字数 936
阅读 850
机器学习
算法
回归问题(regression problem):预测一个连续值输出
第一个监督学习例子,研究房屋占地面积和价格的关系,假设有个房子占地750英尺,那么机器学习算法可能会拟合一条直线,从而判断该房子大约可以卖出15万美元的价格;或者拟合出二次曲线,这是能卖出20万美元。
所谓监督学习,是指我们给机器一些已知的正确对应关系,让机器自己预测出一些未知的关系。这个这也被叫做回归问题,我们想要预测连续的数值输出。
分类问题(classification problem):预测离散值输出
这是另外一个监督学习的例子:根据乳腺癌肿瘤大小来评判是恶性还是良性。
横坐标是肿瘤的大小,纵坐标是恶性还是良性,从图内的第一幅坐标看,标记都用X,来显示是恶性还是良性,这可以看作是一个分类问题,根据肿瘤大小分类(可以分成更多类)。
再看第二幅坐标,这个坐标只用了横轴,但是用了两种表示符号来表示是恶性还是良性。
这是只根据一个特征(feature)来判断肿瘤恶性良性,我们还可以增加特征来对肿瘤进行判断
我们先引入年龄(age)这个新的特征,再绘制出图像,机器学习算法就会将恶性和良性分成两个区域,从而结合一个人的年龄和肿瘤大小来判断她可能位于图像的哪一部分。
如果再引入肿瘤厚度,细胞大小均匀性,细胞形状均匀性,就有了五个特征。事实上,特征可以有无穷多个,有支持向量机帮助我们解决这个问题(未学习)。
无监督学习用聚类算法将一些数据分成两个簇,事实上很多地方用到了聚类算法:
像这个google新闻,它将从网络上收集到的新闻用聚类算法分成许多的专题,每个专题里有很多URL,点开不同的URL会给出不同的结果。
聚类算法再基因组中的应用,聚类算法将基因分成了不同的段,在事先我们并不知道应该分成多少段,但是聚类算法子东地帮我们分好了段。
一些其他应用