[关闭]
@danren-aa120 2020-10-13T06:26:59.000000Z 字数 1475 阅读 177

机器学习——入门——工具、数据、学习任务分类、算法分类、学习方式和学习对象等

机器学习


  人工智能领域使用的搜索策略或方法是学习机器学习之前应了解的,其实梯度下降法本身也是种搜索算法。人工智能领域先以搜索策略为基础,接着出现符号主义,即通过推导逻辑来形成智能的算法,现在以机器学习最为流行,深度学习属于机器学习。
  2017年的相关调查显示,使用排名前四的机器学习算法分别是:逻辑回归、决策树、随机森林、神经网络。

1 工具:

  语言,Python 3;框架:SciKit-learn(内含有波士顿房价、数字等数据集);其它,numpy(处理矩阵),matplotlib(绘图);编程环境IDE:Jupyter Notebook。这些只要下载Anaconda即全包括了。此外,Pycharm也使用,以进行一些算法的底层实现。
  机器学习对数学基础的要求:高等数学、线性代数、概率论等,如其中的可导、可微、连续等的概念,矩阵的计算等。不要害怕,只要及格水平即可,但要养成即用即查即学习的习惯。

2 数据

  数据和算法是机器学习中的两大重要组成部分。
1555155416(1).png-113.3kB
  数据整体构成了数据集(Dataset)。以上表所示内容为例,每行数据成为一个样本。第个样本的最后一项为其标记(Label),记作,前面的数据为其特征向量,记作;该样本的每一个特征值记作。全部样本的标记构成向量,全部样本的特征向量构成特征矩阵,即:


  矩阵中为什么加转置?是因为一般向量用列向量表示,所示加转置成为行向量。
  样本的多维特征值将对应的点映射到特征空间(feature space)。特征可以很具体,有其语义,也可以很抽象。如在图像中,每一个像素点为一个特征。28*28的图像拥有784个特征。如果是彩色图,特征更多。

3 任务分类

分类任务
   二分类任务:如判断垃圾邮件、肿瘤等;
  多分类任务:如识别数字,风险评级等;它和二分类一般都是在同一语义(类别下)的分类。
  多标签分类任务:不同语义方面的分类。
回归任务
  最终结果是一个连续的数值,如预测房屋价格、学生成绩等。
分类和回归问题属于机器学习中的监督学习算法解决的问题。

4 算法分类

  分为监督学习算法、无监督学习算法(K-means聚类算法、PCA特征压缩算法等)、半监督学习算法和增强学习(强化学习)算法。其中,监督学习涉及的相关算法很常用,一般用来分类和回归;无监督算法一般对数据进行降维处理,方便可视化,也可对样本进行异常检测。通常,使用无监督算法(如PCA)对数据做处理,之后使用监督算法对模型进行训练和预测。机器学习算法的本质是通过训练获得模型函数,以预测得出输出结果。

5 学习方式

  批量学习:提前将大量样本一齐输入,如批量梯度下降法。在生产环境中的新数据不用了优化已有的模型,但此种方式不适应环境的变化。
  在线学习:可及时反映新的环境变化,但新的数据有可能带来不好的变化。

6 学习对象

  参数学习:如就是参数。一旦学习到了参数,就不需要原有的数据集。
  非参数学习:不对模型进行过多假设,一般很少人为设置参数。

7 算法的选择

  已推导出任意两个机器学习算法,它们的期望性能(不同应用下的性能平均值)是相同的。但具体到某个特定应用,算法之间的性能存在差异,所以解决一个具体问题很有必要尝试多种算法,通过对比选择最佳算法。另外,“简单的就是好的”,不要刻意追求复杂的算法。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注