@BruceWang 2018-02-07T14:18:21.000000Z 字数 2525 阅读 1604

CSDN价值两万的AI课程--week2 线性模型 Logistic && SVM

CSDN价值两万的AI课程

Pima Indians Diabetes Data Set（皮马印第安人糖尿病数据集）Logistic and SVM

相对于上周的作业，其实此次数据特征已经很少了，该数据集有些属性的缺失值也比较少，因此本任务的任务主要是为了熟悉LR和SVM分类器的使用，但是任何机器学习都逃不掉特征工程、再高阶一点就是：数据清洗（按理说这项应该是在特征工程之前的）

1. 特征说明：

1) 字段说明

Pregnancies：怀孕次数
Glucose：口服葡萄糖耐受试验中，2 小时的血浆葡萄糖浓度。
BloodPressure：舒张压（mm Hg）
SkinThickness：三头肌皮肤褶层厚度（mm）
Insulin：2 小时血清胰岛素含量（μU/ ml）
BMI：体重指数（体重，kg /（身高，m）^ 2）

2) DiabetesPedigreeFunction：糖尿病家族史

3) Age：年龄（岁）

Outcome：输出变了/类别标签（0 或 1，出现糖尿病为 1, 否则为 0）

2) 数据说明
一共有 768 个样本，每个样本有 8 个输入变量和 1 个输出变量，缺失值通常用零值编码。

2. 任务目的和要求

任务目的
根据皮马印第安人糖尿病数据集中的特征使用LR和SVM两大分类器预测标签0/1（是否出现糖尿病）

看了数据集和问题之后就会发现，其实很简答，就是给你1-6的特征让你给这个数据贴标签，有糖尿病么？
说不定可以间接反映这个人平时是不是一个甜食主义者呢？哈哈，开个小玩笑。

相对于上周的作业，其实此次数据特征已经很少了，该数据集有些属性的缺失值也比较少，因此本任务的任务主要是为了熟悉LR和SVM分类器的使用。

但是任何机器学习都逃不掉特征工程、再复杂一点就是数据挖掘、数据清洗（按理说这两项应该是在特征工程之前的）

任务要求及评分标准：
需要提交代码文件，并给出必要的结果解释

1) 训练数据和测试数据分割（随机选择 20%的数据作为测试集）；（ 10 分）
2) 适当的特征工程（及数据探索）;（10 分）
3) Logistic 回归，并选择最佳的正则函数（L1/L2）及正则参数；（30 分）
4) 线性 SVM，并选择最佳正则参数，比较与 Logistic 回归的性能，简单说明原因。（20 分）
5) RBF 核的 SVM，并选择最佳的超参数（正则参数、RBF 核函数宽度）；（ 30 分）

总体思路如下：

准备数据集：加载库文件和数据集，准备训练模型。
训练模型：在数据集上训练标准机器学习模型，准备进行评估。
比较模型：使用不同方法进行对比，得到最优模型。

1. 准备数据集

（这个是最复杂的也是我最不喜欢的）

数据清洗————特征工程

多说一点关于创建一些新特征 :
1. 简化已有特征
2. 联合已有特征
3. 现有重要特征（top 10）的多项式
4. 合并类别特征

那么如何检测你的加了这个特征之后对模型是好，还是坏呢?

一、通过新增加一个或几个feature，如果cv分数上去了，就增加这个feature，如果cv分数没有上去，就舍弃这个feature
弊端：如果你舍弃的两个feature联合之后才有作用呢？那岂不是丢失不少东西？

二、数值型特征加减乘除、这样就可以挖掘出新特征咯！具体问题具体对待。

三、对于其他特征可以聚类、PCA降维等，后续会讲到相关处理方法。

还有么？有！这文章就是为你而生的、 Let's do do do do ... it!

四、大多数类别型特征的取值并不是很多，一些特征的取值有序关系，可以将其变换为有序数字
其他的类别型特征可以采用独热编码（One hot encoding）/哑编码

五、离群点检测----去除“离群特征”----接下来就是比较诡异的数据：零值填补----极值均化。
在去除离群特征时候需要注意的是，对于某些领域还是不能随便去除的，尤其是医学领域。

个人倾向于不做任何处理，也就是说不删除任何数据，因为本身数据已经不够多了，再加上这点数据根本包含不了这么多的样本可能性。

六、缺失值处理
很明显这里是几乎没有缺失值的，因为原数据已经处理过的，你下载下来使用的。

对训练集的其他数值型特征进行空缺值填补（中值填补），返回填补后的dataframe，以及每列的中值，用于填补测试集的空缺值

七、数值型特征还要进行数据标准化（个人认为小量数据fit_transform足够了）

2. 训练模型

两种方法，逻辑斯蒂回归（logistic regression）和SVM。

建议大家：
- 逻辑斯蒂回归+正则化和不加正则化
- SVM+正则化和不加正则化
尝试看看加了正则化之后和不加正则化有什么区别，这些大家都可以探索的。

Logistic Regression
生成学习器实例 LR = LogisticRegression（）, 然后强调的一点就是要记得交叉验证，哪个组合好，第一是多尝试，第二是可以看看一些基本规则了什么的，这里可以看看知乎，搜搜quora，都会找到合适的答案。
尝试使用多种正则化，以及对应的正则化参数的大小，因为数据量小，一下就跑出来了，L1、L2最基本的，还有其他的可以看看统计学习方法。
SVM
首先建议看完老师的教程，然后看看李航统计学习方法，实践完这个看看斯坦福大学的CS231n课程，真心是把大家当傻子教呢，爽死了。

相关步骤和逻辑斯蒂回归差不多哈，

RBF核SVM正则参数调优

RBF核是SVM最常用的核函数。
RBF核SVM 的需要调整正则超参数包括 $\lambda$ （正则系数，一般在log域（取log后的值）均匀设置候选参数）和核函数的宽度 $\gamma$
$\gamma$ 越小，决策边界越平滑；

3. 比较模型

个人觉得对于大型数据这两个模型都没有现在的深度神经网络好用，哈哈！
如果非要在这俩里面选择一个，我选择logistic，为什么？嗯，因为简单！

当然这节课你会发现数据已经是不错的了，真正的挑战是遇到那种比如说爬虫爬取的数据，那家伙就很难办了，你想死的心都有了，好奇? 请私下联系我，联系方式自己摸索呗。

其他说明

可以返回去使用随机数据集跑一边所有过程。
如果你用pandas直接读取的数据是不能直接用的，需要转换成数值，说不定这还真是大家做作业遇到的坎呢，当然多数大神请忽略这里。