@songying
2019-03-23T22:35:28.000000Z
字数 855
阅读 1585
deep-learning
样本不均衡指的是分类任务中不同类别的训练样例数目差别很大的情况
扩大数据集
增加包含小类样本数据的数据,更多的数据能得到更多的分布信息。
对大类数据欠采样: 减少大类数据样本个数,使与小样本个数接近。
对小类数据过采样:对小类的数据样本进行采样来增加小类的数据样本个数。
使用新评价指标
如果当前评价指标不适用,则应寻找其他具有说服力的评价指标。比如准确度这个评价指标在类别不均衡的分类任务中并不适用,甚至进行误导。因此在类别不均衡分类任务中,需要使用更有说服力的评价指标来对分类器进行评价。
选择新算法
不同的算法适用于不同的任务与数据,应该使用不同的算法进行比较。
数据代价加权
例如当分类任务是识别小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值,从而使得分类器将重点集中在小类样本身上。
转化问题思考角度
例如在分类问题时,把小类的样本作为异常点,将问题转化为异常点检测或变化趋势检测问题。 异常点检测即是对那些罕见事件进行识别。变化趋势检测区别于异常点检测在于其通过检测不寻常的变化趋势来识别。
将问题细化分析
对问题进行分析与挖掘,将问题划分成多个更小的问题,看这些小问题是否更容易解决。