@songying 2018-11-04T13:09:15.000000Z 字数 1815 阅读 1543

训练集，开发集，测试集

deep-learning

设置开发集合测试集

5. 开发集，测试集定义

训练集：用于运行你的学习算法
开发集：用于调整参数，选择特征，以及对学习算法作出其它决定，有时也称为留出交叉验证集（hold-out cross validation set）
测试集：用于评估算法的性能，但不会据此改变学习算法或参数

开发集和测试集的使命就是引导你的团队对机器学习系统做出最重要的改变。因此我们需要：合理地选择开发集和测试集，使之能够代表将来实际数据的情况，并期望算法能够运行良好。

不要武断地认为测试集分布和训练集分布是一致的。尽可能地选择你最终期望算法能够正确处理的样本作为测试集，而不是随便选择一个你恰好拥有的训练集样本。

6. 开发集与测试集应该服从同一分布

开发集与测试集的分布不同可能会导致两你的团队所开发的系统可能在开发集上表现良好，却在测试集上表现不佳。

如果开发集与测试集分布相同，算法在开发集上表现良好，而在测试集上表现不佳，那么问题可以定位为：算法在开发集上过拟合了。
但如果开发集与测试集服从不同的分布，问题就多样了：1. 算法在开发集上过拟合了. 2. 测试集比开发集更难进行预测，尽管算法做得足够好了，却很难有进一步的提升空间。 3. 测试集不一定更难预测，但它与开发集性质并不相同（分布不同）。这种情况下，大量针对开发集性能的改进工作将会是徒劳的。

7. 开发集与测试集应该多大？

开发集的规模应该尽可能的大，至少要能够区分出你所尝试的不同算法之间的性能差异。通常来说，开发集的规模应该在 1,000 到 10,000 个样本数据之间

测试集的规模应该大到使你能够对整体系统的性能进行一个高度可信的评估。在总体数据量规模一般的情况下（100-10000），采用数据的30%作为测试集。在大数据时代，开发集与测试集的比例越来越低，开发集与测试集的规模并不是越大越好。

8. 使用单值评估指标进行优化

评测一个算法常见的指标有：准确率，查准率（Precision，精度)，查全率(Recall，召回率）

取平均值或者加权平均值是将多个指标合并为一个指标的最常用方法之一。

9. 优化指标和满意度指标

这是组合多个评估指标的另一种方法。满意度指标指的是，在这个指标上表现的足够好就可以了，到了一个阈值就没必要再优化。而优化指标指的是越好越好的重要指标。

如果要考虑N项不同的指标，你或许需要设置 N-1 个 “满意度” 指标，即先要求它们满足一定的值或范围，下一步才是定义一个 “优化” 指标。

10. 通过开发集和度量指标加速迭代

当建立一个机器学习系统时，三步走：

尝试一些关于系统构建的想法（idea）

使用代码实现想法。

根据实验（experiment）结果判断想法是否行得通。在此基础上学习总结，从而产生新的想法，并保持这一迭代过程。

11. 何时修改开发集、测试集和指标

通常在一周的时间内给出一个初始的开发集、测试集和指标，提出一个不太完美的方案并迅速执行，这比起花过多的时间去思考要好很多。
一周的时间要求并不适用于成熟的应用程序

12. 小结

被选择作为开发集和测试集的数据，应当与你未来计划获取并对其进行良好处理的数据有
着相同的分布，而不一定和训练集的数据分布一致。
开发集和测试集的分布应当尽可能一致。
为你的团队选择一个单值评估指标进行优化。
当需要考虑多项目标时，不妨将它们整合到一个表达式里（比如对多个误差指标取平均）
，或者设定满意度指标和优化指标。
机器学习是一个高度迭代的过程：在出现最终令人满意的方案之前，你可能要尝试很多想
法。
拥有开发集、测试集和单值评估指标可以帮助你快速评估一个算法，从而加速迭代进程。
当你要探索一个全新的应用时，尽可能在一周内建立你的开发集、测试集和评估指标；而
在已经相对成熟的应用上，可以考虑花费更长的时间来执行这些工作。
传统的 70% / 30% 训练集/测试集划分对于大规模数据并不适用，实际上，开发集和测试
集的比例会远低于 30%.
开发集的规模应当大到能够检测出算法精度的细微改变，但也不需要太大；测试集的规模
应该大到能够使你能对系统的最终性作出一个充分的估计。
当开发集和评估指标对于团队已经不能提供一个正确的导向时，尽快修改它们：(i) 如果算
法在开发集上过拟合，则需要获取更多的开发集数据。(ii) 如果开发集与测试集的数据分布
和实际数据分布不同，则需要获取新的开发集和测试集。 (iii) 如果评估指标无法对最重要
的任务目标进行度量，则需要修改评估指标。