[关闭]
@xuemingdeng 2017-12-11T18:32:59.000000Z 字数 1866 阅读 675

深度学习是可预测的

我们的数字世界和数据的增长速度比过去任何时候都快,甚至快过我们的计算能力增长。深度学习帮助我们快速理解巨大的数据,并为用户提供最好的基于人工智能的产品和体验。

为了不断改进用户体验,我们的挑战便是快速改进现有和新兴应用领域的深度学习模型。对模型框架的探求可以创造出重要的改进,但是这种探求常常依赖于运气;想要获得突破通常需要对建模问题进行复杂的重构,并且可能需要几个星期或几个月的测试。

如果我们能够以更可靠的方式来补充对模型框架的探求,以提高模型的准确性,那就太好了。

现在我们发布了一项大规模的研究,这项研究表明随着我们的训练数据量的增长,深度学习的准确性也会得到提高。经测试,只要我们有足够的数据和计算能力来训练大型模型,我们就能发现可预测的准确性。这些结果包含了四个应用领域里被广泛使用的最先进的模型:机器翻译、语言建模、图像分类和语音识别。

更具体地说,我们的研究结果表明,作为训练数据集大小的幂律,泛化误差的测量方法可以作为模型预测新样本的一个有效方法。之前的理论工作也表明,误差精度应该是幂律。然而,这些工作通常预示着一个“陡峭”的学习曲线——幂律指数应该是-0.5——这表示模型应该学得很快。我们的经验收集学习曲线显示的是在[-0.35,-0.07]范围内小幅度的指数:实际的模型在学习实际数据时将比理论上慢的多。

作为一个示例,请考虑下面的单词语言建模的结果(注意日志记录范围!):
此处输入图片的描述
单词语言模型显示,随着训练集大小的增长,可预测的幂律验证错误随之扩展。

对于单词语言建模,我们在十亿级数据集的子集上测试了LSTM和RHN模型。上面的图表显示了对于不同大小的训练集来说每个模型框架的验证误差(对于泛化错误的近似值)所需的最适合的模型大小。这些学习曲线是每个可预测的幂律,令人惊讶的是他们有相同的幂律指数。在较大的训练集上,模型往往远离曲线,但我们发现优化超参数往往可以缩小差距。

模型误差从“最佳猜测”开始,然后沿着幂律曲线下降到“不可约误差”。

更通俗点讲,我们的经验结果表明学习曲线呈现出如下形式(又是对数-对数尺度!)
此处输入图片的描述
用于实际应用的幂律学习曲线草图

上图所示的是一个幂律学习曲线示意图,它将实际应用程序的学习曲线分为若干阶段。曲线从小数据区域开始,模型很难从少量的训练样本中学习。这种情况下模型只执行“最佳”或“随机”猜测。学习曲线的中间部分是幂律区域,每一个新的训练样本都提供了一些信息,帮助模型改进对先前看不见的样本的预测。幂律指数定义了这条曲线的陡度(对数-对数尺度下的斜率)。指数代表了理解数据的难度。最后,对于大多数真实世界的应用程序来说,可能存在一个模型无法改进的非零低边界错误(我们在现实测试中还没有达到不可约的错误,但是我们已经证实它在测试过程中确实存在)。这个不可约的错误是由真实世界数据中固有的因素组合而成的。

在我们测试的应用程序中,我们发现:

我们希望这些发现能够在深度学习领域激起更广泛的讨论以便能够加速深度学习的进程。对于深度学习的研究者来说,学习曲线可以辅助模型调试和预测精确性的标的以便改进模型框架。在理论上预测或解释学习曲线指数是有机会的。此外,可预测的学习曲线可以指导关于是否或如何增加数据集、系统设计和扩展的决策,它们强调了持续计算扩展的重要性。

更多的细节和数据可以在我们的论文中找到:《经验表明深度学习是可预测的

作者:Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory Diamos, Heewoo Jun, Hassan Kianinejad, Md. Mostofa Ali Patwary, Yang Yang, Yanqi Zhou, Yi Li

如果没有百度硅谷人工智能实验室(SVAIL)系统团队的重大努力,这项工作是不可能实现的。除了共同作者之外,我们特别感谢机器学习研究小组的成员,Rewon Child, Jiaji Huang, Sercan Arik, and Anuroop Sriram,他们提供了宝贵的反馈意见。我们也感谢那些参与讨论的人: Awni Hannun, Andrew Ng, Ilya Sutskever, Ian Goodfellow, Pieter Abbeel。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注