@Pigmon
2017-10-18T20:20:07.000000Z
字数 1284
阅读 1013
实习
清华大学 张长水 教授
演讲实录页面
内含PPT下载链接
- 训练时间
- Predict 时间
- 内存占用
- 耗电量
手机平台,车辆
- 超参数
- 神经网络结构 (也是超参数?)
假设某超参数的先验服从某种分布,再确定该分布的参数(如均值,方差等)
建立超参数与损失函数之间的关系函数,然后通过梯度下降求最优解。
(只能针对可导的情况。)
(除学习率以外的超参数,如何推导其与损失函数的函数关系?)
先为某个超参数设定一组可选值,然后穷举这组可选值所有的组合,再找出这些组合中的最优解。
计算量大。
耗时,一旦环境发生变化要重来。
对权重矩阵的秩的值做一个约束,通过去掉小的权重,将权重矩阵低秩化,进而优化网络结构。
主要应用在全连接层。
将浮点型的参数量化成整形。
准确率降低,速度变快。可应用在手机平台(追求低耗电,容错率高)
对于在集合上的函数, 如果对于的任意子集,存在 ,则称函数为子模函数。
参考演讲实录中的传感器覆盖范围的例子。
定义在正的线性组合空间是封闭的。
为集合上的一组子模函数,,那么: 也是子模函数。
对于在集合上的函数, 如果为子模函数,则为超模函数。
PPT 21页对应内容。应用前面提到的“小集合加上一个元素带来的改进更大,而在大的集合上增加同样的元素以后,它带来的影响会比较小一些。”这个性质,后面应该会有更详细的内容。
PPT 21页为止的内容
2017.10.18 END
J. Snoek, H. Larochelle. Practical Bayesian Optimization of Machine Learning Algorithms. 2012.
J.S.Bergstra. NIPS 2011. ICML 2013.
F.Hutter. LION. 2011.
A.G.Baudom. Computer Science. 2014.
D.Maclaurin. ICML 2015.
BergstraJ, BengioY. Random search for hyper-parameter optimization. The Journal of Machine Learning Research. 2012. 13(1):281–305.
A. Krause, C. Guestrin. Submodularity Tutorial. http://www.select.cs.cmu.edu/tutorials/icml08submodularity.html. Carnegie Mellon University. 2008.