[关闭]
@songying 2019-04-18T14:33:55.000000Z 字数 490 阅读 1047

深度学习:超参数推荐范围

deep-learning


1. 网络参数

1. 卷积神经网络

超参数 建议范围 注意事项
kernel_size [7x7],[5x5],[3x3],[1x1], [7x1,1x7]

2. 优化参数

超参数 建议范围 注意事项
learning_rate SGD: [1e-2, 1e-1]
momentum: [1e-3, 1e-2]
Adagrad: [1e-3, 1e-2]
Adadelta: [1e-2, 1e-1]
RMSprop: [1e-3, 1e-2]
Adam: [1e-3, 1e-2]
Adamax: [1e-3, 1e-2]
Nadam: [1e-3, 1e-2]
这些范围通常是指从头开始训练的情况。若是微调,初始学习率可在降低一到两个数量级
batch_size [1,..., 1024] 当批样本数量过大(大于6000)或者等于1时,需要注意学习策略或者BN的替代品。
dropout [0, 0.5]
权重衰减系数 [0, ..., 1e-4]
超参数 建议范围 注意事项
损失函数部分超参数 多个损失函数之间,损失值之间尽量相近,不建议超过或者低于两个数量级 这是指多个损失组合的情况,不一定完全正确。单个损失超参数需结合实际情况。
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注