@songying
2019-04-18T14:33:55.000000Z
字数 490
阅读 1047
deep-learning
超参数 | 建议范围 | 注意事项 |
---|---|---|
kernel_size | [7x7],[5x5],[3x3],[1x1], [7x1,1x7] |
超参数 | 建议范围 | 注意事项 |
---|---|---|
learning_rate | SGD: [1e-2, 1e-1] momentum: [1e-3, 1e-2] Adagrad: [1e-3, 1e-2] Adadelta: [1e-2, 1e-1] RMSprop: [1e-3, 1e-2] Adam: [1e-3, 1e-2] Adamax: [1e-3, 1e-2] Nadam: [1e-3, 1e-2] |
这些范围通常是指从头开始训练的情况。若是微调,初始学习率可在降低一到两个数量级 |
batch_size | [1,..., 1024] | 当批样本数量过大(大于6000)或者等于1时,需要注意学习策略或者BN的替代品。 |
dropout | [0, 0.5] | |
权重衰减系数 | [0, ..., 1e-4] |
超参数 | 建议范围 | 注意事项 |
---|---|---|
损失函数部分超参数 | 多个损失函数之间,损失值之间尽量相近,不建议超过或者低于两个数量级 | 这是指多个损失组合的情况,不一定完全正确。单个损失超参数需结合实际情况。 |