@zqbinggong
2018-05-27T13:26:22.000000Z
字数 541
阅读 1003
Deep RL
《tensorflow实战》
概要
- model-based RL: 在强化学习中,可以建立额外的model对环境状态的变化进行预测;但是预测大量且复杂的环境信息非常困难
- model-free RL: 直接对策略或者Action的期望进行预测,因此计算效率非常高;通常没办法给出良好的model时,可以供给更多的样本geiRL以弥补没有model预测环境状态的问题
- 强化学习的研究主要受制于两个因素: (GYM可以很好地解决这两个问题)
- 缺乏高质量的benchmark
- 没有一个通用的环境标准,因而个模型很难横向比较
策略网络
- 策略网络: 即建立一个神神经网络模型,可以通过观察环境状态,直接预测出目前最应该执行的策略,执行这个策略可以获得最大的期望收益(包括现在和未来的reward)
- policy-based相比于value-based具有更好的收敛性,通常可以保证收敛到局部最优,且不会发散),同时对高维或者连续值的action非常高效(训练和输出结果都更高效),同时能学习出带有随机性的策略(随机性是指这里学到是采用各个Action的概率)
- GYM, 提供一个方便的强化学习任务环境,如文字游戏,棋牌游戏,视频图像游戏等;
- environment 即我们的任务或者问题
- agent 编写的策略或算法
估值网络