@zsh-o
2019-04-29T08:18:40.000000Z
字数 594
阅读 1090
脑洞
Bellman Equations
【Good】Q-Learning / DQN
【Interesting】Policy Gradient
【Wondful】Actor-Critic
【Exciting】DDPG
【Amazing】TRPO / PPO
【GOD! Imposible!!!】
从感觉很有意思【Q-Leaning/DQN】,到感觉可以写篇博客【Actor-Critic】,最后直接被劝退满篇每个单词都认识但就是不知道在说啥【TRPO/PPO】
其实理论部分我从14年的《Deterministic Policy Gradient Algorithms》已经看不懂了。。。
图片来自OpenAI Spinning Up,看到这个图我决定放弃了,我的强化学习之旅就这样止步于第一步了,溜了溜了,告辞~
Understanding RL: The Bellman Equations
OpenAI Spinning Up
Medium: [Jonathan Hui] Deep Reinforcement Learning Series
Medium: [Jonathan Hui] RL — Policy Gradient Explained