@zsh-o 2019-04-29T00:18:40.000000Z 字数 594 阅读 1541

劝退门 - RL

脑洞

学强化学习的心路里程

Bellman Equations【Good】 $\rightarrow$ Q-Learning / DQN【Interesting】 $\rightarrow$ Policy Gradient【Wondful】 $\rightarrow$ Actor-Critic【Exciting】 $\rightarrow$ DDPG【Amazing】 $\rightarrow$ TRPO / PPO【GOD! Imposible!!!】

从感觉很有意思【Q-Leaning/DQN】，到感觉可以写篇博客【Actor-Critic】，最后直接被劝退满篇每个单词都认识但就是不知道在说啥【TRPO/PPO】
其实理论部分我从14年的《Deterministic Policy Gradient Algorithms》已经看不懂了。。。

image.png-42.4kB
图片来自OpenAI Spinning Up，看到这个图我决定放弃了，我的强化学习之旅就这样止步于第一步了，溜了溜了，告辞～

$\Huge{珍惜头发，远离算法～～}$

Reference

Understanding RL: The Bellman Equations
OpenAI Spinning Up
Medium: [Jonathan Hui] Deep Reinforcement Learning Series
Medium: [Jonathan Hui] RL — Policy Gradient Explained

劝退门 - RL

学强化学习的心路里程

Reference

内容目录

选择主题