[关闭]
@pluto-the-lost 2019-07-11T09:09:15.000000Z 字数 579 阅读 47

Tabular-based RL

reinforcement-learning machine-learning


当一个强化学习问题里的状态数和动作数都相对比较小,状态-动作关系就可以写成一个表 (table, array or tabular),表的数值对应的是在某个状态&动作下的价值函数 (value function)。这种情况下通常我们可以找到精确解,即可以精确得到一个最优的价值,及其对应的最优策略。与之相对的,如果状态或动作空间太大,就只能用求出估计解(approximate solutions),可能是局部最优,或者最终的价值只是一个估计值。复杂的问题更广泛一些,但是这个页面我们先看看能精确求解的简单问题。

文章大概分为三部分

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注