[关闭]
@lancelot-vim 2016-06-07T13:56:46.000000Z 字数 2052 阅读 2099

马尔可夫决策过程

强化学习原理


马尔科夫决策过程

马尔可夫决策过程是一个离散时间的随机过程,有六元组组成,六元组中:
1. 有限维的环境状态空间
2. 是有限维的动作空间,为初始状态的概率分布,如果初始状态的确定的,在该初始状态下的概率为1,当初始状态是以相等的概率从所有状态中选择时,可以忽略。
3. 为状态转移概率,表示在状态下选择动作后使环境被转移到的概率
4. 为学习系统从状态执行动作转移到得到的立即回报
5. 是决策优化目标函数

马尔可夫决策过程的特点是目前状态向下一个状态转移的概率和回报仅仅和当前状态的和选择的有关,和历史无关,因此MDP的转移和立即回报也只取决与当前状态和选择的动作,与历史状态和动作无关,公式表达:

若转移概率和回报函数与决策时间无关,那么MDP叫做平稳MDP


MDP的策略优化目标函数J一般可以分为3个类型,即有限阶段回报总函数、无限折扣总回报目标和平均回报目标,如下:

式中为折扣因子,用于权衡立即回报和将来长期回报之间的重要性。平均回报是折扣回报的特例,实际上当折扣因子等于1时,这两种目标函数等价,折扣回报目标函数和平均回报目标函数在强化学习研究中均得到了广泛应用,但不同形式的优化目标函数将产生不同的结果。实际上,科学家Mahadevan证明,这两种目标函数当N很大时,效果近似。

策略和值

在马尔科夫决策过程中,Agent是根据一个策略函数来选择动作的,策略(policy)定义了Agent在给定时刻的行为方式,直接决定了Agent的动作,一个平稳随机性策略定义为,且不随时间变化。一个平稳确定行策略定义为从状态空间到动作空间的一个映射,即表示在状态s下,选择动作的概率等于1,其他动作的概率为0

定义了马尔可夫策略后,MDP对应的值函数可以分为状态值函数和状态-动作值函数(也称为动作值函数)两种。状态值函数表示系统从状态s开始根据策略选择动作得到的回报总期望

式中,表示在状态转移概率P和策略分布上的数学期望即:

其中,

类似的,动作值函数表示系统从状态-动作对(s,a)出发,根据策略选择动作所获得的期望回报

实际上动作值函数和策略函数有一定的关联:
1. 对于一个确定的策略,有
2. 对于一个随机策略,有

而给定一个策略,动作值函数都可以用状态值函数表示:

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注