@richey
2017-09-25T13:16:22.000000Z
字数 2074
阅读 1484
强化学习学习笔记-第一课 强化学习简介与马尔可夫过程
马尔可夫过程
强化学习
马尔可夫决策过程
1.马尔可夫性与马尔可夫过程
- 当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;
- 换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。
- 马尔可夫过程(马尔可夫链)是一个由构成的元组,是状态集(有限),是状态转移概率矩阵(从状态转移到的概率)
2.强化学习数学模型
- 马尔可夫决策过程(MDP)是一个由构成的元组 ,是一个有限状态集,是一个有限动作集,是状态转移概率矩阵,是一个回报函数
是折扣因子,。
- 马尔可夫决策过程(加入了动作)
- ,初始状态
- AI根据状态选择动作
- 环境给出回报
- 环境给出下一时刻状态
- AI接收和
- 策略
(1)确定性策略
(2)随机策略
- 打折的累计回报
- 状态值函数
表示从状态开始,执行策略的累计回报期望值,用于评价基于策略下状态的好坏(长期价值。)
- 状态-动作值函数
表示在状态下先执行动作a,然后遵循策略能得到的收获的期望值,用于评价基于策略,在状态下执行动作的好坏。
- 状态值函数与动作值函数端关系
- 将代入得:
- 令
- 则:
- 求解矩阵方程可得:
- 贝尔曼方程