@snuffles 2017-02-13T11:43:01.000000Z 字数 1063 阅读 948

10703 增强学习&控制领域

notebook

10703
课程简介
本课程将覆盖增强学习&控制领域中最新的成果，比如

deep Q learning,
actor-critic方法，
学习和规划，
轨迹+策略同步优化，
逆增强学习，
分层增强学习，
前向预测模型，
深度模型预测控制，
探索策略，
自适应控制，

以及在机器人控制问题中的应用。在课程结束后，你应当能够：
1）在仿真平台或实际机器人系统上针对某一任务实现一种合适的增强学习算法；
2）理解对机器人增强学习而言什么样的问题是容易的，什么样的问题是困难的。

本课程学习如何在一个动态变化的环境里让agent学习行为。
行为重要性行为学习：对于一个特定目标，学习一个从观测（observation）到动作（action）的映射。
监督学习
1.收益（reward）。目标达成时获得的收益反馈，是一个标量数字。比如，比赛胜利，汽车没有事故，智能体正常运行等。
2. 示教（demonstration）。示范需要的行为是一条轨迹。比如，通过youtube烹饪视频教机械臂学习烹饪。
3. 正确行为属性。比如对于自动驾驶，好的行为属性包括保持在正确的车道内，与前车保持适当的车距等。

从收益中学习：最早的跳高运动员们，没有老师教，只能根据跳的高度来调整动作。跳得越高收益越大。结果就是这些人花了许多年才从跨越式发展到背跃式。
从示教中学习：运动员示范一次高级姿势的跳高，其他人学习这种标准姿势可以快速掌握跳得更高的技巧。
从好的行为属性中学习：在教练指导下的跳高学习。教练可以直接告诉初学者正确的行为属性，比如跳高时腿的姿势，跳高应采取的节奏等。无疑这种方式获得的信息量最大，也是学得最快的。

行为学习的特点

1/智能体（agent）的行为会影响其在未来接收到的数据：
2）不管行为的目标是否达到，对其效果的衡量都将在很久以后才能获得。
只根据即时的收益(reward)还是很难知道哪些行动（action）对于最终目标的实现是重要的还是不重要的。获知最终结果所需时间很短的话，问题就简单了，反馈所需时间越短问题越简单。
3）在现实世界当中，行动都是需要时间来执行的，所以说这就限制了能够收集到的（能用于训练的）样本的数量。
如果结果很难评估，那么问题就非常难用增强学习解决。
4）行为的组合难以学习。

l2

马尔科夫决策过程及其性质-CMU深度强化学习第二讲
本讲大纲
智能体(Agent)、动作(Action)、奖励(Reward)
马尔科夫决策过程(MDP)
价值函数(Value function)
最优价值函数(Optimal value function)

10703 增强学习&控制领域

l2

内容目录