需要知道的一些概念
马尔科夫决策过程
马尔科夫链
马尔科夫奖励过程
马尔科夫中的价值函数
马尔科夫决策过程的控制:policy iteration value iteration
基于价值函数的agent:不使用决策函数,在价值函数中推测police基于police的agent:不使用价值函数两个都用看会否有环境转移模型
马尔科夫决策过程是强化学习的基本框架,环境是全部可以观测如果说状态转移属于马尔科夫就是说一个状态的下一状态是取决于它当前状态和它当前状态之前的状态没有关系状态转移矩阵描述状态转移,描述了从一个节点到其他节点的概率给定状态转移的马尔科夫链之后,可以对链进行采样得到一串轨迹
马尔科夫奖励过程是马尔科夫链加上一个奖励函数
在马尔科夫奖励之中,矩阵和他的状态都是和马尔科夫链一样的,奖励函数是一个期望,当到达某一个状态的时候可以获得多大的奖励,另定义了一个折扣量:discount factor 伽马,折扣量是为了更快
可以将马尔科夫过程看做一个纸船,放在河流中会随着河流动,但是他自身没有动力,决策就像船桨
一些概念:
Horizon:说明同一个????没懂
定义一个return:将后面的奖励进行折扣,越往后折扣越多(希望现在得到奖励而不是后面再得到奖励)
如何定义价值函数?
Monte_Carlo采样:可以定义很多很多过程,通过计算每次通过S4的价值求平均可以估计通过S4状态的价值
Analytic solution(只能针对少量状态时候,因为求逆的时间复杂度太大):
可以从价值函数中推倒出Bellman等式
定义了当前状态和未来状态的关系
迭代方法:(用来解状态比较多的)
1.动态规划
TD是动态规划和Monte_Carlo方法的结合
先用解析,解析不行就用迭代
马尔科夫决策过程比马尔科夫奖励过程多了一个决策(decision)
马尔科夫决策过程转换成马尔科夫链过程