Datawhale 强化学习 -- Task 01 强化学习基础
视频链接:https://www.bilibili.com/video/BV1LE411G7Xj?from=search&seid=15697452978873187760
课程的大纲强化学习的概念和模型适用于强化学习的数据类型强化学习的特点RL agent的主要组成部分:Policy,Value Function,Model安装gym
课程的outline:
强化学习的模型:
适用于强化学习的数据类型:
数据是 非独立同分布的有相关性的时间序列类型的数据 !
强化学习的特点:
延迟奖励 意味着agent 做了进行了很多次action后才会得到奖励
PS: 第一课视频上 后面讲了很多RL的例子, 这里就不写了
RL agent的主要组成部分:
policy 是 agent的行为函数(behavior function)
value function 是用来表示一个状态 或者一个行为的好坏
model agent对于环境的状态表示
安装gym:
直接pip install gym 搞定