2020-10-20

it2023-10-27 88

Datawhale 强化学习 -- Task 01 强化学习基础

视频链接：https://www.bilibili.com/video/BV1LE411G7Xj?from=search&seid=15697452978873187760

课程的大纲强化学习的概念和模型适用于强化学习的数据类型强化学习的特点RL agent的主要组成部分：Policy，Value Function，Model安装gym

课程的outline：

数据是非独立同分布的有相关性的时间序列类型的数据 !

延迟奖励意味着agent 做了进行了很多次action后才会得到奖励

PS：第一课视频上后面讲了很多RL的例子，这里就不写了

policy 是 agent的行为函数（behavior function）

value function 是用来表示一个状态或者一个行为的好坏

model agent对于环境的状态表示

直接pip install gym 搞定

最新回复(0)