首页
it技术
登录
6mi
u
盘
搜
搜 索
it技术
深入浅出强化学习编程实践-01多臂赌博机
深入浅出强化学习编程实践-01多臂赌博机
it
2023-11-19
73
import
numpy
as
np
import
matplotlib
.
pyplot
as
plt
''' 显示在训练过程中总回报随着玩家摇动次数而变化的曲线 ε-greedy策略,玻尔兹曼策略,UCB策略 ε-greedy策略是最常用的,UCB策略是回报最高的 '''
class
KBGame
:
# 初始化
# def __init__(self, *args, **kwargs):
def
__init__
(
self
)
:
self
.
q
转载请注明原文地址: https://lol.8miu.com/read-11515.html
最新回复
(
0
)