深入浅出强化学习编程实践-01多臂赌博机

it2023-11-19 114

import numpy as np import matplotlib.pyplot as plt ''' 显示在训练过程中总回报随着玩家摇动次数而变化的曲线 ε-greedy策略，玻尔兹曼策略，UCB策略 ε-greedy策略是最常用的，UCB策略是回报最高的 ''' class KBGame: # 初始化 # def __init__(self, *args, **kwargs): def __init__(self): self.q

最新回复(0)