深入浅出强化学习编程实践-01多臂赌博机

it2023-11-19  73

import numpy as np import matplotlib.pyplot as plt ''' 显示在训练过程中总回报随着玩家摇动次数而变化的曲线 ε-greedy策略,玻尔兹曼策略,UCB策略 ε-greedy策略是最常用的,UCB策略是回报最高的 ''' class KBGame: # 初始化 # def __init__(self, *args, **kwargs): def __init__(self): self.q
最新回复(0)