前两篇基础:
《Playing Atari with Deep Reinforcement Learning》-2013 《Human-level control through deep reinforcement learning》-2015后三篇改进:
《Deep Reinforcement Learning with Double Q-learning》-2016《Dueling Network Architectures for Deep Reinforcement Learning》-2016《PRIORITIZED EXPERIENCE REPLAY》-2016DQN之前:
当时主流的研究方法是使用人工设计的特征,结合线性函数以拟合value function,这是因为非线性方法经常难以收敛
同时也有一部分使用深度学习拟合某个固定策略的value function,并保证了收敛,但是还没有类似的方法推广到非线性的控制问题中
Deep Q-Network历史意义:
正式开启深度强化学习的阶段强化学习智能体首次轻易超越人类一部分研究人员开始认识到强化学习和深度学习结合的潜力这是第一篇成功的结合深度学习和强化学习的研究成果,让强化学习不借助人工设计的特征使用非线性函数来拟合value function