AI强度相关的研究:Balancing Constant
我们旨在创建一个具有两个同时要针对的隐性目标的Agent:
学习如何玩游戏,同时学习如何与玩家保持联系以维持游戏的发展。
RL任务的关键部分是我们如何根据学习者在环境中的行为来奖励或惩罚学习者。 为了解决游戏的平衡问题,奖励功能必须预见Agent在游戏环境中的行为(例如,如何移动或如何战斗)以及平衡本身(如何不比玩家差或好得多)。 因此,我们提出了一个基于游戏的奖励功能,该功能包括一个平衡常数,旨在指出Agent如何成为玩家的公平对手。这样,他将对离理想的平衡状态有多远(或接近)以及如果他处于理想平衡状态中有多深的了解,那么他将在这种状态下表现如何。
理论基础
1.Balancing Constant :
平衡状态是指游戏中技能差异保持在一定范围内的时刻(1)。 这背后的直觉是,在这种状态下,Agent不是那么容易面对或很难被玩家击败。 因此,平衡常数是一个值,可以帮助我们的功能实现所需的行为。 换句话说,该常数表示Agent与玩家之间的最大技能差异。
2. BC-Based Reward Function (BCR)
通过在奖励函数中使用BC,有可能在Agent处于非平衡状态时区分另外两种情况,即BCR可以确定Agent处于哪种情况,并据此确定ÿ