技术特征:
技术总结
本发明实施例提供了一种游戏动作的处理方法和装置,所述方法包括:获取非玩家角色的当前游戏状态和动作空间;将所述当前游戏状态输入到预先训练的强化学习网络模型中得到强化策略,所述强化策略中包括各个所述游戏动作的第一选择概率;将所述动作空间输入到预先训练的辅助规则网络模型中得到辅助策略,所述辅助策略包括各个所述游戏动作的第二选择概率;根据所述强化策略和所述辅助策略确定目标策略,所述目标策略中包括各个所述游戏动作基于所述第一选择概率和所述第二选择概率生成的目标概率;根据各个所述游戏动作的目标概率从所述动作空间中筛选出目标游戏动作,控制非玩家角色执行所述目标游戏动作。本发明实施例能够提高玩家游戏体验。
技术研发人员:陈赢峰;林磊;范长杰
受保护的技术使用者:网易(杭州)网络有限公司
技术研发日:2018.11.30
技术公布日:2019.04.16