多智能体强对抗仿真方法、装置及电子设备与流程

文档序号：24124009发布日期：2021-03-02 12:38阅读：来源：国知局

技术特征：
1.一种多智能体强对抗仿真方法，其特征在于，包括：从对抗仿真引擎获取多轮演示对抗回放数据，并基于所述对抗回放数据，采用生成对抗网络技术，训练获取神经网络策略模型；利用所述神经网络策略模型，模拟所述多智能体在强对抗过程中的决策过程，完成多智能体强对抗仿真。2.根据权利要求1所述的多智能体强对抗仿真方法，其特征在于，所述神经网络策略模型包括判别网络和策略网络；其中，所述判别网络用于对输入对抗数据进行分类，所述判别网络的输出用于指示所述输入对抗数据是否符合演示对抗策略；所述策略网络用于读取所述强对抗过程的状态数据，并基于所述状态数据，产生在所述状态数据下应采取的对抗策略。3.根据权利要求2所述的多智能体强对抗仿真方法，其特征在于，在所述训练获取神经网络策略模型之前，还包括：确定演示样本与模仿样本的判别损失总和，作为所述判别网络的损失，所述判别网络的损失函数表示如下：d
loss
＝d
loss-expert
+d
loss-learner
；式中，d
loss
表示所述判别网络的损失，d
loss-expert
表示所述判别网络对所述演示样本的实际输出与预期输出的交叉熵，d
loss-learner
表示所述判别网络对所述模仿样本的实际输出与预期输出的交叉熵；确定所述判别网络的目标为最小化所述判别损失总和。4.根据权利要求3所述的多智能体强对抗仿真方法，其特征在于，在所述确定演示样本与模仿样本的判别损失总和，作为所述判别网络的损失之前，还包括：按如下公式计算所述交叉熵，所述如下公式为：l(x，y)＝l＝{l1，...，l
n
，...，l
n
}
t
；l
n
＝-w
n
[y
n
·
logx
n
+(1-v
n
)
·
log(1-x
n
)]；式中，l(x，y)表示向量x与y的交叉熵，定义为向量x与y各个分量的交叉熵组成的向量{l1，...，l
n
，...，l
n
}
t
，l
n
为向量x、y的对应分量x
n
与y
n
的交叉熵，w
n
为分量n的权重，n为向量x、y的维数。5.根据权利要求3或4所述的多智能体强对抗仿真方法，其特征在于，在所述训练获取神经网络策略模型之前，还包括：确定所述策略网络的回报函数如下：reward＝-log(d(π
l
))；式中，reward表示所述策略网络的回报，п
l
表示所述模仿样本，d(п
l
)表示所述判别网络对所述模仿样本的实际输出与预期输出的交叉熵；确定所述策略网络的目标为最大化所述策略网络的回报；和/或，确定所述策略网络的损失函数如下：式中，pd表示由所述策略网络输出的参数构造的对抗命令参数概率分布，action表示
从构造的概率分布取样获得的命令参数取值，log_prob表示概率分布在action取值的样本点的log概率密度，entropy表示概率分布的熵，β表示超参数。6.根据权利要求5所述的多智能体强对抗仿真方法，其特征在于，所述利用所述神经网络策略模型，模拟所述多智能体在强对抗过程中的决策过程，包括：基于所述策略网络的输出，构造所述对抗命令参数概率分布，并从所述对抗命令参数概率分布取样获取对抗命令参数；按照所述对抗仿真引擎所需的接口格式，将所述对抗命令参数转换为对抗命令列表，并将所述对抗命令列表输入到所述对抗仿真引擎。7.根据权利要求2所述的多智能体强对抗仿真方法，其特征在于，所述判别网络具体为二元分类神经网络，所述二元分类神经网络的输入为联合对抗态状态与对抗命令列表的张量编码，所述二元分类神经网络的输出为[0，1]内的二元分类标量。8.一种多智能体强对抗仿真装置，其特征在于，包括：训练模块，用于从对抗仿真引擎获取多轮演示对抗回放数据，并基于所述对抗回放数据，采用生成对抗网络技术，训练获取神经网络策略模型；仿真模块，用于利用所述神经网络策略模型，模拟所述多智能体在强对抗过程中的决策过程，完成多智能体强对抗仿真。9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令，其特征在于，所述处理器执行所述程序或指令时，实现如权利要求1至7中任一项所述的多智能体强对抗仿真方法的步骤。10.一种非暂态计算机可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被计算机执行时，实现如权利要求1至7中任一项所述的多智能体强对抗仿真方法的步骤。

完整全部详细技术资料下载

当前第2页1 2 3