1.一种网络入侵检测方法,其特征在于,包括:
获取待检测网络流量数据;
将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,检测异常网络流量;其中,
所述基于多智能体深度确定性策略梯度的神经网络模型的确定,包括:
获取网络流量训练样本;
采用多智能体深度确定性策略梯度,通过网络流量训练样本,对actor网络和critic网络进行训练;
采用策略梯度,对actor网络参数进行更新;
采用损失函数,对critic网络参数进行更新。
2.如权利要求1所述的网络入侵检测方法,其特征在于,所述网络流量训练样本,包括:
当前流量特征集合s=(st,st+1,…st+n)、当前流量特征标签集合
3.如权利要求2所述的网络入侵检测方法,其特征在于,所述对actor网络和critic网络进行训练,具体包括:
将当前流量特征集合s=(st,st+1,…st+n)输入到actor当前网络中,通过策略函数提供在给定状态下的动作概率分布,确定当前最佳流量特征标签a=(at,at+1,…at+n);
将下一阶段流量特征集合s‘=(st+n+1,st+n+2,…st+2n)输入到actor目标网络中,通过策略函数提供在给定状态下的动作概率分布,确定下一阶段最佳流量特征标签a'=(a't+n+1,a't+n+2,…,a't+2n);
将当前最佳流量特征标签a=(at,at+1,…at+n)和当前流量特征标签集合
将当前流量特征集合s=(st,st+1,…st+n)和当前最佳流量特征标签a=(at,at+1,…at+n)输入到critic当前网络中,计算所有当前q函数值集合;
将下一阶段流量特征集合s‘=(st+n+1,st+n+2,…st+2n)和下一阶段最佳流量标签a'=(a't+n+1,a't+n+2,…,a't+2n)输入到critic目标网络中,计算所有目标q函数值集合。
4.如权利要求3所述的网络入侵检测方法,其特征在于,所述策略梯度为:
其中,n个智能体且策略为θ={θ1,θ2,…θn}参数化的博弈,当前多智能体确定性策略为μ={μ1,μ2,…μn};qiμ=(s,a)是所有critic当前网络的值函数集合。
5.如权利要求4所述的网络入侵检测方法,其特征在于,所述损失函数为:
其中,
6.如权利要求4所述的网络入侵检测方法,其特征在于,还包括:
采用软更新方式,通过下式,对actor目标网络和critic目标网络的参数进行更新;
θi'←τθi+(1-τ)θi'
其中,τ为为软更新系数。
7.一种网络入侵检测装置,其特征在于,包括:
流量获取模块,用于获取待检测网络流量数据;
异常流量检测模块,用于将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,检测异常网络流量;其中,
所述基于多智能体深度确定性策略梯度的神经网络模型,包括:
训练样本获取单元,用于获取网络流量训练样本;
网络训练单元,用于采用多智能体深度确定性策略梯度,通过网络流量训练样本,对actor网络和critic网络进行训练;
actor当前网络参数更新单元,用于采用策略梯度,对actor当前网络的参数进行更新;
critic当前网络参数更新单元,用于采用损失函数,对critic当前网络的参数进行更新。
8.一种计算机设备,包括存储器和处理器,所述存储器内存储有程序,其特征在于,所述处理器执行程序时实现权利要求1~6任一项所述方法的步骤。