基于改进D3QN算法的SDN下自适应威胁缓解方法及系统

文档序号:31660075发布日期:2022-09-27 22:55阅读:来源:国知局

技术特征:
1.一种基于改进d3qn算法的sdn下自适应威胁缓解方法,其特征在于,包括以下步骤:s100:架设sdn下自适应威胁缓解架构,所述sdn下自适应威胁缓解架构包括深度强化学习代理、sdn基础设施和主机配置;其中,所述深度强化学习代理为基于改进d3qn算法搭建的深度神经网络,所述sdn基础设施用于获取网络观测状态,所述主机配置用于反馈服务质量和攻击进度;s200:训练基于改进d3qn算法搭建的深度神经网络,以获得自适应威胁缓解代理;s300:基于所述自适应威胁缓解代理输出最优自适应网络威胁缓解策略,以及基于所述最优自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁。2.根据权利要求1所述的sdn下自适应威胁缓解方法,其特征在于,所述基于改进d3qn算法搭建的深度神经网络包括共享网络层,所述共享网络层的第一层和第三层为全连接层,第二层为lstm网络。3.根据权利要求1所述的sdn下自适应威胁缓解方法,其特征在于,所述步骤s200包括以下子步骤:s210:设置服务质量和攻击进度所对应的奖励量化标准;s220:初始化基于改进d3qn算法搭建的深度神经网络中的超参数与神经网络参数;s230:判断是否达到最大迭代次数,若是,则输出自适应威胁缓解代理,若否,则获取当前网络观测状态;s240:随机生成一个随机浮点数,若随机浮点数大于探索参数,则执行探索动作,即随机选取一个部署动作;若随机浮点数小于或等于探索参数,则不执行探索动作;s250:判断经验回放池中是否存在回合序列,若经验回放池中存在回合序列,则从经验回放池中进行采样并训练,并进一步判断当前回合是否结束;若经验回放池中不存在回合序列,则直接判断当前回合是否结束;若当前回合结束,则将回合序列放入到经验回放池中,并再次判断是否达到最大迭代次数,若达到最大迭代次数,则输出自适应威胁缓解代理,若未达到最大迭代次数,则循环步骤s230~s250的迭代训练过程,最后获得当前sdn网络环境下的自适应威胁缓解代理;若当前回合未结束,则循环步骤s230~s250的迭代训练过程,最后获得当前sdn网络环境下的自适应威胁缓解代理。4.根据权利要求3所述的sdn下自适应威胁缓解方法,其特征在于,所述步骤s240包括:若随机浮点数小于或等于探索参数,则将当前网络观测状态输入到深度强化学习代理中,从而输出一个部署动作;在sdn网络中执行部署动作,调用mysql数据库记录得到的新网络观测状态,调用正常主机的服务质量和恶意主机的攻击进度信息,基于服务质量和攻击进度所对应的奖励量化标准将服务质量和攻击进度信息进行量化,以获得奖励回报;部署动作执行完成后,将当前网络观测状态、部署动作、奖励回报和新网络观测状态添加到回合序列中。5.根据权利要求4所述的sdn下自适应威胁缓解方法,其特征在于,所述步骤s200中还包括通过构建时间序列控制模型进行观测及部署;所述时间序列控制模型的构建为:在一个时间段内,每间隔一定时间对网络状态进行一次观测,并执行一次部署。
6.根据权利要求4所述的sdn下自适应威胁缓解方法,其特征在于,网络观测状态包括前30s内sdn网络中主机的发送流量大小、接收流量大小、udp报警数和tcp报警数中的一种或多种信息。7.根据权利要求6所述的sdn下自适应威胁缓解方法,其特征在于,所述网络观测状态还包括网络服务连接数量和开放端口数目的特征信息。8.根据权利要求3所述的sdn下自适应威胁缓解方法,其特征在于,所述步骤s250中从经验回放池中进行采样并训练包括:从经验回放池中进行采样,使用样本数据对基于改进d3qn算法搭建的深度神经网络进行训练;其中,从经验回放池中进行采样包括:若经验回放池中至少存在一次完整的回合序列,则在经验回放池中随机选取一个回合序列,在该回合序列中随机选取一段序列进行采样。9.根据权利要求8所述的sdn下自适应威胁缓解方法,其特征在于,使用样本数据对基于改进d3qn算法搭建的深度神经网络进行训练包括:基于q-network和target q-network结合样本数据通过时间差分算法计算td-error,再通过td-error计算mse均方差损失函数,并使用梯度下降法对q-network的网络参数进行更新,最后使用q-network的网络参数对target q-network的网络参数进行软更新。10.一种基于改进d3qn算法的sdn下自适应威胁缓解系统,其特征在于,包括sdn下自适应威胁缓解架构架设模块、训练模块和部署模块;所述sdn下自适应威胁缓解架构架设模块用于架设sdn下自适应威胁缓解架构,所述sdn下自适应威胁缓解架构包括深度强化学习代理、sdn基础设施和主机配置;其中,所述深度强化学习代理为基于改进d3qn算法搭建的深度神经网络,所述sdn基础设施用于获取网络观测状态,所述主机配置用于反馈服务质量和攻击进度;所述训练模块用于训练基于改进d3qn算法搭建的深度神经网络,以获得自适应威胁缓解代理;所述部署模块用于基于所述自适应威胁缓解代理输出最优自适应网络威胁缓解策略,以及基于所述最优自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁。

技术总结
本发明涉及网络安全技术领域,具体公开了基于改进D3QN算法的SDN下自适应威胁缓解方法及系统,包括架设SDN下自适应威胁缓解架构,SDN下自适应威胁缓解架构包括深度强化学习代理、SDN基础设施和主机配置;深度强化学习代理为基于改进D3QN算法搭建的深度神经网络,SDN基础设施用于获取网络观测状态,主机配置用于反馈服务质量和攻击进度;训练基于改进D3QN算法搭建的深度神经网络,以获得自适应威胁缓解代理;基于自适应威胁缓解代理输出最优自适应网络威胁缓解策略,基于最优自适应网络威胁缓解策略来改变网络安全部署;该方法对D3QN算法进行改进,使改进后的D3QN算法对于长序列、不完全信息的观测环境效果更好,产生更好网络威胁缓解策略。胁缓解策略。胁缓解策略。


技术研发人员:石成豪 王宇 钱克昌 熊达鹏 万颖 吴曙光 苏英豪
受保护的技术使用者:中国人民解放军战略支援部队航天工程大学
技术研发日:2022.08.31
技术公布日:2022/9/26
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1