基于深度强化学习的网络智能管控架构系统和运行方法

文档序号:30449600发布日期:2022-06-18 01:34阅读:108来源:国知局
基于深度强化学习的网络智能管控架构系统和运行方法

1.本发明涉及基于深度强化学习的网络智能管控架构系统和运行方法,属于网络内部的管理控制技术领域。


背景技术:

2.随着万物互联时代的到来,各类物联网设备爆炸式增长,vr、远程手术、车联网等各类应用也层出不穷,人们对网络的性能如低延时、高带宽也提出了更高的要求,对网络的控制和管理关系到网络能否对用户提供期望的服务质量。
3.当前的网络控制和管理架构大都基于终端主机或集中式控制框架,这种框架依赖于手工流程,会产生过多的通信和计算开销,无法及时相应网络动态变化,扩展性和鲁棒性较差。集中式的控制框架即使是对单个网络事件进行响应时,也需要搜集和分析大量网络数据,因此响应网络动态时不能实时做出反应。目前的网络管控方案很大程度上依赖于网络管理人员手工配置流程,网络运维人员需要仔细分析网络行为并设计相应的控制策略(最少需要几周时间),当前网络变得越来越复杂和灵活,手工配置网络其可扩展性和健壮性都很差,已经不能满足当前网络的需求。当前亟需一种新的网络架构来满足当前网络的差异化需求。
4.近几年,人工智能技术之一的深度强化学习技术飞速发展并被广泛应用于自然语言处理、图像识别、游戏策略计算等领域中。深度强化学习模型能够学习到的策略越来越复杂,训练和执行效率越来越高。与此同时可编程网络硬件的发展,使得在网络中部署深度强化学习算法来分析网络数据,在网络内部执行灵活的处理成为可能。当前对于深度强化学习技术在网络中的应用大多集中于流量分类、流量预测等方面,并未将深度强化学习技术应用于网络的管控。


技术实现要素:

5.本发明所要解决的技术问题是:提供基于深度强化学习的网络智能管控架构系统和运行方法,将深度强化学习应用于网络控制和管理中,充分利用深度强化学习的自适应能力,能够实现灵敏感知到网络动态变化并及时做出响应,通过学习不断优化网络策略,从而提高网络管控能力,满足用户需求。
6.本发明为解决上述技术问题采用以下技术方案:一种基于深度强化学习的网络智能管控架构系统,所述架构系统包括管理平面、多个分布式控制平面以及与各控制平面一一对应的数据平面;分布式控制平面以及与分布式控制平面相对应的数据平面之间存在双向接口,实现数据平面向分布式控制平面上传数据以及分布式控制平面向数据平面下发配置指令;各分布式控制平面与管理平面之间存在双向接口,实现分布式控制平面向管理平面上传数据以及管理平面向分布式控制平面共享知识;所述数据平面包括网络遥测模块、数据上传模块和策略执行模块;所述分布式控
制平面包括数据平台和控制器,其中数据平台包括数据接收模块、数据存储模块和数据预处理模块,控制器包括智能算法模块、在线决策模块和决策下发模块;所述管理平面包括网络数据存储模块、智能算法训练模块和网络知识共享模块;所述网络遥测模块用于搜集网络状态信息,并将搜集的网络状态信息传送至数据上传模块;所述数据上传模块用于将所述网络遥测模块传送的网络状态信息上传至与该数据上传模块所在数据平面相对应的分布式控制平面中;所述数据接收模块用于接收所述数据上传模块上传的网络状态信息;所述数据存储模块用于存储所述数据接收模块接收的网络状态信息;所述数据预处理模块用于对上述数据存储模块存储的网络状态信息进行数据清洗,得到预处理后的网络状态信息,并将所述预处理后的网络状态信息传送至所述智能算法模块同时传送至所述网络数据存储模块;所述智能算法模块用于在接收到所述数据预处理模块传送的预处理后的网络状态信息后,在线加载深度强化学习模型,并启动在线决策模块针对预处理后的网络状态信息做出相应配置指令,由在线决策模块将配置指令传送至所述决策下发模块;所述决策下发模块用于将所述在线决策模块传送的配置指令下发至所述决策执行模块;所述决策执行模块用于根据所述决策下发模块下发的配置指令对网络内传输数据包进行处理;所述网络数据存储模块用于接收所述数据预处理模块传送的预处理后的网络状态信息并存储,同时调用所述智能算法训练模块针对预处理后的网络状态信息进行离线深度强化学习算法训练并生成新的深度强化学习模型;所述网络知识共享模块用于将所述智能算法训练模块生成的新的深度强化学习模型部署在各分布式控制平面的智能算法模块中。
7.作为本发明的一种优选方案,所述数据平面由可编程网络交换机提供能力支撑。
8.作为本发明的一种优选方案,所述网络遥测模块搜集的网络状态信息包括网络带宽、链路利用率、微突发流量、链路拥塞和转发路径。
9.作为本发明的一种优选方案,所述网络遥测模块利用网络遥测技术搜集网络状态信息。
10.一种根据所述的基于深度强化学习的网络智能管控架构系统的运行方法,所述运行方法具体如下:步骤1,利用数据平面中的网络遥测模块搜集网络状态信息,并将网络状态信息经数据上传模块上传至与数据平面相对应的分布式控制平面中的数据平台;步骤2,数据平台接收网络状态信息并对其进行存储和预处理,得到预处理后的网络状态信息;步骤3,数据平台将预处理后的网络状态信息传送至控制器,同时传送至管理平面中的网络数据存储模块;步骤4,控制器接收到预处理后的网络状态信息后,利用智能算法模块在线加载深度强化学习模型,并启动在线决策模块针对预处理后的网络状态信息做出相应配置指令,
经决策下发模块将配置指令下发至数据平面中的决策执行模块;步骤5,管理平面中的网络数据存储模块接收预处理后的网络状态信息并存储,随后调用智能算法训练模块针对预处理后的网络状态信息进行离线深度强化学习模型训练并生成新的深度强化学习模型,同时,调用网络知识共享模块将新的深度强化学习模型部署在各分布式控制平面,以全局协调的方式实现网络管控。
11.本发明采用以上技术方案与现有技术相比,具有以下技术效果:1、本发明引入网络数据遥测技术实时感知网络底层状态的变化,通过深度强化学习算法对网络数据进行处理、学习,实时优化管控策略。
12.2、本发明实现自学习式管控,深度强化学习的自适应能力可以实现分析网络数据并设计相应的控制策略,随着网络数据量的积累,深度强化学习模型的学习能力也得到提高。
13.3、本发明中的数据平面采用可编程网络硬件,可以通过p4等高级编程语言动态地重新配置网络硬件,实现在网络内部执行灵活的处理逻辑。
附图说明
14.图1是本发明一种基于深度强化学习的网络智能管控架构系统的总体架构图;图2是本发明中的数据平面架构与工作流程图;图3是本发明中的控制平面架构与工作流程图;图4是本发明中的管理平面架构与工作流程图。
具体实施方式
15.下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
16.为使本领域技术人员更好地理解本发明实施例,以下对本发明中涉及到的技术和术语进行介绍说明。
17.深度强化学习技术:深度强化学习(deep reinforcement learning,drl)是一种更接近人类思维方式的人工智能方法,将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的信息进行控制。作为深度学习和强化学习的综合,深度强化学习更适用于网络的动态环境,可以直接从网络数据中学习和优化策略,而不需要遵从预先设定的规则。
18.网络遥测技术:网络遥测是指自动化远程收集网络多源异构状态信息,进行网络测量数据存储、分析及使用的过程。上层遥测数据应用包括事件相关性分析、历史数据溯源、异常检测、性能监视、趋势分析等。网络遥测相较于传统网络测量和软件定义测量,网络遥测进一步发挥数据平面在网络测量过程中的作用,将网络测量模式由拉模式变为推模式。网络设备通过远程主动推送网络状态信息,实现高速实时的网络数据采集功能。
19.数据平面和控制平面可以构成“测量-学习-决策-行动”过程的闭环控制,有助于对局域网络进行自主控制。但每个分布式数据平面感知到的网络数据只包含网络状态的局部观测信息,所以控制平面也只是对局域内的控制策略进行优化,因此这种模式只能够在
局部快速适应网络动态,网络作为一个分布式系统,需要所有节点的协作才能达到最佳性能。
20.针对以上分布式网络系统带来的局域问题,本发明特别的提出利用管理平面来接收各分布式控制平面上传的网络信息及其反馈信息,进行离线训练并修改深度强化学习模型,将修改好的深度强化学习模型发布到控制平面进行在线决策,简化控制平面的训练过程,以全局协调的方式实现网络管控。
21.如图1所示,本发明提出一种基于深度强化学习的网络智能管控架构系统,该架构系统可分为三部分:数据平面、控制平面、管理平面,三部分之间有双向接口实现数据上传及指令下发。
22.数据平面由可编程网络交换机提供能力支撑,其包含网络遥测模块、数据上传模块和策略执行模块,负责测量各类网络数据,将网络数据上传至控制平面,并接受控制平面下发的配置指令对进行相应的处理操作。
23.网络遥测模块利用网络遥测技术搜集网络状态信息,可编程网络交换机根据配置指令对网络内数据包进行处理。
24.控制平面由数据平台及控制器组成,学习网络的行为,并自动生成相应的控制策略为培训过程提供计算能力。
25.数据平台负责数据存储、数据清洗,控制器负责在线加载深度强化学习算法,对网络数据不断学习,优化控制策略,然后将更新后的配置指令反馈给数据平面。
26.管理平面是一个集中式平面,负责不断收集网络信息,学习全局知识,并将这些知识共享给各个分布式控制平面,修改控制策略的学习过程,从而在全局层面提升网络性能。
27.基于上述架构系统,本发明还提出一种基于深度强化学习的网络智能管控架构系统的运行方法,其运行机制如下:步骤a:网络遥测模块搜集网络数据并将其上传至控制平面中的数据平台,网络数据包括微突发流量、链路拥塞、转发路径等网络运行状态信息;步骤b:数据平台接受网络数据并对其进行处理,包括数据存储、数据清洗,海量的网络数据经过处理之后转化为有价值的、可被利用的网络状态信息;步骤c:数据平台将网络状态信息传递至控制器;数据平台将网络状态信息上传至管理平面;步骤d:控制器加载深度强化算法,针对网络状态信息做出相应配置指令并下发至数据平面;步骤e:可编程网络交换机接收配置指令,对网络内传输数据包进行处理;步骤f:管理平面接受全局网络状态信息,加载深度强化学习算法进行训练。
28.如图2所示,本发明数据平面包含网络遥测模块、数据上传模块和策略执行模块。其中网络遥测模块网络遥测模块利用网络遥测技术搜集网络状态信息(链路拥塞、流量突发、带宽等)并经数据上传模块将信息上传至控制平面,以及经控制平面将信息上传至管理平面;策略执行模块接收来自控制平面的配置指令。
29.如图3所示,控制平面包含数据平台和控制器两部分,其中数据平台包含数据接收模块、数据存储模块和数据预处理模块,数据接收模块接收来自数据平面上传的网络状态信息并传递给数据存储模块进行数据存储,进一步地,网络状态信息经数据存储模块传递
给数据预处理模块进行数据清洗,数据平台最后将处理后的网络状态信息传递给控制器;控制器包含智能算法模块、在线决策模块和决策下发模块,当控制器接收到数据平台传送来的网络状态信息,智能算法模块会在线加载深度强化学习算法,并启动在线决策模块针对网络信息做出相应配置指令,最后经决策下发模块将配置指令下发至数据平面。
30.如图4所示,管理平面包含网络数据存储模块、智能算法训练模块、网络知识共享模块。数据存储模块接收网络状态信息并存储,随后调用智能算法训练模块针对网络状态信息进行离线深度强化学习算法训练并生成新的深度强化学习模型,同时,调用网络知识共享模块将新的算法模型部署在各分布式控制平面,以全局协调的方式实现网络管控。
31.物理终端产生计算任务,并发出任务计算请求。分管此物理终端的网络交换机(位于数据平面内)接收此任务计算请求,并调用网络遥测模块利用网络遥测技术搜集网络状态信息(网络带宽、链路利用率、微突发流量、链路拥塞、转发路径)并经数据上传模块将信息上传至控制平面,以及经控制平面将信息上传至管理平面;控制平面内的数据接收模块接收来自数据平面上传的网络状态信息并传递给数据存储模块进行数据存储,进一步地,网络状态信息经数据存储模块传递给数据预处理模块进行数据清洗,处理后的网络状态信息由数据平台传递给控制器;当控制器接收到数据平台传送来的网络状态信息,智能算法模块会在线加载深度强化学习算法,并启动在线决策模块针对网络状态信息做出相应配置指令,即由当前的网络状态信息(网络带宽、链路利用率、微突发流量、链路拥塞、转发路径)进行路由节点的选择,决定由哪些路由节点参与传输此次计算任务;最后经决策下发模块将配置指令下发至数据平面。数据平面内对应的网络交换机接收配置指令,并按照指令信息通知参与传输此次计算任务的路由节点,同时该网络交换机响应物理终端发出的任务计算请求,物理终端将计算任务以数据包的形式上传至网络,数据包最终在选定的路由节点帮助下在网络进行传输。
32.各个分布式控制平面内存储有不同的深度强化学习算法,有的算法会根据当前网络状态信息进行以最短时延为目标的路由决策,有的算法会根据当前网络状态信息进行以最优链路利用率为目标的路由决策,这也意味着各个分布式控制平面会收集不同的网络状态信息上传至管理平面,数据存储模块接收网络状态信息并存储,随后调用智能算法训练模块针对网络状态信息进行离线深度强化学习算法训练并生成新的深度强化学习模型,进一步地,调用网络知识共享模块将新的算法模型部署在各分布式控制平面,以全局协调的方式实现网络管控。
33.以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1