基于增强学习的信息中心网络兴趣包转发方法与流程

文档序号：16128675发布日期：2018-12-01 00:03阅读：381来源：国知局

本发明涉及信息中心网络技术领域，具体涉及基于增强学习的信息中心网络兴趣包转发方法。

背景技术

随着海量流媒体业务的广泛应用，当前tcp/ip网络在数据的移动性、安全性等方面逐渐趋于极限。传统网络采用以“推”为主的通讯方式获取内容，这种方式导致内容提供端的瓶颈，网络容易出现拥塞现象。为了解决这类问题，信息中心网络(information-centricnetworking，icn)应运而生。icn是一中新型的网络架构，采用面向信息的通信模型取代传统面向主机的通信模型。虽然icn为用户获取海量、异质信息带来了希望，但是网络的拥塞都是亟待解决的一大难题。然而，icn具有独特的特性，传统网络的拥塞控制策略并不能直接地应用于icn中。

icn采用信息缓存机制，有效地缓解了业务量几层出现的拥塞问题，但是拥塞依然是不可避免。当icn发生拥塞时，网络的整体性能下降，降低了用户的服务质量。如果数据在进行通信的过程中能主动地避开拥塞的链路，那么网络的拥塞问题在一定程度上就可以得到缓解甚至是避免。传统网络在通讯时，数据的转发是根据路由表中的信息进行的。在icn中，对数据转发不仅会参考一个类似ip路由表的转发信息表，同时还会考虑当前的网络环境以及节点的可用通信接口等因素。

技术实现要素：

为解决上述问题，本发明提供基于增强学习的信息中心网络兴趣包转发方法，采用增强学习算法，将网络中的每个路由节点看成是智能化节点，并将兴趣包的转发过程转换为路径优化问题，路由节点能够实时地做出相应的转发决策，从而有效地解决网络中的拥塞问题。

为了实现上述目的，本发明采用的技术方案为：

基于增强学习的信息中心网络兴趣包转发方法，包括探索阶段和利用阶段，其特征在于：具体步骤为：

步骤一、探索阶段的具体步骤为：

(1)智能体收到n个兴趣包时，先查询转发信息表，在转发信息表中添加一个q值，q值用于计算前缀端口对，并根据最长前缀匹配来获取候选端口列表，最后通过候选端口转发兴趣包；

(2)数据包中添加离开时间和最小q值两个属性，智能体收到数据包时，通过数据包中所携带的信息计算数据包端口数据流的q值，并将q值添加到转发信息表中，其中，q值的计算公式为公式四：

式中，ω(t)为学习率，为智能体v到i的时间，为从智能体v到d端的最短时间；

(3)智能体转发n1个兴趣包后，结束当前的探索阶段，开始进入利用阶段；步骤二、利用阶段的具体步骤为：

a.智能体转发兴趣包时依据概率选择转发最佳端口，概率的计算公式为公式二：

式中，为在端口j上前缀f的兴趣包的转发概率，为在端口j上前缀f的数据流的q值，k为常量，k＞0；

b.当满足公式五的条件或是发送了n2个兴趣包时，结束利用阶段，重新开始进入探索阶段；

c.智能体代理接收到m个数据包时，根据包所携带的信息计算q值，q值的计算公式为公式四，并同时更新fib、data包中的q值。

进一步的，步骤一中还在q值的学习算法中加入具有启发知识的函数h:s×a→r来影响学习过程中智能体动作选择。

进一步的，设s为智能体代理有状态集合，a为动作集合，启发式函数的在t时刻的动作选择规则如公式一所示：

式中，δ为常量，s和a为有限集，s∈s,a∈a，st为在t时刻的状态，at为在t时刻的动作；

在执行选择动作的同时观察下一个状态并接收强化信息r(s,a)，q值的更新公式如下所示：

式中，γ为常量且0≤γ＜1，s和a为第n次循环中更新的状态和动作，kn(s,a)是状态s和动作a在这n次循环内被访问的总次数。

进一步的，所述转发信息表包括名字前缀、陈旧时间、端口号和q值。

进一步的，数据表信息包括数据、元消息、数据内容、数据签名、离开时间和最小q值。

本发明的有益效果为：本发明采用增强学习算法，设计出一个基于增强学习的兴趣包转发策略，该策略将网络中的每个路由节点看成是智能化代理节点，并将兴趣包的转发过程转换为一个路径优化问题：也就是网络在进行通讯时选择最佳的下一跳节点，并使得整个过程的往返时延最小，本发明将路径优化的过程看作是一个多阶段决策过程，并分为探索阶段和利用阶段这两个阶段。

附图说明

图1为探索阶段的流程图。

具体实施方式

为了本领域的技术人员能够更好地理解本发明所提供的技术方案，下面结合具体实施例进项阐述。

本案将可由以下的实施例说明而得到充分了解，使得熟悉本技艺之人士可以据以完成，然本案之实施例并非可由下列而被限制其实施形态。

图1为探索(exploration)阶段的流程图，具体步骤为：

(1)、智能体收到n个兴趣包时，先查询转发信息表(forwardinginformationbase,fib)，在fib表中添加了一个新的属性-q值，用于计算前缀-端口对，依据最长前缀匹配来获取候选端口列表，最后通过所有候选端口转发兴趣包。这里，将q学习算法中加入具有启发知识的函数h:s×a→r来影响学习过程中智能体动作选择。其中，s为智能体代理(agent)有状态集合，a为动作集合，启发式函数的在t时刻的动作选择规则如公式一所示：

式中，δ为常量，s和a为有限集，s∈s,a∈a，st为在t时刻的状态，at为在t时刻的动作；

在执行选择动作的同时观察下一个状态并接收强化信息r(s,a)，q值的更新公式如下所示：

式中，γ为常量且0≤γ＜1，s和a为第n次循环中更新的状态和动作，kn(s,a)是状态s和动作a在这n次循环内被访问的总次数。

(2)、与此同时，数据包也添加了两个属性：离开时间和最小q值，智能体每收到一个数据包时，通过包中所携带的相关信息计算该端口相应数据流的q值。该过程中，智能体会不断地收集周围环境的信息。其中，在t时刻q值的计算公式如公式四所示：

式中，ω(t)是学习率，是智能体v到智能体i的时间，是从智能体v到智能体d端的最短时间。

(3)、智能体转发完n1个兴趣包时，就结束当前的exploration阶段，开始进入利用(exploitation)阶段。

exploitation阶段具体步骤为：

(4)、智能体转发兴趣包时，只依据概率选择转发最佳端口，概率的计算公式如下：

式中，为在端口j上前缀f的兴趣包的转发概率，为在端口j上前缀f的数据流的q值，k为常量，k＞0。

(5)、当满足公式五的条件或是发送了n2个兴趣包时，结束exploitation阶段，重新开始进入exploration阶段。

(6)、智能体agent接收到m个数据包(data包)时，根据包所携带的信息计算q值。q值的计算公式如公式四。与此同时也会更新fib、data包中的q值。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张明川;吴庆涛;朱军龙;郑瑞娟;刘婷婷;王鑫露;陈亚明;张风华;陈军亚;孟维鸣
技术所有人：河南科技大学
我是此专利的发明人

上一篇：一种生活污水处理回用装置和应用的制作方法
上一篇：一种工件缺陷检测系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。