一种流量智适应的大数据流处理方法与流程

文档序号:34644832发布日期:2023-06-29 17:44阅读:27来源:国知局
一种流量智适应的大数据流处理方法与流程

本发明涉及大数据流的,尤其涉及一种流量智适应的大数据流处理方法。


背景技术:

1、近年来,随着我国现代化的移动互联网和 5g 快速兴起和发展,各种移动互联网的应用也随之迅速地普及到千家万户,网络已经成了现代社会人们在工作和日常生活中一个不可或缺的重要工具。移动互联网的规模近几年增长尤其迅速,网络中承载信息业务也越来越丰富,大型互联网企业越来越开始高度重视自己互联网数据中心的建设和发展。随着大量网络流量被汇合到互联网数据中心进行处理,数据中心中的网络流量也表现出快速增长的形势。数据中心汇聚了企业大量核心业务网络流量,随着不同时段具有不同的流量模式,导致服务器产生较大的负载差异,严重影响用户体验。针对该问题,本发明提出一种流量智适应的大数据流处理方法。


技术实现思路

1、有鉴于此,本发明提供一种流量智适应的大数据流处理方法,目的在于:1)根据用户对产品的不同操作行为所产生网络流量之间的关联性确定不同网络流量之间的一次关联特征,并结合注意力机制为不同网络流量进行赋权,根据计算得到的网络流量二次加权特征判断当前流量的流量模式,当网络流量传输速率与链路容量的比值大于阈值时,则将该网络流量判断为大流量模式,进而对不同流量模式的网络流量采用不同的路由转发方案;2)对于大流量模式的网络流量,计算当前流量源地址与目的地址之间的最短路径,并基于最短路径变异得到若干最短路径,构成最短跳数路径集合,并利用多种时延探测包得到每条路径的真实时延,按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率,对当前大流量模式网络流量进行采样,按照不同最短路径的选择概率进行路径选择以及路由转发,实现对大流量模式的网络流量实现均衡化处理,提高通信链路的综合利用率,避免通信阻塞。

2、实现上述目的,本发明提供的一种流量智适应的大数据流处理方法,包括以下步骤:

3、s1:采集数据中心的网络流量,并对采集的网络流量进行预处理;

4、s2:对预处理后的网络流量进行一次特征提取,得到网络流量一次关联特征;

5、s3:对提取得到的网络流量一次关联特征进行二次特征提取得到网络流量二次加权特征,其中结合注意力机制的特征提取方式为所述二次特征提取的主要实施方式;

6、s4:根据计算得到的网络流量二次加权特征判断当前流量的流量模式,若当前流量为小流量模式则不进行均衡化处理,否则进行均衡化处理;

7、s5:对于大流量模式的网络流量,计算当前流量源地址与目的地址之间的距离,筛选得到最短跳数路径集合;

8、s6:对筛选后的最短跳数路径集合进行时延探测,计算路径的真实时延,并按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率;

9、s7:对当前大流量模式网络流量进行采样,按照不同最短路径的选择概率进行路径选择以及路由转发,完成网络流量的均衡化处理。

10、作为本发明的进一步改进方法:

11、可选地,所述s1步骤中对所采集的网络流量进行预处理,包括:

12、采集数据中心的网络流量,其中网络流量为用户访问产品页面过程中所产生的流量数据,包括用户ip地址、端口号、协议、用户操作行为数据、数据包大小以及传输字节数;

13、对所采集的网络流量进行预处理,其中预处理流程为:

14、s11:过滤无关的网络流量数据,包括用户ip地址、端口号以及协议;

15、s12:利用one-hot方法将用户操作行为转换为数字编码,并提取每个用户操作行为所产生数据包大小以及传输字节数,在本发明实施例中,用户操作行为包括用户操作所产生的行为标识以及用户操作时间戳信息,则用户操作行为的传输字节数为:

16、;

17、其中:

18、表示用户操作行为的传输字节数,表示第种用户操作行为的数字编码结果;

19、表示用户操作行为的结束时刻,表示用户操作行为的开始时刻,表示交换机端口在时刻统计的传输字节数;

20、s13:对每个用户操作行为所产生数据包大小进行归一化处理,归一化处理公式为:

21、;

22、其中:

23、表示用户操作行为所产生数据包大小;

24、表示预设数据包大小的最小值,表示预设数据包大小的最大值;

25、s14:构成预处理后的网络流量:

26、;

27、其中:

28、表示用户操作行为的数字编码结果种类数,表示用户操作行为的预处理后网络流量。

29、可选地,所述s2步骤中对预处理后的网络流量进行一次特征提取,包括:

30、对预处理后的网络流量进行一次特征提取,得到网络流量一次关联特征,其中预处理后网络流量的一次特征提取流程为:

31、s21:构建待特征提取的网络流量向量形式:

32、;

33、;

34、其中:

35、表示网络流量中传输字节数的向量形式,表示网络流量中数据包大小的向量形式;

36、s22:对网络流量向量形式中的每个值进行规范化处理:

37、;

38、;

39、其中:

40、表示极小的正数,将其设置为0.0001;

41、表示的均值,表示的标准差,表示的均值,表示的标准差;

42、为的规范化处理结果,为的规范化处理结果;

43、得到规范化处理后的网络流量向量形式:

44、;

45、;

46、s23:将两种网络流量向量形式依次进行如下处理:

47、;

48、;

49、;

50、;

51、其中:

52、,表示规范化处理后网络流量向量形式的网络流量一次关联特征;

53、表示激活函数,在本发明实施例中,将其设置为relu函数;

54、表示权重参数,表示偏置参数。在本发明实施例中,通过获取若干组网络流量向量形式构成训练集,基于网络流量一次关联特征与规范化处理后的网络流量向量形式的相关性,以训练集中两者相关性达到最大为目标构建目标函数,进而采用牛顿迭代法对目标函数进行迭代,得到对应的权重参数以及偏置参数结果。

55、可选地,所述s3步骤中对提取得到的网络流量一次关联特征进行二次特征提取,包括:

56、对提取得到的网络流量一次关联特征进行二次特征提取,得到网络流量二次加权特征,在本发明实施例中,结合注意力机制的特征提取方式为所述二次特征提取的主要实施方式,其中二次特征提取流程为:

57、s31:分别提取网络流量一次关联特征中任意网络流量的特征值,其中预处理后网络流量中在网络流量一次关联特征中的特征值分别为,表示网络流量一次关联特征中的第个值,表示网络流量一次关联特征中的第个值;

58、s32:计算任意特征值的注意力机制权重:

59、;

60、;

61、其中:

62、表示的注意力机制权重,表示的注意力机制权重;

63、s33:构建网络流量二次加权特征:

64、;

65、其中:

66、,表示规范化处理后网络流量向量形式的网络流量二次加权特征。

67、可选地,所述s4步骤中根据计算得到的网络流量二次加权特征判断当前流量的流量模式,包括:

68、根据计算得到的网络流量二次加权特征判断当前流量的流量模式,其中对预处理后网络流量的流量模式判断公式为:

69、

70、;

71、其中:

72、表示预处理后网络流量的流量模式判断结果;

73、b表示链路容量,表示结合网络流量注意力机制权重的网络流量传输速率,表示网络流量传输速率与链路容量的比值。在本发明实施例中,对小流量模式的网络流量直接进行最短路由转发处理,即选取网络跳数最小的路由进行转发。

74、可选地,所述s5步骤中对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离,筛选得到最短跳数路径集合,包括:

75、对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离,筛选得到最短跳数路径集合,其中大流量模式的网络流量源地址为,目的地址为,其中最短跳数路径集合的筛选流程为:

76、s51:构建网络拓扑图,其中表示网络拓扑图中节点的集合,表示网络拓扑图中节点所构成边的集合,网络拓扑图中的节点为交换机节点,表示网络拓扑图中的节点u,表示节点u与节点h构成的边,即交换机节点u与交换机节点h之间的通信链路;

77、s52:源地址向网络拓扑图中的节点上传网络流量,利用最短路径计算方法计算得到源地址到目的地址之间的最短路径,其中路径最短表示网络跳数最少,最短路径中包含m个节点,表示其中的第m个节点,,表示源地址向网络拓扑图中上传网络流量的节点,表示将网络流量发送到目的地址的节点,表示距离源地址最近的节点;所述最短路径计算方法为dijkstra 算法;

78、s53:将最短路径加入到最短跳数路径集合;

79、s54:令g表示最短跳数路径集合中的路径总数,更新最短跳数路径集合中的路径总数,对于最短跳数路径集合中的任意第 g条路径,,从到第m个节点之间的路径设置为,在第m个节点后设置偏离节点,其中偏离节点在最短跳数路径集合中g条路径中节点后均未出现过,且偏离节点与节点之间链路的剩余带宽大于50%;

80、s55:利用最短距离计算方法计算得到偏离节点到目的地址的最短路径,将与最短路径进行拼接,得到新增的最短路径,并将该最短路径加入到最短跳数路径集合,返回步骤s55,直到最短跳数路径集合中的最短路径数目达到预设值。

81、可选地,所述s6步骤中对筛选后的最短跳数路径集合进行时延探测,计算每条路径的真实时延,包括:

82、对筛选后的最短跳数路径集合进行时延探测,计算每条路径的真实时延,其中真实时延的计算流程为:

83、对于最短跳数路径集合中的任意路径,令路径初始节点向路径末尾节点发送含有时间戳的 lldp 探测数据包,其中 lldp 探测数据包沿着路径节点传输;

84、路径末尾节点接收到lldp 探测数据包的发送时间与接收时间之差为,并向路径初始节点发送含有时间戳的 lldp 探测数据包,路径初始节点接收到lldp 探测数据包的发送时间与接收时间之差为;

85、令路径初始节点向路径末尾节点发送含有时间戳的echo探测数据包,其中 echo探测数据包沿着路径节点传输;

86、路径末尾节点接收到echo探测数据包的发送时间与接收时间之差为,并向路径初始节点发送含有时间戳的echo 探测数据包,路径初始节点接收到echo探测数据包的发送时间与接收时间之差为;

87、计算得到路径的真实时延为:。

88、可选地,所述s6步骤中按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率,包括:

89、按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率,其中最短跳数路径集合中第条最短路径的选择概率为:

90、;

91、其中:

92、g表示最短跳数路径集合中的路径总数;

93、表示最短跳数路径集合中第条最短路径的真实时延;

94、表示最短跳数路径集合中第条最短路径的链路剩余带宽之和。

95、可选地,所述s7步骤中对当前大流量模式网络流量进行采样,按照不同最短路径的选择概率进行路径选择以及路由转发,完成网络流量的均衡化处理,包括:

96、对当前大流量模式网络流量进行采样,得到e组采样后的网络流量,其中e<g,并按照最短跳数路径集合中每条最短路径的选择概率,选择e条最短路径进行路由转发,直到网络流量从源地址到达目的地址,实现网络流量的均衡化处理。

97、为了解决上述问题,本发明提供一种电子设备,所述电子设备包括:

98、存储器,存储至少一个指令;

99、通信接口,实现电子设备通信;及处理器,执行所述存储器中存储的指令以实现上述所述的流量智适应的大数据流处理方法。

100、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的流量智适应的大数据流处理方法。

101、相对于现有技术,本发明提出一种流量智适应的大数据流处理方法,该技术具有以下优势:

102、首先,本方案提出一种流量模式识别方法,对提取得到的网络流量一次关联特征进行二次特征提取,得到网络流量二次加权特征,其中二次特征提取流程为:分别提取网络流量一次关联特征中任意网络流量的特征值,其中预处理后网络流量中在网络流量一次关联特征中的特征值分别为,表示网络流量一次关联特征中的第个值,表示网络流量一次关联特征中的第个值;

103、s32:计算任意特征值的注意力机制权重:

104、;

105、;

106、其中:表示的注意力机制权重,表示的注意力机制权重;构建网络流量二次加权特征:

107、;

108、其中:,表示规范化处理后网络流量向量形式的网络流量二次加权特征。根据计算得到的网络流量二次加权特征判断当前流量的流量模式,其中对预处理后网络流量的流量模式判断公式为:

109、

110、;

111、其中:表示预处理后网络流量的流量模式判断结果;b表示链路容量,表示结合网络流量注意力机制权重的网络流量传输速率,表示网络流量传输速率与链路容量的比值。本方案对小流量模式的网络流量直接进行最短路由转发处理,即选取网络跳数最小的路由进行转发,而对大流量模式的网络流量进行均衡化处理。本方案根据用户对产品的不同操作行为所产生网络流量之间的关联性确定不同网络流量之间的一次关联特征,并结合注意力机制为不同网络流量进行赋权,根据计算得到的网络流量二次加权特征判断当前流量的流量模式,当网络流量传输速率与链路容量的比值大于阈值时,则将该网络流量判断为大流量模式,进而对不同流量模式的网络流量采用不同的路由转发方案。

112、同时,本方案提出一种大流量模式下网络流量的均衡化处理,对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离,筛选得到最短跳数路径集合,其中大流量模式的网络流量源地址为,目的地址为,其中最短跳数路径集合的筛选流程为:构建网络拓扑图,其中表示网络拓扑图中节点的集合,表示网络拓扑图中节点所构成边的集合,网络拓扑图中的节点为交换机节点,表示网络拓扑图中的节点u,表示节点u与节点h构成的边,即交换机节点u与交换机节点h之间的通信链路;源地址向网络拓扑图中的节点上传网络流量,利用最短路径计算方法计算得到源地址到目的地址之间的最短路径,其中路径最短表示网络跳数最少,最短路径中包含m个节点,表示其中的第m个节点,,表示源地址向网络拓扑图中上传网络流量的节点,表示将网络流量发送到目的地址的节点,表示距离源地址最近的节点;所述最短路径计算方法为dijkstra 算法;将最短路径加入到最短跳数路径集合;令g表示最短跳数路径集合中的路径总数,更新最短跳数路径集合中的路径总数,对于最短跳数路径集合中的任意第 g条路径,,从到第m个节点之间的路径设置为,在第m个节点后设置偏离节点,其中偏离节点在最短跳数路径集合中g条路径中节点后均未出现过,且偏离节点与节点之间链路的剩余带宽大于50%;利用最短距离计算方法计算得到偏离节点到目的地址的最短路径,将与最短路径进行拼接,得到新增的最短路径,并将该最短路径加入到最短跳数路径集合,直到最短跳数路径集合中的最短路径数目达到预设值。按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率,其中最短跳数路径集合中第条最短路径的选择概率为:

113、;

114、其中:g表示最短跳数路径集合中的路径总数;表示最短跳数路径集合中第条最短路径的真实时延;表示最短跳数路径集合中第条最短路径的链路剩余带宽之和。对当前大流量模式网络流量进行采样,得到e组采样后的网络流量,其中e<g,并按照最短跳数路径集合中每条最短路径的选择概率,选择e条最短路径进行路由转发,直到网络流量从源地址到达目的地址,实现网络流量的均衡化处理。对于大流量模式的网络流量,本方案计算当前流量源地址与目的地址之间的最短路径,并基于最短路径变异得到若干最短路径,构成最短跳数路径集合,并利用多种时延探测包得到每条路径的真实时延,按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率,对当前大流量模式网络流量进行采样,按照不同最短路径的选择概率进行路径选择以及路由转发,实现对大流量模式的网络流量实现均衡化处理,提高通信链路的综合利用率,避免通信阻塞。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1