一种链路流量预测方法、系统、电子设备及介质与流程

文档序号:32951939发布日期:2023-01-14 14:01阅读:34来源:国知局
一种链路流量预测方法、系统、电子设备及介质与流程

1.本发明涉及链路流量预测领域,尤其涉及一种链路流量预测方法、系统、电子设备及介质。


背景技术:

2.随着网络技术的蓬勃发展,用户对网络资源的需求日益增长,网络上承载周转的业务以及应用也与日俱增,尤其是在5g风口的现在,加强网络建设的管理、合理分配并高效利用资源对于各大运营商来说无疑是一大亟待解决的难题。考虑到网络建设需要大量的物资和时间准备,对于网络链路组流量的准确预测正是加强网络建设管理的一大要点。
3.而链路组的流量数据属于时空数据,是同时具有时间和空间维度的数据,具有多维、语义、时空动态关联的复杂性。鉴于目前时空数据收集机制仍然不算健全,数据收集、储存困难,数据量往往与现实客体存在时间挂钩,所以在新任务中,时空数据总是极其稀缺的。而历史数据稀缺对模型的影响是非常严重的,不仅增加了模型的训练难度,还会导致模型准确度下降。
4.目前的网络流量预测技术主要分为三种。第一种是直接将流量数据当作时间序列数据看待,忽略了流量数据的时空关联性,直接使用时间序列预测的方法来进行预测,结果必然不如使用时空预测;第二种方法虽然考虑了流量数据的时空特性,也使用了各种深度神经网络进行时空预测,但是对数据量的要求十分庞大,这对新链路组这样的冷启动问题来说是不现实的;第三种方法进一步考虑到了时空数据的稀缺性,使用了gan模型进行了数据生成与预测。与其他生成式模型相比,gan这种竞争的方式不再要求一个假设的数据分布,而是使用一种分布直接进行采样,从而真正达到理论上可以完全逼近真实数据,这也是gan最大的优势。然而,对于时空数据这种复杂数据来说,基于简单gan的这种不需要预先建模的方法就太过于自由不可控了,且模型训练不稳定容易失败。


技术实现要素:

5.鉴于上述现有技术的不足之处,本发明的目的在于提供一种链路流量预测方法、系统、电子设备及介质,用于因新链路数据量过少,无法基于现有模型进行长跨度的预测,且生成的预测数据准确率低的问题。
6.为了达到上述目的,本发明采取了以下技术方案:一方面,本发明提供一种链路流量预测方法,包括:获取新链路组的流量实时数据;将所述流量实时数据输入到流量预测模型中,得到下一时间段网络流量预测值;其中,所述流量预测模型基于模拟新链路的模拟历史数据训练得到。
7.进一步的,所述流量预测模型的训练过程包括:获取每个链路组的时序数据和空间数据;其中,所述时序数据为链路组的流量数据,所述空间数据为链路组的外部数据;
使用模拟模型基于所述时序数据和所述空间数据生成模拟历史数据;所述预测模型基于生成对抗网络模型得到;将所述模拟历史数据作为新链路组的第一历史链路数据,结合其他链路的第二历史链路数据一起作为训练数据;使用所述训练数据对初始化的多重时序高阶算法-deepar神经网络模型进行训练得到所述流量预测模型。
8.进一步的,所述模拟模型的获取过程包括:构建初始化的生成对抗网络模型;所述生成对抗网络模型包括生成网络和判别网络;将所述时序数据和所述空间数据输入到所述生成网络中生成模拟数据;将所述模拟数据和新链路的真实数据输入到判别网络中,确定所述模拟数据的真实性;基于所述模拟数据的真实性调整所述生成网络的网络参数,直到所述模拟数据与所述真实数据的分布相同,得到所述模拟模型。
9.进一步的,所述生成网络包括编码层和解码层;所述模拟数据生成过程包括:所述编码层对二维高斯分布数据进行采样得到噪声数据;基于门限循环网络和自注意力机制获取所述时序数据的时序特征;基于图卷积神经网络获取所述空间数据的空间特征;将所述时序特征和所述空间特征输入到三维cnn网络中获取时空共性特征;所述解码层将所述时序特征、所述空间特征以及所述时空共性特征使用双边门限机制得到特征融合数据;基于所述特征融合数据和所述噪声数据得到所述模拟数据。
10.进一步的,所述门限循环网络基于lstm生成,包括更新门和重置门;所述更新门由lstm中的遗忘门和输入门结合得到,用于决定更新当前的隐藏状态时使用历史信息和当前信息的第一数量;所述重置门用于决定保留历史信息的第二数量。
11.进一步的,所述外部数据包括链路的起点信息、终点信息以及走向信息;得到所有链路的外部数据后,还执行:获取空间数据中链路之间的空间拓扑关系,构建空间拓扑图;使用互相关系数对拓扑图中链路之间的拓扑关系进行量化,得到量化后的临时图。
12.另一方面,本发明提供一种链路流量预测系统,包括:获取模块,用于获取新链路组的流量实时数据;处理模块,用于将所述流量实时数据输入到流量预测模型中,得到下一时间段网络流量预测值;其中,所述流量预测模型基于模拟新链路的模拟历史数据训练得到。
13.进一步的,所述流量预测模型的训练过程包括:获取每个链路组的时序数据和空间数据;其中,所述时序数据为链路组的流量数据,所述空间数据为链路组的外部数据;使用模拟模型基于所述时序数据和所述空间数据生成模拟历史数据;所述预测模型基于生成对抗网络模型得到;将所述模拟历史数据作为新链路组的第一历史链路数据,结合其他链路的第二历史链路数据一起作为训练数据;使用所述训练数据对初始化的多重时序高阶算法-deepar
神经网络模型进行训练得到所述流量预测模型。
14.另一方面,本发明提供一种电子设备,包括:存储器,存储有计算机程序;处理器,执行所述计算机程序时实现任一所述的链路流量预测方法。
15.另一方面,本发明提供一种计算机可读介质,存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的链路流量预测方法。
16.相较于现有技术,本发明提供的一种链路流量预测方法、系统、电子设备及介质,具有以下有益效果:通过新链路的模拟历史数据训练得到的流量预测模型,在训练时大大降低对数据集大小的依赖,能够有效的解决新链路组新任务这样的冷启动问题,而且得到的流量预测模型更可控,且准确率大大提高。
附图说明
17.图1是本发明提供的链路流量预测方法的流程图。
18.图2是本发明提供的流量预测模型的生成步骤流程图。
19.图3是本发明提供的模拟模型的获取过程流程图。
20.图4是本发明提供的模拟模型的获取过程的一种实施方式流程图。
21.图5是本发明提供的模拟数据生成过程的流程图。
22.图6是本发明提供的链路流量预测方法一种实施方式的流程图。
23.图7是本发明提供的模拟模型的结构框图。
24.图8是本发明提供的链路流量预测系统的结构框图。
具体实施方式
25.为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
26.本领域技术人员应当理解,前面的一般描述和下面的详细描述是本发明的示例性和说明性的具体实施例,不意图限制本发明。
27.本文中术语“包括”,“包含”或其任何其他变体旨在覆盖非排他性包括,使得包括步骤列表的过程或方法不仅包括那些步骤,而且可以包括未明确列出或此类过程或方法固有的其他步骤。同样,在没有更多限制的情况下,以“包含...一个”开头的一个或多个设备或子系统,元素或结构或组件也不会没有更多限制,排除存在其他设备或其他子系统或其他元素或其他结构或其他组件或其他设备或其他子系统或其他元素或其他结构或其他组件。在整个说明书中,短语“在一个实施例中”,“在另一个实施例中”的出现和类似的语言可以但不一定都指相同的实施例。
28.除非另有定义,否则本文中使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。
29.请参阅图1和图6,本发明提供一种链路流量预测方法,包括:获取新链路组的流量实时数据;
将所述流量实时数据输入到流量预测模型中,得到下一时间段网络流量预测值;其中,所述流量预测模型基于模拟新链路的模拟历史数据训练得到。
30.通过新链路的模拟历史数据训练得到的流量预测模型,在训练时大大降低对数据集大小的依赖,能够有效的解决新链路组新任务这样的冷启动问题,而且得到的流量预测模型更可控,且准确率大大提高。
31.进一步的,作为优选方案,所述模拟历史数据通过生成对抗网络模拟得到,生成对抗网络中结合自注意力机制的特点,能够有效学习流量数据的时空共性,使得生成的数据更能为预测任务提供支撑。
32.进一步的,请参阅图2,作为优选方案,本实施例中,所述流量预测模型的训练过程包括:获取每个链路组的时序数据和空间数据;其中,所述时序数据为链路组的流量数据,所述空间数据为链路组的外部数据;具体的,在获取数据过程中,按固定时间粒度(即时间步长,例如1-10秒)收集每个链路组的无线业务流量,作为时序数据,同时收集链路组的外部信息数据作为空间数据,并对数据进行预处理。无线业务流量包括:下载流量、上传流量、浏览流量等;所述外部数据包括链路的起点信息、终点信息以及走向信息。
33.使用模拟模型基于所述时序数据和所述空间数据生成模拟历史数据;所述预测模型基于生成对抗网络模型得到;生成对抗网络模型可以实现已自注意力机制进行自动训练,当模型收敛的时候输出正确的预测模型,方便快捷。
34.将所述模拟历史数据作为新链路组的第一历史链路数据,结合其他链路的第二历史链路数据一起作为训练数据;使用所述训练数据对初始化的多重时序高阶算法-deepar神经网络模型进行训练得到所述流量预测模型。
35.具体的,在deepar神经网络模型中,有数据输入后,通过计算得到的输出并不是具体“预测值”,而是先得到一个概率模型,例如高斯概率模型,然后再从这个概率模型中去采样有以下好处:点预测时的结果就是一个点,一个具体的数值,而概率预测相当于是去预测这个点的概率分布,并且可以使用概率分布的特征来描述该点可能出现的范围。当输出一个概率后,采样获得一个数值,然后将这个数值作为下一个输入,因为这个数值时通过概率采样出来的,每次都会不一样,这样就增加了一定的鲁棒性。
36.进一步的,请参阅图3-图4、图7,作为优选方案,本实施例中,所述模拟模型的获取过程包括:构建初始化的生成对抗网络模型;所述生成对抗网络模型包括生成网络和判别网络;将所述时序数据和所述空间数据输入到所述生成网络中生成模拟数据;将所述模拟数据和新链路的真实数据输入到判别网络中,确定所述模拟数据的真实性;基于所述模拟数据的真实性调整所述生成网络的网络参数,直到所述模拟数据与所述真实数据的分布相同,得到所述模拟模型。进一步的,所述分布相同指的是两种数据(在本实施例中是模拟数据和真实数据)之间具有相同的分布形状和相同的分布参数,对离散随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分
布函数,相同的期望、方差。即生成网络和判别网络交替训练,计算生成损失以及判别损失,并据此交替地更新生成网络和判别网络的参数,进而得到优化后的生成网络。同时,本领域的技术人员可以根据实际需求选择合适的生成对抗网络模型的训练方法进行训练。
37.在本实施例中,生成网络的损失函数如公式(1)所示:在本实施例中,生成网络的损失函数如公式(1)所示:其中,是网络的参数,目的是让生网络生成的数据更加逼真,达到欺骗判别网络,令判别网络判断其为真实数据的效果;判断网络的损失函数如公式(2)所示,目的是让判断网络尽可能分辨出真实数据以及生成网络生成的数据。其中d代表判别器;d(x)表示数据x为真实数据的概率;g代表生成器;z表示噪音;g(z)表示生成器网络生成的数据,等于x;e表示数学期望,ti表示特征,表示学习率。
38.进一步的,请参阅图5和图6,其中,图6中conv代表卷积层、tanh代表tanh激活函数、flatten代表对数组进行展平操作的flatten层、dense代表全连接层。本实施例中,所述生成网络包括编码层和解码层;所述模拟数据生成过程包括:所述编码层对二维高斯分布数据进行采样得到噪声数据;基于门限循环网络和自注意力机制获取所述时序数据的时序特征;基于图卷积神经网络获取所述空间数据的空间特征;将所述时序特征和所述空间特征输入到三维cnn网络中获取时空共性特征;其中,注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。其可以快速提取稀疏数据的重要特征,而自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性,能够解决神经网络的输入向量之间有一定的关系,而在训练时却无法充分发挥这些关系,导致模型训练结果较差的问题。图卷积神经网络(gcn),实际上跟cnn的作用一样,就是一个特征提取器,只不过它的对象是图数据。gcn精妙地设计了一种从图数据中提取特征的方法,从而让我们可以使用这些特征去对图数据进行节点分类、图分类、边预测,还可以顺便得到图的嵌入表示。同2维卷积网络相比,三维卷积网络更适合时空特征的学习。三维卷积网络的每一层的卷积核的结构是齐次的,并且在很多结构中都适用与目前的最好的方法相媲美。在具体实施中,可以通过python中np.random.multivariate_normal等代码来生成服从二维高斯分布的数据,进而执行采样操作;优选的,采样方法包括拒绝采样法、mcmc采样。
39.所述解码层将所述时序特征、所述空间特征以及所述时空共性特征使用双边门限机制得到特征融合数据a;基于所述特征融合数据a和所述噪声数据得到所述模拟数据(即将融合的结果以及噪音一起输入到生成对抗网络生成历史数据)。其中,双边门限机制可以动态学习各特征重要度,弱化不重要特征,强化重要特征作用,进而可以提高特征融合效率和模型效果。具体的,本领域的技术人员可以根据实际情况采用适宜的方式基于所述特征融合数据a与所述噪声数据得到所述模拟数据。
40.在本实施例中,所述流量预测模型基于生成对抗网络和deepar算法的生成,构建生成对抗网络,对二维高斯分布数据进行采样,获取噪音;联合门限循环网络和自注意力机制提取流量的时序特征,采用图卷积神经网络提取流量的空间特征,将时空特征输入对抗生成网络,生成对抗网络中结合自注意力机制的特点,能够有效学习流量数据的时空共性。使得生成对抗网络大大降低会数据集大小的依赖,更适用于新链路组新任务,模型更可控。
41.进一步的,作为优选方案,本实施例中,所述门限循环网络基于lstm生成,包括更新门和重置门;所述更新门由lstm中的遗忘门和输入门结合得到,用于决定更新当前的隐藏状态时使用历史信息和当前信息的第一数量;所述重置门用于决定保留历史信息的第二数量。即本实施例中的门限循环网络是在lstm的基础上把单元状态与隐藏状态进行合并操作,把遗忘门与输入门合成为更新门(update gate),同时去掉输出门,增加了重置门(reset gate)。其中,更新门决定使用多少历史信息和当前信息来更新当前的隐藏状态;重置门决定保留多少历史信息。
42.进一步的,作为优选方案,本实施例中,所述外部数据包括链路的起点信息、终点信息以及走向信息;得到所有链路的外部数据后,还执行:获取空间数据中链路之间的空间拓扑关系,构建空间拓扑图;使用互相关系数对拓扑图中链路之间的拓扑关系进行量化,得到量化后的临时图。其中,所述临时图的拓扑图数据结构用邻接矩阵表示,使用互相关系数对拓扑关系进行量化,即对表示临时图的邻接矩阵中链路之间的空间依赖关系赋予权重;通过构建临时图可以更准确的刻画链路之间的拓扑关系,是的后续对空间特征的学习更快更好。
43.具体的,在基于图卷积神经网络获取所述空间数据的空间特征操作时,是将所述临时图输入到所述图卷积神经网络中进行所述空间特征的获取。
44.互相关系数是研究变量之间线性相关程度的量,定义公式如下:其中,x、y分别为两条链路的数据(在本实施例中是链路中的时序数据);cov(x,y)为x与y之间的协方差,var(x)与var(y)分别是x与y的方差。一般情况下,若是两条链路不链接,则互相关系数为0。
45.相应的,请参阅图8,本发明提供一种链路流量预测系统,包括:获取模块,用于获取新链路组的流量实时数据;处理模块,用于将所述流量实时数据输入到流量预测模型中,得到下一时间段网络流量预测值;其中,所述流量预测模型基于模拟新链路的模拟历史数据训练得到。
46.进一步的,作为优选方案,本实施例中,所述流量预测模型的训练过程包括:获取每个链路组的时序数据和空间数据;其中,所述时序数据为链路组的流量数据,所述空间数据为链路组的外部数据;使用模拟模型基于所述时序数据和所述空间数据生成模拟历史数据;所述预测模型基于生成对抗网络模型得到;将所述模拟历史数据作为新链路组的第一历史链路数据,结合其他链路的第二历史链路数据一起作为训练数据;使用所述训练数据对初始化的多重时序高阶算法-deepar
神经网络模型进行训练得到所述流量预测模型。
47.相应的,本发明提供一种电子设备,包括:存储器,存储有计算机程序;处理器,执行所述计算机程序时实现任一所述的链路流量预测方法。
48.相应的,本发明提供一种计算机可读介质,存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的链路流量预测方法。
49.计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
50.在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。
51.可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1