基于教育网活跃地址的数据预测方法、装置、设备及介质与流程

文档序号:33635314发布日期:2023-03-29 00:22阅读:51来源:国知局
基于教育网活跃地址的数据预测方法、装置、设备及介质与流程

1.本公开涉及计算机技术领域,尤其涉及一种基于教育网活跃地址的数据预测方法、装置、电子设备及介质。


背景技术:

2.随着教育系统信息化平台的发展应用,根据教育部规划,为现有的教育网、校园网升级,新一代教育网必然成为未来教育信息化的基础。对教育网内高校活跃地址的往期统计和未来预测,能够很好的分析出各省份、各类型高校教育网的使用情况和发展趋势,并根据使用情况和发展趋势发展针对性的网络增值业务,最终更好的把握教育网整体的发展脉搏。


技术实现要素:

3.鉴于上述问题,本发明提供了一种基于教育网活跃地址的数据预测方法。
4.本公开的一个方面提供了一种基于教育网活跃地址的数据预测方法,包括:采集并汇聚netflow数据和全流量数据中的高校活跃地址数据;通过olap cube多维数据结构,以时间、高校类型、省份为维度,以三维结果集的形式对所述高校活跃地址数据进行存储;对所述高校活跃地址数据进行提取,得到各省份、各类型的高校在每个历史时间的活跃地址数据;基于各省份、各类型高校在每个历史时间的活跃地址数据,生成不同省份、不同类型的高校的活跃地址回归曲线;根据所述活跃地址回归曲线预测高校未来的活跃地址数据。
5.可选地,所述采集并汇聚netflow数据和全流量数据中的高校活跃地址数据包括:从所述netflow数据和所述全流量数据中的高校活跃地址数据;按地址段整理汇总所述高校活跃地址数据,并根据预设的地址库匹配所述高校活跃地址数据的类型和所属省份信息。
6.可选地,所述通过olap cube多维数据结构,以时间、高校类型、省份为维度,以三维结果集的形式对所述高校活跃地址数据进行存储包括:以时间、高校类型、省份为维度,将每个维度的聚合条件下的所述高校活跃地址数据形成一张二维表;以各所述二维表的聚合字段为轴进行拼接,组成所述高校活跃地址数据的三维结果集。
7.可选地,所述对所述高校活跃地址数据进行提取,得到各省份、各类型的高校在每个历史时间的活跃地址数据包括:在时间维度上对三维结果集下的高校活跃地址数据进行逐层提取,取得每一历史时间各类型、各省份的高校活跃地址数据。
8.可选地,所述基于各省份、各类型高校在每个历史时间的活跃地址数据,生成不同省份、不同类型的高校的活跃地址回归曲线包括:以各省份、各类型高校在每个历史时间的活跃地址数据为训练数据,通过最小二乘算法进行拟合训练,得到所述活跃地址回归曲线。
9.可选地,所述根据所述活跃地址回归曲线预测高校未来的活跃地址数据包括:将预测时刻输入所述活跃地址回归曲线的拟合函数,得到所述预测时刻的高校的活跃地址数
据。
10.可选地,所述活跃地址数据包括地址段、高校名称、省份、活跃数和流量数。
11.本公开另一方面提供了一种基于教育网活跃地址的数据预测装置,包括:数据采集模块,用于采集并汇聚netflow数据和全流量数据中的高校活跃地址数据;数据存储模块,用于通过olap cube多维数据结构,以时间、高校类型、省份为维度,以三维结果集的形式对所述高校活跃地址数据进行存储;数据提取模块,用于对所述高校活跃地址数据进行提取,得到各省份、各类型的高校在每个历史时间的活跃地址数据;数据模拟模块,用于基于各省份、各类型高校在每个历史时间的活跃地址数据,生成不同省份、不同类型的高校的活跃地址回归曲线;数据预测模块,用于根据所述活跃地址回归曲线预测高校未来的活跃地址数据。
12.本公开的另一个方面提供了一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现所述基于教育网活跃地址的数据预测方法中的各个步骤。
13.本公开的另一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现所述基于教育网活跃地址的数据预测方法中的各个步骤。
14.在本公开实施例采用的上述至少一个技术方案能够达到以下有益效果:
15.该方法可以对高校未来的活跃地址数进行预测,并根据使用情况和发展趋势发展针对性的网络增值业务,更好的把握教育网整体的发展脉搏。
附图说明
16.为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
17.图1示意性示出了本公开实施例提供的一种基于教育网活跃地址的数据预测方法的示意图;
18.图2示意性示出了本公开实施例提供的一种教育网活跃地址的三维数据示意图;
19.图3示意性示出了本公开实施例提供的一种基于教育网活跃地址的数据预测装置的结构框图;
20.图4示意性示出了本公开实施例提供的一种电子设备的结构框图。
具体实施方式
21.以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
22.在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
23.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的
含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
24.附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
25.因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。
26.olap是on-line analytical processing(联机分析处理)的缩写,广义的olap泛指数据查询分析,像报表、即席查询、多维分析都属于olap的范畴。
27.与olap相对的一个概念是oltp(on-line transaction processing)在线事务处理,就是我们平常说的的交易系统,像oa、erp、crm、银行的核心交易系统都属于oltp的范畴。oltp和olap最大区别在于前者会产生数据,而后者只利用前者生产的数据进行数据分析为企业经营提供决策支持。
28.cube也叫数据立方体,可以理解成是一个数据集,在多维分析中使用者需要基于一个结果集进行拖拽分析,这个结果集就是cube了,多维分析针对cube进行查询、切片、钻取等操作。
29.最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。
30.图1示意性示出了本公开实施例提供的一种基于教育网活跃地址的数据预测方法的示意图。
31.如图1所示,本公开实施例提供了一种基于教育网活跃地址的数据预测方法,包括s110~s150。
32.s110,采集并汇聚netflow数据和全流量数据中的高校活跃地址数据。
33.在本实施例中,从所述netflow数据和所述全流量数据中的高校活跃地址数据;按地址段整理汇总所述高校活跃地址数据,并根据预设的地址库匹配所述高校活跃地址数据的类型和所属省份信息。
34.在本实施例中,所述活跃地址数据包括地址段、高校名称、省份、活跃数和流量数。存入数据库的示例数据如下:
35.地址段高校名称省份活跃数流量数2001:da8:200::/48清华大学北京21.17w57.58g
36.s120,通过olap cube多维数据结构,以时间、高校类型、省份为维度,以三维结果集的形式对所述高校活跃地址数据进行存储。
37.在本实施例里中,参考图2,以时间、高校类型、省份为维度,将每个维度的聚合条件下的所述高校活跃地址数据形成一张二维表;以各所述二维表的聚合字段为轴进行拼接,组成所述高校活跃地址数据的三维结果集。
38.s130,对所述高校活跃地址数据进行提取,得到各省份、各类型的高校在每个历史时间的活跃地址数据。
39.在本实施例中,在时间维度上对三维结果集下的高校活跃地址数据进行逐层提取,取得每一历史时间各类型、各省份的高校活跃地址数据。
40.具体的,对olap cube结构下的高校活跃地址数据进行钻取(即在维的不同层次间的变化,从上层降到下一层,或者说是将汇总数据拆分到更细节的数据),取得各类型、各省份的高校活跃地址数据。
41.接着对数据进行切片操作(即选择维中特定的值进行分析),按时间维度对活跃地址数据进行进一步分析。
42.s140,基于各省份、各类型高校在每个历史时间的活跃地址数据,生成不同省份、不同类型的高校的活跃地址回归曲线。
43.在本公开实施例中,以各省份、各类型高校在每个历史时间的活跃地址数据为训练数据,通过最小二乘算法进行拟合训练,得到所述活跃地址回归曲线。
44.最小二乘法是解决曲线拟合最常用的方法。其基本思路是:令:
45.f(x)=a1β1(x)+a2β2(x)+a3β3(x)
46.其中βn(x)是事先选定的一组线性无关的函数,an是一组待定系数,拟合准则是使yn与f(xn)的距离δn的平方和最小。
47.s150,根据所述活跃地址回归曲线预测高校未来的活跃地址数据。
48.在本实施例中,通过s140得到的高校活跃地址回归拟合曲线,将预测时刻输入所述活跃地址回归曲线的拟合函数,可以得到所述预测时刻的高校的活跃地址数据。
49.例:北京市双一流高校在最近4个季度的活跃地址拟合函数为:
50.f(x)=1.1(1.3x+0.3)+1.2(1.2x+0.2)+0.9(1.4x+0.3)
51.则在下个季度x=5时,活跃地址为21.49w。
52.具体的,βn(x)会是更复杂的函数形式,本处由于篇幅原因仅以基础线性函数作为示例。
53.图3示意性示出了本公开实施例提供的一种基于教育网活跃地址的数据预测装置的结构框图。
54.如图3所示,本公开实施例提供了一种基于教育网活跃地址的数据预测装置,包括:数据采集模块310、数据存储模块320、数据提取模块330、数据模拟模块340和数据预测模块350。
55.数据采集模块310用于采集并汇聚netflow数据和全流量数据中的高校活跃地址数据。
56.数据存储模块320用于通过olap cube多维数据结构,以时间、高校类型、省份为维度,以三维结果集的形式对所述高校活跃地址数据进行存储。
57.数据提取模块330用于对所述高校活跃地址数据进行提取,得到各省份、各类型的高校在每个历史时间的活跃地址数据。
58.数据模拟模块340用于基于各省份、各类型高校在每个历史时间的活跃地址数据,生成不同省份、不同类型的高校的活跃地址回归曲线。
59.数据预测模块350用于根据所述活跃地址回归曲线预测高校未来的活跃地址数据。
60.可以理解的是,数据采集模块310、数据存储模块320、数据提取模块330、数据模拟模块340和数据预测模块350可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,数据采集模块310、数据存储模块320、数据提取模块330、数据模拟模块340和数据预测模块350中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,数据采集模块310、数据存储模块320、数据提取模块330、数据模拟模块340和数据预测模块350中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
61.图4示意性示出了本公开实施例提供的一种电子设备的结构框图。
62.如图4所示,本实施例中所描述的电子设备,包括:电子设备400包括处理器410、计算机可读存储介质420。该电子设备400可以执行上面参考图1描述的方法,以实现对特定操作的检测。
63.具体地,处理器410例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器410还可以包括用于缓存用途的板载存储器。处理器410可以是用于执行参考图1描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
64.计算机可读存储介质420,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。
65.计算机可读存储介质420可以包括计算机程序421,该计算机程序421可以包括代码/计算机可执行指令,其在由处理器410执行时使得处理器410执行例如上面结合图1所描述的方法流程及其任何变形。
66.计算机程序421可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序421中的代码可以包括一个或多个程序模块,例如包括421a、模块421b、
……
。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器410执行时,使得处理器410可以执行例如上面结合图1~图2所描述的方法流程及其任何变形。
67.根据本发明的实施例,数据采集模块310、数据存储模块320、数据提取模块330、数据模拟模块340和数据预测模块350中的至少一个可以实现为参考图4描述的计算机程序模块,其在被处理器410执行时,可以实现上面描述的相应操作。
68.本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
69.本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
70.尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1