一种政务大数据平台数据采集优化方法与流程

文档序号:36481221发布日期:2023-12-25 11:20阅读:57来源:国知局
一种政务大数据平台数据采集优化方法与流程

本发明涉及数据采集领域,更具体的说,它涉及一种政务大数据平台数据采集优化方法。


背景技术:

1、随着大数据技术的不断发展,政务大数据的积累和收集变得日益关键。在这个背景下,社交网络数据的采集成为一个尤为重要的方面,其中包括微博、论坛等社交媒体平台。然而,由于社交网络上的信息涌入速度快,数据量庞大,传统的数据采集方法可能显得力不从心。因此,如何有效应对社交网络上的海量数据,确保在短时间内进行准确、全面的采集,成为政务大数据领域亟待解决的问题。


技术实现思路

1、本发明提供一种政务大数据平台数据采集优化方法,通过改进后的遗传算法对将采集任务分配至采集节点上这一问题进行模拟,输出采集效率最高的数据采集方案,并基于采集效率最高的数据采集方案进行社交网络数据采集,从而能够及时的采集社交网络上的数据。

2、一种政务大数据平台数据采集优化方法,包括:

3、获取采集节点ci和采集节点ci对应的cpu计算力qi,i=1,2,3······i,i为采集节点的总个数,cpu计算力qi由采集节点ci的cpu性能决定;

4、设置采集任务tj和采集任务tj对应的采集任务数据量nj,j=1,2,3······j,j为采集任务的总个数;

5、基于采集节点ci、cpu计算力qi、采集任务tj和采集任务数据量nj,通过改进后的遗传算法对数据采集任务进行优化模拟,输出数据采集方案;

6、根据数据采集方案将j个采集任务tj分配至i个采集节点上进行社交网络数据采集。

7、作为本发明优选的一个方面,通过改进后的遗传算法对数据采集任务进行优化模拟,具体包括如下步骤:

8、s1:令g=1,g用于记录迭代次数,设置最大迭代次数g;

9、s2:初始化生成m个待模拟数据采集方案fm,m=1,2,3······m,fm的形式为,将记为一个基因片段,一个基因片段表示采集任务tj对应的分配方式,将为i×j的矩阵,其中的取值为0或1,当时,代表将采集任务tj分配至采集节点ci上,当时,代表将采集任务tj未分配至采集节点ci上,并将m个待模拟数据采集方案fm组成第一种群;

10、s3:逐个选择第一种群中的待模拟数据采集方案fm,针对每个选择待模拟数据采集方案fm,计算待模拟数据采集方案fm对应的适应度δm;

11、s4:逐个选择第一种群中的待模拟数据采集方案fm,针对每个选择待模拟数据采集方案fm,执行待模拟数据采集方案更新操作,当全部待模拟数据采集方案fm更新完毕后,进入s5;否则选择待模拟数据采集方案进行fm执行待模拟数据采集方案更新操作;

12、s5:根据待模拟数据采集方案fm对应的适应度δm计算每个待模拟数据采集方案fm对应的跟随概率,代表第m个待模拟数据采集方案fm对应的跟随概率,通过随机函数生成m个0至1之间的随机数εm,逐个选择随机数εm,针对每个选择的随机数εm,通过轮盘赌选择算法确定随机数εm所对应的待模拟数据采集方案fm,针对选择的随机数εm所对应的待模拟数据采集方案fm执行待模拟数据采集方案更新操作;

13、s6:将所有待模拟数据采集方案fm中适应度δm最小的待模拟数据采集方案fm存入种群待选集合;

14、s7:获取所有更新次数wm(g),并将所有更新次数wm(g)逐个与更新阈值w进行大小比较,若是所有更新次数wm(g)均小于更新阈值w,进入s8;否则,逐个输出更新次数wm(g)大于更新阈值w对应的m值,将m值对应的待模拟数据采集方案fm存入种群待选集合,初始化生成一个待模拟数据采集方案替换m值对应的待模拟数据采集方案fm,进入s8;

15、s8:判断“g<m”是否成立,若是“g<m”成立,将g+1赋值给g,回到s4;若是“g<m”不成立,进入s9;

16、s9:获取种群待选集合,从种群待选集合中随机选取m个待模拟数据采集方案fm组成第二种群,将第二种群中的待模拟数据采集方案记为hm,hm的形式为,将记为一个基因片段,的取值方式与一致;

17、s10:获取第二种群中的待模拟数据采集方案hm及其对应的适应度ζm,适应度ζm的计算方式与适应度δm一致,计算待模拟数据采集方案hm对应的选择概率,指第m个待模拟数据采集方案hm对应的选择概率,基于选择概率,采用轮盘赌选择算法从第二种群中选择m/2个待模拟数据采集方案hm组成待模拟数据采集方案父本集;s11:对待模拟数据采集方案父本中的待模拟数据采集方案hm进行交叉重组操作,将经过交叉重组操作输出的待模拟数据采集方案hm组成待模拟数据采集方案子本集;

18、s12:判断“g<d”是否成立,d为变异阈值,若是“g<d”成立,进入s13;若是“g<d”不成立,对待模拟数据采集方案子本集内的待模拟数据采集方案hm进行变异操作,对模拟数据采集方案子本集进行更新,进入s13;

19、s13:判断“g<g”是否成立,若是“g<g”成立,将待模拟数据采集方案父本集与待模拟数据采集方案子本集组成并替换为第二种群,判断有无最优模拟数据采集方案存在,若是无最优模拟数据采集方案存在,选择第二种群中所有待模拟数据采集方案fm中适应度δm最小的待模拟数据采集方案fm作为最优模拟数据采集方案进行存储;若是有最优模拟数据采集方案存在,选择第二种群中所有待模拟数据采集方案fm中适应度δm最小的待模拟数据采集方案fm替换最优模拟数据采集方案进行存储,将g+1赋值给g,回到s10;若是“g<g”不成立,进入s14;

20、s14:选择最优模拟数据采集方案作为数据采集方案进行输出。

21、作为本发明优选的一个方面,初始化生成待模拟数据采集方案fm具体包括如下内容:遍历所有采集任务tj,针对每个采集任务tj,令,,其中k为1至i之间的随机整数,x满足x∈{1,2,3······i}且x≠k;当所有采集任务tj遍历完成后,生成对应的待模拟数据采集方案fm。

22、作为本发明优选的一个方面,计算待模拟数据采集方案fm对应的适应度δm具体包括如下步骤:计算待模拟数据采集方案fm对应的节点时延;其中节点时延为采用待模拟数据采集方案fm后采集节点ci处理所有分配至采集节点ci的采集任务所要花费的时间,选择所有节点时延中最大的节点时延作为适应度δm。

23、作为本发明优选的一个方面,待模拟数据采集方案更新操作具体包括如下内容:逐个选择待模拟数据采集方案fn,n∈{1,2,3······m}且n≠m,针对每个选择的待模拟数据采集方案fn,通过随机函数生成一个1至j之间的随机整数γ,并将待模拟数据采集方案fm中的替换为待模拟数据采集方案fn中,计算替换后的待模拟数据采集方案的适应度,将适应度与原来的适应度δm进行大小比较,若是适应度大于原来的适应度δm,将适应度作为适应度δm进行存储,并将替换后的待模拟数据采集方案作为待模拟数据采集方案fm进行存储;若是适应度不大于原来的适应度δm,无操作;同时记录更新次数wm(g),更新次数wm(g)初始为0,每当待模拟数据采集方案fm执行待模拟数据采集方案更新操作时,若是进行了将替换后的待模拟数据采集方案作为待模拟数据采集方案fm进行存储,将wm(g)+1赋值给wm(g),否则无操作。

24、作为本发明优选的一个方面,交叉重组操作具体包括如下内容:从待模拟数据采集方案父本中随机选择两个待模拟数据采集方案hm,通过随机函数生成两个1至j之间的随机整数,较大的随机整数记为η1,较小的随机整数记为η2,将两个待模拟数据采集方案hm中j取值在η1和η2之间的所有基因片段进行替换。

25、作为本发明优选的一个方面,变异操作具体包括如下内容:逐个选择模拟数据采集方案子本集内的待模拟数据采集方案hm,针对选择的待模拟数据采集方案hm,通过随机函数生成一个0至1之间的随机数λ,判断“λ>pc”是否成立,pc为变异概率,若是“λ>pc”成立,通过随机函数生成两个1至j之间的随机整数,分别记为μ1和μ2,将待模拟数据采集方案hm中j取值为μ1和μ2的基因片段进行替换。

26、一种政务大数据平台数据采集优化系统,包括:

27、采集节点获取模块,用于获取采集节点并编号;

28、cpu计算力获取模块,用于获取采集节点对应的cpu计算力;

29、采集任务获取模块,用于获取采集节点并编号;

30、采集任务数据量获取模块,用于获取采集任务对应的采集任务数据量;

31、数据采集方案模拟模块,用于基于采集节点、cpu计算力、采集任务和采集任务数据量,通过改进后的遗传算法对数据采集任务进行优化模拟,输出数据采集方案;

32、数据采集模块,用于根据数据采集方案将采集任务分配至采集节点上进行社交网络数据采集。

33、本发明具有以下优点:

34、1、本发明通过改进后的遗传算法对将采集任务分配至采集节点上这一问题进行模拟,输出采集效率最高的数据采集方案,并基于采集效率最高的数据采集方案进行社交网络数据采集,从而能够及时的采集社交网络上的数据。

35、2、本发明通过改进后的蜂群算法对待模拟数据采集方案进行模拟,并且记录适应度高和更新次数高的待模拟数据采集方案,这些待模拟数据采集方案能够更加接近数据采集方案的最优解,可以作为良好的遗传算法的初代种群,节约遗传算法模拟计算的时间。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1