一种基于自优化的启发式政务云数据复合查询方法与流程

文档序号:15558361发布日期:2018-09-29 01:39阅读:215来源:国知局
本发明属于互联网、大数据和信息
技术领域
,具体涉及一种基于自优化的启发式政务云数据复合查询方法。
背景技术
:随着国家信息化战略的深入推进以及互联网和云数据处理技术的快速发展,在政务、商务以及企业应用系统数据都广泛地采用分布式云数据存储技术,这些分布式数据节点具有高度的自治性,节点很多,查询条件维度的偶发性强,数据分布很难预先确定,并且异地节点间的通信环境不稳定等特点。而目前的分布式云数据复合查询方法对于所有节点通通采用对称式处理,无法根据各自治数据节点网络的实际状态做出调整,因而浪费通信资源、时效性不佳,经常会因某一节点异常造成间歇性的查询错误。技术实现要素:为解决上述问题,本发明的目的在于提供一种自身具有优化能力,并且实时性好的启发式复合查询方法。本发明解决其问题所采用的技术方案,包括以下步骤:一种基于自优化的启发式政务云数据复合查询方法,其特征在于:所述方法包括以下步骤:a.建立政务云网络的关系拓扑模型,并对其复合查询连接以及处理过程进行关系代数描述;b.采用动态半连接机制进行多维条件轮询,从而生成当前任务的最优查询计划,并寻址到最佳处理站点,实现启发式复合查询;c.根据复合查询条件队列,采用“并发筛选,集中处理”的原则,得到最终的复合查询结果。优选的,所述步骤a包括:(1)政务云网络的关系拓扑模型包括若干站点和客户端,在拓扑模型中,建立了分布式数据查询的本质模型;(2)对于政务云的拓扑模型的分布式复合查询过程利用关系代数描述如下:(dri,j,k)表示满足查询条件的关系数据集合dri从站点sitej传输到sitek的过程;css(dri,j,k)表示关系数据集合dri从站点sitej传输到sitek的过程的资源消耗,其值的计算方法为css(dri,j,k)=(|cjk|+|dri|)×cjk,其中|cjk|表示站点sitej到sitek的连接长度,|dri|表示关系数据集合dri的数据长度,cjk表示单位数据资源消耗;cst(dri,j,k)表示关系数据集合dri从站点sitej传输到sitek的过程的时间消耗,其值的计算方法为cst(dri,j,k)=(|cjk|+|dri|)×tjk,其中tjk表示单位数据的传输时间;对于d维条件的复合查询过程,从第i(1≤i≤n)个站点中筛选出符合查询条件j(1≤j≤d)的过程表示为关系代数遍历所有站点后筛选出符合条件j的过程表示为关系代数上述两过程执行的结果即满足筛选条件的属性m的集合记为∏m(),用关系代数表示为:表示经关系操作a和b后,筛选出相同属性的自然连接过程。优选的,所述步骤b包括:在政务云系统中,各数据站点的轮询过程,采用动态半连接机制方法的过程为:将站点sitep的关系数据集drp传输给sitei,并选取sitei为处理站点,计算drp∩dri,再将计算结果传输给第三站点siteq,动态半连接查询的这一过程用关系代数表述为:selh(dri,drp,p,q);采用直接查询的过程为:以站点sitei为处理站点,将sitei上满足条件cj的数据集dri传输给站点siteq,用关系代数表述为:sel(cj,dri,q);对于步骤a中所建立的政务云网络模型,它的最优查询计划——启发式复合查询计划的生成过程如下:s1:针对d维复合条件中的每一维,都遍历云数据站点,计算该维条件下,各站点采用动态半连接操作和直接操作的资源占用:s2:比较s1中算得的动态半连接查询和直接查询二者的资源消耗大小:s3:选取作为当前查询计划的最优计划,当前处理站点为最优处理站点;s4:d维循环迭代后,查询最后处理站点是否是请求源cliento,若非请求源,则将最后处理站点的结果返回给cliento,并在最优计划表中加入该计划,最终生成的就是针对该政务云网络的启发式最优查询计划。优选的,所述步骤c包括:s1:创建一个复合查询条件队列codtn=[c1,c2…cd],并为每个筛选集结果设置一个巡查标志位flgi(sitem),表示站点m经过条件查询后的第i个属性集的条件符合性标志情况,符合为1,不符合为0;s2:并发筛选:在每个站点中,都进行关系计算找到复合条件并的所有w个属性的集合;s3:集中处理:将s2中的并发筛选结果以及相应的巡查标志flg(site1)…flg(siten)全部发送到最优处理站点siteopt,s4:在站点siteopt中,计算flg(site1)∧flg(site2)∧…∧flg(siten),得到复合巡查标志位flg,其中存放的标志就是满足所有复合条件的属性的站点和数据信息的索引,依据索引得到复合查询结果。本发明的有益效果是:在复杂多变并且偶发性强的复合查询任务中,本发明能够占用资源少、实时性强地完成查询任务,并可根据当前的网络状况,选择最优计划和站点,具有受网络异常影响小,稳定可靠性高的有益效果。附图说明图1为本发明的整体流程图;图2为政务云的简化拓扑模型;图3为最优计划生成和最优处理站点寻址流程;图4为站点的巡查标志位结构。具体实施方式参照图1,本发明一种基于自优化的启发式政务云数据复合查询方法,所述方法包括以下步骤:a.建立政务云网络的关系拓扑模型,如图2所示,并对其复合查询连接以及处理过程进行关系代数描述。(1)在拓扑模型中,建立了分布式数据查询的本质模型,模型具有以下特点:①该网络是点到点的互联网络架构,并且两两结点之间的数据连通是可靠的,数据传输速度在一定时间段内可认为是恒定的。②站点site1到siten中的数据管理是相互独立的。③一次完整的复合查询过程为:由请求源客户端cliento发起请求,并提出查询计划到分布式数据站点,各站点执行计划后,将结果返回cliento。④本发明所述方法可适用于任意类型及属性的数据,为方便描述,以下设定所要查询的都是复合属性的对象,并且返回值为单属性。⑤每个站点中的关系型数据结构表示为:dti:mm.f1m.f2…m.fsm表示属性,fa(1≤a≤s)为属性m的特征。(2)对于图1所述模型的分布式复合查询过程利用关系代数描述如下:(dri,j,k)表示满足查询条件的关系数据集合dri从站点sitej传输到sitek的过程;css(dri,j,k)表示关系数据集合dri从站点sitej传输到sitek的过程的资源消耗;其值的计算方法为css(dri,j,k)=(|cjk|+|dri|)×cjk,其中|cjk|表示站点sitej到sitek的连接长度,|dri|表示关系数据集合dri的数据长度,cjk表示单位数据资源消耗。cst(dri,j,k)表示关系数据集合dri从站点sitej传输到sitek的过程的时间消耗;其值的计算方法为cst(dri,j,k)=(|cjk|+|dri|)×tjk,其中tjk表示单位数据的传输时间。对于d维条件的复合查询过程,从第i(1≤i≤n)个站点中筛选出符合查询条件j(1≤j≤d)的过程表示为关系代数遍历所有站点后筛选出符合条件j的过程表示为关系代数上述两过程执行的结果即满足筛选条件的属性m的集合记为∏m(),用关系代数表示为:表示经关系操作a和b后,筛选出相同属性的自然连接过程。b.采用动态半连接机制进行多维条件轮询,从而生成最优查询计划,并寻址最优处理站点,实现启发式复合查询。政务云的多维复合条件查询任务中,只要其网络为有限确定性架构,那么其响应时间就能够在多项式复杂程度下求解,因此多维复合查询任务属于np完全问题,只有采用启发式查询才可有效提高查询算法的效率。在政务云系统中,各数据站点的轮询过程,采用动态半连接机制,可以大大提高执行效率,减少资源占用。其方法是:将站点sitep的关系数据集drp传输给sitei,并选取sitei为处理站点,计算drp∩dri,再将计算结果传输给第三站点siteq,动态半连接查询的这一过程用关系代数表述为:selh(dri,drp,p,q)。但半连接机制本身的串行特性造成了其等待时间较长,可采用比较法,选择动态半连接和直接查询二者中的资源占用小的来执行单次查询即可,直接查询的过程用关系代数表述为:sel(cj,dri,q),表示以站点sitei为处理站点,将sitei上满足条件cj的数据集dri传输给站点siteq。对于步骤a中所建立的政务云网络模型,它的最优查询计划——启发式复合查询计划的生成过程,如图3所示,其核心步骤如下:s1:针对d维复合条件中的每一维,都遍历云数据站点,计算该维条件下,各站点采用动态半连接操作和直接操作的资源占用:s2:比较s1中算得的动态半连接查询和直接查询二者的资源消耗大小:s3:选取作为当前查询计划的最优计划,当前处理站点为最优处理站点;s4:d维循环迭代后,查询最后处理站点是否是请求源cliento,若非请求源,则将最后处理站点的结果返回给cliento,并在最优计划表中加入该计划,最终生成的就是针对该政务云网络的启发式最优查询计划。c.经过步骤b得到复合查询的最优计划表planopt和最优处理站点siteopt后,再根据复合查询条件队列,采用“并发筛选,集中处理”的原则,得到最终的复合查询结果。s1:创建一个复合查询条件队列codtn=[c1,c2…cd],并为每个筛选集结果设置一个巡查标志位flgi(sitem),表示站点m经过条件查询后的第i个属性集的条件符合性标志情况,符合为1,不符合为0。s2:并发筛选。在每个站点中,都进行关系计算找到复合条件并的所有w个属性的集合。这一过程中,巡查标志位的构成如图4所示:s3:集中处理。将s2中的并发筛选结果以及相应的巡查标志flg(site1)…flg(siten)全部发送到步骤b中计算得到的最优处理站点siteopt。s4:在站点siteopt中,计算flg(site1)∧flg(site2)∧…∧flg(siten),得到复合巡查标志位flg,其中存放的标志就是满足所有复合条件的属性的站点和数据信息的索引。依据索引便可快速得到复合查询的结果。综上即实现本发明所述的云数据复合查询,该方法具有资源占用少、实时性强,并可适应网络状况,选择最优站点和计划的有益效果。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1