一种基于大数据的数据治理方法和系统

文档序号:24640413发布日期:2021-04-09 20:53阅读:79来源:国知局
一种基于大数据的数据治理方法和系统

本发明属于大数据处理技术领域,尤其涉及一种基于大数据的数据治理方法和系统。



背景技术:

数据是大数据工程的基础和核心,其完整性、及时性以及质量是一切目标的保障条件。在大数据的支撑下经济和技术的发展走向“智慧化”,通过整合各类数据信息对社会各个生产领域的运行状况进行监测,实现安全生产管理工作的改进和优化。通过对大数据的数据信息的实时采集、数据存储、数据分析和综合查询,使得各行各业能够高效率的捕捉、发现和分析,能够经济地从类型繁杂、数量庞大的数据中挖掘出有价值的信息,从而为各行各业生产运行综合管理、综合调度、综合协调、综合指挥提供数据支撑。但是因为机构组织、业务系统、数据平台的不同,很多数据组织呈现各自为阵、数据不共用、重复数据,信息互不相连、数据分布不均,数据平台的利用情况不平衡;从数据平台硬件角度看,也就是从数据内容透明的角度看,部分数据因为设备容量问题而更新速度过快,造成关键数据提前主动丢失,而有些数据则无条件保留。如何进行大数据的有效管理和有效提供,使得大数据的提供满足用户访问请求的用户体验,是待解决的技术问题。本发明实现业务系统对应数据节点之间的数据交换和共享,实现数据治理的目标,提升数据的价值。能够提供多层次有安全保障的数据治理,将集中式数据治理转换成部分随机分布式安全治理,通过局部数据交换和重定向实现高效的数据治理。



技术实现要素:

为了解决现有技术中的上述问题,本发明提出了一种基于大数据的数据治理方法和系统,所述方法包含:

步骤s1:启动数据节点发起数据治理,并确定数据治理范围;

步骤s2:在数据治理范围的确定过程中确定控制节点;

步骤s3:控制节点基于系统图确定数据治理子图;

步骤s4:基于数据治理子图作数据交换和共享。

进一步的,所述启动条件,具体为:当收到启动触发指令时,启动条件满足。

进一步的,为特定数据节点设置定时装置,当定时时间点到达时,所述特定数据节点成为启动数据节点。

进一步的,所述满足启动条件的启动数据节点发起数据治理并得到数据治理范围,具体为:启动数据节点随机选择p个直接相连的数据节点,发起启动指令给所述p个数据节点并将所述p个数据节点归入当前数据治理范围;所述p个数据节点中的每个数据节点重复随机选择p个直接相连的数据节点、发起启动指令、归入当前数据治理范围的步骤,直到终止条件满足;

在发起启动指令之前,将接收到的启动指令中上一级数据节点的历史平均繁忙程度和当前数据节点的繁忙程度比较,将其中的繁忙程度较小者及其对应的数据节点标识包含在启动指令中发出;

所述终止条件为:当前数据治理范围中的数据节点数量达到预设数量;

当前数据节点在发出启动指令前,请求将其选择的p个数据节点加入数据治理范围,如果加入所述p个数据节点后未超过数据治理范围大小,则允许并将所述p个数据节点加入数据治理范围;如果加入所述p个节点后超过数据治理范围,则终止条件满足,后续发出的加入数据范围的请求将均被拒绝;数据治理范围为参与本次数据治理的数据节点集合;数据治理范围的大小为数据节点集合的大小。

进一步的,预设数量为1000。

一种基于大数据的数据治理系统,所述系统包括:多个相互连接的数据节点,所述数据节点用于保存业务系统的数据;数据节点之间存在或不存在直接连接关系;将数据节点及其连接关系用系统图表示;每个数据节点为系统图中的一个节点。

进一步的,业务系统的数据为大数据。

进一步的,客户端用于发起数据访问请求,并从业务系统接收业务系统访问请求的请求结果。

进一步的,业务系统的数据保存在一个或多个数据节点上。

进一步的,数据节点还用于根据数据治理指示作数据转移和共享。

本发明能够提供多层次有安全保障的数据治理,将集中式数据治理转换成部分随机分布式安全治理,通过局部数据交换和重定向实现高效的数据治理;有益效果具体包括:(1)设置和安全等级对应的多层系统图,从整体上实现层次化的数据治理,使得数据移动和共享能够得到安全性保障;(2)只需要在启动条件满足,就能够发起非集中式的数据节点管理的开始,通过随机圈定行动范围,在实现基本的数据治理基础上,大大的提高了系统安全性;(3)从全局系统图出发进行分布式控制,基于量化计算不断消灭最低谷的方式使得最终整个系统达到平衡;(4)采用数据交换和重定向、部分重定向相结合的方式,通过量化的设置交换比例,在子图内部达到一种局部平衡,降低了数据治理的难度。

附图说明

此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:

图1为本发明的基于大数据的数据治理方法的示意图。

具体实施方式

下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。

本发明所涉及的一种基于大数据的数据治理系统,所述系统包括:多个相互连接的数据节点;所述数据节点用于保存业务系统的数据;业务数据的数据为大数据;数据节点之间存在或不存在直接连接关系;将数据节点及其连接关系用系统图表示;每个数据节点为系统图中的一个节点,存在直接连接关系的两个数据节点之间对应系统图中的一个边;而不存在直接连接关系的两个数据节点之间没有对应边;基于安全等级为数据治理系统形成多层系统图;每层系统图对应一个安全等级;在一个安全等级对应的系统图中,只包含和所述安全等级对应的数据节点和边,和该安全等级不对应的数据节点及其关联边在当前的安全等级下均是不可见的;通过这样的方式从整体上实现层次化的数据治理,使得数据移动和共享能够得到安全性保障;该安全等级也可以为可信等级;

可替换的,当两个数据节点之间的通信开销小于预设值时,该两个数据节点之间设置有对应边,否则不设置有对应边;

所述数据节点还用于根据数据治理指令作数据转移和共享;

所述系统还包括一个或者多个客户端,客户端用于发起数据访问请求,并从业务系统接收业务系统访问请求的请求结果;

本发明所涉及的一种基于大数据的数据治理方法,包括如下步骤:

步骤s1:当启动条件满足时,满足启动条件的启动数据节点发起数据治理,并确定数据治理范围;

所述启动条件,具体为:当收到启动触发指令时,启动条件满足;例如:所述启动条件为人工发送启动指令;

可替换的:为特定数据节点设置定时装置,当定时时间点到达时,所述特定数据节点成为启动数据节点;

所述满足启动条件的启动数据节点发起数据治理并得到数据治理范围,具体为:启动数据节点随机选择p个直接相连的数据节点,发起启动指令给所述p个数据节点并将所述p个数据节点归入当前数据治理范围;所述p个数据节点中的每个数据节点重复随机选择p个直接相连的数据节点、发起启动指令、归入当前数据治理范围的步骤,直到终止条件满足;

优选的:在发起启动指令之前,将接收到的启动指令中上一级数据节点的历史平均繁忙程度和当前数据节点的繁忙程度比较,将其中的繁忙程度较小者及其对应的数据节点标识包含在启动指令中发出;

所述终止条件为:当前数据治理范围中的数据节点数量达到预设数量;例如:1000个节点;

可替换的:终止条件为从启动数据节点开始的启动次数达到预设次数;

优选的:当前数据节点在发出启动指令前,请求将其选择的p个数据节点加入数据治理范围,如果加入所述p个数据节点后未超过数据治理范围大小,则允许并将所述p个数据节点加入数据治理范围;如果加入所述p个节点后超过数据治理范围,则终止条件满足,后续发出的加入数据范围的请求将均被拒绝;也就是说,数据治理范围为参与本次数据治理的数据节点集合;数据治理范围的大小为数据节点集合的大小;

优选的:所述p等于1;

优选的:当直接连接的节点数量小于p时,选择全部直接连接节点,并请求将这些数据节点加入数据治理范围;

步骤s2:在数据治理范围的确定过程中确定控制节点;具体的:在确定数据治理范围的过程中,不断更新繁忙程度最低的数据节点,并最终选择数据治理范围内繁忙程度最低的数据节点为控制节点;在将数据节点加入数据治理范围时,将当前数据节点的繁忙程度和当前数据治理范围内的繁忙程度相比较以确定最新的最低繁忙程度及其对应的数据节点标识;记录繁忙程度最低的q个数据节点及其对应的数据节点标识,最终从所述q个数据节点中选择一个数据节点作为控制节点;控制节点得到控制权相对随机,使得篡改可能性进一步降低;

优选的:启动数据节点在数据治理范围的确定过程中确定控制节点;还用于保存相关数据;

优选的:所述繁忙程度为历史平均繁忙程度;启动指令中包含发出路径中历史平均繁忙程度最小值及其对应数据节点标识;在发出启动指令后,当前数据节点中保存所述路径中历史平均繁忙程度最小值;

优选的:繁忙程度可以用cpu的使用率、内存的使用率、内存的访问频率等指标来计算;

现有技术中往往都是集中节点过着固定节点通过集中式方式进行数据治理,但是这样的方式一方面存在很大安全隐患,同时对固定节点造成很大压力;本发明的启动节点和控制节点的选择均非固定,只需要在启动条件满足,就能够发起非集中式的数据节点管理的开始,通过随机圈定治理范围,在实现基本的数据治理基础上,大大的提高了系统安全性;

优选的:将繁忙程度相对低的第q+1个数据节点作为特定节点,为特定数据节点设置定时装置,当定时时间点到达时,所述特定数据节点成为启动数据节点;

可替换的:将繁忙程度相对低的第q+1到q+q个数据节点作为待选特定节点,为特定数据节点设置定时装置,当定时时间点到达时,在q+1到q+q个数据节点中选择一个数据节点作为特定节点,并使得所述特定数据节点成为启动数据节点;选择的方式为在定时时间点访问瞬间访问热度最低的数据节点;或选择的方式为q个节点分布式推举的方式,此时无需上次治理控制节点或者启动节点参加;通过这样的方式,以相对随机且条件允许的方式设置了启动节点来发起数据治理;

步骤s3:控制节点基于系统图确定数据治理子图;具体的:控制节点从启动数据节点获取控制权和数据治理范围;获取和当前安全等级对应的系统图;基于系统图中的连接关系连接数据治理范围内的数据节点以形成治理图;在治理图中以繁忙程度最低的q个数据节点为中心构建数据治理子图;不同于现有技术中进行整体控制或者单个节点出发数据治理的方式,本发明从全局系统图出发进行分布式控制,通过不断消灭最低谷的方式使得最终整个系统达到平衡,在确定过程中做频繁程度的比较以确定控制节点是否被篡改来保障安全性;

所述在治理图中以繁忙程度最低的q个数据节点为中心构建q个数据治理子图,具体包括如下步骤:

步骤sa1:初始化治理图中所有数据节点为未标记;

步骤sa2:从q个数据节点中获取一个数据节点作为当前中心数据节点;初始化当前中心数据节点为中心的当前数据治理子图;

优选的:将当前数据节点将自身保存的路径最低繁忙程度和当前控制节点的繁忙程度做比较,若当前控制节点的繁忙程度为非最低值,则确定当前控制节点被篡改,并进行安全反馈;所述进行安全反馈的方式为停止进行数据治理过程,并进行人工反馈;

步骤sa3:基于治理图获取和中心数据节点直接连接的繁忙程度最高的未标记数据节点作为当前数据节点;

步骤sa4:判断加入当前数据节点后当前数据治理子图的繁忙程度是否在阈值范围内,如果是,进入步骤sa5;如果繁忙程度小于阈值范围,则允许当前数据节点加入当前数据治理子图并进入步骤sa3继续获取数据节点并加入;如果繁忙程度大于阈值范围,则拒绝当前数据节点加入当前数据治理范围子图,并进入步骤sa5;阈值范围为数据节点繁忙程度的一个合理范围,可根据数据治理图中的数据节点状态来设置;

采用公式(1)计算当前数据治理子图的繁忙程度tdgr;

(1);

其中:数据治理子图中第i个数据节点的繁忙基数值dbi,繁忙程度dgri;例如:繁忙基数值为数据节点的存储空间大小,繁忙程度为存储空间的空闲率或繁忙程度;繁忙基数值是繁忙程度指标所针对的目标对象的判断基数值;

优选的:当繁忙程度设置为多种类型表征时,进行多种类型表征的加权求和以同时满足多种表征之间的平衡;

步骤sa5:当前数据治理子图完成;若q个数据节点均处理完毕则进入步骤sa6,否则,进入步骤sa2;

步骤sa6:所有数据治理子图完成;

通过调整q的数值以及阈值范围能够适应性的调整数据治理子图的个数和数据交换的范围;当加入一数据节点进入当前数据治理子图时,如果所述一数据节点已经在当前数据治理子图中,则继续下一数据节点,不再重复加入;

步骤s4:基于数据治理子图作数据交换和共享;具体的:控制节点将控制权发送给数据治理子图;数据治理子图在子图内进行数据交换,并在数据治理子图内部形成数据共享;

所述控制节点将控制权发送给数据治理子图,具体为:控制节点将控制权发送给数据治理子图的中心数据节点;

所述数据治理子图在子图内进行数据交换,具体包含如下步骤:

步骤sb1:根据每个数据节点的繁忙程度在数据节点之间分配数据交换比例;具体的:根据每个数据节点的繁忙基数值dbi和繁忙程度dgri乘积的比例作为分配数据交换比例;其中:每个数据节点包含中心数据节点;

步骤sb2:按照分配数据交换比例将数据节点上的存储区域交换到中心数据节点,最终使得每个数据节点的繁忙基数值dbi和繁忙程度dgri乘积的比例最接近1:1;

优选的:数据节点包含多个存储区域,选择数据节点上访问热度最低的存储区域作交换,将访问热度最低的存储区域中的部分数据直接交换出当前数据节点;和/或选择数据节点上访问热度最高的数据区域,将所述访问热度最高的数据区域备份存储到中心数据节点,并通过数据重定向来转移部分访问,以降低热度;

所述在数据子图内部形成数据共享,具体为:在将数据区域交换出去之后,在数据节点中设置重定向,在接收到针对存储区域的访问时,将访问完全或部分重定向到中心数据节点;当交换出去的是访问热度最低的数据区域时,设置完全重定向,而在交换出去的是热度最高的数据区域时,设置部分重定向;

所述部分重定向,具体为:计算数据节点所有存储区域的平均繁忙程度,对每个存储区域的繁忙程度进行监测,当存储区域的繁忙程度高于平均繁忙程度时,将针对所述存储区域的连续r个访问重定向到中心数据节点,在经过所述r个访问的重定向后,所述存储区域的繁忙程度低于(平均繁忙程度*(n-1)/n);其中:n为所述数据节点中存储区域的个数;将r的初始值设置为n,在n个访问被重定向后再进行r值的递增,在递增过程中监测繁忙程度是否低于(平均繁忙程度*(n-1)/n);和现有技术中单纯的数据重定向不同,本发明中采用数据交换和重定向、部分重定向相结合的方式,通过量化的设置交换比例,在子图内部达到一种局部平衡,降低了数据治理的难度;通过连续r值重定向,在保障数据访问连续性的基础上,降低数据存储区域的热度,使得数据中心的响应不至于过低;这样即使在多bank情况下,也能够保障一个连续的跨bank访问不被打断;

本发明的有益效果包括:(1)设置和安全等级对应的多层系统图,从整体上实现层次化的数据治理,使得数据移动和共享能够得到安全性保障;(2)只需要在启动条件满足,就能够发起非集中式的数据节点管理的开始,通过随机圈定行动范围,在实现基本的数据治理基础上,大大的提高了系统安全性;(3)从全局系统图出发进行分布式控制,基于量化计算不断消灭最低谷的方式使得最终整个系统达到平衡;(4)采用数据交换和重定向、部分重定向相结合的方式,通过量化的设置交换比例,在子图内部达到一种局部平衡,降低了数据治理的难度;

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:rom/ram、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1