一种数据管理方法与管理平台与流程

文档序号:11250991阅读:535来源:国知局
一种数据管理方法与管理平台与流程

本发明涉及数据处理的技术领域,特别涉及一种数据清洗、数据治理的数据管理方法、管理平台。



背景技术:

随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息,但同时也需要投入更多的时间对数字化信息进行组织和整理。例如在业务系统中,往往会因为语言多样化、数据格式多样化、或数据组织形式的不同等因素而产生多样、多形式的不标准数据,例如订单的付款时间可能采取dd:mm:yy,或者采取yyyy.mm.dd的形式,这些就是格式不统一的数据。在对数据做统计分析之前,需要将这些数据进行治理或者将不标准的数据进行清洗,以确保统计的准确性。数据清洗是一个减少数据错误和不一致性的过程,主要任务是检测并删除或改正将转入数据库的脏数据。

目前整个大数据环境对数据质量的处理还没有很成熟有效的工具的和平台彻底解决该类问题,并且针对海量、不同语种、不同结构数据的研究和处理更是缺乏相关的经验和技术研究。

目前的数据清洗、数据治理以数据库其本身的技术方法为主,以软件工作为辅助来完成数据的清洗,而且清洗工具处理的数据覆盖面较窄,主要针对各自业务的具体需求,解决一些具有专业性的业务需求。现有的清洗技术目标单一,不能有效解决多结构、多类型数据,技术应用对硬件系统要求高、系统成本高,处理方式受到数据库本身及机器的限制,而且不能对多类型数据做出规范化,处理方式单一不能高效、便捷的处理。

在这种背景下,借助于信息系统国产化的发展趋势,需要提出一种能够在管理数据的过程中实现高效、通用的数据治理方法,实现数据治理过程人力成本降低,时间投入少,降低项目风险。



技术实现要素:

为解决如上的技术问题,本发明提出了一种分布式多线程数据清洗方法与清洗系统,本方法与系统主要针对世界上多元、异构、多语种的数据进行规范化治理,通过采用b/s架构设计,通过网页完成数据资源管理、治理工作的配置,后端通过二次开发建设分布式数据清洗治理程序,前端配置与后端程序架构结合,自动化完成数据的规范化清洗和治理工作。网页架构多用户的模式便于人机交互,后端的多线程、分布式技术高效快捷完成清洗工作,对清洗技术的开发更具备包容性,对世界多个地区,多类语言完成数据的清洗工作。同时提供数据任务可视化监控,便于对数据生命周期的管理和运用。

本发明所公开的清洗平台系统实施在浏览器/服务器架构中,通过建立分布式环境的形式来构建协同清理系统,能够实现多端多线程共同数据治理,并且增强清洗方法的适应性。

更具体而言,本发明提出了一种基于b/s架构的分布式数据治理平台,其包括至少一个承载有浏览器的客户终端与至少一个服务器端,其中服务器端包括有用户管理模块、数据存储模块、数据标准与标签标准体系模块、规则存储模块、规则配置模块以及数据处理模块;

其中,用户管理模块用于对用户进行身份验证,分配用户角色,用户角色包括数据清洗用户、规则配置用户、普通查看用户;

其中,数据存储模块用于存储原始的数据文件,其采用关系型数据库来存储数据;

其中,数据标准与标签标准体系模块用于保存标准的数据定义、数据格式等信息,通过标签体系来构建标准数据形式,且建立不同数据格式之间的转换关系;

其中,规则存储模块用于存储经过用户设置的数据清洗规则;

其中,规则配置模块用于设置数据清洗规则;

其中,数据处理模块包括结构化数据清洗单元、非结构数据清洗单元,分别用于实现结构化数据的清洗以及非结构化数据的清洗;数据处理模块对外提供统一的平台接口,对于多样化、异构数据以及多种处理规则,采用一站式平台实现数据清洗;

较佳地,该平台的数据处理模块可以通过分布式以及多线程的形式进行数据处理,将数据处理工作任务按照分布式系统的节点进行任务划分,且每个服务器端可以通过开启多线程的形式来处理多个数据清洗任务;

较佳地,分布式处理过程中,通过自组织的形式建立分布式网络的集群,集群内部通过主节点将数据清洗任务进行划分与分配,并将数据清洗任务分配到各从节点上,从节点视其所需运行的数据清洗任务选择开启多线程进行执行;

较佳地,该平台的数据标准与数据标签体系模块基于文本的形式来保存国际通用型数据标准,并将该标准通过该文本的形式嵌入在本平台中;

较佳地,其中的数据标准包含结构规范及内容规范,结构规范用于规范数据的结构名称和类型,内容规范是用于规范数据实际值的规则,该规则依据数据实际的国际标准制定;在清洗规则中嵌入这两类规范,其中结构规范以结构制定统一的名称和类型,内容规范则基于对国际各类数据的分析研究形成的具备各国各地区数据规范及特点的标准。

较佳地,该平台中用户可以通过客户终端来浏览服务器端所存储的数据,并可建立数据视图,用户可以对数据存储模块所保存的数据库表进行浏览,并选定所要清洗的数据以及对应的处理规则,通过数据处理模块按照用户所选定的数据类型以及规则类型进行数据清洗任务。

从如上可以看出,该数据治理平台采用分布式处理架构,通过多线程、分布式完成平台所配置数据的清洗标准。系统可对多语种、多类型数据进行治理完成规范统一的需求。系统针对多元异构数据,通过一站式平台操作,后台分布式完成结构化数据清洗规范。制定一整套数据标准和依据标准完成整个数据规范处理的技术方案,该标准对数据行业的规范化都具有重要意义,技术的处理手段和方案有效的推动整个行业的数据工作。

另一方面,本发明的实施例提供一种基于如上b/s架构的分布式数据治理平台的数据清洗方法,该方法可实施于如上所述的平台,包括如下步骤:

步骤1,用户在客户终端进行登录,服务器端对用户身份进行认证,同时获取用户角色信息,并对该用户的角色信息进行验证,随后为相应的角色开启对应的功能;

步骤2,用户通过客户终端执行包括查看功能、配置功能、导入功能以及数据清洗功能其中至少之一;

步骤3,服务器端响应于用户的功能请求,通过服务器端的各个功能模块来对应地执行功能;

步骤4,服务器端执行完对应的功能后,将结果返回给客户终端。

较佳地,当步骤2中用户在客户终端选择执行查看功能时,该方法还包括:步骤21,当用户选择查看原始数据、选择查看清洗后数据时,服务器端通过数据存储模块来筛选出对应的数据进行展示;当用户选择查看清洗规则、选择查看数据标准与标签标准时,服务器端通过规则存储模块以及数据标准与标签标准体系模块获取对应的信息进行展示;

较佳地,当步骤2中用户在客户终端选择执行配置功能时,该方法还包括:步骤22,用户在客户端终端进行数据清洗规则的配置,通过平台所内嵌的数据标准以及标签标准,创建用户所需的对数据进行清洗的规则,规则配置模块将用户所配置的规则以计算机所能够识别的形式保存在规则存储模块中;

较佳地,当步骤2中用户在客户终端选择执行导入导出功能时,该方法还包括:步骤23,当用户选择导入原始数据或者导出清洗后的数据时,通过平台的数据存储模块实现该数据的导入与导出;

较佳地,当步骤2中用户在客户终端选择执行数据清洗功能时,该方法还包括:步骤24,用户在客户终端的浏览器中选择待清洗的原始数据,选择数据表或者数据表中的某列,选择进行处理的清洗规则,提交给服务器进行处理,服务器首先对该待清洗数据以及选择的清洗规则进行初步匹配验证,当匹配通过后再交由数据处理模块实现数据清洗;

较佳地,步骤24中,待匹配通过后,服务器端会通过建立自组织的处理集群,通过分布式的形式进行数据清洗,集群包括了一个主节点以及多个从节点,主节点负责接收并分解该清洗任务,将清洗任务进行合理划分,并将其分配给各个从节点进行处理,从节点处理完毕后反馈结果给主节点,由主节点将处理任务进行整合并反馈给客户终端。

由以上可知,本发明公开了数据治理平台以及基于该治理平台的数据清洗方法,其主要关键点是兼容以及一站化服务。具有如下的技术效果:本发明平台改进了现有的数据清洗技术,是专门为数据治理工作开发,适用于多种技术领域、多种应用场合的需求。

具有,核心优势一:兼容性强、应用范围广。能够由用户自行设置清洗规则,且系统平台内置有数据标准以及数据标签,用户可以在该标准与标签的体系基础上,自行设置满足其需求的数据清洗规则;能够针对多类型、多语种、多形式的数据进行数据清洗以及数据形式的转换。

核心优势二:可视化的界面操作更加人性化。通过采用b/s架构,能够由用户在客户终端通过可视化的窗口界面实现数据的导入导出,规则的查看与配置,以及数据清洗的结构反馈,用户由传统的“看不见”跨越到“看得清”、“看得准”。

核心优势三:数据清洗更加高效。分布式架构以及多线程的任务处理使得数据清洗过程更加高效,相比于传统的单节点或单线程的处理,能够针对海量数据的超级任务进行分解与划分,通过统筹与合理规划安排,能够将清洗任务从耗时长无法忍受而转变为高效完成,为多领域的多种业务需求提供了保障。

附图说明

图1是本发明实施例的数据治理平台的示意图;

图2是本发明实施例中数据清洗流程的示意图;

具体实施例

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

参见图1,本发明提供一种基于b/s架构的分布式数据治理平台,如图1所示,该平台包括:至少一个承载有浏览器的客户终端10与至少一个服务器端20,客户终端10优选地与服务器端20通过互联网进行连接,其中服务器端20包括有用户管理模块201、数据存储模块202、数据标准与标签标准体系模块203、规则存储模块204、规则配置模块205以及数据处理模块205;

其中,用户管理模块201用于对用户进行身份验证,分配用户角色,用户角色包括数据清洗用户、规则配置用户、普通查看用户;

其中,用户的身份认证可以采取传统的用户名以及用户密码的形式,也可以采用指纹等技术进行登录认证;

其中,用户的角色按照其所具备的功能进行划分,可以划分为三个等级或更多,例如清洗用户可以执行数据清洗功能,规则配置用户可以执行规则设置,而普通查看用户则仅具有查看原始数据、清洗后数据以及数据清洗规则的权限,本平台可以视用户的功能需求或者其他等因素而为其分配角色。并且,服务器端在用户认证通过后,对用户的角色进行验证,并开启对应于该角色用户的功能。

其中,数据存储模块202用于存储原始的数据文件。由于本发明的系统与方法可以针对多类型多语种数据进行清洗操作,因此,其可以针对结构化数据以及非结构化数据进行处理,数据存储模块中可以将这些原始的数据采取对应的存储方法进行保存。

其中,数据标准与标签标准体系模块203用于保存标准的数据定义、数据格式等信息,通过标签标准体系来构建标准的数据形式,且建立不同数据格式之间的转换关系;

其中,规则存储模块204用于存储经过用户设置的数据清洗规则;数据清洗规则可以按照条件语句、换算关系或者映射关系等形式进行保存,每条规则包括有规则编号、规则描述、创建者、创建日期、规则体这些信息,其中的规则体视所需要清洗或标准化的数据类型而有所不同,规则体可以是脚本的形式,或者程序功能块,通过该规则体能够将待清洗数据进行规范化。

其中,规则配置模块205用于设置数据清洗规则;用户可以在客户终端的浏览器界面上进行规则的设置,基于数据标准与标签标准用户可以按照其自身的业务需求,而针对性地设置某类型数据的清洗规则,例如将阳历格式的用户的生日信息映射出阴历格式的生日信息,通过该设置,规则配置模块即可自动地产生一条规则,该条规则中的核心部分规则体由系统按照用户的功能需求自动产生并存储,如上所举例,该模块将会自动依照万年历的映射关系将阳历日期映射到阴历日期。

其中,数据处理模块206包括结构化数据清洗单元2061、非结构数据清洗单元2062分别用于实现结构化数据的清洗以及非结构化数据的清洗;数据处理模块206对外提供统一的平台接口,对于多样化、异构数据以及多种处理规则,采用一站式平台实现数据清洗;

较佳地,该平台的数据处理模块206可以通过分布式以及多线程的形式进行数据处理,将数据处理工作任务按照分布式系统的节点进行任务划分,且每个服务器端可以通过开启多线程的形式来处理多个数据清洗任务;

较佳地,分布式处理过程中,通过自组织的形式建立分布式网络的集群,集群内部通过主节点将数据清洗任务进行划分与分配,并将数据清洗任务分配到各从节点上,从节点视其所需运行的数据清洗任务选择开启多线程进行执行;

分布式处理技术作为信息处理技术领域中的新兴技术,在海量数据处理中表现的尤为突出,而数据清洗通常所需要面对的就是大数据、海量数据,数据处理的量大,且处理的规则也较为范围,传统的数据清洗技术无论是采用了单节点还是单线程,在面对如此巨大的任务时表现的就有些差强人意。本发明的平台采用了b/s架构,后端的服务器通过组织成为集群,形成一个分布式的网络,网络中划分节点的角色共同完成数据处理的任务,并反馈给用户终端,其中分布式网络的组建可以采用本领域中的成熟技术,在此不做限定,由于本发明中提出分布式的方法用于数据清洗,因此能够在面对海量数据的情况下表现的较为优良;更进一步地,本发明的各个服务器端在进行数据处理时,能够通过开启多线程,这在服务器端需要处理多种多个数据清洗任务时显得尤为重要,相比于单线程的处理方法,本发明中的服务器端能够及时地相应用户的处理请求,并可在多个分布式集群中分别负责不同的数据处理任务。

较佳地,该平台的数据标准与标签标准体系模块203基于文本的形式来保存国际通用型数据标准,并将该标准通过该文本的形式嵌入在本平台中。其中数据标准体系包括了如数据命名标准,微数据提供统一化的数据命名标准。其中的数据标签体系包括了例如为数据分类、分析提供支撑。

更进一步而言,本发明中的数据标准包含结构规范及内容规范,结构规范规范数据的结构名称和类型等,内容规范是用于规范数据实际值的规则,该规则依据数据实际的国际标准制定,清洗规则中嵌入类这两类规范,其中结构规范以结构制定统一的名称和类型,如姓名统一为name。而内容规范则基于对国际各类数据的分析研究形成的具备各国各地区数据规范及特点的标准,如美国座机、手机的电话格式一致相似,中国则分为手机及座机两种格式,选区不同格式则以不同清洗规则处理。遂该标准研究制定具有国际标准化规则。

较佳地,该平台中用户可以通过客户终端来浏览服务器端所存储的数据,并可建立数据视图,用户可以对数据存储模块202所保存的数据库表进行浏览,并选定所要清洗的数据以及对应的处理规则,通过数据处理模块206按照用户所选定的数据类型以及规则类型进行数据清洗任务。

从如上可以看出,该数据治理平台采用分布式处理架构,通过多线程、分布式完成平台所配置数据的清洗标准。系统可对多语种、多类型数据进行治理完成规范统一的需求。

另一方面,本发明的实施例提供一种基于如上b/s架构的分布式数据治理平台的数据清洗方法,该方法可实施于如上所述的平台,如图2所示,其包括如下步骤:

步骤101,用户在客户终端进行登录,服务器端对用户身份进行认证,同时获取用户角色信息,并对该用户的角色信息进行验证,随后为相应的角色开启对应的功能;

步骤102,用户通过客户终端执行包括查看功能、配置功能、导入功能以及数据清洗功能其中至少之一;

步骤103,服务器端响应于用户的功能请求,通过服务器端的各个功能模块来对应地执行功能;

步骤104,服务器端执行完对应的功能后,将结果返回给客户终端。

较佳地,当步骤102中用户在客户终端选择执行查看功能时,该方法还包括:步骤1021,当用户选择查看原始数据、选择查看清洗后数据时,服务器端通过数据存储模块来筛选出对应的数据进行展示;当用户选择查看清洗规则、选择查看数据标准与标签标准时,服务器端通过规则存储模块以及数据标准与标签标准体系模块获取对应的信息进行展示;

较佳地,当步骤102中用户在客户终端选择执行配置功能时,该方法还包括:步骤1022,用户在客户端终端进行数据清洗规则的配置,通过平台所内嵌的数据标准以及标签标准,创建用户所需的对数据进行清洗的规则,规则配置模块将用户所配置的规则以计算机所能够识别的形式保存在规则存储模块中;

较佳地,当步骤102中用户在客户终端选择执行导入导出功能时,该方法还包括:步骤1023,当用户选择导入原始数据或者导出清洗后的数据时,通过平台的数据存储模块实现该数据的导入与导出;

较佳地,当步骤102中用户在客户终端选择执行数据清洗功能时,该方法还包括:步骤1024,用户在客户终端的浏览器中选择待清洗的原始数据,选择数据表或者数据表中的某列,选择进行处理的清洗规则,提交给服务器进行处理,服务器首先对该待清洗数据以及选择的清洗规则进行初步匹配验证,当匹配通过后再交由数据处理模块实现数据清洗;

较佳地,步骤1024中,待匹配通过后,服务器端会通过建立自组织的处理集群,通过分布式的形式进行数据清洗,集群包括了一个主节点以及多个从节点,主节点负责接收并分解该清洗任务,将清洗任务进行合理划分,并将其分配给各个从节点进行处理,从节点处理完毕后反馈结果给主节点,由主节点将处理任务进行整合并反馈给客户终端。

为更清晰地介绍本发明的技术方案,可采用如下更具体的实施例,首先建立分布式集群,该集群中包括三台及以上linux搭建研发的kettel处理工具,工具以平台生成配置文件为依据,对数据进行处理;服务端接受配置,并解析,将解析文件传递与kettel搭建linux分布集群处理配置,并实时反馈执行情况,在平台登记执行效果。

以国内数据为例,对国内手机号、电话、邮箱、身份证号、地址、邮编等各种具有特点的数据进行处理,将多种结构的数据转换成国际标准数据。例:具有两类数据,快递数据、电信数据,电话分别为:13515151515、(+86)13515151515,通平台自动化处理均生成:8613515151515类数据,该数据为国际通用数据,通过平台配置,可形成国际数据标准,并能跨领域、语种、结构形成归一。对其他邮件、身份证、护照等类信息及数据同理。

由以上可知,本发明公开了数据治理平台以及基于该治理平台的数据清洗方法,其主要关键点是兼容以及一站化服务。具有如下的技术效果:本发明平台改进了现有的数据清洗技术,是专门为数据治理工作开发,适用于多种技术领域、多种应用场合的需求。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1