数据标准化方法及装置与流程

文档序号:18164539发布日期:2019-07-13 09:30阅读:231来源:国知局
数据标准化方法及装置与流程

本申请涉及数据处理领域,具体而言,涉及一种数据标准化方法及装置。



背景技术:

随着信息技术的普及和发展,政府及企业的信息化程度越来越高,进而导致业务数据量也进一步加大。面对大量的业务数据,有效并快速地建立准确和规范的数据模型已成为趋势。但面对大量的行业标准,通过人工识别方式建立实际业务数据同已有标准之间的关系会花费大量的时间及精力。



技术实现要素:

为了克服现有技术中的至少一个不足,本申请的目的之一在于提供一种数据标准化方法,应用于数据处理设备,所述数据处理设备预存有多个行业标准库,所述行业标准库预存有样本数据;所述方法包括:

获取业务数据库;

针对每个所述行业标准库,将所述行业标准库的元数据与所述业务数据库的元数据进行比对;

将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据;

针对所述业务数据库中与所述行业标准库之间不同的差异元数据,计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度,将数据相似度超过预设阈值的样本数据所对应的元数据在所述行业标准库中标识为相似元数据;

统计各个所述行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为所述业务数据库最接近的行业标准库。

可选地,所述计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度的步骤包括:

通过人工神经网络计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度。

可选地,所述方法还包括:

根据所述最接近的行业标准库中的相似元数据创建标准信息数据库;

从所述业务数据库获取与所述最接近的行业标准库中的相似元数据对应的数据,存入所述标准信息数据库。

可选地,所述数据处理设备还包括行业共享信息库,所述方法还包括:

将所述行业共享信息库的元数据和所述标准信息数据库的元数据进行比较,确定出所述标准信息数据库中与所述行业共享信息库中的相同的共享元数据;

根据所述共享元数据对应的数据创建共享数据表。

可选地,所述方法还包括:

针对每个所述共享数据表,提供相应的接口,使得其他设备通过该接口获取所述共享数据表中的数据。

可选地,所述元数据包括字段名称,所述将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据的步骤包括:

将所述行业标准库中与所述业务数据库相同的字段名称标识为相似元数据。

可选地,所述元数据还包括表名称、字段类型和字段长度。

本申请实施例的另一目的在于提供一种数据标准化装置,应用于数据处理设备,所述数据处理设备预存有多个行业标准库,所述行业标准库预存有样本数据,所述数据标准化装置包括获取模块、比较模块、标识模块、相似度计算模块和统计模块;

所述获取模块用于获取业务数据库;

所述比较模块用于针对每个所述行业标准库,将所述行业标准库的元数据与所述业务数据库的元数据进行比对;

所述标识模块用于将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据;

所述相似度计算模块用于针对所述业务数据库中与所述行业标准库之间不同的差异元数据,计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度,将数据相似度超过预设阈值的样本数据所对应的元数据在所述行业标准库中标识为相似元数据;

所述统计模块用于统计各个所述行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为所述业务数据库最接近的行业标准库。

可选地,所述比较模块通过以下方式将该行业标准库的元数据与业务数据库的元数据进行比对:

通过人工神经网络计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度。

可选地,所述数据标准化装置还包括创建模块、写入模块;

所述创建模块用于根据所述最接近的行业标准库中的相似元数据创建标准信息数据库;

所述写入模块用于从所述业务数据库获取与所述最接近的行业标准库中的相似元数据对应的数据,存入所述标准信息数据库。

相对于现有技术而言,本申请具有以下有益效果:

本申请实施例提供一种数据标准化方法及装置,将业务数据库的元数据依次同多个标准数据库的元数据进行比较,找出相同的元数据,并标识为相似元数据。针对业务数据库中与该标准数据库之间不同的差异元数据。计算该差异元数据对应的数据与该业务数据库中预存的样本数据之间的相似度。将数据相似度大于预设阈值的样本数据对应的元数据在行业标准库标识为相似元数据。统计该行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为业务数据库最接近的行业标准库。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的数据处理设备的方框示意图;

图2为本申请实施例提供的数据标准化方法的步骤流程图;

图3为本申请实施例提供的业务数据表和行业标准数据表对比示意图;

图4为本申请实施例提供的数据标准化装置的结构示意图之一;

图5为本申请实施例提供的数据标准化装置的结构示意图之二。

图标:100-数据处理设备;130-处理器;120-存储器;110-数据标准化装置;500-业务数据表;600-行业标准数据表;1101-获取模块;1102-比较模块;1103-标识模块;1104-相似度计算模块;1105-统计模块;1106-创建模块;1107-写入模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

请参照图1,图1是本申请实施例提供的数据处理设备100的方框示意图,该数据处理设备100包括数据标准化装置110、存储器120和处理器130。

所述存储器120和处理器130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据标准化装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在数据处理设备100的操作系统(operatingsystem,os)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述数据标准化装置110所包括的软件功能模块及计算机程序等。

所述数据处理设备100可以是,但不限于,智能手机、个人电脑(personalcomputer,pc)、平板电脑、个人数字助理(personaldigitalassistant,pda)、移动上网设备(mobileinternetdevice,mid)等。

其中,所述存储器120可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。

所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参照图2,图2为应用于图1所示数据处理设备100的数据标准化方法的步骤流程图,该数据处理设备100预存有多个行业标准库,该行业标准库预存有样本数据;下面就该数据标准化方法的各个步骤进行详细阐述。

步骤s100,获取业务数据库。

可选地,该行业标准库为记录各个行业当中典型数据的数据库。例如,在一种可能的示例中,教育行业的行业标准库包括学生姓名、学生班级、学生性别和学生成绩等数据。金融行业的行业标准库包括本金、利率、存款人名称、性别和年限等数据。该数据处理设备100链接业务数据库,获取该业务数据库的元数据,该业务数据库的元数据包括数据库名称、表名称、字段名称和字段类型。

步骤s200,针对每个所述行业标准库,将所述行业标准库的元数据与所述业务数据库的元数据进行比对。

步骤s300,将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据。

可选地,针对每一个行业标准库,该数据处理设备100将其作为目标行业标准库,将业务数据库中的元数据与该目标行业标准库中的元数据做比较,找出相同的元数据。该数据处理设备100将相同的元数据标记为相似元数据。例如,请参照图3,在一种可能的示例中,该元数据包括字段名称。业务数据表500包括字段名称“age”、“fisrtname”和“lastname”。行业标准数据表600包括字段名称“age”、“number”和“name”。该数据处理设备100将业务数据表500同行业标准数据表600进行比较,其中“age”字段名称是相同的,将“age”字段标记为相似元数据。

可选地,为了进一步确保业务数据库和行业标准库中相同的元数据对应的数据也是相似的。该数据处理设备100分别将业务数据库与行业标准库中相同的元数据对应的数据做相似度计算。将相似度大于预设阈值的元数据标识为相似元数据。请参照图2,该数据处理设备100将业务数据库“age”字段对应的数据与行业标准库中“age”字段对应的数据做相似度计算。

通过比较元数据是否相同,快速筛选出业务数据库与行业标准库中相似的元数据。由于不同开发人员,针对相同的数据,命名数据字段名称可能存在出入,例如,针对学生的考试成绩,不同的开发人员可能将字段名称命名为“分数”或者“成绩”。通过简单的元数据比较,是无法判断两者是否相似的。

步骤s400,针对所述业务数据库中与所述行业标准库之间不同的差异元数据,计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度,将数据相似度超过预设阈值的样本数据所对应的元数据在所述行业标准库中标识为相似元数据。

可选地,由于业务数据库中可能存在字段名称不相同,但是实际数据相似的重复字段。该数据处理设备100将业务数据库中差异元数据对应的数据同行业标准库中的全部样本数据做相似度计算,将数据相似度超过预设阈值的样本数据所对应的元数据在所述行业标准库中标识为相似元数据。

在本申请提供的一种实施方式中,该数据处理设备100将差异元数据对应的数据以及行业标准库中所有的样本数据输入人工神经网络,计算每一差异元数据对应的数据与行业标准库中每一个元数据对应的样本数据之间的相似度。该数据处理设备100将相似度大于预设阈值的样本数据对应的元数据标识为相似元数据。

在本申请提供的另一种实施方式中,该数据处理设备100依次从差异元数据中选取目标差异元数据,将目标差异元数据对应的数据同行业标准库中每一个元数据对应的样本数据进行相似度计算,将相似度大于预设阈值的样本数据对应的元数据标识为相似元数据。请再次参考图3,业务数据表500中的差异元数据为“lastname”和“firstname”。数据处理设备100将“lastname”字段对应的数据同行业标准数据表600中的“age”字段、“number”字段和“name”字段分别进行相似度计算。数据处理设备100再次将“firstname”字段对应的数据同行业标准数据表600中的“age”字段、“number”字段和“name”字段分别进行相似度计算。若“lastname”字段和“age”字段、“number”字段和“name”的相似度分别为0.2、0.1、0.7,其中,相似度的预设阈值为0.6。则数据处理设备100将行业标准数据表600中的“name”字段标识为与“lastname”字段对应的相似字段。

步骤s500,统计各个所述行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为所述业务数据库最接近的行业标准库。

可选地,由于该数据处理设备100预存有多个行业标准库,统计每一个行业标准库中被标记为相似字段的元数据的数量,将相似元数据数量最多的行业标准库确定为与业务数据库最接近的行业标准库。

可选地,该数据处理设备100根据最接近的行业标准库中的相似元数据创建标准信息数据库。该数据处理设备100从业务数据库获取与最接近的行业标准库中的相似元数据对应的数据,存入所述标准信息数据库。

请再次参照图3,数据处理设备100将行业标准库中的“name”字段和“age”字段提取出来,并根据“name”字段和“age”字段创建标准信息数据库。并将业务数据表500中的“age”字段和“lastname”字段对应的数据存入该标准信息数据库。值得说明的是,该数据处理设备100将业务数据表500中数据存入标准信息库中,若数据类型或者数据长度不相同,会进行做相应的处理。

可选地,数据处理设备100还包括行业共享信息库,将行业共享信息库的元数据和标准信息数据库的元数据进行比较,确定出该标准信息数据库中与行业信息共享信息库中的相同的共享元数据。该数据处理设备100根据该共享元数对应的数据创建共享数据表。

可选地,针对每一个共享数据表,提供相应的接口,使得其他设备通过该接口可以访问共享数据表中的数据。

本申请实施例还提供一种数据标准化装置110,应用于数据处理设备100,该树处理设备预存有多个行业标准库,该行业标准库预存有样本数据。请参照图4,该数据标准化装置110包括获取模块1101、比较模块1102、标识模块1103、相似度计算模块1104和统计模块1105。

该获取模块1101用于获取业务数据库。

在本实施例中,该获取模块1101用于执行图2中的步骤s100,关于该获取模块1101的详细描述可以参考步骤s100的详细描述。

该比较模块1102用于针对每个所述行业标准库,将所述行业标准库的元数据与所述业务数据库的元数据进行比对。

在本实施例中,该比较模块1102用于执行图2中的步骤s200,关于该比较模块1102的详细描述可以参考步骤s200的详细描述。

该标识模块1103用于将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据。

在本实施例中,该标识模块1103用于执行图2中的步骤s300,关于该标识模块1103的详细描述可以参考步骤s300的详细描述。

该相似度计算模块1104用于针对所述业务数据库中与所述行业标准库之间不同的差异元数据,计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度,将数据相似度超过预设阈值的样本数据所对应的元数据在所述行业标准库中标识为相似元数据。

在本实施例中,该相似度计算模块1104用于执行图2中的步骤s400,关于该相似度计算模块1104的详细描述可以参考步骤s400的详细描述。

该统计模块1105用于统计各个所述行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为所述业务数据库最接近的行业标准库。

在本实施例中,该统计模块1105用于执行图2中的步骤s500,关于统计模块1105的详细描述可以参考步骤s500的详细描述。

可选地,所述比较模块1102通过以下方式将该行业标准库的元数据与业务数据库的元数据进行比对:

通过人工神经网络计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度。

请再次参照图5,该数据标准化装置110还包括创建模块1106、写入模块1107。

该创建模块1106用于根据所述最接近的行业标准库中的相似元数据创建标准信息数据库。

该写入模块1107用于从所述业务数据库获取与所述最接近的行业标准库中的相似元数据对应的数据,存入所述标准信息数据库。

综上所述,本申请实施例提供一种数据标准化方法及装置,将业务数据库的元数据依次同多个标准数据库的元数据进行比较,找出相同的元数据,并标识为相似元数据。针对业务数据库中与该标准数据库之间不同的差异元数据。计算该差异元数据对应的数据与该业务数据库中预存的样本数据之间的相似度。将数据相似度大于预设阈值的样本数据对应的元数据在行业标准库标识为相似元数据。统计该行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为业务数据库最接近的行业标准库。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1