一种数据处理的方法、装置、计算机存储介质及终端与流程

文档序号:17762874发布日期:2019-05-24 21:51阅读:111来源:国知局
一种数据处理的方法、装置、计算机存储介质及终端与流程

本文涉及但不限于大数据技术,尤指一种数据处理的方法、装置、计算机存储介质及终端。



背景技术:

在数据处理中,会有大量的多源的、异构的数据表被接入,如何有效地基于这些数据表的字段来识别知识库的数据项,对大数据治理和数据共享来说至关重要。当今大数据应用蓬勃发展,但各行业数据呈现出种类繁多、数据量大、结构复杂、建设标准不统一、数据代码冲突等特点。目前,数据项识别主要基于技术人员的经验进行手动干预与配置,无法实现数据项的快速识别。



技术实现要素:

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种数据处理的方法、装置、计算机存储介质及终端,能够提升数据项的识别效率。

本发明实施例提供了一种数据处理的方法,包括:

根据数据表的各字段的中文名,分别确定在前存储的知识库映射关系信息中是否包含匹配的数据项;

在前存储的知识库映射关系信息中不包含与当前字段的中文名相匹配的数据项时,确定知识库包含的数据项中是否包含与当前字段的中文名相匹配的数据项;

知识库的数据项中未包含与当前字段的中文名相匹配的数据项时,在知识库中增加对应于当前字段的数据项。

可选的,所述在知识库中增加对应于当前字段的数据项包括:

将所述当前字段的相关信息添加至所述知识库中,以增加对应于所述当前字段的数据项;

其中,所述相关信息包括以下部分或全部信息:基本信息、属性信息。

可选的,所述在知识库中增加对应于当前字段的数据项时,所述方法还包括:

在所述知识库映射关系信息中,添加所述当前字段与增加到所述知识库中的对应于当前字段的数据项的映射关系。

可选的,所述分别确定在前存储的知识库映射关系信息中是否包含匹配的数据项之前,所述方法还包括:

获取所述数据表的所有字段。

可选的,所述方法还包括:

所述知识库映射关系信息中包含与所述数据表的字段相匹配的数据项时,输出所述知识库中与数据表的字段相匹配的数据项的相关信息。

另一方面,本发明实施例还提供一种数据处理的装置,包括:第一确定单元、第二确定单元和处理单元;其中,

第一确定单元用于:根据数据表的各字段的中文名,分别确定在前存储的知识库映射关系信息中是否包含匹配的数据项;

第二确定单元用于:在前存储的知识库映射关系信息中不包含与当前字段的中文名相匹配的数据项时,确定知识库包含的数据项中是否包含与当前字段的中文名相匹配的数据项;

处理单元用于:知识库的数据项中未包含与当前字段的中文名相匹配的数据项时,在知识库中增加对应于当前字段的数据项。

可选的,所述处理单元具体用于:

将所述当前字段的相关信息添加至所述知识库中,以增加对应于所述当前字段的数据项;

其中,所述相关信息包括以下部分或全部信息:基本信息、属性信息。

可选的,所述处理单元还用于:

在知识库中增加对应于当前字段的数据项时,在所述知识库映射关系信息中,添加所述当前字段与增加到所述知识库中的对应于当前字段的数据项的映射关系。

可选的,所述装置还包括获取单元,用于:

获取所述数据表的所有字段。

可选的,所述装置还包括输出单元,用于:

所述知识库映射关系信息中包含与所述数据表的字段相匹配的数据项时,输出所述知识库中与数据表的字段相匹配的数据项的相关信息。

再一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述数据处理的方法。

还一方面,本发明实施例还提供一种终端,包括:存储器和处理器;其中,

处理器被配置为执行存储器中的程序指令;

程序指令在处理器读取执行以下操作:

根据数据表的各字段的中文名,分别确定在前存储的知识库映射关系信息中是否包含匹配的数据项;

在前存储的知识库映射关系信息中不包含与当前字段的中文名相匹配的数据项时,确定知识库包含的数据项中是否包含与当前字段的中文名相匹配的数据项;

知识库的数据项中未包含与当前字段的中文名相匹配的数据项时,在知识库中增加对应于当前字段的数据项。

与相关技术相比,本申请技术方案包括:根据数据表的各字段的中文名,分别确定在前存储的知识库映射关系信息中是否包含匹配的数据项;在前存储的知识库映射关系信息中不包含与当前字段的中文名相匹配的数据项时,确定知识库包含的数据项中是否包含与当前字段的中文名相匹配的数据项;知识库的数据项中未包含与当前字段的中文名相匹配的数据项时,在知识库中增加对应于当前字段的数据项。本发明实施例提升了数据项的识别效率。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。

图1为本发明实施例数据处理的方法的流程图;

图2为本发明实施例数据处理的装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例数据处理的方法的流程图,如图1所示,包括:

步骤101、根据数据表的各字段的中文名,分别确定在前存储的知识库映射关系信息中是否包含匹配的数据项;这里,本发明实施例字段也称为表字段;

步骤102、在前存储的知识库映射关系信息中不包含与当前字段的中文名相匹配的数据项时,确定知识库包含的数据项中是否包含与当前字段的中文名相匹配的数据项;

步骤103、知识库的数据项中未包含与当前字段的中文名相匹配的数据项时,在知识库中增加对应于当前字段的数据项。

可选的,本发明实施例在知识库中增加对应于当前字段的数据项包括:

将所述当前字段的相关信息添加至所述知识库中,以增加对应于所述当前字段的数据项;

其中,所述相关信息包括以下部分或全部信息:基本信息、属性信息。

可选的,在知识库中增加对应于当前字段的数据项时,本发明实施例方法还包括:

在所述知识库映射关系信息中,添加所述当前字段与增加到所述知识库中的对应于当前字段的数据项的映射关系。

可选的,分别确定在前存储的知识库映射关系信息中是否包含匹配的数据项之前,本发明实施例方法还包括:

获取所述数据表的所有字段。

可选的,本发明实施例方法还包括:

所述知识库映射关系信息中包含与所述数据表的字段相匹配的数据项时,输出所述知识库中与数据表的字段相匹配的数据项的相关信息。这里,相关信息包括以下部分或全部数据项信息:基本信息、属性信息。

需要说明的是,在所述知识库映射关系信息中,添加所述当前字段与增加到所述知识库中的对应于当前字段的数据项的映射关系,本发明实施例映射关系信息中就包含了与数据表的字段相匹配的数据项。

与相关技术相比,本申请技术方案包括:根据数据表的各字段的中文名,分别确定在前存储的知识库映射关系信息中是否包含匹配的数据项;在前存储的知识库映射关系信息中不包含与当前字段的中文名相匹配的数据项时,确定知识库包含的数据项中是否包含与当前字段的中文名相匹配的数据项;知识库的数据项中未包含与当前字段的中文名相匹配的数据项时,在知识库中增加对应于当前字段的数据项。本发明实施例提升了数据项的识别效率。

图2为本发明实施例数据处理的装置的结构框图,如图2所示,包括:第一确定单元、第二确定单元和处理单元;其中,

第一确定单元用于:根据数据表的各字段的中文名,分别确定在前存储的知识库映射关系信息中是否包含匹配的数据项;这里,本发明实施例字段也称为表字段;

第二确定单元用于:在前存储的知识库映射关系信息中不包含与当前字段的中文名相匹配的数据项时,确定知识库包含的数据项中是否包含与当前字段的中文名相匹配的数据项;

处理单元用于:知识库的数据项中未包含与当前字段的中文名相匹配的数据项时,在知识库中增加对应于当前字段的数据项。

可选的,本发明实施例所述处理单元具体用于:

将所述当前字段的相关信息添加至所述知识库中,以增加对应于所述当前字段的数据项;

其中,所述相关信息包括以下部分或全部信息:基本信息、属性信息。

可选的,本发明实施例处理单元还用于:

在知识库中增加对应于当前字段的数据项时,在所述知识库映射关系信息中,添加所述当前字段与增加到所述知识库中的对应于当前字段的数据项的映射关系。

可选的,本发明实施例装置还包括获取单元,用于:

获取所述数据表的所有字段。

可选的,本发明实施例装置还包括输出单元,用于:

所述知识库映射关系信息中包含与所述数据表的字段相匹配的数据项时,输出所述知识库中与数据表的字段相匹配的数据项的相关信息。这里,相关信息包括以下部分或全部数据项信息:基本信息、属性信息。

需要说明的是,在所述知识库映射关系信息中,添加所述当前字段与增加到所述知识库中的对应于当前字段的数据项的映射关系,本发明实施例映射关系信息中就包含了与数据表的字段相匹配的数据项。

本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述数据处理的方法。

本发明实施例还提供一种终端,包括:存储器和处理器;其中,

处理器被配置为执行存储器中的程序指令;

程序指令在处理器读取执行以下操作:

根据数据表的各字段的中文名,分别确定在前存储的知识库映射关系信息中是否包含匹配的数据项;

在前存储的知识库映射关系信息中不包含与当前字段的中文名相匹配的数据项时,确定知识库包含的数据项中是否包含与当前字段的中文名相匹配的数据项;

知识库的数据项中未包含与当前字段的中文名相匹配的数据项时,在知识库中增加对应于当前字段的数据项。

以下通过应用示例对本发明实施例方法进行清楚详细的说明,应用示例仅用于陈述本发明,并不用于限定本发明的保护范围。

应用示例

本发明应用示例,是在接入大量数据表时,可以快速的识别出该数据表的表字段在知识库中对应的数据项。

本发明应用示例假设知识库中有x个数据项,接入了y个字段,处理方法包括:

首先,将数据表的字段的中文名和知识库映射关系信息中的字段的中文名进行匹配;本发明实施例当数据表的字段的中文名与映射关系信息中的字段的中文名匹配时,输出映射关系信息中字段对应的数据项的相关信息;相关信息包括基本信息和/或属性信息;例如、中文名、英文名、类型、长度、适用范围等;

数据表字段的中文名在知识库映射关系信息中未匹配到对应的数据项时,本发明应用示例,将数据表的字段的中文名和知识库中的数据项的中文名进行匹配,数据表的字段的中文名和知识库中的数据项的中文名匹配时,建立字段和数据项之间的映射关系,并添加到知识库映射关系信息中;

本发明应用示例,当数据表的字段无法匹配到对应的数据项时,将数据表的字段的基本信息和属性信息自动添加到知识库中,以增加该字段对应的数据项;

以下通过具体信息对上述应用示例进行说明:

假设知识库中已经内置:“姓名”、“性别”、“民族”三个数据项,但无映射关系信息的知识存在;数据表包含:“公民姓名”、“性别”、“民族”、“出生日期”四个字段,当需要根据数据表中的字段识别出知识库中的数据项时,包括以下处理步骤:

按顺序先取出数据表的字段“公民姓名”、“性别”、“民族”、“出生日期”。

将数据表的这四个字段在知识库中映射关系信息进行匹配,发现映射关系信息为空,未匹配到任何数据项;

将数据表的这四个字段在知识库的数据项中进行匹配,假设确定完成匹配的字段有“性别”、“民族”,则将这两个字段和对应的数据项建立映射关系,并存放到知识库中;对未于知识库中包含的数据项完成匹配的字段,本发明应用示例无法建立映射关系,本发明应用示例将字段的相关信息存放到知识库,并扩充知识库;此时知识库中数据项包括:“姓名”、“性别”、“民族”、“公民姓名”、“出生日期”。

完成数据项的扩充后,本发明实施例对未匹配的数据表的字段,再次执行与知识库中的数据项的匹配,所有数据表的字段均完成数据项的匹配,即实现数据项的识别时,结束本发明应用示例。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的每个模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。

虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1