元数据扩充方法以及存储介质、电子设备与流程

文档序号:30265927发布日期:2022-06-02 04:08阅读:115来源:国知局
元数据扩充方法以及存储介质、电子设备与流程

1.本发明涉及数据处理技术领域,尤其涉及一种元数据扩充方法以及存储介质、电子设备。


背景技术:

2.随着信息技术的发展,信息化系统在政府及企事业单位的日常管理和运行过程中得到普及,相关业务系统的数量动辄几十个,若发生系统管理维护人员变动、业务系统变更等,可能会导致相关业务元数据的描述文档更新不及时,甚至出现管理不善而导致的关键元数据文档丢失。
3.并且,目前主流的元数据完善基本上都是依靠相关管理人员的手工核查和确认的方式,需要大量的人为配置,而人为手动进行业务元数据的整理和完善需要消耗大量的人力、物力和时间,成本和周期很难被相关业务系统的管理人员所接受。因此,如何高效完成相关系统的元数据完善,成为政府及企事业单位众多信息系统的管理工作所面临的新挑战。


技术实现要素:

4.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的目的在于提出一种元数据扩充方法以及存储介质、电子设备,以实现元数据的自动扩充和完善,降低管理元数据的人力成本、物力成本和时间成本。
5.第一方面,本发明提出了一种元数据扩充方法,包括:获取源数据库的数据列信息,并选取未识别的待识别列;根据所述数据列信息对所述待识别列进行识别解析,得到可扩充列识别解析结果;根据所述可扩充列识别解析结果进行特征匹配,得到相近可扩充列匹配结果;根据所述相近可扩充列匹配结果进行相近可扩充列的元数据合并去重,得到扩充后的元数据。
6.另外,本发明第一方面实施例的元数据扩充方法还可以具有如下附加的技术特征:根据本发明的一个实施例,所述根据所述数据列信息对所述待识别列进行识别解析,得到可扩充列识别解析结果,包括:根据所述数据列信息识别所述待识别列的数据来源,其中,所述数据来源包括列名称、列说明注释和列数值;分别对所述列名称和所述列说明注释进行匹配处理,得到匹配成功的第一列名;对所述第一列名对应的列数值进行校验,并在校验通过时,将所述第一列名对应的列标记为可扩充列;根据所述可扩充列的列名称、列说明注释和列数值,得到所述可扩充列识别解析结果。
7.根据本发明的一个实施例,所述分别对所述列名称和所述列说明注释进行匹配处理,得到匹配成功的第一列名,包括:对所述列名称进行分割得到第一分割数组,并将所述第一分割数组中的值与预置的第一类关键字进行匹配,得到匹配成功的第二列名;对所述列说明注释进行分割得到第二分割数组,并将所述第二分割数组中的值与预置的第二类关
键字进行匹配,得到匹配成功的第三列名;将所述第二列名和所述第三列名的共有列名标记为所述第一列名。
8.根据本发明的一个实施例,所述对所述第一列名对应的列数值进行校验,包括:对所述第一列名对应的列数值进行特征检测,得到有限重复集合特性列的值,并根据所述有限重复集合特性列的值生成无重复的列值数据;将所述无重复的列值数据与已有元数据的列值数据进行匹配,并在匹配成功时,判定校验通过。
9.根据本发明的一个实施例,所述根据所述可扩充列的列说明注释和列数值,得到所述可扩充列识别解析结果,包括:将所述可扩充列的无重复的列数值与列说明注释进行匹配,生成无重复的列数值与列说明注释的键值对,其中,无法匹配的列数值,其键值对中的列说明注释设置为空值;根据所述列名称和所述键值对得到所述可扩充列识别解析结果。
10.根据本发明的一个实施例,在将所述可扩充列的无重复的列数值与列说明注释进行匹配之前,还包括:对所述可扩充列的列说明注释进行分割得到第三分割数组;其中,所述将所述可扩充列的无重复的列数值与列说明注释进行匹配,包括:将所述可扩充列的无重复的列数值与所述第三分割数组进行匹配。
11.根据本发明的一个实施例,所述根据所述可扩充列识别解析结果进行特征匹配,得到相近可扩充列匹配结果,包括:按照相近列名称、相近列说明注释、相近列数值中的至少一者,将对任意两可扩充列的识别解析结果进行特征匹配,得到相应的匹配值;当所述匹配值大于预设阈值时,将对应的两个可扩充列作为相近可扩充列。
12.根据本发明的一个实施例,所述根据所述相近可扩充列匹配结果进行相近可扩充列的元数据合并去重,得到扩充后的元数据,包括:将所述相近可扩充列的键值对进行合并去重,得到扩充后的元数据。
13.第二方面,本发明提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述的元数据扩充方法。
14.第三方面,本发明提出了一种电子设备,包括存储器、处理器和存储在所述存储器上的计算机程序,所述计算机程序被所述处理器执行时,实现上述的元数据扩充方法。
15.本发明实施例的元数据扩充方法以及存储介质、电子设备,可利用给定的源数据库,通过可扩充列识别解析、特征匹配和相似合并,实现基于现有元数据的元数据自动扩充和完善,无需大量的人为配置,可降低人力成本、物力成本和时间成本。
16.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
17.图1是本发明实施例的元数据扩充方法的流程图;图2是本发明一个实施例的步骤s102的具体流程图;图3是本发明一个示例的可扩充列识别解析的流程图。
具体实施方式
18.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终
相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
19.下面参考附图1-3描述本发明实施例的元数据扩充方法以及存储介质、电子设备。
20.图1是本发明实施例的元数据扩充方法的流程图。如图1所示,元数据扩充方法包括以下步骤:s101,获取源数据库的数据列信息,并选取未识别的待识别列。
21.具体地,源数据库可以是给定的用于进行元数据扩充的数据库,其包含有一个或多个待识别列,每个待识别列具有相应的数据列信息。在选取未识别的待识别列时,可每次选取一个未识别的待识别列进行识别解析,并重复该过程,直至所有的待识别列均已被识别;也可直接将所有未识别的待识别列选取出来,进而依次对每个待识别列进行识别解析。
22.s102,根据数据列信息对待识别列进行识别解析,得到可扩充列识别解析结果。
23.作为一个实施方式,如图2所示,根据数据列信息对待识别列进行识别解析,得到可扩充列识别解析结果,可包括:s201,根据数据列信息识别待识别列的数据来源,其中,数据来源包括列名称、列说明注释和列数值。
24.s202,分别对列名称和列说明注释进行匹配处理,得到匹配成功的第一列名。
25.具体地,分别对列名称和列说明注释进行匹配处理,得到匹配成功的第一列名,可包括:对列名称进行分割得到第一分割数组,并将第一分割数组中的值与预置的第一类关键字进行匹配,得到匹配成功的第二列名;对列说明注释进行分割得到第二分割数组,并将第二分割数组中的值与预置的第二类关键字进行匹配,得到匹配成功的第三列名;将第二列名和第三列名的共有列名标记为第一列名。
26.s203,对第一列名对应的列数值进行校验,并在校验通过时,将第一列名对应的列标记为可扩充列。
27.具体地,对第一列名对应的列数值进行校验,可包括:对第一列名对应的列数值进行特征检测,得到有限重复集合特性列的值,并根据有限重复集合特性列的值生成无重复的列值数据;将无重复的列值数据与已有元数据的列值数据进行匹配,并在匹配成功时,判定校验通过。
28.s204,根据可扩充列的列名称、列说明注释和列数值,得到可扩充列识别解析结果。
29.具体地,根据可扩充列的列说明注释和列数值,得到可扩充列识别解析结果,可包括:将可扩充列的无重复的列数值与列说明注释进行匹配,生成无重复的列数值与列说明注释的键值对,其中,无法匹配的列数值,其键值对中的列说明注释设置为空值;根据列名称和键值对得到可扩充列识别解析结果。
30.作为一个示例,在将可扩充列的无重复的列数值与列说明注释进行匹配之前,还包括:对可扩充列的列说明注释进行分割得到第三分割数组;其中,将可扩充列的无重复的列数值与列说明注释进行匹配,包括:将可扩充列的无重复的列数值与第三分割数组进行匹配。
31.为便于理解,如图3所示,以一次选取一个未识别的待识别列为例,对待识别列的识别解析过程进行说明:
参见图3,在选取一个未识别的待识别列之后,可先执行可扩充列识别,识别的数据来源有三种,分别为:列名称、列说明注释和列数值。
32.①
对于列名称,可将列名称通过驼峰、下划线分词,生成列名称的第一分割数组,然后将第一分割数组中的值与预置的第一类关键字进行匹配,得到匹配的第二列名。
33.例如,列名称为isuseflag,对其进行驼峰分词,得到包含is, use, flag, isuse, useflag这几个值的第一分割数组;又如,列名称为is_use_flag,对其进行下划线分词,得到包含is, use, flag, is_use, use_flag这几个值的第一分割数组。得到第一分割数组后,将第一分割数组中的值与预置的第一类关键字,如flag, type, category, code, classify等进行匹配。由于列名称isuseflag和列名称is_use_flag对应的第一分割数组中均含有值flag,可与第一类关键字中的flag匹配,因此列名称isuseflag和列名称is_use_flag均为匹配的列名称,记为第二列名。
34.②
对于列说明注释,可将列说明注释按照预设的分割模式进行分割,生成列说明注释的第二分割数组,然后将第二分割数组中的值与预置的第二类关键字进行匹配,得到匹配的第三列名。
35.在该示例中,列说明注释的注释方式可以是:[名称][中文冒号、英文冒号]、值1[空格、横杠、中文/英文冒号、中文/英文括号或者没有间隔符号]值1的说明、[多个值之间的分隔符:空格、逗号、回车换行等]、值2[空格、横杠、中文/英文冒号、中文/英文括号或者没有间隔符号]值2的说明。其中,值n和值n的说明,位置可以调换。可利用列注释说明的分隔符对列注释说明进行分割,得到第二分割数组,进而将第二分割数组中的值与预置的第二类关键字,如类型、代码、分类等进行匹配,匹配成功后,将对应的列名称记为第三列名。
[0036]
在上述



匹配成功之后,将第二列名和第三列名的共有列名记为第一列名。对于第一列名的列需进行下述

中的列数值校验。
[0037]

对于第一列名的列的列数值,可对其进行特征检测,将满足明显有限重复集合特性列的值,生成无重复的列值数据,然后和已有元数据的列值数据进行匹配,将匹配的列数值作为所选待识别列的元数据,并将当前第一列名的列标记为可扩充列。也就是说,第一列名的列的列数值须满足明显有限重复的条件,才可以认定该第一列名的列为可扩充列。
[0038]
其中,可通过将将满足明显有限重复集合特性列的值,进行去重得到无重复的列值数据。例如,满足明显有限重复集合特性列的值[1,2,3,3,4,5,2,4,6]去重后,得到无重复的列值数据为[1,2,3,4,5,6]。
[0039]
具体地,已有元数据的列字段,在系统中会有元数据对应关系的记录,如,已有元数据的列字段col1:[1,2,3,4,5,6](列数值不区分先后)。若第一列名的列字段col,其无重复的列值数据也是[1,2,3,4,5,6],则可将列字段col作为可选的可扩充列对象。
[0040]
参见图3,在执行可扩充列结束之后,可执行可扩充列解析。
[0041]
具体地,上述识别得到的可扩充列的列说明注释按照预设的分割模式进行分割,得到可扩充列的补充元数据;将可扩充列的列数值进行特征提取,生成无重复的列值数据;将可扩充列的补充元数据和列值数据进行匹配,生成列数值、列数值的说明注释的键值对,其中,无法匹配的列数值,其列数值的说明注释设置为空值。
[0042]
其中,对列说明注释的分割和无重复的列值数据的生成可参见上述可扩充列识别过程中的相关说明。当然,若在可扩充列识别过程中保存了相应的分割结果和生成的无重
复的列值数据,在执行可扩充列解析时,可直接调用。
[0043]
举例而言,得到的可扩充列col,其无重复列值数据为:[1,2,3,4,5,6],列注释说明分割提取的说明信息为:{
‘1’
:

类型a’,
‘3’
:

类型b’,
‘5’
:

类型c’},则扩充后的元数据键值对为:{
‘1’
:

类型a’,
‘2’
:空值,
‘3’
:

类型b’,
‘4’
:空值,
‘5’
:

类型c’,
‘6’
:空值}。
[0044]
进一步地,参见图3,在执行可扩充列解析结束之后,可进一步判断是否还存在未识别的待识别列,如果存在,则选取下一个未识别的待识别列,再次执行上述的可扩充列识别和可扩充列解析;如果不存在,则输出可扩充列识别解析结果。
[0045]
由此,通过对待识别列的数据列信息进行元数据再次识别,标记出可扩充的列,并将分散在这些列的隐蔽关键元数据信息提取出来,可为后续可扩充列的特征匹配和相近列的特征合并去重提供基础。
[0046]
s103,根据可扩充列识别解析结果进行特征匹配,得到相近可扩充列匹配结果。
[0047]
具体地,根据可扩充列识别解析结果进行特征匹配,得到相近可扩充列匹配结果,可包括:按照相近列名称、相近列说明注释、相近列数值中的至少一者,将任意两可扩充列的识别结果进行特征匹配,得到相应的匹配值;当匹配值大于预设阈值时,将对应两个可扩充列作为相近可扩充列。
[0048]
作为一个示例,按相近列名称进行特征匹配,可根据已识别的可扩充列名,结合列名称分割情况,如相应的第一分割数组中的值,查找关键字相同最多的列名称,作为列的相近匹配结果。例如,得到5个可扩充列,分别编号为列1、列2、列3、列4、列5,将列1的第一分割数组中的值,分别与列2、列3、列4、列5的第一分割数组中的值进行匹配,得到相应的匹配值,若列1与列4的匹配值大于预设阈值,则认为列4是列1的相近可扩充列;进而可将列2的第一分割数组中的值,分别与列3、列5的第一分割数组中的值进行匹配,得到相应的匹配值,若列2与列3、列5的匹配值均大于预设阈值,则认为列3、列5均是列2的相近可扩充列。其中,以列1与列4的匹配值计算为例,列1的第一分割数组为[x,y,z],列4的第一分割数组为[x,y,w],则其匹配值可为2/3。
[0049]
作为另一个示例,按相近列说明注释进行特征匹配,可根据已识别的可扩充列的列说明注释关键字,查找其他与当前可扩充列匹配最多的可扩充列名,作为当前可扩充列的相近可扩充列,具体方式可与上述的列名称特征匹配类似。
[0050]
作为又一个示例,按相近列数值进行特征匹配,可根据已识别可扩充列的列值特征,查找其他列数值与当前可扩充列匹配最多的可扩充列,将对应的可扩充列作为当前可扩充列的相近可扩充列,具体方式可与上述的列名称特征匹配类似。
[0051]
s104,根据相近可扩充列匹配结果进行相近可扩充列的元数据合并去重,得到扩充后的元数据。
[0052]
具体地,根据相近可扩充列匹配结果进行相近可扩充列的元数据合并去重,得到扩充后的元数据,可包括:将相近可扩充列的键值对进行合并去重,得到扩充后的元数据。
[0053]
举例而言,两个相近可扩充列col1、col2,col1的键值对为:{
‘1’
:

类型a’,
‘2’
:空值,
‘3’
:

类型b’,
‘4’
:空值,
‘5’
:

类型c’,
‘6’
:空值},col2的键值对为:{
‘1’
:空值,
‘2’
:

类型f’,
‘3’
:空值,
‘4’
:

类型g’,
‘5’
:空值},则合并去重后的结果为:{
‘1’
:

类型a’,
‘2’
:

类型f’,
‘3’
:

类型b’,
‘4’
:

类型g’,
‘5’
:

类型c’,
‘6’
:空值},即得到扩充后的元数据。
[0054]
在得到扩充后的元数据后,进行保存,以便后续查看、管理等。
[0055]
综上,本发明实施例的元数据扩充方法,可利用给定的源数据库,通过可扩充列识别解析、特征匹配和相似合并,实现基于现有元数据的元数据自动扩充和完善,无需大量的人为配置,可降低人力成本、物力成本和时间成本。
[0056]
基于上述的元数据扩充方法,本发明还提出了一种计算机可读存储介质。
[0057]
在本发明的实施例中,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的元数据扩充方法。
[0058]
本发明实施例的计算机可读存储介质,在其上存储的与上述元数据扩充方法对应的计算机程序被处理器执行时,可实现基于现有元数据的元数据自动扩充和完善,无需大量的人为配置,可降低人力成本、物力成本和时间成本。
[0059]
基于上述的元数据扩充方法,本发明还提出了一种电子设备。
[0060]
在本发明的实施例中,电子设备包括存储器、处理器和存储在所述存储器上的计算机程序,所述计算机程序被所述处理器执行时,实现上述的元数据扩充方法。
[0061]
本发明实施例的计算机可读存储介质,在其存储器上存储的与上述元数据扩充方法对应的计算机程序被处理器执行时,可实现基于现有元数据的元数据自动扩充和完善,无需大量的人为配置,可降低人力成本、物力成本和时间成本。
[0062]
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0063]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0064]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0065]
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0066]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0067]
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0068]
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
[0069]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1