数据字段统一标准命名方法及装置与流程

文档序号:33476851发布日期:2023-03-15 10:37阅读:118来源:国知局
数据字段统一标准命名方法及装置与流程

1.本发明涉及数据处理技术领域,尤其涉及一种数据字段统一标准命名方法及装置。


背景技术:

2.随着线上、线下业务不断的融合,数据质量要求不断的提高,解决部门间数据难以互通、数据质量参差不齐、业务流程难以穿透等问题显得成尤为重要。数据能力建设已经成为金融业数字化转型的核心能力指标,数据字段标准统一命名管理是数据标准治理的重要基石。
3.目前,数据字段标准统一命名使用的方法是最大匹配分词法,该方法的优点是相比其他分词具有算法实现简约,分词效率快速,系统投入低,实现快速;缺点是词典中词的数量直接影响切词准确率及效率,存在分词歧义,难以体现语境背景。


技术实现要素:

4.本发明提供了一种数据字段统一标准命名方法及装置,旨在实现提高数据的切词准确率、提升数据质量。
5.第一方面,本发明实施例提供一种数据字段统一标准命名方法,该方法包括:获取用户输入的字段名及所述字段名的所属业务归属标签,所述标签的候选值分为一个基础标签和多个业务标签;根据所述字段名从相应的标准字段库中查找所述标准字段库中是否有与所述字段名完全匹配的标准字段;若所述标准字段库中没有与所述字段名完全相匹配的标准字段,根据获取的业务归属标签选择相应的业务库和基础库对所述字段名进行词根切词得到字段词根组合信息,所述字段词根组合信息表示所述字段名被切词后得到的多个词根;判断所述字段词根组合信息中的词根是否均为有效词根;若所述字段词根组合信息中的词根均为有效词根,将所述字段词根组成信息生成标准字段存入标准字段库;若所述字段词根组合信息中的词根有无效词根,根据所述字段词根组合信息重新调整词根,将调整后的词根再次输入标准字段库进行匹配。
6.可选地,所述根据所述字段名查找标准字段库之前包括创建标准字段库,其中,创建标准字段库具体包括:将原先混合在词根库中的词根拆分为多个业务词根和一个基础词根,每个词根对应一个业务归属标签;根据所述业务归属标签对每个词根进行业务库或基础库归库,其中,多个业务词根共用一个业务归属标签的归于基础库,业务专用词根归于对应业务库;根据使用统计频率对每一个拆分到库的词进行分级管理。
7.可选地,所述分级管理包括多个不同级别,所述不同级别的大小由词根的使用统计频率决定,使用统计频率越高的词根级别越大。
8.可选地,所述根据获取的业务归属标签选择相应的业务库和基础库对所述字段名进行词根切词得到字段词根组合信息具体包括:根据词根级别从大到小依次对所述业务库和基础库中的词根集进行最大匹配切词。
9.可选地,所述若所述字段词根组合信息中的词根有无效词根还包括:开启所有的业务库和基础库,将所有的业务库和基础库作为切词库对所述字段名进行词根切词。
10.可选地,若将所有的业务库和基础库作为切词库对所述字段名进行词根切词后依然还有无效词根,还包括:将无效的词根进行词根申请,等待审批结果通知;若审批成功,将所述审批成功的词根存入所述词根库。
11.可选地,对所述词根库和所述标准字段库实行只增不删原则,其中,词根可重新调整所属业务库或基础库及级别。
12.第二方面,本发明实施例提供一种数据字段统一标准命名装置,所述数据字段统一标准命名装置包括获取单元、查找单元、切词单元、判断单元、存储单元和调整单元。获取单元,用于获取用户输入的字段名及所述字段名的所属业务归属标签,所述标签的候选值分为一个基础标签和多个业务标签。查找单元,用于根据所述字段名从相应的标准字段库中查找所述标准字段库中是否有与所述字段名完全匹配的标准字段。切词单元,用于若所述标准字段库中没有与所述字段名完全相匹配的标准字段,根据获取的业务归属标签选择相应的业务库和基础库对所述字段名进行词根切词得到字段词根组合信息,所述字段词根组合信息表示所述字段名被切词后得到的多个词根。判断单元,用于判断所述字段词根组合信息中的词根是否均为有效词根。存储单元,用于若所述字段词根组合信息中的词根均为有效词根,将所述字段词根组成信息生成标准字段存入标准字段库。调整单元,用于若所述字段词根组合信息中的词根有无效词根,根据所述字段词根组合信息重新调整词根,将调整后的词根再次输入标准字段库进行匹配。
13.可选地,所述数据字段统一标准命名装置还包括拆分单元、归类单元和分级单元。拆分单元,用于将原先混合在词根库中的词根拆分为多个业务词根和一个基础词根,每个词根对应一个业务归属标签。归类单元,用于根据所述业务归属标签对每个词根进行业务库或基础库归库,其中,多个业务词根共用一个业务归属标签的归于基础库,业务专用词根归于对应业务库。分级单元,用于根据使用统计频率对每一个拆分到库的词进行分级管理。
14.第三方面,本发明实施例提供一种计算机设备,包括存储器和处理器。存储器,用于存储计算机可执行程序。处理器,用于执行所述计算机可执行程序以实现如上述所述的数据字段统一标准命名方法。
15.上述实施例中,通过获取用户输入的随机字段名和该字段名所属的业务归属标签,将该字段名输入标准字段库中进行字段匹配,若匹配不成功,根据所述业务归属标签对应的业务库和基础库,对该字段名进行词根切词,若切的词根均为有效词根,也就是所述字段名中的词根均能在所有的业务库或基础库中找到,则将所述词根存储至标准字段库,若所述字段名中的词根有任一词根在所有的业务库和基础库中未找到,则重新调整词根,将重新调整后的词根再次输入至标准字段库中进行匹配。同时,在对该字段名进行词根切词时,按照同一业务库或者基础库中的词根级别从大到小的顺序依次对该字段名的词根进行切词,而词根的级别又是通过用户的使用频率来进行定级,其中,使用频率越高的词根级别越高,利用这种切词方法,有效地提高了词根切词的准确率和切词速度,同时也极大地提高了数据质量。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
17.图1为本发明第一实施例提供的数据字段统一标准命名方法流程示意图。
18.图2为本发明第一实施例提供的数据字段统一标准命名方法的第一子流程示意图。
19.图3为本发明第二实施例提供的数据字段统一标准命名方法的流程示意图。
20.图4为本发明第一实施例提供的数据字段统一标准命名装置模块示意图。
21.图5为本发明第一实施例提供的电子设备的结构示意图。
22.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
23.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的规划对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,换句话说,描述的实施例根据除了这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,还可以包含其他内容,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于只清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
26.请参看图1,其为本发明第一实施例提供的数据字段统一标准命名方法流程示意图,该方法具体包括如下步骤:
27.步骤s101,获取用户输入的字段名及所述字段名的所属业务归属标签,所述标签的候选值分为一个基础标签和多个业务标签。具体地,用户随机输入一个字段名,根据实际情况选择该字段名的所属业务归属标签,可理解地,所述业务归属标签为该字段名的分类标签,一个字段名对应一个基础标签或一个业务标签,但一个字段名可以有多个业务标签可供选择,进一步地,属于多个业务标签的为一个基础标签,需要说明的是,每个字段名由多个词根组成,每个词根被归类分配到对应的业务库和基础库中。
28.比如,输入的字段名为“信用卡办理”,可供用户选择的业务归属标签有信用卡业务、贷款业务和理财业务等,用户根据实际情况选择信用卡业务。
29.步骤s102,根据所述字段名从相应的标准字段库中查找所述标准字段库中是否有与所述字段名完全匹配的标准字段。具体地,所述标准字段库为开发人员预先设置好的存有大量字段的仓库,在本实施例中,所述标准字段库中的字段至少包括从公司所有项目收集而来的通用字段内容。根据步骤s101,将用户随机输入的字段名与标准字段库中的字段进行匹配,查找该标准字段库中是否有与用户输入的字段名完全相匹配的字段,其中,标准字段库的创建过程将在下面步骤中进行详细讲解,这里不再赘述。
30.比如,用户输入的字段名为:“信用卡办理”,则匹配成功的结果为:[信用卡]、[办理]两个字段。
[0031]
步骤s103,若所述标准字段库中没有与所述字段名完全相匹配的标准字段,根据获取的业务归属标签选择相应的业务库和基础库对所述字段名进行词根切词得到字段词根组合信息,所述字段词根组合信息表示所述字段名被切词后得到的多个词根。
[0032]
具体地,根据步骤s102,若是在标准字段库中未找到该字段名的匹配字段,将用户选择的业务归属标签作为一个定位查询依据,可理解地,根据步骤s101,所述一个字段名包括若干词根,而业务库和基础库是开发人员预先设置好的两种类别词根库,所述业务库中的词根为专用业务词根,而同时属于多个业务的词根归为基础库,在本实施例中,当在标准字段库中未匹配到所述字段名的适合字段,则根据用户选择的业务归属标签寻找对应的业务库或者基础库对该字段名进行词根切词,也就是说将所述字段名输入对应的业务库或者基础库进行词根切词,可理解地,对所述字段名进行词根切词生成字段词根组合信息,进一步地,在对该字段名进行词根切词时按照对应库中词根级别进行依次切词,也就是在同一业务库或者基础库中,优先级别越高的词根越先得到切词匹配,而词根的级别是由开发人员统计的使用频率来对词根进行定级的,其中,使用频率越高的词根级别越高。
[0033]
比如,用户输入的字段名为:“离岸人民币结算”,若用户选择的业务归属标签为投资理财业务,则在对该字段名进行词根切词的时候会选择投资理财业务库,并在投资理财业务库中从词根级别最大的词根开始对该字段名的词根进行切词,而切词顺序依然为字段名本身词根顺序,最终切出的结果为[离岸][人民币][结算]3个词根。
[0034]
步骤s104,判断所述字段词根组合信息中的词根是否均为有效词根。具体地,根据步骤s103,对所述字段名进行词根切词的目的就是为了检验输入的字段名是不是完全由词根组成,而在对该字段名进行词根切词时会产生字段词根组合信息,此时,需判断该字段词根组合信息中是否存在有效词根或者无效词根,可理解地,在业务库或者基础库中能够找到与该字段名的词根进行匹配的词根则被称为有效词根,若是在业务库或者基础库中无法找到对应的词根则被称为无效词根。
[0035]
比如,用户输入的字段名为:“离岸人民币结算”,切词结果为[离岸][人民]币[结算]中,则有效词根为[离岸]、[人民]、[结算],无效词根为“币”。
[0036]
步骤s105,若所述字段词根组合信息中的词根均为有效词根,将所述字段词根组成信息生成标准字段存入标准字段库。具体地,切词结果就是字段词根组合信息,根据步骤s103中例子“离岸人民币结算”最终切出的结果为[离岸][人民币][结算]3个词根,则将[离岸][人民币][结算]3个词根生成标准字段存入标准字段库。
[0037]
步骤s106,若所述字段词根组合信息中的词根有无效词根,根据所述字段词根组合信息重新调整词根,将调整后的词根再次输入标准字段库进行匹配。具体地,根据步骤s104中,若切词结果中有一个无效词根,则将该词根舍弃,将有效词根进行组合再次输入至标准字段库中进行匹配。
[0038]
比如,用户输入的字段名为:“离岸人民币结算”,切词结果为[离岸][人民]币[结算]中,将有效词根[离岸][人民][结算]重新进行调整为“离岸人民结算”,将无效词根“币”舍弃,再将调整后的词根再次输入标准字段库中进行匹配。
[0039]
再比如,用户输入的字段名为:“离岸人民币结算手续”,切词结果:[离岸][人民币][结算]3个词根和两个无效词根“手”、“续”,将3个有效词根[离岸][人民币][结算]进行组合生成“离岸人民币结算”输入标准字段库中进行匹配,而无效词根“手”和“续”进行后续处理。
[0040]
进一步地,若在对应的业务库和基础库都无法对该字段名的词根进行有效切词时,则开放所有的业务库和基础库对该字段名进行词根切词。
[0041]
上述实施例中,通过获取用户输入的随机字段名和该字段名所属的业务归属标签,将该字段名输入标准字段库中进行字段匹配,若匹配不成功,根据所述业务归属标签对应的业务库和基础库,对该字段名进行词根切词,若切的词根均为有效词根,也就是所述字段名中的词根均能在所有的业务库或基础库中找到,则将所述词根存储至标准字段库,若所述字段名中的词根有任一词根在所有的业务库和基础库中未找到,则重新调整词根,将重新调整后的词根再次输入至标准字段库中进行匹配。同时,在对该字段名进行词根切词时,按照同一业务库或者基础库中的词根级别从大到小的顺序依次对该字段名的词根进行切词,而词根的级别又是通过用户的使用频率来进行定级,其中,使用频率越高的词根级别越高,利用这种切词方法,有效地提高了词根切词的准确率和切词速度,同时也极大地提高了数据质量。
[0042]
请参看图2,其为本发明第一实施例提供的数据字段统一标准命名方法的第一子流程图,根据所述字段名查找标准字段库之前包括创建标准字段库,其中,创建标准字段库具体包括如下步骤:
[0043]
步骤s201,将原先混合在词根库中的词根拆分为多个业务词根和一个基础词根,每个词根对应一个业务归属标签。具体地,所述词根库中包含有若干无序排列的字符串的词根,开发人员将所述无序排列的词根进行拆分、组合、分类和打标签处理,使每个词根具有一个相应的业务归属标签。
[0044]
比如,有若干词根“基金办理信用卡”,则将词根拆分和打标签为:基金
‑‑‑
投资理财业务、办理
‑‑‑
基础业务、信用卡
‑‑‑
信用卡业务。
[0045]
步骤s202,根据所述业务归属标签对每个词根进行业务库或基础库归库,其中,多个业务词根共用一个业务归属标签的归于基础库,业务专用词根归于对应业务库。具体地,每个业务归属标签对应一个业务库和一个基础库,若该词根属于多个业务则归类为基础库。
[0046]
比如,根据步骤s201,“基金”词根归为投资理财业务库,“信用卡”词根归为信用卡业务库,“办理”词根可以同时为投资理财业务库和信用卡业务库,因此“办理”词根归为基础库。
[0047]
步骤s203,根据使用统计频率对每一个拆分到库的词根进行分级管理。具体地,当每个词根被归为相应的业务库后,还需要对该词根进行分级管理,其中,根据用户使用的频率来对词根进行分级排序,在本实施例中,使用频率越高的词根级别越大。
[0048]
上述实施例中,通过对词根库中的词根进行拆分打标签,根据标签将词根归类到相应的业务库或基础库中,并根据用户使用词根的频率来对同一个业务库或基础库中的词根进行分级管理,其中,用户使用的频率越高的词根级别越高,在本实施中,当在业务库和基础库中对该词根进行词根切词时时,从级别高的词根开始进行词根切词,利用用户的使用频率加快了词根的切词速度,同时也充分利用了词根的使用环境和语境背景。
[0049]
请参看图3,其为本发明第二实施例提供的数据字段统一标准命名方法流程示意图,所述第二实施例提供的数据字段统一标准命名方法和第一实施例提供的数据字段统一标准命名方法的区别在于,第二实施例提供的数据字段统一标准命名方法还包括对无效的词根进行词根申请,所述词根申请过程具体包括如下步骤:
[0050]
步骤301,将无效的词根进行词根申请,等待审批结果通知。
[0051]
步骤302,若审批成功,将所述审批成功的词根存入所述词根库。
[0052]
具体地,根据步骤s106中,若将所述字段名输入到所有的业务库或基础库中进行词根切词,在返回的字段词根组合信息中仍然有无效词根,则将无效词根进行词根申请,将申请成功的词根直接存入词根库中。
[0053]
比如,用户输入字段名为:“离岸人民币结算手续”,切词结果:[离岸][人民币][结算]3个词根和两个无效词根“手”、“续”,把“手续”作为词根申请。
[0054]
进一步地,开发人员对词根库和标准字段库实行只增不删原则,增加了词根库和标准字段库中的词根量,使字段名在进行词根切词时最大范围地得到切词结果,提高了切词准确率,进一步地,词根可以根据实际需求重新调整所属业务库或基础库以及级别。
[0055]
上述实施例中,通过将无效词根进行词根申请,将申请通过的词根存入词根库中,更加完善词根库中的词根量,开发人员再次对未分类的词根进行拆解分类,循环往复地对新增的词根进行操作,增加词根分类的覆盖率,使后续所有的字段名都能得到有效词根,更大程度上的提高了词根的匹配准确率。
[0056]
请参看图4,其为本发明第一实施例提供的数据字段统一标准命名装置模块示意图,所述数据字段统一标准命名装置100包括:获取单元101、查找单元102、选择单元103、调整单元104、存储单元105、拆分单元106、归类单元106、分级单元107和分级单元108。
[0057]
获取单元101,用于获取用户输入的字段名及所述字段名的所属业务归属标签,所述标签的候选值分为一个基础标签和多个业务标签。
[0058]
查找单元102,用于根据所述字段名从相应的标准字段库中查找所述标准字段库中是否有与所述字段名完全匹配的标准字段。
[0059]
切词单元103,用于若所述标准字段库中没有与所述字段名完全相匹配的标准字段,根据获取的业务归属标签选择相应的业务库和基础库对所述字段名进行词根切词得到字段词根组合信息,所述字段词根组合信息表示所述字段名被切词后得到的多个词根。
[0060]
判断单元104,用于判断所述字段词根组合信息中的词根是否均为有效词根。
[0061]
存储单元105,用于若所述字段词根组合信息中的词根均为有效词根,将所述字段词根组成信息生成标准字段存入标准字段库。
[0062]
调整单元106,用于若所述字段词根组合信息中的词根有无效词根,根据所述字段词根组合信息重新调整词根,将调整后的词根再次输入标准字段库进行匹配。
[0063]
拆分单元107,用于将原先混合在词根库中的词根拆分为多个业务词根和一个基础词根,每个词根对应一个业务归属标签。
[0064]
归类单元108,用于根据所述业务归属标签对每个词根进行业务库或基础库归库,其中,多个业务词根共用一个业务归属标签的归于基础库,业务专用词根归于对应业务库。
[0065]
分级单元109,用于根据使用统计频率对每一个拆分到库的词进行分级管理。
[0066]
本领域技术人员可以理解的是,为了描述的方便和简洁,本实施方式所述的数据字段统一标准命名装置可以参照上述实施方式所述的数据字段统一标准命名方法对应过程,在此不再赘述。
[0067]
请参看图5,其为本发明第一实施例提供的计算机设备的内部结构示意图。计算机设备30具体包括存储器302和处理器301。存储器302用于存储程序指令,处理器301用于执行程序指令以实现上述数据字段统一标准命名装置方法。
[0068]
其中,处理器301在一些实施例中可以是一中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器或其它数据处理芯片,用于运行存储器302中存储的程序指令。
[0069]
存储器302至少包括一种类型的可读存储介质,该可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器302在一些实施例中可以是计算机设备的内部存储单元,例如计算机设备的硬盘。存储器302在另一些实施例中也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,存储器302还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器302不仅可以用于存储安装于计算机设备的应用软件及各类数据,例如实现数据字段统一标准命名方法的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0070]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
[0071]
以上所列举的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属于本发明所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1