本发明涉及数据处理,尤指一种基于本体的数据分类分级打标方法及装置。
背景技术:
1、目前,银行业包含着大量的结构化和非结构化敏感数据如客户交易信息、客户个人信息、隐私信息等,某一些应用承载的数据既包括结构化数据如在数据库存储的数据,又包括非机构化数据如word、text等以附件形式存在的数据,针对这些应用进行统一的数据分类分级自动打标成为业界的难点,现有产品或方法只能支持单一类型数据应用自动打标能力的不足,需要浪费大量人力资源,存在数据打标效率低、准确性差等问题。因此,需要一种智能化的数据打标方法,提升并实现对多源异构数据分类分级的自动打标能力。
技术实现思路
1、针对现有技术中存在的问题,本发明实施例的主要目的在于提供一种基于本体的数据分类分级打标方法及装置,提升数据分类分级打标效率,降低人力资源的投入。
2、为了实现上述目的,本发明实施例提供一种基于本体的数据分类分级打标方法,方法包括:
3、从包括多源异构数据的应用中获取待打标数据,并将待打标数据划分为结构化数据与非结构化数据;
4、利用统计算法与语义算法,对非结构化数据进行关键词抽取处理,得到待打标关键词,并利用分类算法与预先建立的图结构数据本体,确定待打标关键词对应的文本信息类型;
5、对结构化数据进行正则匹配处理,得到待打标数据项,并利用聚类算法与图结构数据本体,确定待打标数据项对应的数据项类型;
6、根据图结构数据本体中数据类别与安全等级的对应关系,分别利用待打标关键词对应的文本信息类型与待打标数据项对应的数据项类型,得到结构化数据对应的安全级别及非结构化数据对应的安全级别,以完成数据分类分级打标。
7、可选的,在本发明一实施例中,利用统计算法与语义算法,对非结构化数据进行关键词抽取处理,得到待打标关键词包括:
8、利用统计算法对非结构化数据进行分词处理,得到多个候选关键词;
9、利用语义算法对候选关键词进行提取处理,得到待打标关键词。
10、可选的,在本发明一实施例中,利用分类算法与预先建立的图结构数据本体,确定待打标关键词对应的文本信息类型包括:
11、利用语义算法对待打标关键词进行特征向量提取,得到各待打标关键词对应的特征向量;
12、利用分类算法对特征向量进行分类预测,得到各待打标关键词对应的标签分类概率,并根据预先建立的图结构数据本体及标签分类概率,确定待打标关键词对应的文本信息类型。
13、可选的,在本发明一实施例中,根据预先建立的图结构数据本体及标签分类概率,确定待打标关键词对应的文本信息类型包括:
14、对标签分类概率进行排序,并将排序后的标签分类概率与图结构数据本体进行比对,确定待打标关键词对应的文本信息类型。
15、可选的,在本发明一实施例中,利用聚类算法与图结构数据本体,确定待打标数据项对应的数据项类型包括:
16、利用聚类算法,对图结构数据本体及待打标数据项进行距离计算与聚类,得到待打标数据项对应的簇,并根据待打标数据项对应的簇,确定待打标数据项对应的数据项类型。
17、可选的,在本发明一实施例中,图结构数据本体是通过如下步骤建立的:
18、根据预设的数据分类分级规则,对获取的历史数据进行文本信息分析,确定文本信息及文本信息关系;
19、以文本信息为点,以文本信息关系为边,构建知识图谱;
20、根据预设的数据安全级别规则,对知识图谱进行安全级别标注,得到图结构数据本体。
21、可选的,在本发明一实施例中,根据图结构数据本体中数据类别与安全等级的对应关系,分别利用待打标关键词对应的文本信息类型与待打标数据项对应的数据项类型,得到结构化数据对应的安全级别及非结构化数据对应的安全级别,以完成数据分类分级打标包括:
22、根据所述图结构数据本体中数据类别与安全等级的对应关系,将待打标关键词对应的文本信息类型与所述图结构数据本体进行比对,确定待打标关键词对应的安全等级;
23、根据图结构数据本体中数据类别与安全等级的对应关系,将待打标数据项对应的数据项类型与图结构数据本体进行比对,确定待打标数据项对应的安全等级;
24、利用待打标关键词对应的文本信息类型及安全等级,对非结构化数据进行打标,并利用待打标数据项对应的数据项类型及安全等级,对结构化数据进行打标。
25、本发明实施例还提供一种基于本体的数据分类分级打标装置,装置包括:
26、待打标数据模块,用于从包括多源异构数据的应用中获取待打标数据,并将待打标数据划分为结构化数据与非结构化数据;
27、非结构化数据模块,用于利用统计算法与语义算法,对非结构化数据进行关键词抽取处理,得到待打标关键词,并利用分类算法与预先建立的图结构数据本体,确定待打标关键词对应的文本信息类型;
28、结构化数据模块,用于对结构化数据进行正则匹配处理,得到待打标数据项,并利用聚类算法与图结构数据本体,确定待打标数据项对应的数据项类型;
29、数据打标模块,用于根据图结构数据本体中数据类别与安全等级的对应关系,分别利用待打标关键词对应的文本信息类型与待打标数据项对应的数据项类型,得到结构化数据对应的安全级别及非结构化数据对应的安全级别,以完成数据分类分级打标。
30、可选的,在本发明一实施例中,非结构化数据模块包括:
31、分词处理单元,用于利用统计算法对非结构化数据进行分词处理,得到多个候选关键词;
32、提取处理单元,用于利用语义算法对候选关键词进行提取处理,得到待打标关键词。
33、可选的,在本发明一实施例中,非结构化数据模块还包括:
34、特征向量单元,用于利用语义算法对待打标关键词进行特征向量提取,得到各待打标关键词对应的特征向量;
35、标签分类单元,用于利用分类算法对特征向量进行分类预测,得到各待打标关键词对应的标签分类概率,并根据预先建立的图结构数据本体及标签分类概率,确定待打标关键词对应的文本信息类型。
36、可选的,在本发明一实施例中,标签分类单元还用于对标签分类概率进行排序,并将排序后的标签分类概率与图结构数据本体进行比对,确定待打标关键词对应的文本信息类型。
37、可选的,在本发明一实施例中,结构化数据模块还用于利用聚类算法,对图结构数据本体及待打标数据项进行距离计算与聚类,得到待打标数据项对应的簇,并根据待打标数据项对应的簇,确定待打标数据项对应的数据项类型。
38、可选的,在本发明一实施例中,装置还包括:
39、文本信息模块,用于根据预设的数据分类分级规则,对获取的历史数据进行文本信息分析,确定文本信息及文本信息关系;
40、知识图谱模块,用于以文本信息为点,以文本信息关系为边,构建知识图谱;
41、数据本体模块,用于根据预设的数据安全级别规则,对知识图谱进行安全级别标注,得到图结构数据本体。
42、可选的,在本发明一实施例中,数据打标模块包括:
43、第一安全等级单元,用于根据图结构数据本体中数据类别与安全等级的对应关系,将待打标关键词对应的文本信息类型与图结构数据本体进行比对,确定待打标关键词对应的安全等级;
44、第二安全等级单元,用于根据图结构数据本体中数据类别与安全等级的对应关系,将待打标数据项对应的数据项类型与图结构数据本体进行比对,确定待打标数据项对应的安全等级;
45、数据打标单元,用于利用待打标关键词对应的文本信息类型及安全等级,对非结构化数据进行打标,并利用待打标数据项对应的数据项类型及安全等级,对结构化数据进行打标。
46、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述方法。
47、本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有由计算机执行上述方法的计算机程序。
48、本发明还提供一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现上述方法的步骤。
49、本发明利用图结构数据本体,结合多种算法对结构化数据与非结构化数据进行数据分类分级,实现了数据分类分级的自动打标,弥补了现有方法只能支持单一类型数据应用自动打标能力的不足的问题,提升了数据分类分级打标效率,降低人力成本。