一种数据表分类方法、装置、设备及存储介质与流程

文档序号:32952495发布日期:2023-01-14 14:19阅读:33来源:国知局
一种数据表分类方法、装置、设备及存储介质与流程

1.本发明实施例涉及大数据处理技术领域,尤其涉及一种数据表分类方法、装置、设备及存储介质。


背景技术:

2.随着互联网的快速发展,数据也呈爆发式增长。为了便于对数据进行存储,目前各个企业将数据按照数据表的形式存储至数据仓库中。
3.数据仓库一般分为5个数仓分层,分别为数据运营层(operation data store,ods)、公共维度层(dimension,dim)、数据细节层(data warehouse details,dwd)、数据中间层(data warehouse service,dws)、数据应用层(application data service,ads)。其中,数据运营层为离线或准实时数据接入层;公共维度层存储的是多维度整理获得的数据;数据细节层的数据是对数据运营层的数据做一定的数据清洗和转换获得的;数据中间层的数据对数据细节层的数据做轻度的汇总获得的;数据应用层的数据是对数据中间层的数据进行整合汇总获得的,提供后续的业务查询等服务。
4.为了对数据仓库中的数据表更加清晰地进行管理,需要将数据表划分至不同的数仓分层。目前一般人工对数据表进行分析,根据分析结果将数据表划分至对应的数仓分层,由于依赖人工经验,这容易导致数据表划分结果并不准确。


技术实现要素:

5.本技术实施例提供了一种数据表分类方法、装置、设备及存储介质,用于提高数据表分类结果的准确性。
6.一方面,本技术实施例提供了一种数据表分类方法,该方法包括:
7.从多个预设关键词中确定出与数据表的各维度表信息匹配的至少一个目标关键词;
8.针对任一目标关键词,基于分类标签对应关系,确定所述目标关键词对应的目标分类标签,以及所述目标关键词与所述目标分类标签相关联的多维度卡方值;所述分类标签对应关系是根据多个样本数据表确定的每个预设关键词的分类关系;其中,每个预设关键词的分类关系包括预设关键词所属的分类标签及预设关键词与所属的分类标签相关联的多维度卡方值;多维度卡方值用于表征预设关键词在多个维度表信息下与所属的分类标签相关性;
9.基于每个目标关键词对应的目标分类标签以及每个目标关键词与所述目标分类标签相关联的多维度卡方值,确定所述数据表的分类结果。
10.可选地,所述分类标签对应关系是根据多个样本数据表确定的每个预设关键词的分类关系,包括:
11.针对任一预设关键词,基于所述多个样本数据表,分别确定所述预设关键词与每个候选分类标签的多维度卡方值;
12.从多个多维度卡方值中选取最大的多维度卡方值,并且当最大的多维度卡方值大于卡方分布的临界值时,将最大的多维度卡方值所对应的候选分类标签,作为所述预设关键词所属的分类标签,并将所述最大的多维度卡方值作为所述预设关键词与所属的分类标签相关联的多维度卡方值。
13.可选地,所述针对任一预设关键词,基于所述多个样本数据表,分别确定所述预设关键词与每个候选分类标签的多维度卡方值,包括:
14.针对任一预设关键词对应的任一候选分类标签,执行以下步骤:
15.基于所述多个样本数据表,分别确定每个维度表信息对应的置信值;所述置信值用于表征每个维度信息与候选分类标签的相关性;
16.基于每个维度表信息对应的置信值,以及每个维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,确定所述预设关键词与所述候选分类标签的多维度卡方值。
17.可选地,所述分别确定每个维度表信息对应的置信值,包括:
18.针对任一维度表信息,基于所述多个样本数据表,确定所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值;
19.基于每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值,确定每个维度表信息的权重因子;
20.针对任一维度表信息,采用所述维度表信息的权重因子,对所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值进行调整,获得所述维度表信息的置信值。
21.可选地,所述基于所述多个样本数据表,确定所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值,包括:
22.确定所述多个样本数据表的维度表信息中包含所述预设关键词的第一数据表量;
23.确定所述多个样本数据表的维度表信息中包含所述预设关键词,且所述多个样本数据表属于所述候选分类标签的第二数据表量;
24.将所述第二数据表量与所述第一数据表量的比值,作为所述关联概率值。
25.可选地,所述基于每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值,确定每个维度表信息的权重因子,包括:
26.确定每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值的和,作为关联概率总值;
27.针对任一维度表信息,基于所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值,以及关联概率总值,确定所述维度信息的权重因子。
28.可选地,所述基于每个维度表信息对应的置信值,以及每个维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,确定所述预设关键词与所述候选分类标签的多维度卡方值,包括:
29.按照每个维度表信息对应的置信值进行排序,获得排序后的置信值;
30.按照预设匹配关系,依次从排序后的置信值中获取存在匹配关系的第一置信值和第二置信值;
31.针对每个存在匹配关系的第一置信值和第二置信值,基于第一置信值所对应的维
度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,以及第二置信值所对应的维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,确定卡方差值;
32.基于多个存在匹配关系的第一置信值和第二置信值对应的卡方差值,确定所述预设关键词与所述候选分类标签的多维度卡方值。
33.可选地,所述基于每个目标关键词对应的目标分类标签以及每个目标关键词与所述目标分类标签相关联的多维度卡方值,确定所述数据表的分类结果,包括:
34.根据每个目标关键词对应的目标分类标签,确定分类标签组;所述分类标签组与所述目标分类标签一一对应;所述分类标签组内包括至少一个目标关键词;
35.基于每个分类标签组各自对应的标签数量,以及每个分类标签组内的至少一个目标关键词分别与所述目标分类标签相关联的卡方值,确定所述数据表的分类结果。
36.可选地,所述基于每个分类标签组各自对应的标签数量,以及每个分类标签组内至少一个目标关键词分别与所述目标分类标签相关联的卡方值,确定所述数据表的分类结果,包括:
37.若存在至少两个分类标签组,且所述至少两个分类标签组的标签数量最大并且相等,将所述至少两个分类标签组作为参考标签组;
38.针对任一参考标签组,基于所述参考标签组内的至少一个目标关键词分别与所述目标分类标签相关联的卡方值,确定参考卡方值;
39.将每个参考标签组对应的参考卡方值中的最大参考卡方值所对应的目标分类标签,作为分类结果。
40.可选地,所述候选分类标签包括数据运营类、公共维度类、数据细节类、数据中间类、数据应用类。
41.可选地,所述确定所述数据表的分类结果之后,还包括:
42.基于所述数据运营类、所述公共维度类、所述数据细节类、所述数据中间类、所述数据应用类之间的依赖关系,对所述数据表的分类结果进行验证。
43.一方面,本技术实施例提供了一种数据表分类装置,该装置包括:
44.关键词确定模块,用于从多个预设关键词中确定出与数据表的各维度表信息匹配的至少一个目标关键词;
45.分类标签确定模块,用于针对任一目标关键词,基于分类标签对应关系,确定所述目标关键词对应的目标分类标签,以及所述目标关键词与所述目标分类标签相关联的多维度卡方值;所述分类标签对应关系是根据多个样本数据表确定的每个预设关键词的分类关系;其中,每个预设关键词的分类关系包括预设关键词所属的分类标签及预设关键词与所属的分类标签相关联的多维度卡方值;多维度卡方值用于表征预设关键词在多个维度表信息下与所属的分类标签相关性;
46.分类结果确定模块,用于基于每个目标关键词对应的目标分类标签以及每个目标关键词与所述目标分类标签相关联的多维度卡方值,确定所述数据表的分类结果。
47.可选地,所述分类标签确定模块,具体用于:
48.针对任一预设关键词,基于所述多个样本数据表,分别确定所述预设关键词与每个候选分类标签的多维度卡方值;
49.从多个多维度卡方值中选取最大的多维度卡方值,并且当最大的多维度卡方值大于卡方分布的临界值时,将最大的多维度卡方值所对应的候选分类标签,作为所述预设关键词所属的分类标签,并将所述最大的多维度卡方值作为所述预设关键词与所属的分类标签相关联的多维度卡方值。
50.可选地,所述分类标签确定模块,具体用于:
51.针对任一预设关键词对应的任一候选分类标签,执行以下步骤:
52.基于所述多个样本数据表,分别确定每个维度表信息对应的置信值;所述置信值用于表征每个维度信息与候选分类标签的相关性;
53.基于每个维度表信息对应的置信值,以及每个维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,确定所述预设关键词与所述候选分类标签的多维度卡方值。
54.可选地,所述分类标签确定模块,具体用于:
55.针对任一维度表信息,基于所述多个样本数据表,确定所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值;
56.基于每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值,确定每个维度表信息的权重因子;
57.针对任一维度表信息,采用所述维度表信息的权重因子,对所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值进行调整,获得所述维度表信息的置信值。
58.可选地,所述分类标签确定模块,具体用于:
59.确定所述多个样本数据表的维度表信息中包含所述预设关键词的第一数据表量;
60.确定所述多个样本数据表的维度表信息中包含所述预设关键词,且所述多个样本数据表属于所述候选分类标签的第二数据表量;
61.将所述第二数据表量与所述第一数据表量的比值,作为所述关联概率值。
62.可选地,所述分类标签确定模块,具体用于:
63.确定每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值的和,作为关联概率总值;
64.针对任一维度表信息,基于所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值,以及关联概率总值,确定所述维度信息的权重因子。
65.可选地,所述分类标签确定模块,具体用于:
66.按照每个维度表信息对应的置信值进行排序,获得排序后的置信值;
67.按照预设匹配关系,依次从排序后的置信值中获取存在匹配关系的第一置信值和第二置信值;
68.针对每个存在匹配关系的第一置信值和第二置信值,基于第一置信值所对应的维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,以及第二置信值所对应的维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,确定卡方差值;
69.基于多个存在匹配关系的第一置信值和第二置信值对应的卡方差值,确定所述预设关键词与所述候选分类标签的多维度卡方值。
70.可选地,所述分类结果确定模块,具体用于:
71.根据每个目标关键词对应的目标分类标签,确定分类标签组;所述分类标签组与所述目标分类标签一一对应;所述分类标签组内包括至少一个目标关键词;
72.基于每个分类标签组各自对应的标签数量,以及每个分类标签组内的至少一个目标关键词分别与所述目标分类标签相关联的卡方值,确定所述数据表的分类结果。
73.可选地,所述分类结果确定模块,具体用于:
74.若存在至少两个分类标签组,且所述至少两个分类标签组的标签数量最大并且相等,将所述至少两个分类标签组作为参考标签组;
75.针对任一参考标签组,基于所述参考标签组内的至少一个目标关键词分别与所述目标分类标签相关联的卡方值,确定参考卡方值;
76.将每个参考标签组对应的参考卡方值中的最大参考卡方值所对应的目标分类标签,作为分类结果。
77.可选地,所述候选分类标签包括数据运营类、公共维度类、数据细节类、数据中间类、数据应用类。
78.可选地,还包括验证模块,具体用于:
79.所述确定所述数据表的分类结果之后,基于所述数据运营类、所述公共维度类、所述数据细节类、所述数据中间类、所述数据应用类之间的依赖关系,对所述数据表的分类结果进行验证。
80.一方面,本技术实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述交易参数查询方法的步骤。
81.一方面,本技术实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述交易参数查询方法的步骤。
82.在本技术实施例中,从多个预设关键词中确定出与数据表的各维度表信息匹配的至少一个目标关键词,针对任一目标关键词,基于分类标签对应关系,确定目标关键词对应的目标分类标签,以及目标关键词与目标分类标签相关联的多维度卡方值。最后,基于每个目标关键词对应的目标分类标签以及每个目标关键词与目标分类标签相关联的多维度卡方值,确定数据表的分类结果,而不再是依赖人工经验,提高了数据表分类结果的准确性,进而保证了数据表划分至对应的数仓分层的准确性。
附图说明
83.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
84.图1为本技术实施例提供的一种系统架构示意图;
85.图2为本技术实施例提供的一种数据表分类方法的流程示意图;
86.图3为本技术实施例提供的一种分类标签的血缘关系结构示意图;
87.图4为本技术实施例提供的一种确定分类关系的方法的流程示意图;
88.图5为本技术实施例提供的一种确定多维度卡方值的方法的流程示意图;
89.图6为本技术实施例提供的一种确定置信值的方法的流程示意图;
90.图7为本技术实施例提供的一种确定多维度卡方值的方法的流程示意图;
91.图8为本技术实施例提供的一种数据表分类装置的结构示意图;
92.图9为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
93.为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
94.参考图1,其为本技术实施例适用的一种数据表分类系统架构图,该数据表分类系统架构图至少包括终端设备101、数据表分类系统102。
95.终端设备101安装有用于数据表分类的目标应用,该应用可以是预先安装的客户端、网页版应用或嵌入在其他应用中的小程序等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。
96.数据表分类系统102为目标应用的后台服务器,为目标应用提供服务。数据表分类系统102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网路(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
97.终端设备101与数据表分类系统102可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
98.终端设备101响应用户的数据表分类操作,发送数据表分类指令至数据表分类系统102。数据表分类系统102接收数据表分类指令,从多个预设关键词中确定出与数据表的各维度表信息匹配的至少一个目标关键词。针对任一目标关键词,基于分类标签对应关系,确定目标关键词对应的目标分类标签,以及目标关键词与目标分类标签相关联的多维度卡方值;分类标签对应关系是根据多个样本数据表确定的每个预设关键词的分类关系;其中,每个预设关键词的分类关系包括预设关键词所属的分类标签及预设关键词与所属的分类标签相关联的多维度卡方值;多维度卡方值用于表征预设关键词在多个维度表信息下与所属的分类标签相关性;基于每个目标关键词对应的目标分类标签以及每个目标关键词与目标分类标签相关联的多维度卡方值,确定数据表的分类结果。
99.基于图1所述的系统架构图,本技术实施例提供了一种数据表分类方法的流程,如图2所示,该方法的流程由图1所示的数据表分类系统102执行,包括以下步骤:
100.步骤s201,从多个预设关键词中确定出与数据表的各维度表信息匹配的至少一个目标关键词。
101.具体地,数据表在不同的维度上对应不同的维度表信息。数据表在库维度所对应的维度表信息为库名、库描述。数据表在表维度所对应的维度表信息为表名、表描述。数据表在字段维度所对应的维度信息为字段名、字段描述。
102.预设关键词一般包括:ods、record、info、logs等。预设关键词可以随着不同公司的业务进行调整,在此不做限定。
103.针对任一待分类的数据表,确定该数据表的各维度表信息,包括库名、库描述、表名、表描述、字段名和字段描述。
104.对每个预设关键词进行判断,若该数据表的各维度表信息中的任一维度表信息包括该预设关键词,则将该预设关键词作为目标关键词。例如,预设关键词为ods,若该数据表的库名包括“ods”这一预设特征词,则将预设特征词ods作为目标关键词。
105.其中,在判断数据表的维度表信息中是否包含预设关键词,可以采用分词、过滤、统计等方法,在此不做限定。
106.步骤s202,针对任一目标关键词,基于分类标签对应关系,确定目标关键词对应的目标分类标签,以及目标关键词与目标分类标签相关联的多维度卡方值。
107.具体地,分类标签对应关系是根据多个样本数据表确定的每个预设关键词的分类关系。
108.通过对多个样本数据表进行统计,确定每个预设关键词所属的分类标签,以及每个预设关键词与所属的分类标签的多维度卡方值。其中,多维度卡方值用于表征预设关键词在多个维度表信息下与所属的分类标签相关性,多维度卡方值是通过预设关键词在各个维度表信息下的单维度卡方值确定的。
109.将每个预设关键词所述的分类标签,以及每个预设关键词与所属的分类标签相关联的多维度卡方值,作为每个预设关键词的分类关系,并将每个预设关键词的分类关系作为分类标签对应关系。
110.其中,分类标签包括数据运营类、公共维度类、数据细节类、数据中间层类、数据应用类。
111.举例来说,分类标签对应关系如表1所示,分类标签对应关系中所包括预设关键词为ods、record、info、logs、ads、application,以record预设关键词举例来说,record预设关键词所属的分类标签为公共维度类,record预设关键词与公共维度类相关联的多维度卡方值为230。
112.针对表1中其他预设关键词,其他预设关键词与分类标签的对应关系,与多维度卡方值的对应关系不再做进一步解释。
113.表1.
114.预设关键词分类标签多维度卡方值record公共维度类230ods数据运营类320info数据细节类445logs数据中间类210ads数据应用类108application数据应用类200
115.步骤s203,基于每个目标关键词对应的目标分类标签以及每个目标关键词与目标分类标签相关联的多维度卡方值,确定数据表的分类结果。
116.在一种实施例中,根据每个目标关键词对应的目标分类标签,确定分类标签组;其
中,分类标签组与目标分类标签一一对应;分类标签组内包括至少一个目标关键词。基于每个分类标签组各自对应的标签数量,以及每个分类标签组内的至少一个目标关键词分别与目标分类标签相关联的卡方值,确定数据表的分类结果。
117.具体地,针对各个分类标签组的标签数量,存在以下两种可能性:
118.第一种可能性:若只存在一个标签数量最大的分类标签组,则直接将该分类标签组所对应的目标分类标签作为分类结果。
119.第二种可能性:若存在至少两个分类标签组,且该至少两个分类标签组的标签数量最大并且相等,将至少两个分类标签组作为参考标签组。
120.针对任一参考标签组,基于参考标签组内的至少一个目标关键词分别与目标分类标签相关联的卡方值,确定参考卡方值。其中,可以将至少一个目标关键词与目标分类标签相关联的卡方值的和作为参考卡方值,也可以将至少一个目标关键词与目标分类标签相关联的卡方值中选择最大卡方值作为参考卡方值,还可以采用其他方法确定参考卡方值,在此不做限定。
121.最后,将每个参考标签组对应的参考卡方值中的最大参考卡方值所对应的目标分类标签,作为分类结果。
122.在本技术中,在确定数据表的分类结果之后,可以直接根据数据表的分类结果,将数据表划分至分类结果对应的数仓分层,如该数据表的分类结果是数据运营类,则将该数据表划分至数据运营层。
123.在确定数据表的分类结果之后,还可以基于数据运营类、公共维度类、数据细节类、数据中间类、数据应用类之间的依赖关系,对数据表的分类结果进行验证。
124.具体地,各个分类标签的依赖关系一般为各个分类标签的血缘关系。在血缘关系中,分类标签一般可以划分为流出节点、中间节点、流入节点。数据运营类、公共维度类、数据细节类、数据中间类、数据应用类的血缘关系如图3所示。其中,数据运营类和公共维度类为流出节点,数据细节类和数据中间类为中间节点,数据应用类为流入节点。
125.若数据表的分类标签对应流出节点,则该数据表为数据提供方,该数据表在血缘关系上不引用其他数据表。若数据表的分类标签对应流入节点,该数据表在血缘关系上不被其他数据表引用。若数据表的分类标签对应中间节点,该数据表在血缘关系上既引用分类标签为流出节点的其他数据表,也被分类标签为流入节点的其他数据表引用。
126.其中,各个分类标签的依赖关系具体如下:
127.第一种依赖关系:当数据表的分类标签为数据运营类或者公共维度类时,若该数据表在血缘关系上没有引用其他数据表,则该数据表的分类结果准确;否则,该数据表的分类结果不准确。
128.第二种依赖关系:当数据表的分类标签为数据应用类时,若该数据表在血缘关系上被其他数据表引用,则该数据表的分类结果不准确;否则,该数据表的分类结果准确。
129.第三种依赖关系:当数据表的分类标签为数据细节类时,若该数据表在血缘关系上引用了分类标签为数据运营类或公共维度类的其他数据表,并且该数据表在血缘关系上被分类标签为数据中间类的其他数据表引用,则该数据表的分类结果准确;否则,该数据表的分类结果不准确。
130.第四种依赖关系:当数据表的分类标签为数据中间类时,若该数据表在血缘关系
上引用了分类标签为数据细节类的其他数据表,并且该数据表在血缘关系上被分类标签为数据应用类的其他数据表引用,则该数据表的分类结果准确;否则,该数据表的分类结果不准确。
131.采用各个分类标签的依赖关系对分类结果进行验证后,若分类结果不准确,可以对分类结果进行修改,进一步提高了分类结果的准确性。
132.在本技术实施例中,从多个预设关键词中确定出与数据表的各维度表信息匹配的至少一个目标关键词,针对任一目标关键词,基于分类标签对应关系,确定目标关键词对应的目标分类标签,以及目标关键词与目标分类标签相关联的多维度卡方值。最后,基于每个目标关键词对应的目标分类标签以及每个目标关键词与目标分类标签相关联的多维度卡方值,确定数据表的分类结果,而不再是依赖人工经验,提高了数据表分类结果的准确性,进而保证了将数据表划分至对应的数仓分层的准确性。
133.可选地,在上述步骤s202中,分类标签对应关系是根据多个样本数据表确定的每个预设关键词的分类关系,具体包括如图4所示的以下步骤:
134.步骤s401,针对任一预设关键词,基于多个样本数据表,分别确定该预设关键词与每个候选分类标签的多维度卡方值。
135.具体地,候选分类标签包括数据运营类、公共维度类、数据细节类、数据中间类、数据应用类。
136.针对任一预设关键词以及任一候选分类标签,计算该预设关键词与该候选分类标签的多维度卡方值之前,均需定义以下假设问题:
137.原假设h0:假设该预设关键词和该候选分类标签无关。
138.备择假设h1:假设该预设关键词和该候选分类标签有关。
139.例如,预设关键词为record,需分别定义预设关键词record与数据运营类、公共维度类、数据细节类、数据中间类、数据应用类的假设问题。如预设关键词record与数据运营类的假设问题如下:
140.原假设h0:假设预设关键词record和数据运营类无关。
141.备择假设h1:假设预设关键词record和数据运营类有关。
142.预设关键词record与其他候选分类标签的假设问题,与预设关键词record与数据运营类的假设问题类似,在此不做限定。
143.假设通过计算,预设关键词record分别与各个候选分类标签的多维度卡方值如表2所示。预设关键词record分别与数据运营类、公共维度类、数据细节类、数据中间类和数据应用类的多维度卡方值为180、230、10、30、50。
144.表2.
145.预设关键词分类标签多维度卡方值record数据运营类180record公共维度类230record数据细节类10record数据中间类30record数据应用类50
146.步骤s402,从多个多维度卡方值中选取最大的多维度卡方值,并且当最大的多维
度卡方值大于卡方分布的临界值时,将最大的多维度卡方值所对应的候选分类标签,作为该预设关键词所属的分类标签,并将最大的多维度卡方值作为预设关键词与所属的分类标签相关联的多维度卡方值。
147.具体地,常用的卡方分布表如表3所示。
148.表3.
[0149][0150]
设定卡方分布的临界值一般为3.841,一般而言,当多维度卡方值大于卡方分布的临界值时,则意味着该多维度卡方值对应的预设关键词与候选分类标签的原假设h0成立的可能性为0.05,由于0.05的可能性比较小,因此,可以推断出,该多维度卡方值对应的预设关键词与候选分类标签的原假设h0不成立,该多维度卡方值对应的预设关键词与候选分类标签的备择假设h1成立。
[0151]
根据不同的情形,还可以设定卡方分布的临界值为5.024、6.635等,在此不做限定。
[0152]
根据表2可知,预设关键词record与公共维度类的多维度卡方值230最大,由于230远大于3.841,因此,将公共维度类作为预设关键词所属的分类标签,将最大的多维度卡方值230作为预设关键词record与公共维度类相关联的多维度卡方值。
[0153]
在本技术实施例中,针对任一预设关键词,基于多个样本数据表,分别确定该预设关键词与每个候选分类标签的多维度卡方值,从多个多维度卡方值中选取最大的多维度卡方值,并且当最大的多维度卡方值大于卡方分布的临界值时,将最大的多维度卡方值所对应的候选分类标签,作为该预设关键词所属的分类标签,并将最大的多维度卡方值作为预设关键词与所属的分类标签相关联的多维度卡方值,采用上述方法所确定的分类标签对应关系保证了每个预设关键词的分类关系的准确性。
[0154]
可选地,在上述步骤s401中,针对任一预设关键词,基于多个样本数据表,分别确定该预设关键词与每个候选分类标签的多维度卡方值,具体地,针对任一预设关键词对应的任一候选分类标签,具体执行如图5所示的以下步骤:
[0155]
步骤s501,基于多个样本数据表,分别确定每个维度表信息对应的置信值。
[0156]
其中,置信值用于表征每个维度信息与候选分类标签的相关性。
[0157]
每个维度表信息所对应的置信值与预设关键词、候选分类标签、维度表信息相关。
[0158]
针对同一份样本数据表,当预设关键词相同,候选分类标签相同时,不同的维度表信息所对应的置信值并不相同;当预设关键词相同,候选分类标签不同时,同一个维度表信息所对应的置信值并不相同;当候选分类标签相同,预设关键词不同时,同一个维度表信息所对应的置信值并不相同。
[0159]
步骤s502,基于每个维度表信息对应的置信值,以及每个维度表信息中预设关键词与候选分类标签相关联的单维度卡方值,确定预设关键词与候选分类标签的多维度卡方值。
[0160]
在本技术实施例中,根据每个维度表信息对应的置信值,以及每个维度表信息中
预设关键词与候选分类标签相关联的单维度卡方值,确定预设关键词与候选分类标签的多维度卡方值,保证了多维度卡方值充分考虑到各个维度表信息以及各个维度表信息的关联性,增加了多维度卡方值的准确性。
[0161]
在上述步骤s501,基于多个样本数据表,确定预设关键词对应的每个维度表信息的置信值,具体包括如图6所示的以下步骤:
[0162]
步骤s601,针对任一维度表信息,基于多个样本数据表,确定维度表信息中预设关键词与候选分类标签的关联概率值。
[0163]
具体地,针对任一维度表信息,先确定多个样本数据表的维度表信息中包含预设关键词的第一数据表量,再确定多个样本数据表的维度表信息中包含预设关键词,且多个样本数据表属于候选分类标签的第二数据表量。最后,将第二数据表量与第一数据表量的比值,作为关联概率值。
[0164]
设定样本数据表的数量为765个,当维度表信息为库名,预设关键词为record,候选分类标签为公共维度类时,根据表4中的内容可知:在765个样本数据表中,库名中包含预设关键词record的样本数据表为78个,即第一数据表量为78;在765个样本数据表中,库名中包含预设关键词record,且属于公共维度类的样本数据表为76个,即第二数据表量为76。因此,预设关键词record与公共维度类的关联概率值为76/78。
[0165]
表4.
[0166][0167]
当维度表信息为库描述,预设关键词为record,候选分类标签为公共维度类时,根据表5中的内容可知:在765个样本数据表中,库描述中包含预设关键词record的样本数据表为89个,即第一数据表量为89;在765个样本数据表中,库描述中包含预设关键词record,且属于公共维度类的样本数据表为66个,即第二数据表量为66。因此,预设关键词record与公共维度类的关联概率值为66/89。
[0168]
表5.
[0169][0170]
针对维度表信息为表名、表描述、字段名、字段描述时,预设关键词record与公共维度类的关联概率值不再进行统计,所统计的过程与上述过程类似。
[0171]
在本技术实施例中,基于样本数据表的维度表信息中包含预设关键词,以及样本数据表属于候选分类标签的关系,确定关联概率,便于为后续计算每个维度表信息的置信值。
[0172]
步骤s602,基于每个维度表信息中预设关键词与候选分类标签的关联概率值,确定每个维度表信息的权重因子。
[0173]
具体地,先确定每个维度表信息中预设关键词与候选分类标签的关联概率值的
和,作为关联概率总值;然后,针对任一维度表信息,基于维度表信息中预设关键词与候选分类标签的关联概率值,以及关联概率总值,确定维度信息的权重因子。
[0174]
设定每个维度表信息中预设关键词与候选分类标签的关联概率值分别为p1、p2、

、pn,其中,n为维度表信息的个数。关联概率总值为p1+

+pn。
[0175]
设定针对第i个维度表信息,设定第i个维度表信息的权重因子为wi,将第i个维度表信息中预设关键词与候选分类标签的关联概率值pi与关联概率总值的比值,作为第i个维度表信息的权重因子,具体如公式(1)所示:
[0176][0177]
步骤s603,针对任一维度表信息,采用维度表信息的权重因子,对维度表信息中预设关键词与候选分类标签的关联概率值进行调整,获得维度表信息的置信值。
[0178]
具体地,针对任一维度表信息,将该维度表信息的权重因子,与该维度表信息中预设关键词与候选分类标签的关联概率值的乘积,作为该维度表信息的调整概率值。再将该维度表信息的调整概率值,与每个维度表信息的调整概率值的和的比值,作为该维度表信息的置信值。
[0179]
设定n个维度表信息的权重因子分别为w1、w2、

、wn,每个维度表信息中预设关键词与候选分类标签的关联概率值分别为p1、p2、

、pn,每个维度表信息的调整概率值分别为w1*p1、w2*p2、

、wn*pn。针对任一维度表信息的置信值cvi,对应的计算公式如公式(2)所示:
[0180][0181]
在本技术实施例中,基于维度表信息的权重因子,以及维度表信息中预设关键词与候选分类标签的关联概率值,确定维度表信息的置信值,便于后续计算多维度卡方值。
[0182]
可选地,在上述步骤s502,基于每个维度表信息对应的置信值,以及每个维度表信息中预设关键词与候选分类标签相关联的单维度卡方值,确定预设关键词与候选分类标签的多维度卡方值,具体包括如图7所示的以下步骤:
[0183]
步骤s701,按照每个维度表信息对应的置信值进行排序,获得排序后的置信值。
[0184]
步骤s702,按照预设匹配关系,依次从排序后的置信值中获取存在匹配关系的第一置信值和第二置信值。
[0185]
具体地,为了满足预设匹配关系,先对维度表信息的个数进行判断,若维度表信息的个数为奇数,则将排序后的置信值中位数所对应的维度表信息删除;若维度表信息的个数为偶数,则不处理。
[0186]
预设匹配关系可以为:将最大置信值作为第一置信值,将最小置信值作为第二置信值;再将次大置信值作为第一置信值,将次小置信值作为第二置信值,依次类推。
[0187]
预设匹配关系还可以为:将最大置信值作为第一置信值,将位于n/2+1的置信值作为第二置信值;再将次大置信值作为第一置信值,将位于n/2+2的置信值作为第二置信值;其中,n为维度表信息的个数。
[0188]
步骤s703,针对每个存在匹配关系的第一置信值和第二置信值,基于第一置信值所对应的维度表信息中预设关键词与候选分类标签相关联的单维度卡方值,以及第二置信值所对应的维度表信息中预设关键词与候选分类标签相关联的单维度卡方值,确定卡方差
值。
[0189]
具体地,采用常用的卡方计算方法,确定各个维度表信息中预设关键词与候选分类标签相关联的单维度卡方值。
[0190]
设定样本数据表的数量为765个,当维度表信息为库名,预设关键词为record,候选分类标签为公共维度类时,预设关键词与候选分类标签相关联的关系如上述表4所示。
[0191]
基于表4中的内容,采用常用的卡方值确定方法,确定样本数据表的库名中是否含有预设关键词record,以及样本数据表是否属于公共维度类的理论值如表6所示。
[0192]
表6.
[0193][0194]
基于表4以及表6中的内容,采用卡方值计算公式确定库名中预设关键词record与公共维度类相关联的单维度卡方值。其中,表示卡方值,a表示样本数据表的库名中是否含有record,以及样本数据表是否属于公共维度类的实际值,t表示样本数据表的库名中是否含有record,以及样本数据表是否属于公共维度类的理论值。例如,当a表示样本数据表的库名中含有record且样本数据表属于公共维度类时,a=76;当a表示样本数据表的库名中不含有record且样本数据表属于公共维度类时,a=2。当t表示样本数据表的库名中含有record且样本数据表属于公共维度类时,t=23.751;当t表示样本数据表的库名中不含有record且样本数据表属于公共维度类时,t=209.1915。
[0195]
将第一置信值所对应的维度表信息中预设关键词与候选分类标签相关联的单维度卡方值,与第二置信值所对应的维度表信息中预设关键词与候选分类标签相关联的单维度卡方值的差的平方,作为卡方差值。
[0196]
步骤s704,基于多个存在匹配关系的第一置信值和第二置信值对应的卡方差值,确定预设关键词与候选分类标签的多维度卡方值。
[0197]
具体地,对多个卡方差值的和进行平均,再求平方根,得到预设关键词与候选分类标签的多维度卡方值,具体公式如公式(3)所示:
[0198][0199]
其中,r表示预设关键词与候选分类标签的多维度卡方值,表示n个维度表信息中预设关键词与候选分类标签相关联的单维度卡方值,均为存在匹配关系的第一置信值和第二置信值对应的卡方差值,n为维度表信息的个数。
[0200]
举例来说,分别确定各个维度表信息中预设关键词record与数据运营类相关联的单维度卡方值如表7所示。
[0201]
表7.
[0202]
预设关键词候选分类标签维度表信息单维度卡方值record数据运营类库名183.98record数据运营类库描述90.81record数据运营类表名293.37record数据运营类表描述181.62record数据运营类字段名16.23record数据运营类字段描述211.62
[0203]
设定当预设关键词为record,候选分类标签为数据运营类时,各个维度表信息的置信值如表8所示。
[0204]
表8.
[0205][0206][0207]
按照置信值的大小进行排序,置信值依次为0.199334833、0.189243599、0.184665035、0.178878552、0.138426956和0.10945097,维度表信息的顺序依次为表名、库名、表描述、字段描述、字段名、库描述。按照预设匹配关系,确定存在匹配关系的第一置信值和第二置信值分别为(表名的置信值,库描述的置信值),(库名的置信值,字段名的置信值),(表描述的置信值,字段描述的置信值),即(0.199334833,0.10945097),(0.189243599,0.138426956),(0.184665035,0.178878552)。
[0208]
存在匹配关系的第一置信值和第二置信值的单维度卡方值分别为(293.37,90.81),(183.98,16.23),(181.62,211.62),通过多维度卡方值计算公式,因此,预设关键词record与数据运营类的多维度卡方值为152.83。
[0209]
采用以上过程,可以分别确定出预设关键词record与公共维度类、数据细节类、数据中间类和数据应用类的多维度卡方值。
[0210]
针对其他预设关键词,采用以上过程,可以分别确定出其他预设关键词与数据运营类、公共维度类、数据细节类、数据中间类和数据应用类的多维度卡方值。
[0211]
在本技术实施例中,根据每个维度表信息对应的置信值,确定预设关键词与候选分类标签的多维度卡方值,充分体现了不同维度表信息在多维度卡方值所站权重,提高了多维度卡方值的准确性。
[0212]
基于相同的技术构思,本技术实施例提供了一种数据表分类装置,如图8所示,该数据表分类装置800包括:
[0213]
关键词确定模块801,用于从多个预设关键词中确定出与数据表的各维度表信息匹配的至少一个目标关键词;
[0214]
分类标签确定模块802,用于针对任一目标关键词,基于分类标签对应关系,确定所述目标关键词对应的目标分类标签,以及所述目标关键词与所述目标分类标签相关联的多维度卡方值;所述分类标签对应关系是根据多个样本数据表确定的每个预设关键词的分类关系;其中,每个预设关键词的分类关系包括预设关键词所属的分类标签及预设关键词与所属的分类标签相关联的多维度卡方值;多维度卡方值用于表征预设关键词在多个维度表信息下与所属的分类标签相关性;
[0215]
分类结果确定模块803,用于基于每个目标关键词对应的目标分类标签以及每个目标关键词与所述目标分类标签相关联的多维度卡方值,确定所述数据表的分类结果。
[0216]
可选地,所述分类标签确定模块802,具体用于:
[0217]
针对任一预设关键词,基于所述多个样本数据表,分别确定所述预设关键词与每个候选分类标签的多维度卡方值;
[0218]
从多个多维度卡方值中选取最大的多维度卡方值,并且当最大的多维度卡方值大于卡方分布的临界值时,将最大的多维度卡方值所对应的候选分类标签,作为所述预设关键词所属的分类标签,并将所述最大的多维度卡方值作为所述预设关键词与所属的分类标签相关联的多维度卡方值。
[0219]
可选地,所述分类标签确定模块802,具体用于:
[0220]
针对任一预设关键词对应的任一候选分类标签,执行以下步骤:
[0221]
基于所述多个样本数据表,分别确定每个维度表信息对应的置信值;所述置信值用于表征每个维度信息与候选分类标签的相关性;
[0222]
基于每个维度表信息对应的置信值,以及每个维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,确定所述预设关键词与所述候选分类标签的多维度卡方值。
[0223]
可选地,所述分类标签确定模块802,具体用于:
[0224]
针对任一维度表信息,基于所述多个样本数据表,确定所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值;
[0225]
基于每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值,确定每个维度表信息的权重因子;
[0226]
针对任一维度表信息,采用所述维度表信息的权重因子,对所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值进行调整,获得所述维度表信息的置信值。
[0227]
可选地,所述分类标签确定模块802,具体用于:
[0228]
确定所述多个样本数据表的维度表信息中包含所述预设关键词的第一数据表量;
[0229]
确定所述多个样本数据表的维度表信息中包含所述预设关键词,且所述多个样本数据表属于所述候选分类标签的第二数据表量;
[0230]
将所述第二数据表量与所述第一数据表量的比值,作为所述关联概率值。
[0231]
可选地,所述分类标签确定模块802,具体用于:
[0232]
确定每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值的和,作为关联概率总值;
[0233]
针对任一维度表信息,基于所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值,以及关联概率总值,确定所述维度信息的权重因子。
[0234]
可选地,所述分类标签确定模块802,具体用于:
[0235]
按照每个维度表信息对应的置信值进行排序,获得排序后的置信值;
[0236]
按照预设匹配关系,依次从排序后的置信值中获取存在匹配关系的第一置信值和第二置信值;
[0237]
针对每个存在匹配关系的第一置信值和第二置信值,基于第一置信值所对应的维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,以及第二置信值所对应的维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,确定卡方差值;
[0238]
基于多个存在匹配关系的第一置信值和第二置信值对应的卡方差值,确定所述预设关键词与所述候选分类标签的多维度卡方值。
[0239]
可选地,所述分类结果确定模块803,具体用于:
[0240]
根据每个目标关键词对应的目标分类标签,确定分类标签组;所述分类标签组与所述目标分类标签一一对应;所述分类标签组内包括至少一个目标关键词;
[0241]
基于每个分类标签组各自对应的标签数量,以及每个分类标签组内的至少一个目标关键词分别与所述目标分类标签相关联的卡方值,确定所述数据表的分类结果。
[0242]
可选地,所述分类结果确定模块803,具体用于:
[0243]
若存在至少两个分类标签组,且所述至少两个分类标签组的标签数量最大并且相等,将所述至少两个分类标签组作为参考标签组;
[0244]
针对任一参考标签组,基于所述参考标签组内的至少一个目标关键词分别与所述目标分类标签相关联的卡方值,确定参考卡方值;
[0245]
将每个参考标签组对应的参考卡方值中的最大参考卡方值所对应的目标分类标签,作为分类结果。
[0246]
可选地,所述候选分类标签包括数据运营类、公共维度类、数据细节类、数据中间类、数据应用类。
[0247]
可选地,还包括验证模块804,具体用于:
[0248]
所述确定所述数据表的分类结果之后,基于所述数据运营类、所述公共维度类、所述数据细节类、所述数据中间类、所述数据应用类之间的依赖关系,对所述数据表的分类结果进行验证。
[0249]
基于相同的技术构思,本技术实施例提供了一种计算机设备,计算机设备可以是终端或服务器,如图9所示,包括至少一个处理器901,以及与至少一个处理器连接的存储器902,本技术实施例中不限定处理器901与存储器902之间的具体连接介质,图9中处理器901和存储器902之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
[0250]
在本技术实施例中,存储器902存储有可被至少一个处理器901执行的指令,至少一个处理器901通过执行存储器902存储的指令,可以执行上述数据表分类方法中所包括的
步骤。
[0251]
其中,处理器901是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器902内的指令以及调用存储在存储器902内的数据,从而进行数据表分类。可选的,处理器901可包括一个或多个处理单元,处理器901可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器901中。在一些实施例中,处理器901和存储器902可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
[0252]
处理器901可以是通用处理器,例如中央处理器(cpu)、数字信号处理器、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0253]
存储器902作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器902可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory,ram)、静态随机访问存储器(static random access memory,sram)、可编程只读存储器(programmable read only memory,prom)、只读存储器(read only memory,rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性存储器、磁盘、光盘等等。存储器902是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器902还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
[0254]
基于同一发明构思,本技术实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述数据表分类方法的步骤。
[0255]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0256]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0257]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0258]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0259]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1