1.一种数据分类方法,所述方法包括:
获得用于处理所述待分类数据字段的数据库操作语句;
对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;
针对所述操作参数进行特征提取,获得对应的操作特征;
调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。
2.如权利要求1所述的方法,所述操作参数包括:参数as后的字段别名,统计函数,位置where条件参数,连接join条件参数,case when函数,关键字参数中的一种或者多种组合;
所述操作特征包括:语义特征、统计特征、行为特征、血缘特征,关键字特征中的一种或者多种组合。
3.如权利要求1所述的方法,所述调用训练得到的数据分类模型对所述操作特征进行分类之前,所述方法还包括:
利用数据库操作语句样本作为训练样本训练得到数据分类模型,所述数据库操作语句样本用于处理数据字段样本。
4.如权利要求3所述的方法,所述利用数据库操作语句样本作为训练样本训练得到数据分类模型,具体包括:
获得所述数据库操作语句样本;其中,所述数据字段样本具有分类类别;
对所述数据库操作语句样本进行解析,获得用于处理所述数据字段样本的操作参数样本;
针对所述操作参数样本进行特征提取,获得对应的操作特征样本;
通过所述操作特征样本确定对应的待训练模型;
通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型。
5.如权利要求4所述的方法,所述操作特征样本包括:语义特征样本、统计特征样本、行为特征样本、血缘特征样本、关键字特征样本中的一种或者多种组合;
所述通过所述操作特征样本确定出对应的待训练模型,具体包括以下一种或者多种组合方式:
通过所述语义特征样本确定待训练自然语言处理NLP模型;
通过所述统计特征样本确定待训练决策树模型;
通过所述行为特征样本确定待训练人员-行为-字段关系图模型;
通过所述血缘特征样本确定待训练字段流转模型;
通过所述关键字特征样本确定待训练专家经验模型。
6.如权利要求5所述的方法,所述通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型,具体包括以下一种或者多种组合方式:
通过所述语义特征样本和所述数据字段样本的分类类别,对待训练NLP模型进行训练,获得关联语义的数据分类模型;
通过所述统计特征样本和所述数据字段样本的分类类别,对待训练决策树模型进行训练,获得关联统计的数据分类模型;
通过所述行为特征样本和所述数据字段样本的分类类别,对待训练人员-行为-字段关系图模型进行训练,获得关联行为的数据分类模型;
通过所述血缘特征样本和所述数据字段样本的分类类别,对待训练字段流转模型进行训练,获得关联血缘的数据分类模型;
通过所述关键字特征样本和所述数据字段样本的分类类别,对待训练专家经验模型进行训练,获得关联关键字的数据分类模型。
7.如权利要求2所述的方法,所述数据分类模型包括:关联语义的数据分类模型、关联统计的数据分类模型、关联行为的数据分类模型、关联血缘的数据分类模型、关联关键字的数据分类模型;
所述调用训练得到的数据分类模型对所述操作特征进行分类,具体包括以下一种或者多种组合方式:
调用所述关联语义的数据分类模型对所述语义特征进行分类;
调用所述关联统计的数据分类模型对所述统计特征进行分类;
调用所述关联行为的数据分类模型对所述行为特征进行分类;
调用所述关联血缘的数据分类模型对所述血缘特征进行分类;
调用所述关联关键字的数据分类模型对所述关键字特征进行分类。
8.如权利要求1-7任一权项所述的方法,所述调用训练得到的数据分类模型对所述操作特征进行分类之后,具体包括:
按照预设级别划分规则对所述待分类数据字段的分类结果中的类别进行分级。
9.一种数据分类模型的训练方法,所述方法包括:
获得用于处理数据字段样本的数据库操作语句样本;其中,所述数据字段样本具有分类类别;
对所述数据库操作语句样本进行解析,获得用于处理所述数据字段样本的操作参数样本;
针对所述操作参数样本进行特征提取,获得对应的操作特征样本;
通过所述操作特征样本确定对应的待训练模型;
通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型。
10.如权利要求9所述的方法,所述操作参数样本包括:参数as后面的字段别名,统计函数,位置where条件参数,连接join条件参数,case when函数,关键字参数中的一种或者多种组合;
所述操作特征样本包括:语义特征样本、统计特征样本、行为特征样本、血缘特征样本,关键字特征样本中的一种或者多种组合。
11.一种数据分类系统,包括:
第一获得单元,用于获得用于处理所述待分类数据字段的数据库操作语句;
第一解析单元,用于对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;
第一提取单元,用于针对所述操作参数进行特征提取,获得对应的操作特征;
分类单元,用于调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。
12.如权利要求11所述的系统,所述操作参数包括:参数as后的字段别名,统计函数,位置where条件参数,连接join条件参数,case when函数,关键字参数中的一种或者多种组合
所述操作特征包括:语义特征、统计特征、行为特征、血缘特征,关键字特征中的一种或者多种组合。
13.如权利要求11所述的系统,所述系统还包括,模型训练单元,用于利用数据库操作语句样本作为训练样本训练得到数据分类模型,所述数据库操作语句样本用于处理数据字段样本。
14.如权利要求13所述的系统,所述模型训练模块,包括:
第二获得单元,用于获得所述数据库操作语句样本;其中,所述数据字段样本具有分类类别;
第二解析单元,用于对所述数据库操作语句样本进行解析,获得用于处理所述数据字段样本的操作参数样本;
第二提取单元,用于针对所述操作参数样本进行特征提取,获得对应的操作特征样本;
确定单元,用于通过所述操作特征样本确定对应的待训练模型;
训练单元,用于通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型。
15.如权利要求14所述的系统,所述操作特征样本包括:语义特征样本、统计特征样本、行为特征样本、血缘特征样本、关键字特征样本中的一种或者多种组合;
所述确定单元,具体用于实施以下一种或者多种组合方式:
通过所述语义特征样本确定待训练自然语言处理NLP模型;
通过所述统计特征样本确定待训练决策树模型;
通过所述行为特征样本确定待训练人员-行为-字段关系图模型;
通过所述血缘特征样本确定待训练字段流转模型;
通过所述关键字特征样本确定待训练专家经验模型。
16.如权利要求15所述的系统,所述训练单元,具体用于实施以下一种或者多种组合方式:
通过所述语义特征样本和所述数据字段样本的分类类别,对待训练NLP模型进行训练,获得关联语义的数据分类模型;
通过所述统计特征样本和所述数据字段样本的分类类别,对待训练决策树模型进行训练,获得关联统计的数据分类模型;
通过所述行为特征样本和所述数据字段样本的分类类别,对待训练人员-行为-字段关系图模型进行训练,获得关联行为的数据分类模型;
通过所述血缘特征样本和所述数据字段样本的分类类别,对待训练字段流转模型进行训练,获得关联血缘的数据分类模型;
通过所述关键字特征样本和所述数据字段样本的分类类别,对待训练专家经验模型进行训练,获得关联关键字的数据分类模型。
17.如权利要求12所述的系统,所述数据分类模型包括:关联语义的数据分类模型、关联统计的数据分类模型、关联行为的数据分类模型、关联血缘的数据分类模型、关联关键字的数据分类模型;
所述分类单元,具体用于实施以下一种或者多种组合方式:
调用所述关联语义的数据分类模型对所述语义特征进行分类;
调用所述关联统计的数据分类模型对所述统计特征进行分类;
调用所述关联行为的数据分类模型对所述行为特征进行分类;
调用所述关联血缘的数据分类模型对所述血缘特征进行分类;
调用所述关联关键字的数据分类模型对所述关键字特征进行分类。
18.如权利要求11-17任一权项所述的系统,所述系统还包括:
分级单元,用于按照预设级别划分规则对所述待分类数据字段的分类结果中的类别进行分级。
19.一种数据分类模型的训练系统,包括:
获得模块,用于获得用于处理数据字段样本的数据库操作语句样本;其中,所述数据字段样本具有分类类别;
解析模块,用于对所述数据库操作语句样本进行解析,获得用于处理所述数据字段样本的操作参数样本;
提取模块,用于针对所述操作参数样本进行特征提取,获得对应的操作特征样本;
确定模块,用于通过所述操作特征样本确定对应的待训练模型;
训练模块,用于通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型。
20.如权利要求19所述的系统,所述操作参数样本包括:参数as后面的字段别名,统计函数,位置where条件参数,连接join条件参数,case when函数,关键字参数中的一种或者多种组合;
所述操作特征样本包括:语义特征样本、统计特征样本、行为特征样本、血缘特征样本,关键字特征样本中的一种或者多种组合。
21.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。
22.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-8任一项所述方法的步骤。