一种数据识别方法、装置、计算机设备及存储介质与流程

文档序号:19906677发布日期:2020-02-11 14:35阅读:161来源:国知局
一种数据识别方法、装置、计算机设备及存储介质与流程

本发明属于计算机技术领域,尤其涉及一种数据识别方法、装置、计算机设备及存储介质。



背景技术:

各个行业在业务开展过程中,对行业内的相似或相同业务,不同企业通常根据其独有的业务特性自定义产生业务数据并最终落库,可能会导致同一行业不同企业间相似或相同的业务在数据层面很难通过人工观察部分数据去识别异同。

传统判断来自行业内不同企业的数据的字段含义是否相同或相似的数据识别方法只要是通过人工逐个判断,虽然准确率较高,但一方面效率低下,另一方面对工作人员要求很高,需要其熟悉当前的业务以及掌握相关领域的专业知识;而现有利用程序进行数据识别的方法,对于同行业的相似数据均需要借助其他技术辅助识别,如字段的相似性,其容易因字段描述缺失而导致识别精确度低的问题;另外,无法跨行业应用,对不同类型的业务数据需要用到不同的识别方法,计算量较大,计算速度缓慢。

由此可见,现有的数据识别方法存在着工作效率低下、数据识别精确度较低以及应用门槛高的技术问题。



技术实现要素:

本发明实施例的目的在于提供一种数据识别方法,旨在解决现有的数据识别方法存在着工作效率低下、数据识别精确度较低以及应用门槛高的技术问题。

本发明实施例是这样实现的,一种数据识别方法,包括:

获取待识别数据;

通过预设机器学习模型对所述待识别数据进行识别,获得标准结果;

获取所述待识别数据所在数据库的表结构信息,并根据所述表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据;

根据所述表结构信息,确定所述抽样数据的数据类型;

基于所述抽样数据的数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果;

根据所述预测识别结果以及标准结果,确定数据识别结果。

本发明实施例的另一目的在于一种数据识别装置,包括:

获取单元,用于获取待识别数据;

第一识别单元,用于通过预设机器学习模型对所述待识别数据进行识别,获得标准结果;

抽样单元,用于获取所述待识别数据所在数据库的表结构信息,并根据所述表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据;

数据类型确定单元,用于根据所述表结构信息,确定所述抽样数据的数据类型;

第二识别单元,用于基于所述抽样数据的数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果;以及

确定单元,用于根据所述预测识别结果以及标准结果,确定数据识别结果。

本发明实施例的另一目的在于一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述数据识别方法的步骤。

本发明实施例的另一目的在于一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述数据识别方法的步骤。

本发明实施例提供的一种数据识别方法,首先通过预设机器学习模型对所述待识别数据进行识别,获得标准结果,进而,获取所述待识别数据所在数据库的表结构信息,并根据所述表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据及其数据类型,基于所述抽样数据的数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果;根据所述预测识别结果以及标准结果,确定数据识别结果;本发明方法相比于现有的数据识别方法,在保证准确率的同时,不仅大大降低了人力成本,提高了工作效率,而且降低了工作人员对相关领域的专业知识要求,降低了应用门槛。

附图说明

图1为本发明实施例提供的一种数据识别方法的实现流程图;

图2为本发明实施例提供的另一种数据识别方法的实现流程图;

图3为本发明实施例提供的又一种数据识别方法的实现流程图;

图4为本发明实施例提供的再一种数据识别方法的实现流程图;

图5为本发明实施例提供的一种数据识别装置的结构框图;

图6为本发明实施例提供的另一种数据识别装置的结构框图;

图7为本发明实施例提供的一种数据识别装置中的第二识别单元的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。

本发明实施例提供的数据识别方法,通过预设机器学习模型对所述待识别数据进行识别,获得标准结果,进而根据所述待识别数据所在数据库的表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据及其数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果;根据所述预测识别结果以及标准结果,确定数据识别结果;本发明方法相比于现有的数据识别方法,在保证准确率的同时,不仅大大降低了人力成本,提高了工作效率,而且降低了工作人员对相关领域的专业知识要求,降低了应用门槛。

为了进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下。

图1示出了本发明实施例提供的一种数据识别方法的实现流程,为了便于说明,仅示出与本发明实施例相关的部分,详述如下:

在步骤s101中,获取待识别数据。

在本发明实施例中,根据对外web服务,有两种识别模式,一种指定性识别,另外一种默认全数据库识别。指定性识别即用户可自定义识别的数据;当用户调用服务时(在前端交互完成),后端解析模式以及参数然后调用数据识别服务端算法,因此,待识别数据为用户指定性的数据或者默认数据库内的所有数据。另外,待识别数据可以来源不同的数据库,例如常见的oracle、sql、阿里云、hadoop等,通过输入数据路径,即可实现数据获取,并将从不同数据库中获取的数据的格式进行统一。

在步骤s102中,通过预设机器学习模型对所述待识别数据进行识别,获得标准结果。

在本发明实施例中,

在步骤s103中,获取所述待识别数据所在数据库的表结构信息,并根据所述表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据。

在本发明实施例中,首先,解析调用算法的参数,获取相应功能的值,包括识别的模式和连接所需识别数据所在的数据库账号;然后,连接数据库获取相应的表结构,包括表名,表备注信息,字段名,字段备注信息,字段类型(如果是odps,则需要获取表的分区字段标识,分区的值);最后,根据表结构信息随机抽样100000。随机抽样为了保证抽样数据在一定程度上能表示整体数据,根据数据物理特征的收敛的稳定性,算法识别准确率,以及计算性能相对最优的综合实验结果。物理特征收敛的稳定性即抽样的特征和原始数据特征的相对差异在容忍误差范围内,此时抽样的最小样本量,假设为f1。算法识别准确率即随机抽样构建的样本建模后队员数据以及同类型数据识别准确率的最低要求要,此时抽样的最小样本量a1,原则上在算法确定时,数据量越小服务性能越高,故sample_number=max(f1,a1),最终得到的结论是抽样数据为100000。

在步骤s104中,根据所述表结构信息,确定所述抽样数据的数据类型。

在本发明实施例中,首先,根据表结构信息把抽样数据分为四大类:bigint,double,string,datetime。由于在早期业务开展或业务进行时建表不规范,会导致数值型数据存储在string类型字段中,故此时需要识别出string中的bigint和double类型字段,并归集到正确的数据类型中;此步处理完后相当于已完成对所有数值型数据的筛选工作。

在步骤s105中,基于所述抽样数据的数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果。

在本发明实施例中,

在步骤s106中,根据所述预测识别结果以及标准结果,确定数据识别结果。

在本发明实施例中,

本发明实施例提供的数据识别方法,通过预设机器学习模型对所述待识别数据进行识别,获得标准结果,进而根据所述待识别数据所在数据库的表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据及其数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果;根据所述预测识别结果以及标准结果,确定数据识别结果;本发明方法相比于现有的数据识别方法,在保证准确率的同时,不仅大大降低了人力成本,提高了工作效率,而且降低了工作人员对相关领域的专业知识要求,降低了应用门槛。

图2示出了本发明实施例提供的另一种数据识别方法的实现流程,为了便于说明,仅示出与本发明实施例相关的部分,其与上述实施例类似,不同之处在于,在步骤s105之前,还包括:

在步骤s201中,对所述抽样数据进行清洗处理,得到清洗后的抽样数据。

在本发明实施例中,考虑到由于人为、网络或其他不可控因素导致数据无论是数据形式(比如缺失)或业务含义(比如人的年龄大于200)出现不合理的情况,所以数据不能直接用于识别,需对数据做清洗处理也即预处理。具体而言,可以通过预先设置的数据清洗模型同时从数据质量和内容两方面对数据清洗,例如对缺失数据进行补全、对格式错误数据进行补正、对离群数值进行删除、对重要数据进行提取等等,降低数据质量差无法识别的情况发生,提升整体识别的准确率。

所述步骤s105具体为:

在步骤s201中,基于所述抽样数据的数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述清洗后的抽样数据进行识别,获得预测识别结果。

本发明实施例提供的另一种数据识别方法,通过抽样数据进行预清洗处理,能够有效地提高数据的质量,降低因数据质量差而对识别结果造成的影响,提高了数据识别的精确度。

图3示出了本发明实施例提供的又一种数据识别方法的实现流程,为了便于说明,仅示出与本发明实施例相关的部分,其与上述实施例类似,不同之处在于,所述步骤s105,包括以下步骤:

在步骤s301中,根据所述抽样数据的数据类型,确定数据特征工程内预设行业知识库模型。

在本发明实施例中,在行业知识库的建设上,结合行业学者以及一线的资深业务人员的经验搭建垂直行业知识库,知识库早期以国家标准和合作单位数据做支撑,经过不断吸收新的业务经验丰满知识库,以及优化算法,做到垂直行业知识库数据闭环。

在步骤s302中,通过所述数据特征工程内预设行业知识库模型对所述抽样数据进行识别,获得预测识别结果。

图4示出了本发明实施例提供的再一种数据识别方法的实现流程,为了便于说明,仅示出与本发明实施例相关的部分,其与上述实施例类似,不同之处在于,所述步骤s302,包括以下步骤:

在步骤s401中,对所述抽样数据进行字段切分,并计算出各个字段的数据高阶特征。

在本发明实施例中,所述数据高阶特征包括99%分位数、95%分位数、75%分位数、50%分位数、25%分位数、5%分位数、1%分位数、四分位差、极差、均值、标准差、变异系数、偏度、峰度、偏度显著性检验以及峰度显著性检验。

在本发明实施例中,对抽样数据进行字段切分,计算出各个字段的上述数据高阶特征,计算公式如下(以下特征计算的算法均可直接使用python中的numpy和scipy模块):

在步骤s402中,通过所述数据特征工程内预设行业知识库模型对所述数据高阶特征进行识别,获得预测识别结果。

图5示出了本发明实施例提供的一种数据识别装置的结构,为了便于说明,仅示出与本发明实施例相关的部分,详述如下:

该数据识别装置,包括获取单元501、第一识别单元502、抽样单元503、数据类型确定单元504、第二识别单元505以及确定单元506。

获取单元501,用于获取待识别数据。

在本发明实施例中,获取单元501用于获取待识别数据;根据对外web服务,有两种识别模式,一种指定性识别,另外一种默认全数据库识别。指定性识别即用户可自定义识别的数据;当用户调用服务时(在前端交互完成),后端解析模式以及参数然后调用数据识别服务端算法,因此,待识别数据为用户指定性的数据或者默认数据库内的所有数据。另外,待识别数据可以来源不同的数据库,例如常见的oracle、sql、阿里云、hadoop等,通过输入数据路径,即可实现数据获取,并将从不同数据库中获取的数据的格式进行统一。

第一识别单元502,用于通过预设机器学习模型对所述待识别数据进行识别,获得标准结果。

在本发明实施例中,第一识别单元502用于通过预设机器学习模型对所述待识别数据进行识别,获得标准结果;

抽样单元503,用于获取所述待识别数据所在数据库的表结构信息,并根据所述表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据。

在本发明实施例中,抽样单元503用于获取所述待识别数据所在数据库的表结构信息,并根据所述表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据;首先,解析调用算法的参数,获取相应功能的值,包括识别的模式和连接所需识别数据所在的数据库账号;然后,连接数据库获取相应的表结构,包括表名,表备注信息,字段名,字段备注信息,字段类型(如果是odps,则需要获取表的分区字段标识,分区的值);最后,根据表结构信息随机抽样100000。随机抽样为了保证抽样数据在一定程度上能表示整体数据,根据数据物理特征的收敛的稳定性,算法识别准确率,以及计算性能相对最优的综合实验结果。物理特征收敛的稳定性即抽样的特征和原始数据特征的相对差异在容忍误差范围内,此时抽样的最小样本量,假设为f1。算法识别准确率即随机抽样构建的样本建模后队员数据以及同类型数据识别准确率的最低要求要,此时抽样的最小样本量a1,原则上在算法确定时,数据量越小服务性能越高,故sample_number=max(f1,a1),最终得到的结论是抽样数据为100000。

数据类型确定单元504,用于根据所述表结构信息,确定所述抽样数据的数据类型。

在本发明实施例中,数据类型确定单元504用于根据所述表结构信息,确定所述抽样数据的数据类型;首先,根据表结构信息把抽样数据分为四大类:bigint,double,string,datetime。由于在早期业务开展或业务进行时建表不规范,会导致数值型数据存储在string类型字段中,故此时需要识别出string中的bigint和double类型字段,并归集到正确的数据类型中;此步处理完后相当于已完成对所有数值型数据的筛选工作。

第二识别单元505,用于基于所述抽样数据的数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果。

在本发明实施例中,第二识别单元505用于基于所述抽样数据的数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果;

确定单元506,用于根据所述预测识别结果以及标准结果,确定数据识别结果。

在本发明实施例中,确定单元506用于根据所述预测识别结果以及标准结果,确定数据识别结果;

本发明实施例提供的数据识别装置,通过预设机器学习模型对所述待识别数据进行识别,获得标准结果,进而根据所述待识别数据所在数据库的表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据及其数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果;根据所述预测识别结果以及标准结果,确定数据识别结果;本发明方法相比于现有的数据识别方法,在保证准确率的同时,不仅大大降低了人力成本,提高了工作效率,而且降低了工作人员对相关领域的专业知识要求,降低了应用门槛。

图6示出了本发明实施例提供的另一种数据识别装置的结构,为了便于说明,仅示出与本发明实施例相关的部分,其与上述实施例类似,不同之处在于,还包括:

数据清洗单元601,用于对所述抽样数据进行清洗处理,得到清洗后的抽样数据。

在本发明实施例中,数据清洗单元601用于对所述抽样数据进行清洗处理,得到清洗后的抽样数据。考虑到由于人为、网络或其他不可控因素导致数据无论是数据形式(比如缺失)或业务含义(比如人的年龄大于200)出现不合理的情况,所以数据不能直接用于识别,需对数据做清洗处理也即预处理。具体而言,可以通过预先设置的数据清洗模型同时从数据质量和内容两方面对数据清洗,例如对缺失数据进行补全、对格式错误数据进行补正、对离群数值进行删除、对重要数据进行提取等等,降低数据质量差无法识别的情况发生,提升整体识别的准确率。

本发明实施例提供的另一种数据识别装置,通过抽样数据进行预清洗处理,能够有效地提高数据的质量,降低因数据质量差而对识别结果造成的影响,提高了数据识别的精确度。

图7示出了本发明实施例提供的一种数据识别装置中的第二识别单元的结构,为了便于说明,仅示出与本发明实施例相关的部分,所述第二识别单元505,具体包括:

模型确定模块701,用于根据所述抽样数据的数据类型,确定数据特征工程内预设行业知识库模型。

在本发明实施例中,在行业知识库的建设上,结合行业学者以及一线的资深业务人员的经验搭建垂直行业知识库,知识库早期以国家标准和合作单位数据做支撑,经过不断吸收新的业务经验丰满知识库,以及优化算法,做到垂直行业知识库数据闭环。

预测识别模块702,用于通过所述数据特征工程内预设行业知识库模型对所述抽样数据进行识别,获得预测识别结果。

在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取待识别数据;

通过预设机器学习模型对所述待识别数据进行识别,获得标准结果;

获取所述待识别数据所在数据库的表结构信息,并根据所述表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据;

根据所述表结构信息,确定所述抽样数据的数据类型;

基于所述抽样数据的数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果;

根据所述预测识别结果以及标准结果,确定数据识别结果。

在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:

获取待识别数据;

通过预设机器学习模型对所述待识别数据进行识别,获得标准结果;

获取所述待识别数据所在数据库的表结构信息,并根据所述表结构信息以及预设抽样规则对所述待识别数据进行随机抽样,获得抽样数据;

根据所述表结构信息,确定所述抽样数据的数据类型;

基于所述抽样数据的数据类型,采用与所述数据类型对应的预先通过训练生成的数据识别模型对所述抽样数据进行识别,获得预测识别结果;

根据所述预测识别结果以及标准结果,确定数据识别结果。

应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1