数据归一方法及装置、电子设备、存储介质与流程

文档序号:20616997发布日期:2020-05-06 20:17阅读:224来源:国知局
数据归一方法及装置、电子设备、存储介质与流程
本公开涉及大数据
技术领域
,具体而言,涉及一种数据归一方法、数据归一装置、电子设备以及计算机可读存储介质。
背景技术
:随着数据量的快速增长,不同场地的数据的标准可能存在很大差异,因此通过数据归一化能够提高数据处理的效率和准确率。相关技术中,基于人工智能算法的归一方式能够利用标准词的多特征进行归一,但是由于准召率较低使得得到的数据质量较差。基于规则或字典的归一方式需要对数据进行全量的检测,需要耗费大量的人力成本和时间成本,数据处理效率较低。需要说明的是,在上述
背景技术
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。技术实现要素:本公开的目的在于提供一种数据归一方法及装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据处理效率较低以及质量较差的问题。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一个方面,提供了一种数据归一方法,包括:采用至少一种归一方式对待处理的原始数据进行归一化处理,得到每个所述归一方式对应的待选数据;对每个所述归一方式对应的待选数据进行筛选,以获取候选数据;根据对所述候选数据的评估结果确定所述待处理的原始数据对应的目标数据。在本公开的一种示例性实施例中,所述至少一种处理方式包括分类模型,采用至少一种归一方式对待处理的原始数据进行归一化处理包括:采用所述分类模型对所述待处理的原始数据进行所述归一化处理,以得到待选数据。在本公开的一种示例性实施例中,所述方法还包括:获取样本数据;根据所述样本数据以及所述样本数据的特征对机器学习模型进行训练,直至所述样本数据的归一结果的指标信息大于预设阈值为止,以获取所述分类模型。在本公开的一种示例性实施例中,所述至少一种处理方式包括预设规则,采用至少一种归一方式对待处理的原始数据进行归一化处理包括:获取通过对样本数据的归纳操作确定的预设规则,并基于所述预设规则对所述待处理的原始数据进行匹配,以获取所述待选数据。在本公开的一种示例性实施例中,所述至少一种处理方式包括字典管理,采用至少一种归一方式对待处理的原始数据进行归一化处理包括:获取存储在字典中的样本数据,并将所述待处理的原始数据与所述字典中的样本数据进行匹配,以得到所述待选数据。在本公开的一种示例性实施例中,对每个所述归一方式对应的待选数据进行筛选,以获取候选数据包括:若待选数据的类型为目标类型的归一方式的数量小于预设数量,则将所述待选数据确定为所述候选数据;若待选数据的类型为目标类型的归一方式的数量大于预设数量,则根据所述待选数据的属性信息以及优先级顺序共同确定候选数据。在本公开的一种示例性实施例中,根据对所述候选数据的评估结果确定所述待处理的原始数据对应的目标数据包括:若所述评估结果为第一结果,则将所述候选数据确定为所述目标数据;若所述评估结果为第二结果,则对所述至少一种归一方式进行校验,以便于根据校验后的至少一种归一方式确定所述目标数据。根据本公开的一个方面,提供一种数据归一装置,包括:数据归一化模块,用于采用至少一种归一方式对待处理的原始数据进行归一化处理,得到每个所述归一方式对应的待选数据;数据筛选模块,用于对每个所述归一方式对应的待选数据进行筛选,以获取候选数据;目标数据确定模块,用于根据对所述候选数据的评估结果确定所述待处理的原始数据对应的目标数据。根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据归一方法。根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据归一方法。本公开实施例中提供的数据归一方法、数据归一装置、电子设备以及计算机可读存储介质中,通过采用至少一种处理方式对待处理的原始数据进行归一化得到待选数据,进一步对待选数据进行筛选得到候选数据,并且根据对候选数据的评估结果获取目标数据。一方面,由于通过至少一种处理方式对待处理的原始数据进行处理得到待选数据,并对待选数据进行筛选处理得到候选数据,能够得到更准确的候选数据,进一步地,在根据候选数据的评估结果获取目标数据作为归一化处理的最终数据,能够合理地进行归一化,提高了归一化处理的准确性,并且提高得到的归一化数据的准确性以及数据质量。另一方面,由于对不同的待处理的原始数据采用至少一种归一方式进行归一化处理,避免了人工操作的过程,能够提高数据处理效率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示意性示出本公开实施例中一种数据归一方法的示意图。图2示意性示出本公开实施例中确定候选数据的流程示意图。图3示意性示出本公开实施例中用于执行数据归一方法的系统示意图。图4示意性示出本公开实施例中数据归一装置的框图。图5示意性示出本公开实施例中一种电子设备的框图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。为了解决相关技术中的技术问题,本公开实施例中提供了一种数据归一方法,可以应用于对医疗数据或者是其他任意类型的数据进行归一化处理的过程中。参考图1中所示的数据归一方法,具体可以包括以下步骤:在步骤s110中,采用至少一种归一方式对待处理的原始数据进行归一化处理,得到每个所述归一方式对应的待选数据。本公开实施例中,待处理的原始数据指的是可以直接用于进行归一化处理的原始数据。原始数据可以为医疗领域的数据,也可以为其他领域的数据,本示例中以医疗数据为例进行说明。原始数据可以为临床试验中的原始记录(例如病历数据),具体可以为以手写或者是机器的方式,通过表单的形式或者是其他文本形式表示的。具体地,原始数据可以为病历数据中的词语或者是字段等等。原始数据可以包括全称、缩写、拼音、简写或者是自定义写法(例如包含符号的写法)等等。待处理的原始数据是原始数据经过预处理之后得到的数据,预处理可以包括过滤操作以及分类操作。原始数据中,不同的标准词所在的领域不同,名称的表示方法有差异,但是在表达相同意思时表示方法是相似的。此处名称的表示方法指的是名称的写法。针对关联关系而言,原始数据中可以包括相互关联的数据,完全不相关的数据以及相似的数据等数据类型。为了提高数据处理效率,可以按照原始数据之间的关联关系对原始数据进行过滤,以便于对相互关联的数据和相似的数据同时进行统一归一化处理,而在同时进行处理时忽略完全不相关的数据,减少处理的数据的数量、降低处理难度。其中,按照数据类型对原始数据进行过滤的过程可以包括:将原始数据与多个正则表达式进行匹配,并根据匹配成功的正则表达式对所述原始数据进行粒度划分,以得到所述待处理的原始数据。该过滤过程可以通过过滤器模块来实现。粒度划分可以用于确定原始数据的数据类型,例如确定原始数据属于血常规检验、血生化检验以及微生物检验中的哪一种。根据每个正则表达式可以确定各自对应的数据类型。此处的待处理的原始数据指的是数据类型相同的多个待处理的原始数据。基于此,可以对每个原始数据进行正则表达式匹配,并将匹配成功的原始数据作为能够同时进行归一的待处理的原始数据,以便于提高处理效率。其中,待处理的原始数据对应的正则表达式之间相互独立,且所有的正则表达式可以相同,也可以不同,此处不做特殊限定。进一步地,每个正则表达式可以对应一个目标归一化处理器。在此基础上,可以将匹配成功的待处理的原始数据发送至相应的目标归一化处理器以进行归一化处理。其中,不同类型的待处理的原始数据分别对应一个目标归一化处理器,且不同目标归一化处理器的归一处理范围不同。举例而言,血常规检验处理器对应正则表达式1、血生化检验处理器对应正则表达式2、微生物检验处理器对应正则表达式3等等。通过不同的目标归一化处理器对待处理的原始数据进行归一,能够根据每个类型的待处理的原始数据的特点,准确地对其进行归一,并且能够避免其他类型的数据的影响,提高数据处理的准确性。在获取待处理的原始数据之后,可以获取标准数据并根据标准数据对待处理的原始数据进行归一化处理。对于不同类型的待处理的原始数据而言,对应的目标归一化处理器可以根据自身的归一处理范围读取标准数据,以便于进行归一化处理。标准数据指的是用于衡量原始数据的标准。标准数据的主要由医学专业人员制定,并且以二维表(标准表)的形式存储在数据库中。标准数据是临床试验中的公认标准,原始数据中的各类名称的表示方法(写法)都需要向标准数据中的标准词进行归一。标准数据的处理主要是通过标准表管理器模块来执行的,该模块具体负责对临床试验相关领域的标准数据进行管理,且该模块主要功能是支持其它模块对标准表的读取以及对标准表的更新。表1检验名称英文名称检验单位参考上限值参考下限值送检标本白细胞计数wbc10^9/l100静脉血中性粒细胞计数neut10^9/l100静脉血举例而言,对于一个病历数据中的词语1,可以根据标准数据对其进行归一化,以确定其属于标准数据中的白细胞计数还是中性粒细胞计数。本公开实施例中,归一方式指的是用于对待处理的原始数据进行归一化处理的方式或算法。至少一种归一方式可以包括但不限于分类模型、预设规则以及字典管理中的任意一种,且对归一方式的数量不作限定。待选数据指的是通过每种归一方式对待处理的原始数据进行归一化处理而得到每种归一方式对应的数据,例如可以为白细胞计数或者中性粒细胞计数。待选数据用于表示通过归一方式确定的待处理的原始数据的类型或归属(例如属于白细胞计数或者是中性粒细胞计数)。待选数据的种类可以与归一方式的种类一致。对于待处理的原始数据而言,通过不同的归一方式处理得到的待选数据可以相同,也可以不同,此处不作限定。并且,每一种归一方式的待选数据可以为结果1、结果2或者是结果3中的任意一种,也可以为无结果(即不存在结果1、结果2或者是结果3等),此处不作限定。为了便于描述,可将结果1、结果2以及结果3描述为目标类型,即有结果。需要说明的是,至少一种归一方式的执行顺序可以同时执行,也可以依次执行,此处不作限定。接下来,对每一种归一方式进行详细说明。当归一方式为分类模型时,具体可以通过分类器来执行。分类器主要是依靠机器学习的方式来进行归一化处理。具体地,可以采用训练好的分类模型对所述待处理的原始数据进行所述归一化处理,以得到待选数据。可以将待处理的原始数据输入至训练好的分类模型,以通过训练好的分类模型对其进行卷积操作提取特征,进一步根据提取的特征对待处理的原始数据进行识别和分类,以确定该待处理的原始数据的归属,从而确定待选数据。为了提高识别的准确性,在通过分类器进行归一化之前,可对分类器进行训练。具体过程可以为:获取样本数据;根据所述样本数据以及所述样本数据的特征对机器学习模型进行训练,直至所述样本数据的归一结果的指标信息大于预设阈值为止,以获取所述分类模型。其中,样本数据可以为已经确定了目标数据的,且处于目标归一化处理器的处理范围的历史词语,对于不同的目标归一化处理器而言,其样本数据可以不同。例如,可以为标准表中的某些词语。进一步地,可以将标准表中的多个字段作为历史数据的特征,根据样本数据的特征以及样本数据对机器学习模型进行训练,以得到训练好的模型作为分类模型。其中,机器学习模型可以包括但不限于决策树、支持向量机以及贝叶斯网络等。通过机器学习的分类方式,将样本数据进行不同种类的归一,之后对结果进行roc(receiveroperatingcharacteristiccurve,受试者工作特征曲线)的评估以得到指标信息。此处的指标信息可以为用于描述模型性能的准召率。当准召率大于预设阈值,则停止模型的训练过程以得到分类模型。进一步通过分类模型对待处理的原始数据进行归一化处理,得到待选数据。通过分类器的方式,能够避免大量的人工干预,实现针对全部数据的高效准确的归一化过程。当归一方式为预设规则时,得到待选数据的过程可以为:获取通过对样本数据的归纳操作确定的预设规则,并基于所述预设规则对所述待处理的原始数据进行匹配,以获取所述待选数据。其中,预设规则主要依靠技术人员和医学专业人员对样本数据进行半自动化的归纳方式沉淀。预设规则包括正则表达式、逻辑规则以及多字段条件组合中的至少一种。该过程主要可以由规则引擎来执行。在获取到预设规则之后,可将待处理的原始数据与预设规则进行匹配。在确定匹配成功时,则可以根据预设规则确定待选数据。具体地,可以将待处理的原始数据中的名称、逻辑规则以及多个字段中的一个或多个与预设规则进行匹配。举例而言,在待处理的原始数据1与表1中所示的用于表示白细胞计数的预设规则匹配成功,则可认为待处理的原始数据1的待选数据为白细胞计数。通过预设规则确定待选数据,能够提高准确率。当归一方式为字典管理时,得到待选数据的过程可以为:获取存储在字典中的样本数据,并将所述待处理的原始数据与所述字典中的样本数据进行匹配,以得到所述待选数据。此处的样本数据用于表示不规范(书写或者是表示不规范)的样本数据,例如通过分类器和预设规则无法识别的个性化的离群样本数据。该过程主要可以由字典管理器执行,字典管理主要依靠技术人员和医学专业人员对离群样本数据进行字典存放,使得不能被泛化方式解决的归一问题,准确的进行处理,保证全部临床试验归一问题都能被覆盖到。具体而言,可以将待处理的原始数据与存储在字典中的样本数据进行匹配,并按照匹配成功的样本数据的类型确定待处理的原始数据的待选数据。在步骤s120中,对每个所述归一方式对应的待选数据进行筛选,以获取候选数据。本公开实施例中,在通过每种归一方式得到每种归一方式对应的待选数据之后,可以对待选数据进行筛选整合,以从至少一个待选数据中确定每个待处理的原始数据对应的一个候选数据,进而通过候选数据唯一确定每个待处理的原始数据对应的归一化结果。候选数据可以与待选数据中的至少一个相同,具体可以根据待选数据的数据状态而确定。待选数据的数据状态可以为待选数据的类型为目标类型的归一方式的数量,目标类型可以为待选数据有结果(例如待选数据为结果1、结果2或者是结果3)、待选数据的属性信息以及待选数据的优先级顺序中的至少一种。待选数据的类型为目标类型的归一方式的数量指的是除无结果之外的所有归一方式的数量。举例而言,若分类器的结果为结果1、规则引擎的结果为结果2、字典管理器的结果为无结果,则存在待选数据的归一方式的数量为2。待选数据的属性信息可以用于代表不同归一方式得到的待选数据是否相同。属性信息不同,则确定候选数据的方式也不同。优先级顺序指的是从确定的待选数据的准确率角度而言,归一方式由高到低的排列顺序,且优先级顺序是固定不变的。其中,归一方式对应的待选数据的准确率由高到低的排列顺序依次为:字典管理、预设规则、分类模型。图2中示意性示出了根据待选数据的数据状态确定候选数据的示意图,参考图2中所示,主要包括以下步骤:在步骤s210中,判断待选数据的类型为目标类型的归一方式的数量是否大于或等于预设数量。若否,则转至步骤s220;若是,则转至步骤s230。其中,预设数量可以对存在待选数据的归一方式进行限制,预设数量可以大于一个,例如可以为两个。具体地,可对待选数据为有结果的归一方式进行统计,得到存在待选数据的归一方式的数量。在步骤s220中,若待选数据的类型为目标类型的归一方式的数量小于预设数量,则将所述待选数据确定为所述候选数据。本公开实施例中,如果待选数据为有结果的归一方式的数量小于预设数量,例如只有一个归一方式的待选数据为目标类型,由于此时可以唯一确定结果,因此可以直接将待选数据为目标类型的归一方式对应的待选数据确定为候选数据。而无需考虑优先级顺序以及待选数据的属性信息。举例而言,在只有字典管理器存在待选数据或只有规则引擎存在待选数据或只有分类器存在待选数据的情况下,可以将唯一存在结果的归一方式对应的待选数据作为候选数据。在步骤s230中,若待选数据的类型为目标类型的归一方式的数量大于预设数量,则根据所述待选数据的属性信息以及优先级顺序共同确定候选数据。本公开实施例中,由于在待选数据为目标类型的归一方式的数量大于一个(例如两个或者是三个等等)时,由于不能唯一确定结果,因此需要结合待选数据的属性信息以及优先级顺序来进一步确定候选数据,从而得到唯一的候选数据。具体地,可以根据待选数据的属性信息确定是否需要结合优先级顺序而确定。在待选数据为目标类型且待选数据的属性信息相同时(即所有归一方式的待选数据均相同),由于能够直接确定一个唯一的结果,因此直接将任意一个归一方式的待选数据确定为候选数据。如果待选数据的属性信息不同(即所有归一方式的待选数据不完全相同),由于无法确定一个唯一的结果,因此可以按照优先级顺序确定候选数据。具体地,针对存在待选数据的归一方式(针对有结果的归一方式),按照优先级顺序确定候选数据,并忽略不存在待选数据的归一方式。通过待选数据的属性信息以及优先级顺序,能够在一个待处理的原始数据存在不同归一方式产生的多个待选数据时,按照准确率由高到低的顺序,准确地确定候选数据。举例而言,分类器和规则引擎有结果,字典管理器无结果,优先级顺序为字典管理器、规则引擎、分类器,则将规则引擎中的结果确定为候选数据。根据至少一种归一方式得到待选数据具体可以包括多种情况,参考表2中所示,具体可以包括以下几种类型的结果。表2分类器结果规则引擎结果字典管理器结果最终结果结果1结果1结果1结果1结果1结果2结果3结果3无结果结果1结果2结果2结果1无结果结果3结果3结果1结果2无结果结果2无结果无结果结果3结果3无结果结果2无结果结果2结果1无结果无结果结果1无结果无结果无结果无结果表2中,第一类结果,三种方式有结果且结果相同,取一致结果作为候选数据,该类结果准确率非常高,准确度排序为1。第二类结果,三种方式有结果且不全相同,取字典管理器的结果作为候选数据,该类结果是已经修正的结果,准确度排序为2。第三类结果,三种方式中字典管理器和规则引擎有结果,分类器无结果,取字典管理器中的结果作为候选数据,该类结果是经过高准确度修正的结果,准确度排序为3。第四类结果,三种方式中分类器和字典管理器有结果,规则引擎无结果,取字典管理器中的结果作为候选数据,该类结果是经过较高准确度修正的结果,准确度排序为4。第五类结果,三种方式中分类器和规则引擎有结果,字典管理器无结果,取规则引擎中的结果作为候选数据,该类结果是经过较高准确度修正的结果,准确度排序为5。第六类结果,三种方式中只有字典管理器有结果,其它方式无结果,取唯一的结果作为候选数据,准确度排序为6。第七类结果,三种方式中只有规则引擎有结果,其它方式无结果,取唯一的结果作为候选数据,准确度排序为7。第八类结果,三种方式中只有分类器有结果,其它方式无结果,取唯一的结果作为候选数据,准确度排序为8。第九类结果,三种方式无结果,候选数据即为无结果,准确度排序为9。继续参考图1中所示,在步骤s130中,根据对所述候选数据的评估结果确定所述待处理的原始数据对应的目标数据。本公开实施例中,评估结果用于评价候选数据的正确性,评估结果可以为第一结果或第二结果,且第一结果与第二结果不同。例如,第一结果为候选数据正确,第二结果为候选数据错误。在对上述候选数据进行评估后,可根据不同的评估结果分别对归一方式进行处理。即,可按照归一方式的准确度由高到低的顺序进行处理。首先,可以判断候选数据是否正确。如果候选数据正确,则可以直接将候选数据确定为目标数据。如果候选数据错误,则可以对归一方式进行校验,并在根据校验后的归一方式生成的候选数据正确时,将校验后的候选数据确定为待处理的原始数据的目标数据。在对归一方式进行校验时,可以根据归一方式的准确度由高到低的顺序确定校验方式,以便于得到更准确的归一方式,进而提高归一化处理的准确性。其中可以按照归一方式对应的待选数据是否存在结果进行分类,以确定校验方式。例如可以分为字典管理器有结果、字典管理器无结果且规则引擎有结果、只有分类器有结果等情形。第一种情况,字典管理器的待选数据有结果,此类结果由于是经过字典校对,准确度较高,这批数据出错的概率非常小。若仍有错误归一的情况,则重新修改字典中的键值对以便于更新字典管理器。该部分的工作量随着归一次数的增多会越来越小。第二种情况,字典管理器无结果而规则引擎有结果的数据,此类结果经过强规则校验后仍然有归错的情况出现,此时可以在字典中对不能正确归一的样本数据进行键值对校验,使结果更加准确。第三种情况,只有分类器有结果的数据,此类结果最容易出现归一错误的样本数据,对于这些错误样本数据,升级成为强规则校验,在规则引擎中添加新规则,提升归一的准确性。此处的升级为强规则指的是在规则引擎中添加针对待处理的原始数据的规则,并通过比分类器优先级高的归一方式重新进行归一处理,以提高归一的准确性。对于上述三种情形,通过根据评估结果进行校验以及迭代学习,在评估结果错误时按照对应的类型进行校验,直至评估结果中不出现一个归一错误为止。并将根据校验后的归一方式得到的候选数据重新作为每个待处理的原始数据对应的目标数据。与此同时,将归一过程中的模型、规则以及词典保存,使得其它临床试验在进行相同领域归一时实现最大程度的复用。并且根据新的临床试验逐渐丰富用于归一的数据库,最终降低归一的边际效应,实现减少人工成本,提高处理效率的目的。本公开实施例中的技术方案,大大降低了临床试验中数据归一的人力成本,同时提升了归一的准确性,提高了归一化数据的质量。为临床试验最终实现自动化录入病历数据提供了基础,提高了应用不同场地的医疗数据的效率,避免出现不良事件的漏判,电子数据采集系统中的数据填充错误等问题,提高了数据处理的可靠性。基于可迭代学习的归一方式,提高了临床试验数据归一的复用性和准确性。图3中示意性示出了用于执行数据归一方法的系统示意图,参考图3中所示,主要包括:过滤器301,用于对原始数据进行筛选,得到待处理的原始数据,并为待处理的原始数据选择归一引擎中的处理器。标准表管理器302,用于提供标准表,以便于归一引擎基于标准表对待处理的原始数据进行归一处理。归一引擎303,用于通过对应的处理器对待处理的原始数据进行归一处理,得到待选数据。其中,处理器可以包括但不限于血常规检验处理器、血生化检验处理器以及微生物检验处理器。每个处理器均包括分类器、规则处理器以及字典处理器等等。结果处理器304,用于对归一引擎得到的多个待选数据进行组合得到候选数据。评估器305,用于对结果处理器得到的候选数据进行评估,得到候选数据是否正确的评估结果,并根据评估结果输出目标数据。图3中的技术方案,通过多个处理器以及结果处理器等,可以通过多种方式得到每一个待处理的原始数据的待选数据,进而对待选数据进行整合得到候选数据,并进一步根据候选数据得到待处理的原始数据对应的目标数据。能够通过多层筛选,得到更准确的归一化结果,并且提高了数据处理的效率。图4中示出了本公开实施例中的数据归一装置,参考图4所示,该数据归一装置400可以包括数据归一化模块401、数据筛选模块402以及目标数据确定模块403。其中:数据归一化模块401,用于采用至少一种归一方式对待处理的原始数据进行归一化处理,得到每个所述归一方式对应的待选数据;数据筛选模块402,用于对每个所述归一方式对应的待选数据进行筛选,以获取候选数据;目标数据确定模块403,用于根据对所述候选数据的评估结果确定所述待处理的原始数据对应的目标数据。在本公开的一种示例性实施例中,所述至少一种处理方式包括分类模型,数据归一化模块包括:第一归一模块,用于采用所述分类模型对所述待处理的原始数据进行所述归一化处理,以得到待选数据。在本公开的一种示例性实施例中,所述装置还包括:样本数据获取模块,用于获取样本数据;模型训练模块,用于根据所述样本数据以及所述样本数据的特征对机器学习模型进行训练,直至所述样本数据的归一结果的指标信息大于预设阈值为止,以获取所述分类模型。在本公开的一种示例性实施例中,所述至少一种处理方式包括预设规则,数据归一化模块包括:第二归一模块,用于获取通过对样本数据的归纳操作确定的预设规则,并基于所述预设规则对所述待处理的原始数据进行匹配,以获取所述待选数据。在本公开的一种示例性实施例中,所述至少一种处理方式包括字典管理,数据归一化模块包括:第三归一模块,用于获取存储在字典中的样本数据,并将所述待处理的原始数据与所述字典中的样本数据进行匹配,以得到所述待选数据。在本公开的一种示例性实施例中,数据筛选模块包括:第一筛选模块,用于若待选数据的类型为目标类型的归一方式的数量小于预设数量,则将所述待选数据确定为所述候选数据;第二筛选模块,用于若待选数据的类型为目标类型的归一方式的数量大于预设数量,则根据所述待选数据的属性信息以及优先级顺序共同确定候选数据。在本公开的一种示例性实施例中,目标数据确定模块包括:第一确定模块,用于若所述评估结果为第一结果,则将所述候选数据确定为所述目标数据;第二确定模块,用于若所述评估结果为第二结果,则对所述至少一种归一方式进行校验,以便于根据校验后的至少一种归一方式确定所述目标数据。需要说明的是,上述数据归一装置中各模块的具体细节已经在对应的数据归一方法中进行了详细描述,因此此处不再赘述。应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。在本公开的实施例中,还提供了一种能够实现上述方法的电子设备。所属
技术领域
的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。下面参照图5来描述根据本公开的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530以及显示单元540。其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1中所示的步骤。存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(rom)5203。存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速接口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。在本公开的实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。此外,上述附图仅是根据本公开实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本
技术领域
中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1