异常数据处理方法及装置与流程

文档序号:17696054发布日期:2019-05-17 21:31阅读:263来源:国知局
异常数据处理方法及装置与流程

本发明属于数据处理技术领域,更具体地说,是涉及一种异常数据处理方法及装置。



背景技术:

在现实中,由于人为错误或自然错误会导致产生数据异常值,在多数据源的环境下,出现数据异常并产生数据冲突的概率大大增加。如何处理这些异常值便是数据清洗所面临的一个重要课题。

在数据处理中,尤其在作函数拟合时,异常点的出现不仅会很大程度的改变函数拟合的效果,而且有时还会使得函数的梯度出现奇异梯度,很容易导致算法的终止,从而影响研究变量之间的函数关系。为了有效的避免这些异常点造成的损失,我们需要采取一定的方法对其进行处理。但在多数据源、大数据量的情况下,现有技术中缺少一种检测异常值并对异常值进行快速处理的方法。



技术实现要素:

本发明的目的在于提供一种异常数据处理方法及装置,以解决现有技术中存在的无法快速进行异常数据处理的技术问题。

本发明实施例的第一方面,提供了一种异常数据处理方法,所述方法包括:

获取待处理数据;

根据所述待处理数据和预设异常指数确定标准数据范围;

根据所述标准数据范围确定所述待处理数据的异常值;

根据所述标准数据范围对所述异常值进行修正。

本发明实施例的第二方面,提供了一种异常数据处理装置,所述装置包括:

数据获取模块,用于获取待处理数据;

范围确定模块,用于根据所述待处理数据和预设异常指数确定标准数据范围;

检测模块,用于根据所述标准数据范围确定所述待处理数据的异常值;

修正模块,用于根据所述标准数据范围对所述异常值进行修正。

本发明实施例的第三方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的异常数据处理方法的步骤。

本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的异常数据处理方法的步骤。

本发明提供的异常数据处理方法及装置的有益效果在于:本发明提供的异常数据处理方法及装置先通过待处理数据和预设异常指数建立标准数据范围,再根据标准数据范围对异常值进行筛选和修正,从而实现对异常数据的快速检测和处理。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的异常数据处理方法的流程示意图;

图2为本发明另一实施例提供的异常数据处理方法的流程示意图;

图3为本发明再一实施例提供的异常数据处理方法的流程示意图;

图4为本发明又一实施例提供的异常数据处理方法的流程示意图;

图5为本发明又一实施例提供的异常数据处理方法的流程示意图;

图6为本发明一实施例提供的异常数据处理装置的结构框图;

图7为本发明一实施例提供的终端设备的示意框图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

请参考图1,为本发明一实施例提供的异常数据处理方法的流程示意图。该方法包括:

s101:获取待处理数据。

在本实施例中,获取待处理数据的方法为:首先根据待处理数据的结构设置获取标签,再根据获取标签对待处理数据进行获取。例如,对于结构化数据,可直接使用数据库中存储的数据主键名称作为获取标签进行数据获取。对于半结构化及非结构化数据,直接对数据进行分批,以批次号作为获取标签进行数据获取。

s102:根据待处理数据和预设异常指数确定标准数据范围。

在本实施例中,首先确定待处理数据第一分位数q1和第二分位数q2,其中,第一分位数满足待处理数据中有a%的数据取值小于第一分位数,第二分位数满足待处理数据中有a%的数据取值大于第二分位数。qr为分位数间距,满足qr=q2-q1。若预设异常指数用k表示,则标准数据范围为[q1-kqr,q2+kqr]。其中,a的值可根据具体需要进行设定。

s103:根据标准数据范围确定待处理数据的异常值。

在本实施例中,若待处理数据中的待测数据未在标准数据范围内,则将该待测数据确定为异常值。

s104:根据标准数据范围对异常值进行修正。

在本实施例中,对异常值的处理方法包括但不限于使用标准数据范围内的平均值对异常值进行修正,使用标准数据范围的平均值、中位数对异常值进行修正,不进行修正处理等。具体处理方式可根据数据的用途决定,若使用该数据作为数据源时,异常值不会对算法的收敛结果产生影响,则在使用该数据之前可不进行修正处理。若使用该数据作为数据源时,异常值会对算法的输出结果产生较大影响,则考虑使用平均值对异常值进行修正。

从上述描述可知,本发明实施例提供的异常数据处理方法先通过待处理数据和预设异常指数建立标准数据范围,再根据标准数据范围对异常值进行筛选和修正,从而实现对异常数据的快速检测和处理。

请一并参考图1及图2,图2为本申请另一实施例提供的异常数据处理方法的流程示意图。在上述实施例的基础上,该方法还包括:

s201:建立预设异常指数与异常程度对应关系。

在本实施例中,预设异常指数与异常程度的对应关系可如下:

若预设异常指数为1.5,则异常程度确定为轻度异常。

若预设异常指数为2.0,则异常程度确定为中度异常。

若预设异常指数为3.0,则异常程度确定为极度异常。

请一并参考图1及图2,作为本发明实施例提供的异常数据处理方法的一种具体实施方式。在上述实施例的基础上,步骤s102详述为:

s202:根据待处理数据和预设异常指数确定标准数据范围。

s203:根据对应关系确定标准数据范围对应的异常程度。

在本实施例中,每种异常程度都对应一个预设异常指数,可分别计算每种异常程度对应的标准数据范围。也可先根据预设异常指数计算出每个预设异常指数对应的标准数据范围,再根据预设异常指数与异常程度的对应关系确定每组标准数据范围对应的异常程度。

从上述描述可知,本实施例提供的异常程度的判断方法能够在进行异常数据快速检测的同时提高检测的精确性。

请一并参考图1及图3,图3为本发明再一实施例提供的异常数据处理方法的流程示意图,在上述实施例的基础上,根据待处理数据和预设异常指数确定标准数据范围,包括:

s301:根据待处理数据和预设异常指数确定待处理数据的最大估计值和最小估计值。

在本实施例中,首先确定待处理数据第一分位数q1和第二分位数q2,其中,第一分位数满足待处理数据中有a%的数据取值大于第一分位数,第二分位数满足待处理数据中有a%的数据取值小于第二分位数。qr为分位数间距,满足qr=q2-q1。若预设异常指数用k表示,最大估计值为q2+kqr,最小估计值为q1-kqr。其中,a的值可根据具体需要进行设定。

s302:根据最大估计值和最小估计值确定标准数据范围。

在本实施例中,若最大估计值为q2+kqr,最小估计值为q1-kqr,则标准数据范围为[q1-kqr,q2+kqr]。

请一并参考图1及图4,图4为本申请又一实施例提供的异常数据处理方法的流程示意图。在上述实施例的基础上,步骤s104详述为:

s401:若待处理数据中的待测数据未在标准数据范围内,则确定待测数据为异常值。

在本实施例中,对待测数据的数据分布形式没有限制性要求,只要待处理数据中的待测数据未在标准数据范围内,则判断该检测数据为异常值。

s402:根据对应关系确定异常值的异常程度。

在本实施例中,根据前述标准数据范围可以得到确定标准数据范围所使用的预设异常指数,根据预设异常指数与异常程度的对应关系即可判断出当前异常值的异常程度。

请一并参考图1至图5,图5为本申请又一实施例提供的异常数据处理方法的流程示意图。在上述实施例的基础上,上述步骤s105详述为:

s501:若待处理数据中的数据存在线性关系,则将异常值作为缺失值进行线性修补。

在本实施例中,若待处理数据中的待测数据存在线性关系,出现异常值时,直接根据与异常值对应的参数值进行线性计算得到该对应参数值的映射值,将此映射值作为修正值替换异常值。其中,若进行线性计算,则先对待处理数据中存在线性关系的数据进行线性拟合得到线性拟合曲线,再根据该线性拟合曲线进行线性计算得到对应参数值的映射值。

s502:若待处理数据中的数据不存在线性关系,则根据标准数据范围的中位数对异常值进行修正。

在本实施例中,若待处理数据中的待测数据不存在线性关系,则可直接使用标准数据范围的中位数或者待处理数据的平均值作为修正值替换异常值。若待处理数据作为数据源时进行模型训练时,训练模型对待处理数据中的异常值不敏感,则可不进行异常值的修正。

对应于上文实施例的异常数据处理方法,图6为本发明一实施例提供的异常数据处理装置的结构框图。为了便于说明,仅示出了与本发明实施例相关的部分。参考图6,该装置包括:数据获取模块10、范围确定模块20、检测模块30和修正模块40。

其中,数据获取模块10,用于获取待处理数据。

范围确定模块20,用于根据待处理数据和预设异常指数确定标准数据范围。

检测模块30,用于根据标准数据范围确定待处理数据的异常值。

修正模块40,用于根据标准数据范围对异常值进行修正。

参考图6,在本发明的另一个实施例中,异常数据处理装置还包括:

对应关系建立模块50,用于建立预设异常指数与异常程度对应关系。

参考图6,在本发明的再一个实施例中,范围确定模块20包括:

范围确定单元21,用于根据待处理数据和预设异常指数确定标准数据范围。

异常程度确定单元22,用于根据对应关系确定标准数据范围对应的异常程度。

参考图6,在本发明的又一个实施例中,范围确定单元21包括:

估计值确定装置211,用于根据待处理数据和预设异常指数确定待处理数据的最大估计值和最小估计值。

范围确定装置212,用于根据最大估计值和最小估计值确定标准数据范围。

参考图6,在本发明的又一个实施例中,检测模块30包括:

第一检测单元31,用于若待处理数据中的待测数据未在标准数据范围内,则确定待测数据为异常值。

第二检测单元32,用于根据对应关系确定异常值的异常程度。

参考图6,在本发明的又一个实施例中,修正模块40包括:

线性修补单元41,用于若待处理数据中的数据存在线性关系,则将异常值作为缺失值进行线性修补。

修正单元42,用于若待处理数据中的数据不存在线性关系,则根据标准数据范围的中位数对异常值进行修正。

参见图7,图7为本发明一实施例提供的一种终端设备的示意框图。如图7所示的本实施例中的终端600可以包括:一个或多个处理器601、一个或多个输入设备602、一个或多个输出设备603及一个或多个存储器604。上述处理器601、输入设备602、则输出设备603及存储器604通过通信总线605完成相互间的通信。存储器604用于存储计算机程序,计算机程序包括程序指令。处理器601用于执行存储器604存储的程序指令。其中,处理器601被配置用于调用程序指令执行以下操作上述各装置实施例中各模块/单元的功能,例如图6所示模块10至50的功能。

应当理解,在本发明实施例中,所称处理器601可以是中央处理单元(centralprocessingunit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备602可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备603可以包括显示器(lcd等)、扬声器等。

该存储器604可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器604的一部分还可以包括非易失性随机存取存储器。例如,存储器604还可以存储设备类型的信息。

具体实现中,本发明实施例中所描述的处理器601、输入设备602、输出设备603可执行本发明实施例提供的异常数据处理方法的第一实施例和第二实施例中所描述的实现方式,也可执行本发明实施例所描述的终端的实现方式,在此不再赘述。

在本发明的另一实施例中提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行时实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。

计算机可读存储介质可以是前述任一实施例的终端的内部存储单元,例如终端的硬盘或内存。计算机可读存储介质也可以是终端的外部存储设备,例如终端上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序及终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1