异常数据处理方法及装置与流程

文档序号:17601501发布日期:2019-05-07 20:22阅读:385来源:国知局
异常数据处理方法及装置与流程

本发明属于数据处理技术领域,更具体地说,是涉及一种异常数据处理方法及装置。



背景技术:

在现实中,由于人为错误或自然错误会导致产生数据异常值,在多数据源的环境下,出现数据异常并产生数据冲突的概率大大增加。如何处理这些异常值便是数据清洗所面临的一个重要课题。

在数据处理中,尤其在作函数拟合时,异常点的出现不仅会很大程度的改变函数拟合的效果,而且有时还会使得函数的梯度出现奇异梯度,很容易导致算法的终止,从而影响研究变量之间的函数关系。为了有效的避免这些异常点造成的损失,我们需要采取一定的方法对其进行处理。但在多数据源、大数据量的情况下,现有技术中缺少一种检测异常值并对异常值进行快速处理的方法。



技术实现要素:

本发明的目的在于提供一种异常数据处理方法及装置,以解决现有技术中存在的无法快速进行异常数据处理的技术问题。

本发明实施例的第一方面,提供了一种异常数据处理方法,所述方法包括:

获取待处理数据;

根据所述待处理数据的分布状态确定异常值检测方法;

根据所述异常值检测方法检测所述待处理数据中的异常值;

根据预设修正方法对所述异常值进行修正。

本发明实施例的第二方面,提供了一种异常数据处理装置,所述装置包括:

数据获取模块,用于获取待处理数据;

判断模块,用于根据所述待处理数据的分布状态确定异常值检测方法;

检测模块,用于根据所述异常值检测方法检测所述待处理数据中的异常值;

修正模块,用于根据预设修正方法对所述异常值进行修正。

本发明实施例的第三方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的异常数据处理方法的步骤。

本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的异常数据处理方法的步骤。

本发明提供的异常数据处理方法及装置的有益效果在于:本发明提供的异常数据处理方法及装置根据不同的数据分布状态设置了不同的待处理数据异常值检测方法和异常值修正方法,实现简单,数据计算时间成本低,能够实现异常数据的快速检测和修正。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的异常数据处理方法的流程示意图;

图2为本发明另一实施例提供的异常数据处理方法的流程示意图;

图3为本发明再一实施例提供的异常数据处理方法的流程示意图;

图4为本发明又一实施例提供的异常数据处理方法的流程示意图;

图5为本发明又一实施例提供的异常数据处理方法的流程示意图;

图6为本发明一实施例提供的异常数据处理装置的结构框图;

图7为本发明一实施例提供的终端设备的示意框图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

请参考图1,为本发明一实施例提供的异常数据处理方法的流程示意图。该方法包括:

s101:获取待处理数据。

在本实施例中,可设置定时获取任务,对待处理数据进行分批,设置定时获取任务分批循环获取待处理数据。

s102:根据待处理数据的分布状态确定异常值检测方法。

在本实施例中,待处理数据的分布状态包括正态分布和非正态分布,若待处理数据全部符合正态分布,则采用正态分布异常检测方法确定待处理数据中的异常值。若待处理数据中不存在某一数据集使得该数据集符合正态分布,则采用非正态分布异常检测方法确定待处理数据的异常值。若待处理数据中存在部分数据集符合正态分布,则符合正态分布的数据集采用正态分布异常检测方法,不符合正态分布的数据集采用非正态分布异常检测方法。

s103:根据异常值检测方法检测待处理数据中的异常值。

在本实施例中,正态分布异常检测方法可以为根据数据集的平均值和标准差检测异常值,非正态分布异常检测方法可以根据箱形图检测异常值。

s104:根据预设修正方法对异常值进行修正。

在本实施例中,对应于待处理数据的分布状态,本实施例可使用两种修正方法进行异常值的修正。其中两种检测方法为:正态分布修正方法和非正态分布修正方法。

从上述描述可知,本发明实施例提供的异常数据处理方法根据不同的数据分布状态设置了不同的待处理数据异常值检测方法和异常值修正方法,实现简单,数据计算时间成本低,能够实现异常数据的快速检测和修正。

请一并参考图1及图2,图2为本申请另一实施例提供的异常数据处理方法的流程示意图。在上述实施例的基础上,步骤s102可以详述为:

s201:若待处理数据为正态分布,则根据待处理数据的平均值和标准差进行异常值检测。

在本实施例中,正态分布检测方法为:根据待处理数据的平均值和标准差得到待处理数据中数据点的偏离值,可根据某一数据点偏离值的偏离程度确定该数据点是否为异常值。

s202:若待处理数据为非正态分布,则根据箱形图进行异常值检测。

在本实施例中,非正态分布检测方法为:根据箱形图的截断范围对待处理数据的数据点进行检测,若待处理数据中某一数据点在箱形图的截断范围之外,则确定该数据点为异常值。

请一并参考图1及图2,作为本发明实施例提供的异常数据处理方法的一种具体实施方式。在上述实施例的基础上,步骤s102还可以包括:

s203:根据k-s检验法确定待处理数据的分布状态。

在本实施例中,可先获取标准数据,再分别计算待处理数据和标准数据的累计分布函数,计算两者累计分布函数差值的最大值,若该最大值在预设置信区间内,则确定待处理数据为正态分布,若该最大值未在预设置信区间内,则确定待处理数据为非正态分布。

请一并参考图1及图3,图3为本发明再一实施例提供的异常数据处理方法的流程示意图,在上述实施例的基础上,根据待处理数据的平均值和标准差进行异常值检测可以包括:

s301:计算待处理数据的平均值和标准差。

s302:若待处理数据中的某一数据点与平均值的差值大于标准差的3倍,则确定该数据点为异常值。

在本实施例中,可根据待处理数据的平均值和标准差检测异常值,也可根据以下方法检测异常值:

首先将待处理数据进行分组,每100个数据为一组。再计算每一组分组数据的平均值和标准差,计算分组数据中各个数据点与平均值的差值作为各个数据点的偏离值,若某一数据点的偏离值与标准差的比值大于临界值,则确定该数据点为异常值。其中,临界值可根据预设的检出水平和测量次数查找格拉布斯表确定,此处测量次数为100。

请一并参考图1及图4,图4为本申请又一实施例提供的异常数据处理方法的流程示意图。在上述实施例的基础上,根据箱形图进行异常值检测可以包括:

s401:根据待处理数据建立箱形图。

在本实施例中,可根据待处理数据确定箱形图的上四分位数、下四分位数和四分位数间距,再根据上四分位数、下四分位数和四分位数间距确定箱形图的截断范围。例如,若上四分位数为qu,下四分位数为ql,四分位数间距为iqr,则截断范围为[ql-1.5iqr,qu+1.5iqr]。

s402:若待处理数据中某一数据点未在箱形图的截断范围之内,则确定该数据点为异常值。

在本实施例中,若待处理数据中某一数据点未在箱形图截断范围之内,即该数据点的数据值小于ql-1.5iqr或者大于qu+1.5iqr,则确定该数据点为异常值。

请一并参考图1至图5,图5为本申请又一实施例提供的异常数据处理方法的流程示意图。在上述实施例的基础上,上述步骤s104可以详述为:

s501:若某一异常值所在的数据集为正态分布,则从数据集中删除该异常值。

在本实施例中,正态分布修正方法也可以为:

若某一异常值所在的数据集为正态分布,根据该异常值的类型,用该类型数据的平均值或者中位数替换该异常值。

s502:若某一异常值所在的数据集为非正态分布,则根据插值函数对该异常值进行修正。

在本实施例中,非正态分布修正方法也可以为:

若某一异常值所在的数据集为非正态分布,可根据该异常值所在数据集中已知的正常数据点建立合适的插值函数,再根据该插值函数确定该异常值的替换值,使用该替换值替换该异常值。

对应于上文实施例的异常数据处理方法,图6为本发明一实施例提供的异常数据处理装置的结构框图。为了便于说明,仅示出了与本发明实施例相关的部分。参考图6,该装置包括:数据获取模块10、判断模块20、检测模块30和修正模块40。

其中,数据获取模块10,用于获取待处理数据。

判断模块20,用于根据待处理数据的分布状态确定异常值检测方法。

检测模块30,用于根据异常值检测方法检测待处理数据中的异常值。

修正模块40,用于根据预设修正方法对异常值进行修正。

参考图6,在本发明的另一个实施例中判断模块20可以包括:

第一判断单元21,用于若待处理数据为正态分布,则根据待处理数据的平均值和标准差进行异常值检测。

第二判断单元22,用于若待处理数据为非正态分布,则根据箱形图进行异常值检测。

参考图6,在本发明的再一个实施例中,判断模块20还可以包括:

状态确定单元23,用于根据k-s检验法确定待处理数据的分布状态。

参考图6,在本发明的又一个实施例中,检测模块30可以包括:

计算单元31,用于计算待处理数据的平均值和标准差。

第一检测单元32,用于若待处理数据中的某一数据点与平均值的差值大于标准差的3倍,则确定该数据点为异常值。

参考图6,在本发明的又一个实施例中,检测模块30还可以包括:

建立单元33,用于根据待处理数据建立箱形图。

第二检测单元34,用于若待处理数据中某一数据点未在箱形图的截断范围之内,则确定该数据点为异常值。

参考图6,在本发明的又一个实施例中,修正模块40包括:

第一修正单元41,用于若某一异常值所在的数据集为正态分布,则从数据集中删除该异常值。

第二修正单元42,用于若某一异常值所在的数据集为非正态分布,则根据插值函数对该异常值进行修正。

参见图7,图7为本发明一实施例提供的一种终端设备的示意框图。如图7所示的本实施例中的终端600可以包括:一个或多个处理器601、一个或多个输入设备602、一个或多个输出设备603及一个或多个存储器604。上述处理器601、输入设备602、则输出设备603及存储器604通过通信总线605完成相互间的通信。存储器604用于存储计算机程序,计算机程序包括程序指令。处理器601用于执行存储器604存储的程序指令。其中,处理器601被配置用于调用程序指令执行以下操作上述各装置实施例中各模块/单元的功能,例如图6所示模块10至40的功能。

应当理解,在本发明实施例中,所称处理器601可以是中央处理单元(centralprocessingunit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备602可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备603可以包括显示器(lcd等)、扬声器等。

该存储器604可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器604的一部分还可以包括非易失性随机存取存储器。例如,存储器604还可以存储设备类型的信息。

具体实现中,本发明实施例中所描述的处理器601、输入设备602、输出设备603可执行本发明实施例提供的异常数据处理方法的第一实施例和第二实施例中所描述的实现方式,也可执行本发明实施例所描述的终端的实现方式,在此不再赘述。

在本发明的另一实施例中提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行时实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。

计算机可读存储介质可以是前述任一实施例的终端的内部存储单元,例如终端的硬盘或内存。计算机可读存储介质也可以是终端的外部存储设备,例如终端上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序及终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1