一种基于概率分布的异常数据处理方法及装置与流程

文档序号：16855670发布日期：2019-02-12 23:15阅读：268来源：国知局

本发明属于数据预处理技术领域，更具体地，涉及一种基于概率分布的异常数据处理方法及装置。

背景技术：

异常数据是指超出标准及超出趋势以外的数据或异常测试过程中产生的数据。例如，仪器设备停机、人为差错、装置适应性不合格，以及样品或样品溶液异常等很容易导致异常数据的产生。

异常数据处理是一种数据预处理方法。在进行模型训练之前，通常对用于模型训练的数据集合进行预处理，合理的预处理可以去除数据集合中较大的噪声，从而提高模型训练的准确性。现有技术中，在找出数据集合中的异常数据后，对异常数据进行处理的方法有手动修正、将异常数据直接删除，以及使用最小值、最大值或平均值的方法对异常值进行赋值。例如，在逻辑回归算法的指标离散分组划分中，首先对筛选出的样本数据进行分组划分，完成指标分组划分后，将异常数据用样本数据中的最大值、最小值或平均值对异常值进行赋值。当异常数据在数据集合中的比例较大时，现有的异常数据处理方法破坏了数据的整体分布，从而影响模型训练的准确性。

技术实现要素：

为克服上述现有的异常数据处理方法破坏数据的整体分布，从而影响模型训练的准确性的问题或者至少部分地解决上述问题，本发明提供一种基于概率分布的异常数据处理方法及装置。

根据本发明的第一方面，提供一种基于概率分布的异常数据处理方法，包括：

对目标数据集合中的正常数据进行分组；

根据所述正常数据和分组结果，获取所述目标数据集合的概率分布；

根据所述概率分布和所述目标数据集合中异常数据的个数，生成随机数，并使用所述随机数替换所述异常数据。

根据本发明第二方面提供一种基于概率分布的异常数据处理装置，包括：

分组模块，用于对目标数据集合中的正常数据进行分组；

获取模块，用于根据所述正常数据和分组结果，获取所述目标数据集合的概率分布；

生成模块，用于根据所述概率分布和所述目标数据集合中异常数据的个数，生成随机数，并使用所述随机数替换所述异常数据。

根据本发明的第三方面，提供一种电子设备，包括：

至少一个处理器、至少一个存储器和总线；其中，

所述处理器和存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如前所述的方法。

根据本发明的第四方面，提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如前所述的方法。

本发明提供一种基于概率分布的异常数据处理方法及装置，该方法通过对目标数据集合中的正常数据进行分组，根据分组结果和正常数据获取数据的整体概率分布，根据概率分布和异常数据的个数生成随机数，用随机数对异常值进行赋值，实现根据正常值的概率分布对异常数据进行处理，从而保持目标数据集合的整体分布特性，更改后的异常数据更接近实际数据，提高了数据的准确性，增强了数据的有效性，从而提高模型训练的准确性。

附图说明

图1为本发明实施例提供的基于概率分布的异常数据处理方法整体流程示意图；

图2为本发明实施例提供的基于概率分布的异常数据处理方法中连续性数据的区间概率分布示意图；

图3为本发明实施例提供的基于概率分布的异常数据处理方法中离散型数据的区间概率分布示意图；

图4为本发明实施例提供的基于概率分布的异常数据处理装置整体结构示意图；

图5为本发明实施例提供的电子设备整体结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本发明的一个实施例中提供一种基于概率分布的异常数据处理方法，图1为本发明实施例提供的基于概率分布的异常数据处理方法整体流程示意图，该方法包括：s101，对目标数据集合中的正常数据进行分组；

其中，目标数据集合为需要进行异常数据处理的数据集合。本实施例不限于分组的方法。

s102，根据所述正常数据和分组结果，获取所述目标数据集合的概率分布；

其中，正常数据为目标数据集合中在标准及趋势以内的数据。目标数据集合的概率分布为目标数据集合中各数据属于每个分组的概率。

s103，根据所述概率分布和所述目标数据集合中异常数据的个数，生成随机数，并使用所述随机数替换所述异常数据。

具体地，在异常数据处理中，先生成随机数，随机数的概率分布与正常数据的概率分布相同，使得在对异常数据进行随机数赋值后，目标数据集合的概率分布保持不变。

本实施例通过对目标数据集合中的正常数据进行分组，根据分组结果和正常数据获取数据的整体概率分布，根据概率分布和异常数据的个数生成随机数，用随机数对异常值进行赋值，实现根据正常值的概率分布对异常数据进行处理，从而保持目标数据集合的整体分布特性，更改后的异常数据更接近实际数据，提高了数据的准确性，增强了数据的有效性，从而提高模型训练的准确性。

在上述实施例的基础上，本实施例中对目标数据集合中的正常数据进行分组的步骤具体包括：基于组距分组方法、分位数分组方法、单变量分组方法或基于信息熵的分组方法，对目标数据集合中的正常数据进行分组。

其中，组距分组方法是数据分组最基本的方法，包括等距分组和非等距分组。其中，等距分组中各组别的上限和下限之差是相等的，非等距分组中各组别的上限和下限之差不相等。分位数分组方法也称等频分组，是把观察点均匀分为n等份，每份内包含的观察点数相同。单变量分组也称为秩分组，将所有变量按降序或者升序排序，排序名次即为分组结果，即将变量值相同的归为同一组内。该方法适用于变量的取值范围较小的情况。基于信息熵的分组方法理论依据为如果分组后的输入变量对输出变量取值的解释能力低于分组之前，那么这样的分组是没有意义的。度量指标为信息熵和信息增益。信息熵是平均信息量的测量指标。信息增益通过指定输入变量组限值，帮助输出变量的分类预测，信息增益值越高，则输出变量的分类越准确，误差越小。

在上述实施例的基础上，本实施例中对目标数据集合中的正常数据进行分组的步骤具体包括：当所述目标数据集合中的数据为连续型数据时，将所述目标数据集合中的数据划分为多个区间；当所述目标数据集合中的数据为离散型数据时，将所述目标数据集合中的数据划分为多个类别。

具体地，当所述目标数据集合中的数据为连续型数据时，将目标数据集合中的数据划分为多个区间。如图2所示，图中的虚线将目标数据集合中的连续性数据划分为4个区间1、2、3和4，目标数据集合中的数据落在每个4个区间的概率分别为p1、p2、p3和p4。当所述目标数据集合中的数据为离散型数据时，将所述目标数据集合中的数据划分为多个类别。如图3所示，当所述目标数据集合中的数据为离散型数据时，将所述目标数据集合中的离散型数据划分为2个类别，即类别1和类别2。目标数据集合中的离散型数据归属2个类别的概率分别为p5和p6。p1、p2、p3、p4、p5和p6的值大于0小于1。

在上述实施例的基础上，本实施例中根据所述正常数据和分组结果，获取所述目标数据集合的概率分布的步骤具体包括：统计所述目标数据集合中各所述区间或各所述类别的正常数据的个数；使用各所述区间或各所述类别的正常数据的个数除以所述正常数据的总个数，获取所述目标数据集合中数据属于各所述区间或各所述类别的概率。

在上述实施例的基础上，本实施例中所述随机数的个数与所述异常数据的个数相同，所述随机数按照所述概率进行分布。

具体地，按照正常数据的概率分布生成随机数，即当所述目标数据集合中的数据为连续型数据时，生成的随机数依次按照p1、p2、p3和p4的概率分别落在1、2、3和4区间中。当所述目标数据集合中的数据为离散型数据时，生成的随机数按照p5和p6的概率归属于类别1和类别2。且生成的随机数个数与异常数据的个数相同。当用生成的随机数替换异常数据时，目标数据集合的概率分布保持不变。从而保持目标数据集合的整体分布特性，更改后的异常数据更接近实际数据，提高了数据的准确性，增强了数据的有效性，从而提高模型训练的准确性。

在上述各实施例的基础上，本实施例中在对目标数据集合中的正常数据进行分组之前还包括：基于异常数据检测算法对目标数据集合进行检测，获取所述目标数据集合中的异常数据，将所述目标数据集合中除所述异常数据以外的数据作为正常数据。

其中，异常数据检测算法为用于异常数据检测的算法，如基于正态分布的一元离群点检测方法、多元离群点的检测方法、主成分分析方法和基于矩阵分解的异常点检测方法等。本实施例不限于异常数据检测算法的种类。

在本发明的另一个实施例中提供一种基于概率分布的异常数据处理装置，该装置用于实现前述各实施例中的方法。因此，在前述各实施例中基于概率分布的异常数据处理方法中的描述和定义，可以用于本发明实施例中各个执行模块的理解。图4为本发明实施例提供的基于概率分布的异常数据处理装置整体结构示意图，该装置包括分组模块401、获取模块402和生成模块403；其中：

分组模块401用于对目标数据集合中的正常数据进行分组；获取模块402用于根据所述正常数据和分组结果，获取所述目标数据集合的概率分布；生成模块403用于根据所述概率分布和所述目标数据集合中异常数据的个数，生成随机数，并使用所述随机数替换所述异常数据。

在上述实施例的基础上，本实施例中分组模块具体用于：基于组距分组方法、分位数分组方法、单变量分组方法或基于信息熵的分组方法，对目标数据集合中的正常数据进行分组。

在上述实施例的基础上，本实施例中分组模块具体用于：当所述目标数据集合中的数据为连续型数据时，将所述目标数据集合中的数据划分为多个区间；当所述目标数据集合中的数据为离散型数据时，将所述目标数据集合中的数据划分为多个类别。

在上述实施例的基础上，本实施例中获取模块具体用于：统计所述目标数据集合中各所述区间或各所述类别的正常数据的个数；使用各所述区间或各所述类别的正常数据的个数除以所述正常数据的总个数，获取所述目标数据集合中数据属于各所述区间或各所述类别的概率。

在上述实施例的基础上，本实施例中所述随机数的个数与所述异常数据的个数相同，所述随机数按照所述概率进行分布。

在上述各实施例的基础上，本实施例中还包括检测模块，用于基于异常数据检测算法对目标数据集合进行检测，获取所述目标数据集合中的异常数据，将所述目标数据集合中除所述异常数据以外的数据作为正常数据。

本实施例提供一种电子设备，图5为本发明实施例提供的电子设备整体结构示意图，该设备包括：至少一个处理器501、至少一个存储器502和总线503；其中，

处理器501和存储器502通过总线503完成相互间的通信；

存储器502存储有可被处理器501执行的程序指令，处理器调用程序指令能够执行上述各方法实施例所提供的方法，例如包括：对目标数据集合中的正常数据进行分组；根据所述正常数据和分组结果，获取所述目标数据集合的概率分布；根据所述概率分布和所述目标数据集合中异常数据的个数，生成随机数，并使用所述随机数替换所述异常数据。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：对目标数据集合中的正常数据进行分组；根据所述正常数据和分组结果，获取所述目标数据集合的概率分布；根据所述概率分布和所述目标数据集合中异常数据的个数，生成随机数，并使用所述随机数替换所述异常数据。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马小波;侯桂星
技术所有人：北京天元创新科技有限公司
我是此专利的发明人

上一篇：一种数粒机的吸尘装置的制作方法
上一篇：一种可多组实验用的斑马鱼胚胎急性毒性检测试剂盒的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。