基于惩罚回归的快速异常点检测方法

文档序号：10471079阅读：1279来源：国知局

基于惩罚回归的快速异常点检测方法
【专利摘要】本发明涉及一种基于惩罚回归的快速异常点检测方法，首先判断线性回归模型中是否存在内生解释变量，当不存在内生解释变量时，依据数据点的方差规律，构建标准方差的惩罚加权最小二乘目标函数，对标准方差进行选择和估计，根据标准方差的选择和估计结果检验异方差，从而进行异常点的检测，当存在内生解释变量时，依据数据点的均值规律，构造均值漂移模型，根据均值漂移模型构建惩罚融合广义矩目标函数，进行均值漂移参数的选择和估计，根据均值漂移参数的估计结果进行异常点的检测。本发明不需要构造检验统计量并求其分布，避免了比如最大似然估计等复杂的运算，能够一步给出所有数据的异常点情况，解决多个异常点时传统方法在掩盖和淹没这两种现象下可能失效的问题，节省检测的运行时间，提高数据处理的效率。
【专利说明】
基于惩罚回归的快速异常点检测方法
技术领域
[0001 ]本发明属于数据挖掘与机器学习领域，设及数据挖掘和数据处理的方法，具体地说，设及一种基于惩罚回归的快速异常点检测方法。
【背景技术】
[0002] 对数据进行分析处理的过程中，人们经常会遇到异常数据。异常数据在统计数据分析中是一个很常见的问题。在理论上，异常值是影响统计数据质量的一个非常重要的因素，它们将对估计、推断和模型选择有严重的影响。在应用上，对异常数据的处理在某些领域很有价值，例如在网络完全领域，可W利用异常数据挖据来分析网络中的异常行为;在金融领域异常数据挖掘可W识别信用卡的欺诈交易、股市的操纵行为、会计信息的虚假报价、欺诈贷款等。因此，近年来有关异常值的理论探讨一直是个热点问题。
[0003] 对于通常的线性回归模型，传统的基于数据删除模型与均值漂移模型的经典诊断量的异常点检测方法，当仅有一个异常点时是简单而且有效的，而且在某些特殊的情况下，它们也产生了一些令人信服的经验结果。然而，它们也存在一些不足之处：（1)有多个异常点时，传统方法都是逐个数据点检测，当数据点很大时计算量将会变得特别大。（2)当有多个异常点时，掩盖和淹没运两个现象的存在使得传统方法在某些情况下是失效的。（3)模型中未知参数的个数超过了样本容量的个数，运使得参数估计和假设检验变得异常复杂，甚至是"不可识别的"。（4)大多数传统方法都需要构造检验统计量和计算其分布函数，而检验统计量的分布函数是很难求的，有的甚至根本求不出其分布函数。
[0004] 大数据背景下，在数据的处理过程中，为了提高统计数据的质量，需要利用某种有效的方法来剔除统计数据中的伪数据，达到去伪存真的目的。变量选择就是一类常用方法。变量选择是一种从大量特征或变量中挑选出所有相关特征或变量的技术，从而建立一个稳健的模型。在大量的变量选择方法中，尤为受到重视的是基于惩罚思想的变量选择方法，比如Lasso,SCAD,elastic net,adaptive LassoW及Dantzig selector。上述变量选择方法一般需要假设模型具有稀疏性和外生性。在高维回归模型里大量的解释变量难免会出现内生解释变量。内生解释变量的存在使得通常的惩罚最小二乘方法是不相合的，进而得到错误决策。
[0005] 鉴于传统异常点探测方法的缺点和变量选择在数据处理中的优势，提出一种基于惩罚技术而且并不需要构造检验统计量就可W同时给出所有数据的异常点情况的探测方法就显得尤为必要。基于惩罚方法的异常点检测是一个崭新的研究领域并有着重要的实用价值，但目前仍然缺乏一个成熟的技术方案，因此需要提供能够在有和无内生解释变量下都能实用的快速的异常点检测方法，在保证检测结果精度的前提下能够通过近似方法处理大数据系统中的海量数据。

【发明内容】

[0006] 本发明的目的在于针对现有传统的异常点检测方法需要构造检验统计量且只能逐步检测各个数据点、计算量大等上述不足，提供了一种基于惩罚回归的快速异常点检测方法，该方法结合高维数据分析和惩罚回归的方法，降低了计算量，减少运行时间，进而大幅提高异常点检测效率的目标。
[0007] 根据本发明一实施例，提供了一种基于惩罚回归的快速异常点检测方法，含有W 下步骤：（一)利用数据采集工具采集待检测数据点，画出待检测数据点的散点图，散点图中90%-95%的数据点在同一直线附近的数据点用线性回归模型Υ =地+ε表示，其中 Υ为响应变量所构成的向量，X为解释变量构成的矩阵，ε为随机误差，满足Ε(ε)=〇， Κ("和) = =(巧'，判断线性回归模型Υ = Χβ+ε中是否存在内生解释变量。
[0008] (二）当线性回归模型中不存在内生解释变量时，依据采集的数据点的方差规律，构造稀疏参数向量丫 =1-0^，构造加权最小二乘损失函数，由稀疏参数向量丫中分量的惩罚函数结合加权最小二乘损失函数构造惩罚加权最小二乘目标函数，优化关于稀疏参数向量γ的惩罚加权最小二乘目标函数，进行稀疏参数向量γ的选择和估计，稀疏参数向量γ 的估计中不等于零的分量所对应的方差分量为异方差，异方差所对应的待检测数据为异常点，通过异方差检验完成异常点的检测。由于异方差是非常态的，方差向量中90%-95% 的分量相同，5%-1〇%的分量不同，把待检测数据进行标准化，运样对应的方差向量曰2中 90%-95%的分量为1，只有5%-10%的分量不为1，因此标准差向量〇=(〇1，…，〇η)τ中90%- 95 %的分量为1，只有5%-10%的分量不为1，故稀疏参数向量丫 = 1 -(^1中90 % -95 %的分量为0,只有5%-10%的分量不为0。
[0009] (Ξ)当线性回归模型中存在内生解释变量时，依据采集的数据点的均值规律，构造均值漂移模型y=地巧+ε，其中误差项ε~N(〇yi)，均值漂移参数向量η=(ηι，···，ηη)τ; 根据均值漂移参数向量η构造融合广义矩损失函数，由融合广义矩损失函数结合均值漂移参数向量η的分量的惩罚函数构造惩罚融合广义矩目标函数，优化关于均值漂移参数向量η 的惩罚融合广义矩目标函数，进行均值漂移参数向量η的选择和估计，均值漂移参数向量η 的估计弓中非零的分量所对应的待检测数据点为异常点，通过检验均值漂移参数向量η的估计每中非零的分量完成异常点的检测。如果均值漂移参数向量η的第i个分量ru显著不等于零，则说明第i个待检测数据点的均值确实有漂移，因而数据点(xi，yi)不符合既定的线性回归方程+ 则第i个点为异常点；由于异常点是非常态的，既待检测数据点中只有 5%-1〇%的数据点为异常点，因此均值漂移参数向量η中只有5%-1〇%的分量不为零，而 9〇%-95%的分量为零，运说明均值漂移参数向量η是稀疏的。
[0010] 在根据本发明实施例的学习方法中，步骤(一）中，判断线性回归模型中是否存在内生解释变量的具体步骤为：
[0011] (1)给定解释变量X，由线性回归模型计算条件期望Ε( ε IX);
[001^ (2)判断条件期望Ε(ε |Χ)是否为零，若条件期望Ε(ε |Χ)为零，则线性回归模型中不存在内生解释变量，若条件期望Ε(ε IX)不为零，则线性回归模型中存在内生解释变量。
[0013] 在根据本发明实施例的检测方法中，步骤(二）中，当不存在内生解释变量时，检测异常点的具体步骤为：
[0014] (l)定义标准方差向量为σ=(σl,…，σn)τ，标准差向量中90%-95%的分量为l，只有5 %-10 %的分量不为1;
[001引（2)记1 = (1，...，1)了，。-1=(1/。1，...，1/。。)了，利用变换1-丄，/ = 1，...，"构造稀疏巧参数向量丫 =1-0^，稀疏参数向量丫 =1-0^中90%-95%的分量为0,只有5%-10%的分量不为0;
[0016] (3)构造加权最小二乘损失函数
[0017] (4)引入稀疏参数向量丫中分量的惩罚函数
[0018] (5)由加权最小二乘损失函数结合稀疏参数向量丫中分量的惩罚函数构造惩罚加权最小二乘目标函数9(β，σ;λ):
[0019]
(1)
[0020] 式中，β为讨厌参数，讨厌参数β用其加权最小二乘估计;§代替;λ表示调整参数；
[0021] (6)引入变换：
，并引入记号：
[0022]
[0024] (7)利用BIC信息准则选择惩罚加权最小二乘目标函数9(β，〇;λ)中最优的调整参数λ;
[0025] (8)利用ΚΚΤ条件将惩罚加权最小二乘目标函数的优化转化为鞍点系统，利用共辆梯度算法求解惩罚加权最小二乘目标函数的优化，对稀疏参数向量γ进行选择和估计；
[0026] (9)根据〇1和丫 1的对偶关系7, =1-1，获得标准方差0的选择和估计，稀疏参数向巧' 量γ的估计中不等于零的分量所对应的标准方差〇的分量为异方差，即标准方差0的估计中不等于1的分量为异方差，异方差所对应的待检测数据为异常点，通过检验异方差，完成异常点检测。
[0027] 在根据本发明实施例的检测方法中，步骤(Ξ)中，当存在内生解释变量时，检测异常点的具体步骤为：
[0028] (1)将均值漂移参数向量η引入步骤(一）中的线性回归模型，构造均值漂移模型，均值漂移模型表示为：
[0029] γ=χβ+η+ε (3)
[0030] 其中，误差项ε~N(〇yi)，均值漂移参数向量ιι=(ηι，···，ηη)τ;
[0031 ] (2)获取工具变量向量W，由均值漂移模型得到对应的条件矩模型：
[0032] E[g(Y,Xe+n) |w]=0 (4)
[0033] 其中，g( ·，·）是已知的二元函数，取g(ti，t2) = ti-t2;
[0034] (3)由B-样条或化urier级数构造工具变量向量W的变换的两个不同的集：
[003引 F=(fi(W)，...，fp(W))T (5)
[0036] H=化 i(W)，...，hp(W))T (6);
[0037] (4)根据条件矩模型和工具变量向量W的变换的两个集构造过识别条件：
[0038] E[g(Y,Xe+n)F]=0 (7)
[0039] E[g(Y，Xe+ri)扣=0 (8);
[0040] (5)引入均值漂移参数向量η中各分量的示性函数0' = ^··，"），根据过识别条件和均值漂移参数向量η中各分量的示性函数构造融合广义矩损失函数LfcmmU):
[0041]
[0042] 其中，Wji和COj2为给定的权；
[0043] 为了表达方便，令Vi(ri) = (Fi(ri)T，出(ri)T)T，则融合广义矩损失函数LfgmmU)的矩阵形式为：
[0044]
[0045] 其中，·/(/?) = ^ 1，· ' ·，巧,1，巧2，…，巧2 }，
（ 11，· · ·，Ir )为均值漂移参数向量n中非零分量对应的标记；
[0046] (6)引入均值漂移参数向量η的分量的惩罚函数Pa(|i1j|);
[0047] (7)根据融合广义矩损失函数LfcmmU)和均值漂移参数向量η中各分量的惩罚函数 Ρα( II nj I)构造惩罚融合广义矩目标函数化GMM(n):
[0048]
川）
[0049] 其中，Ρλ( ·)为惩罚函数，参数λ为调整参数；
[0050] (8)利用BIC信息准则选择惩罚融合广义矩目标函数化GMM(n)中最优的调整参数λ;
[0化1] (9)令
表示一个光滑核函数，其中，F(t)为一个二次可微的累积分布函数；（10)当hn^0+，光滑核函数
枚敛于故采用光滑技术用光滑核函数
'戈替融合广义矩损失函数LFCMM(ri)中示性函数%,*〇；)'进而获得光滑的融合广义矩损失函数Lk;再结合关于均值漂移参数η的惩罚函数进而获得光滑的惩罚融合广义矩目标函数Qk:
[005^
(12).
[0053] (11)利用迭代坐标下降法优化光滑的融合广义矩目标函数化，对均值漂移参数向量η进行选择和估计，均值漂移参数向量η的估计中非零的分量所对应的待检测数据点为异常点，通过检验均值漂移参数向量η的估计巧中非零的分量，完成异常点的检测。
[0054] 本发明提出的基于惩罚回归的快速异常点检测方法，首先判断线性回归模型中是否存在内生解释变量，当不存在内生解释变量时，依据数据点的方差规律，构建标准方差的惩罚加权最小二乘目标函数，对标准方差进行选择和估计，根据标准方差的选择和估计结果检验异方差，从而进行异常点的检测，当存在内生解释变量时，依据数据点的均值规律，构造均值漂移模型，根据均值漂移模型构建惩罚融合广义矩目标函数，进行均值漂移参数的选择和估计，根据均值漂移参数的估计结果进行异常点的检测，不需要构造检验统计量并求其分布，避免了比如最大似然估计等复杂的运算，能够一步给出所有数据的异常点情况，适用于低维数据的处理同时也适用于高维数据的处理，扩大了使用范围。与现有技术相比，通过根据本发明实施例的基于惩罚回归的快速异常点检测方法，能够解决多个异常点时传统方法在掩盖和淹没运两种现象下可能失效的问题，节省检测的运行时间，提高数据处理的效率。本发明提出的基于惩罚回归的快速异常点检测方法，还可W非常容易地借助现有的优化算法和对应的软件来实现目标函数的优化，执行简单，操作方便。
【附图说明】
[0055] 附图1为本发明基于惩罚回归的快速异常点检测方法示意图。
[0056] 附图2为本发明不存在内生解释变量时基于惩罚回归的快速异常点检测方法流程图。
[0057] 附图3为本发明存在内生解释变量时基于惩罚回归的快速异常点检测方法流程图。
[005引附图4为在异常点所占比例为5%情况下本发明方法与传统方法的异常点检测结果。
[0059] 附图5为在异常点所占比例为10%情况下本发明方法与传统方法的异常点检测结果。
【具体实施方式】
[0060] 为了使本发明的目的、技术方案及优点更加清楚明白，W下结合附图对本发明实施例作进一步说明。
[0061] 如图1所示为根据本发明实施例提供的一种基于惩罚回归的快速异常点检测方法的示意图，该检测方法含有W下步骤：
[006^ ( - )利用数据采集工具采集待检测数据点画出待检测数据点的散点图，散点图中90%-95%的数据点在同一直线附近的数据点用线性回归模型Υ =地+ε表示，其中 Υ为响应变量所构成的向量，X为解释变量构成的矩阵，ε为随机误差，满足Ε ( ε )= 0，
，判断线性回归模型Υ = Χβ+ε中是否存在内生解释变量。
[0063] (二）当线性回归模型中不存在内生解释变量时，依据采集的数据点的方差规律，构造稀疏参数向量丫 =I-cTi，由于异方差是非常态的，方差向量中90%-95%的分量相同，5%-10%的分量不同，把待检测数据进行标准化，运样对应的方差向量σ2中90%-95% 的分量为1，只有5%-10%的分量不为1，因此标准差向量σ = (σι，…，〇η)τ中90%-95%的分量为1，只有5%-10%的分量不为1，故稀疏参数向量丫中90%-95%的分量为0,只有 5%-10 %的分量不为0。构造加权最小二乘损失函数，由稀疏参数向量丫中分量的惩罚函数结合加权最小二乘损失函数构造惩罚加权最小二乘目标函数，优化关于稀疏参数向量丫的惩罚加权最小二乘目标函数，进行稀疏参数向量γ的选择和估计，稀疏参数向量γ的估计中不等于零的分量所对应的方差分量为异方差，异方差所对应的待检测数据为异常点，通过异方差检验完成异常点的检测。
[0064] (Ξ)当线性回归模型中存在内生解释变量时，依据采集的数据点的均值规律，构造均值漂移模型y=地巧+ε，其中误差项ε~N(〇yi)，均值漂移参数向量η=(ηι，···，ηη)τ; 如果均值漂移参数向量η的第i个分量ru显著不等于零，则说明第i个待检测数据点的均值确实有漂移，因而数据点(Xi，yi)不符合既定的线性回归方程义+ 则第i个点为异常点；由于异常点是非常态的，既待检测数据点中只有5%-10%的数据点为异常点，因此均值漂移参数向量η中只有5%-10%的分量不为零，而90%-95%的分量为零，运说明均值漂移参数向量η是稀疏的。根据均值漂移参数向量η构造融合广义矩损失函数，由融合广义矩损失函数结合均值漂移参数向量η的分量的惩罚函数构造惩罚融合广义矩目标函数，优化关于均值漂移参数向量η的惩罚融合广义矩目标函数，进行均值漂移参数向量η的选择和估计，均值漂移参数向量η的估计《中非零的分量所对应的待检测数据点为异常点，通过检验均值漂移参数向量η的估计诗中非零的分量完成异常点的检测。
[0065] 实施例一：如图2所示，一种基于惩罚回归的快速异常点检测方法，该检测方法含有W下步骤：
[0066] 步骤一:利用数据采集工具如数据采集器生成η= 100个待检测数据点。待测数据点的具体生成方式为:设Ρ0为待检测数据点中异常点所占的比例，为了得到1〇化〇个异常点，令XI，从穿中随机抽取1〇化〇个分量，然后运1〇化〇个分量每一个乘^一个随机标准差参数ω~化if ([ 1.5,3.5])，用运10化0个分量和剩余的n-lO化0分量生成参数向量σ = (曰ι，···，〇η)，进而得到回归误差ε对应的斜方差矩阵
[0067] 获取待检测数据点后，画出待检测数据点的散点图，散点图中90%-95%的数据点在同一直线附近的数据点用线性回归模型Υ =地+ε表示，其中ε~Ν(0，Σ)。判断线性回归模型中生成的运100个待测数据点是否存在内生解释变量，其具体步骤为：
[006引（1)给定解释变量X，解释变量X按由下方式得到，令Ρ = 0. 5, Km。=//"'，则
。由线性回归模型计算条件期望Ε(ε IX)。
[0069] (2)由数据点生成过程可W看到，解释变量X与回归误差变量ε是相互独立的，因此条件期望Ε(ε|Χ)=〇,则线性回归模型中不存在内生解释变量。
[0070] 步骤二:检测异常点，其具体步骤为：
[0071 ] (1)定义标准方差向量为0 = (〇1,…，〇η)τ，标准差向量0 = (〇1,…，〇η)τ中90%-95% 的分量为1，只有5 %-10 %的分量不为1。
[0072] (2)记I = α，…，l)τ，o-l=(lM，…，l/on)τ，利用变换l-丄，/ = l，…，"构造稀疏巧参数向量丫 = I -0^，稀疏参数向量丫 = 1 -0^中90 % -95 %的分量为0，只有5%-10%的分量不为0。
[0073] (3)构造加权最小二乘损失函数
[0074] (4)引入稀疏参数向量γ中分量的惩罚函数
，其中惩罚函数Ρα( ·)有多种选择，考虑到SCAD惩罚函数满足变量选择的oracle性质，在本实施例中惩罚函数采用 SCAD惩罚函数，其具体表达式为：
[0075]
其中，由贝叶斯观点并结合实际经验在实际执行中参数a的值取为3.7。
[0076] (5)由加权最小二乘损失函数结合稀疏参数向量丫中分量的惩罚函数构造惩罚加权最小二乘目标函数9(β，σ;λ):
[0077]
…
[0078] 式中，β为讨厌参数，讨厌参数β用其加权最小二乘估计i代替;0为标准方差向量； λ表示惩罚函数中的调整参数。
[0079] (6)引入变换
ζ' = ν··，η，7 = (7,，…，尸,/，并引入记号：
[0080] 7* =〇',-奇知.一，。-苗户^，《=(巧-坤反〇，...，〇f，...，《=化成棘'，：义' = (《，···，《），惩罚加权最小二乘目标函数Ο(0，〇;λ)简化为：
[0081 ]
<'么).。
[0082] (7)利用BIC信息准则选择惩罚加权最小二乘目标函数9(β，〇;λ)中最优的调整参数入。
[0083] (8)利用ΚΚΤ条件将惩罚加权最小二乘目标函数的优化转化为鞍点系统，利用共辆梯度算法求解惩罚加权最小二乘目标函数的优化，对稀疏参数向量γ进行选择和估计。
[0084] (9)根据〇1和丫 1的对偶关系;1 ，获得标准方差σ的选择和估计，稀疏参数向巧量γ的估计中不等于零的分量所对应的标准方差〇的分量为异方差，即标准方差0的估计中不等于1的分量为异方差，异方差所对应的待检测数据为异常点，通过检验异方差，完成异常点检测。
[0085] 实施例二：如图3所示，一种基于惩罚回归的快速异常点检测方法，该检测方法含有w下步骤：
[0086] 步骤一:利用数据采集器获取100个待检测数据点，待检测数据点的具体获取方式为:利用化urier基函数作为对应的工具变量：护=^/??sin (>W,) + sinf sin以抓;;；)} 和// = Vlfcos(州叫+ cos(./,抓;0 + cos(./州/。},得到200个解释变量，其中要求前五个解释变量(XI，拉，X3，X4，X5)是重要的。然后把解释变量分为两类：内生解释变量与外生解释变量。若X功内生解释变量则记为乃，若X功外生解释变量则记为，假设式和义;分别满足下列两式+ //, + 1)批+1)和乂； =/;', + //,+7,4-",巧中{e，ui，···，up}中每个变量都是N(0，1)，均值漂移参数向量n=(m, = 0，·.·，0)，F=(Fl，..·，Fp)τ和H=化l，..·，Hp)τ是Ξ维工具变量W=(Wl，W2，化)τ~化(0，I3)的一个变换。按上述方式得到52个内生解释变量化，乂2而而，一，乂52)，运样在重要的解释变量中（Xl，X2，X3)是内生解释变量，而(X4，X5)是外生解释变量。获得待检测数据点后，画出待检测数据点的散点图，散点图中90%-95%的数据点在同一直线附近的数据点用线性回归模型Υ =地+ε表示，系数参数向量中分量满足β= (01,…，05) = (5,-4,7,-2,1.5)，0j = 〇,6《j 《200。判断线性回归模型中生成的100个随机样本是否存在内生解释变量，其具体步骤为：
[0087] (1)给定解释变量X，由线性回归模型计算条件期望E( ε IX);
[0088] (2)由于数据的获取过程可知解释变量X与回归误差不是独立的，因此条件期望Ε (ε IX)声0，则线性回归模型中存在内生解释变量。
[0089] 步骤二:检测异常点，其具体步骤为：
[0090] (1)将均值漂移参数向量η=(ηι，···，Γ?日，％，···，m日，化6，···，邮日）引入步骤(一）中的线性回归模型，构造均值漂移模型，均值漂移模型表示为：
[0091] Υ=Χβ+η+ε (3)〇
[0092] (2)获取工具变量向量W，由均值漂移模型得到对应的条件矩模型：
[0093] E[g(Y,Xe+n) |w]=0 (4)
[0094] 其中，g(..）为已知的二元函数，在本实施例中取g(tl，t2) = t广t2。
[00M] (3)由B-样条或化urier级数构造工具变量向量W的变换的两个不同的集：
[0096] F=(fi(W)，...，fp(W))T (5)
[0097] H=化 i(W)，...，hp(W))T (6)。
[0098] (4)根据条件矩模型和工具变量向量W的变换的两个集F和Η构造过识别条件：
[0099] E[g(Y,Xe+n)F]=0 (7)
[0100] E[g(Y，X0+ri)扣=0 (8)。
[0101] (5)引入均值漂移参数向量η中各分量的示性函数心=1，…，碱冲良据过识别条件和均值漂移参数向量η中各分量的示性函数构造融合广义矩损失函数LfcmmU):
[0102]
[0103] 其中coji和c〇j2为给定的权。
[0104] 为了表达方便，令Vi(n) = (Fi(ri)T，出(ri)T)T，则融合广义矩损失函数LfgmmU)的矩 (10) 阵形式为：[01051
[0106] 其中.'咐)=^&巧^1，'"，巧,|，巧,;，'''，巧,:^11，。'山)为均值漂移参数向量11中非零分量对应的标记。
[0107] (6)引入均值漂移参数向量η的分量的惩罚函数ΡΑ(|ιυ|)，其中惩罚函数Pa(.)有多种选择，考虑到SCAD惩罚函数满足变量选择的oracle性质，在本实施例中惩罚函数采用 SCAD惩罚函数，其具体表达式为：
[0108]
，其中，由贝叶斯观点并结合实际经验在实际执行中参数a的值取为3.7。
[0109] (7)根据融合广义矩损失函数LfgmmU)和均值漂移参数向量η的分量的惩罚函数Pa (I屯I )构造惩罚融合广义矩目标函数化GMM(ri):
[0110]
[0111] 其中Pa( ·)为惩罚函数，参数λ为调整参数。
[0112] (8)利用BIC信息准则选择惩罚融合广义矩目标函数化GMM(ri)中最优的调整参数λ。
[0113] (9)4
良示一个光滑核函数，其中，F(t)为一个logistic累积分布函数，其表示式为：
[0114] (10)在利用光滑技术来近似示性函数时，光滑参数h的值取为0.1，运样对于均值漂移参数中所有分量分别利用光滑核函邀
来近似代替代替融合广义矩损失函数LfgmmU)中示性函数'进而获得光滑的融合广义矩损失函数Lk。再结合关于均值漂移参数η的惩罚函数进而获得光滑的惩罚融合广义矩目标函数化：
[0115]
(12)
[0116] (11)利用迭代坐标下降法优化光滑的融合广义矩目标函数化，对均值漂移参数向量η进行选择和估计，均值漂移参数向量η的估计々中非零的分量所对应的待检测数据点为异常点，通过检验均值漂移参数向量η的估计々中非零的分量，完成异常点的检测。具体执行结果为么:C =(9.8，化1，化'3,9.8，1〇. 2，1化巧^
[0117] 为了进行比较，存在内生解释变量时传统的异常点检测方法W及W及基于惩罚最小二乘的方法已经基本失效。在此实施例中采用惩罚最小二乘方法来说明，由惩罚最小二乘方法得到的均值漂移参数的估计为巧=?-8Α-9.5,-7.4, -8.2,-9. !，化…，0).
[0118] 由本实施例的执行结果可清楚地看到，当存在内生解释变量时通常惩罚最小二乘方法已经不再是相合的，因此基于惩罚最小二乘的异常点检测方法W及传统的构造检验统计量的异常点检测方法不再有效。而从待检测数据的均值规律出发结合关于均值漂移参数的惩罚而得到惩罚融合广义矩方法能成功地识别所有的异常点，故本发明所提出的基于惩罚融合广义矩估计的异常点检测方法有了大幅度地提高，而且比现存的异常点检测方法有更广的使用范围。
[0119] 在异常点所占总数据的比例分别为0.05和0.10的两种情况下，分别执行如下传统的异常点检测方法:残差(/',.），外学生化残差(r〇，F检验化），似然比检验化Ri)，t检验(ti)， W及Score检验（SCO。为了比较本发明所提出的方法与传统方法在异常点检测中的表现，考虑下面Ξ个标准:平均掩盖概率即检测到的真正正常点的比例(M)，平均淹没概率即正常点被识别为异常点的比例(S)，联合识别率即0掩盖模拟的比例(JD)。理想的情况应该是 0，S>0 和 JD>0。
[0120] 在上述Ξ个标准下，图4和图5分别给出了本发明提出的方法化TOD)与传统的六种方法的结果。从上述图中所示结果可W清楚地看到传统方法需要构造检验统计量并求其分布，而且只能依逐步的方式给出数据点异常情况，因此运行时间较长效率较低，更重要的是，存在多个异常点时传统方法在掩盖和淹没运两种现象下检测精度很低。而本发明提出的方法因为不需要构造检验统计量和求其分布，且只需一步地给出所有待检测数据点的异常点情况，因此大幅节省了运行时间，更重要的是，存在多个异常点时基本不会受到掩盖和淹没现象的影响，因此大幅提高了异常点检测的精度。
[0121] 上述实施例用来解释本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。
【主权项】
1. 一种基于惩罚回归的快速异常点检测方法，其特征在于:含有以下步骤： (一) 利用数据采集工具采集待检测数据点，画出待检测数据点的散点图，散点图中90%-95%的数据点在同一直线附近的数据点用线性回归模型Υ = Χβ+ε表示，其中Y为响应变量所构成的向量，X为解释变量构成的矩阵，ε为随机误差，满足Ε ( ε )= 0，沒吻)=σ2 = (g,…,，判断线性回归模型Υ=Χβ+ε中是否存在内生解释变量； (二）当线性回归模型中不存在内生解释变量时，依据采集的数据点的方差规律，构造稀疏参数向量γ =1-〇4,构造加权最小二乘损失函数，由稀疏参数向量γ中分量的惩罚函数结合加权最小二乘损失函数构造惩罚加权最小二乘目标函数，优化关于稀疏参数向量γ 的惩罚加权最小二乘目标函数，进行稀疏参数向量γ的选择和估计，稀疏参数向量γ的估计中不等于零的分量所对应的方差分量为异方差，异方差所对应的待检测数据为异常点，通过检验异方差，完成异常点的检测； (三）当线性回归模型中存在内生解释变量时，依据采集的数据点的均值规律，构造均值漂移模型7 = Χβ+η+ε，其中误差项ε~Ν(0,〇2Ι)，均值漂移参数向量ri=(ru，…，ηη) Τ;根据均值漂移参数向量η构造融合广义矩损失函数，由融合广义矩损失函数结合均值漂移参数向量η的分量的惩罚函数构造惩罚融合广义矩目标函数，优化关于均值漂移参数向量η的惩罚融合广义矩目标函数，进行均值漂移参数向量η的选择和估计，均值漂移参数向量η的估计#中非零的分量所对应的待检测数据点为异常点，通过检验均值漂移参数向量η的估计冷中非零的分量，完成异常点的检测。2. 根据权利要求1所述的基于惩罚回归的快速异常点检测方法，其特征在于:步骤(一）中，判断线性回归模型中是否存在内生解释变量的具体步骤为： (1) 给定解释变量X，由线性回归模型计算条件期望Ε( ε | X); (2) 判断条件期望Ε(ε |Χ)是否为零，若条件期望Ε(ε |Χ)为零，则线性回归模型中不存在内生解释变量，若条件期望Ε( ε | X)不为零，则线性回归模型中存在内生解释变量。3. 根据权利要求1所述的基于惩罚回归的快速异常点检测方法，其特征在于:步骤(二）中，当不存在内生解释变量时，检测异常点的具体步骤为： (1)定义标准方差向量为σ = (〇1，···，ση)Τ，标准差向量σ=(σι，···，011)^905^-95%的分量为1，只有5%-10%的分量不为1; ⑵记Ι = (1，···，1)Τ，σ-'（ΙΜ，···，1/ση)τ，造稀疏参数向量γ =1-〇'稀疏参数向量γ =1-(^中90%-95%的分量为0,只有5%-10%的分量不为0;(5)由加权最小二乘损失函数结合稀疏参数向量γ中分量的惩罚函数构造惩罚加权最小二乘目标函数9(β，σ;λ):式中，β为讨厌参数，讨厌参数β用其加权最小二乘估计#代替;λ表示调整参数；(7) 利用BIC信息准则选择惩罚加权最小二乘目标函数〇(β，σ;λ)中最优的调整参数λ; (8) 利用ΚΚΤ条件将惩罚加权最小二乘目标函数的优化转化为鞍点系统，利用共辄梯度算法求解惩罚加权最小二乘目标函数的优化，对稀疏参数向量γ进行选择和估计；，获得标准方差σ的选择和估计，稀疏参数向量γ 的估计中不等于零的分量所对应的标准方差σ的分量为异方差，即标准方差σ的估计6中不等于1的分量为异方差，异方差所对应的待检测数据为异常点，通过检验异方差，完成异常点检测。4.根据权利要求1所述的基于惩罚回归的快速异常点检测方法，其特征在于:步骤(三）中，当存在内生解释变量时，检测异常点的具体步骤为： (1) 将均值漂移参数向量η引入步骤(一）中的线性回归模型，构造均值漂移模型，均值漂移模型表示为： Υ = Χβ+η+ε (3) 其中，误差项ε~Ν(0，σ2Ι)，均值漂移参数向量q=(runn)T; (2) 获取工具变量向量W，由均值漂移模型得到对应的条件矩模型： E[g(Y，Xf3+n)|W]=〇 (4) 其中，g( ·，·）为已知的二元函数，取g(tl，t2) = tl_t2; (3) 由B-样条或Fourier级数构造工具变量向量W的变换的两个不同的集： FKf^W)，…，fP(W))T (5) H=(hi(ff),---,hP(ff))T (6); (4) 根据条件矩模型和工具变量向量W的变换的两个集构造过识别条件： E[g(Y，Xf3+n)F]=0 (7) E[g(Y，Xi3+n)H]=0 (8); (5) 引入均值漂移参数向量ri中各分量的示性函数，根据过识别条件和均值漂移参数向量η各分量的示性函数构造融合广义矩损失函数L FCMM(n):其中，ω 和ω j2为给定的权，为了表达方便，令Vi(n) = (Fi(n)T，Hi(n)T)T，则融合广义矩损失函数LFCMM(n)的矩阵形式为：其中，= 气P···，气Μ%，…，气:」，（11，…，lr)为均值漂移参数向量η中非零分量对应的标记； (6) 引入均值漂移参数向量II中各分量的惩罚函数ρλ( I ru I ); (7) 根据融合广义矩损失函数LfcmmU)和均值漂移参数向量II中各分量的惩罚函数ρλ( ml)构造惩罚融合广义矩目标函数QFGMM(n):其中，Ρλ( ·)为惩罚函数，参数λ为调整参数； (8) 利用BIC信息准则选择惩罚融合广义矩目标函数QfgmmU)中最优的调整参数λ;_表不一个光滑核函数，其中，F(t)为一个二次可微的累积分布函数； (10) ihn4〇+，光滑核函数收敛于故采用光滑技术用光滑核函数代替融合广义矩损失函数LFCMM(n)中示性函数?丨'进而获得光滑的融合广义矩损失函数 Lk;再结合关于均值漂移参数η的惩罚函数进而获得光滑的惩罚融合广义矩目标函数QK:(11) 利用迭代坐标下降法优化光滑的融合广义矩目标函数QK，对均值漂移参数向量η进行选择和估计，均值漂移参数向量η的估计力中非零的分量所对应的待检测数据点为异常点，通过检验均值漂移参数向量η的估计冷中非零的分量，完成异常点的检测。
【文档编号】G06F17/18GK105824785SQ201610141620
【公开日】2016年8月3日
【申请日】2016年3月11日
【发明人】宋允全, 张青华, 渐令
【申请人】中国石油大学(华东)

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋允全;张青华;渐令;
技术所有人：中国石油大学（华东）;
我是此专利的发明人

上一篇：一种电子文档生成方法及装置的制造方法
上一篇：感应数据置信度的判断方法、中弹检测方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。