基于惩罚回归的快速异常点检测方法

文档序号:10471079
基于惩罚回归的快速异常点检测方法
【专利摘要】本发明涉及一种基于惩罚回归的快速异常点检测方法,首先判断线性回归模型中是否存在内生解释变量,当不存在内生解释变量时,依据数据点的方差规律,构建标准方差的惩罚加权最小二乘目标函数,对标准方差进行选择和估计,根据标准方差的选择和估计结果检验异方差,从而进行异常点的检测,当存在内生解释变量时,依据数据点的均值规律,构造均值漂移模型,根据均值漂移模型构建惩罚融合广义矩目标函数,进行均值漂移参数的选择和估计,根据均值漂移参数的估计结果进行异常点的检测。本发明不需要构造检验统计量并求其分布,避免了比如最大似然估计等复杂的运算,能够一步给出所有数据的异常点情况,解决多个异常点时传统方法在掩盖和淹没这两种现象下可能失效的问题,节省检测的运行时间,提高数据处理的效率。
【专利说明】
基于惩罚回归的快速异常点检测方法
技术领域
[0001 ]本发明属于数据挖掘与机器学习领域,设及数据挖掘和数据处理的方法,具体地 说,设及一种基于惩罚回归的快速异常点检测方法。
【背景技术】
[0002] 对数据进行分析处理的过程中,人们经常会遇到异常数据。异常数据在统计数据 分析中是一个很常见的问题。在理论上,异常值是影响统计数据质量的一个非常重要的因 素,它们将对估计、推断和模型选择有严重的影响。在应用上,对异常数据的处理在某些领 域很有价值,例如在网络完全领域,可W利用异常数据挖据来分析网络中的异常行为;在金 融领域异常数据挖掘可W识别信用卡的欺诈交易、股市的操纵行为、会计信息的虚假报价、 欺诈贷款等。因此,近年来有关异常值的理论探讨一直是个热点问题。
[0003] 对于通常的线性回归模型,传统的基于数据删除模型与均值漂移模型的经典诊断 量的异常点检测方法,当仅有一个异常点时是简单而且有效的,而且在某些特殊的情况下, 它们也产生了一些令人信服的经验结果。然而,它们也存在一些不足之处:(1)有多个异常 点时,传统方法都是逐个数据点检测,当数据点很大时计算量将会变得特别大。(2)当有多 个异常点时,掩盖和淹没运两个现象的存在使得传统方法在某些情况下是失效的。(3)模型 中未知参数的个数超过了样本容量的个数,运使得参数估计和假设检验变得异常复杂,甚 至是"不可识别的"。(4)大多数传统方法都需要构造检验统计量和计算其分布函数,而检验 统计量的分布函数是很难求的,有的甚至根本求不出其分布函数。
[0004] 大数据背景下,在数据的处理过程中,为了提高统计数据的质量,需要利用某种有 效的方法来剔除统计数据中的伪数据,达到去伪存真的目的。变量选择就是一类常用方法。 变量选择是一种从大量特征或变量中挑选出所有相关特征或变量的技术,从而建立一个稳 健的模型。在大量的变量选择方法中,尤为受到重视的是基于惩罚思想的变量选择方法,比 如Lasso,SCAD,elastic net,adaptive LassoW及Dantzig selector。上述变量选择方法 一般需要假设模型具有稀疏性和外生性。在高维回归模型里大量的解释变量难免会出现内 生解释变量。内生解释变量的存在使得通常的惩罚最小二乘方法是不相合的,进而得到错 误决策。
[0005] 鉴于传统异常点探测方法的缺点和变量选择在数据处理中的优势,提出一种基于 惩罚技术而且并不需要构造检验统计量就可W同时给出所有数据的异常点情况的探测方 法就显得尤为必要。基于惩罚方法的异常点检测是一个崭新的研究领域并有着重要的实 用价值,但目前仍然缺乏一个成熟的技术方案,因此需要提供能够在有和无内生解释变量 下都能实用的快速的异常点检测方法,在保证检测结果精度的前提下能够通过近似方法处 理大数据系统中的海量数据。

【发明内容】

[0006] 本发明的目的在于针对现有传统的异常点检测方法需要构造检验统计量且只能 逐步检测各个数据点、计算量大等上述不足,提供了一种基于惩罚回归的快速异常点检测 方法,该方法结合高维数据分析和惩罚回归的方法,降低了计算量,减少运行时间,进而大 幅提高异常点检测效率的目标。
[0007] 根据本发明一实施例,提供了一种基于惩罚回归的快速异常点检测方法,含有W 下步骤:(一)利用数据采集工具采集待检测数据点,画出待检测数据点的散点图, 散点图中90%-95%的数据点在同一直线附近的数据点用线性回归模型Υ =地+ε表示,其中 Υ为响应变量所构成的向量,X为解释变量构成的矩阵,ε为随机误差,满足Ε(ε)=〇, Κ("和) = =(巧',判断线性回归模型Υ = Χβ+ε中是否存在内生解释变量。
[0008] (二)当线性回归模型中不存在内生解释变量时,依据采集的数据点的方差规律, 构造稀疏参数向量丫 =1-0^,构造加权最小二乘损失函数,由稀疏参数向量丫中分量的惩 罚函数结合加权最小二乘损失函数构造惩罚加权最小二乘目标函数,优化关于稀疏参数向 量γ的惩罚加权最小二乘目标函数,进行稀疏参数向量γ的选择和估计,稀疏参数向量γ 的估计中不等于零的分量所对应的方差分量为异方差,异方差所对应的待检测数据为异常 点,通过异方差检验完成异常点的检测。由于异方差是非常态的,方差向量中90%-95% 的分量相同,5%-1〇%的分量不同,把待检测数据进行标准化,运样对应的方差向量曰2中 90%-95%的分量为1,只有5%-10%的分量不为1,因此标准差向量〇=(〇1,…,〇η)τ中90%- 95 %的分量为1,只有5%-10%的分量不为1,故稀疏参数向量丫 = 1 -(^1中90 % -95 %的分量 为0,只有5%-10%的分量不为0。
[0009] (Ξ)当线性回归模型中存在内生解释变量时,依据采集的数据点的均值规律,构 造均值漂移模型y=地巧+ε,其中误差项ε~N(〇yi),均值漂移参数向量η=(ηι,···,ηη)τ; 根据均值漂移参数向量η构造融合广义矩损失函数,由融合广义矩损失函数结合均值漂移 参数向量η的分量的惩罚函数构造惩罚融合广义矩目标函数,优化关于均值漂移参数向量η 的惩罚融合广义矩目标函数,进行均值漂移参数向量η的选择和估计,均值漂移参数向量η 的估计弓中非零的分量所对应的待检测数据点为异常点,通过检验均值漂移参数向量η的估 计每中非零的分量完成异常点的检测。如果均值漂移参数向量η的第i个分量ru显著不等于 零,则说明第i个待检测数据点的均值确实有漂移,因而数据点(xi,yi)不符合既定的线性回 归方程+ 则第i个点为异常点;由于异常点是非常态的,既待检测数据点中只有 5%-1〇%的数据点为异常点,因此均值漂移参数向量η中只有5%-1〇%的分量不为零,而 9〇%-95%的分量为零,运说明均值漂移参数向量η是稀疏的。
[0010] 在根据本发明实施例的学习方法中,步骤(一)中,判断线性回归模型中是否存在 内生解释变量的具体步骤为:
[0011] (1)给定解释变量X,由线性回归模型计算条件期望Ε( ε IX);
[001^ (2)判断条件期望Ε(ε |Χ)是否为零,若条件期望Ε(ε |Χ)为零,则线性回归模型中不 存在内生解释变量,若条件期望Ε(ε IX)不为零,则线性回归模型中存在内生解释变量。
[0013] 在根据本发明实施例的检测方法中,步骤(二)中,当不存在内生解释变量时,检测 异常点的具体步骤为:
[0014] (l)定义标准方差向量为σ=(σl,…,σn)τ,标准差向量中90%-95%的分量为l,只 有5 %-10 %的分量不为1;
[001引(2)记1 = (1,...,1)了,。-1=(1/。1,...,1/。。)了,利用变换1-丄,/ = 1,...,"构造稀疏 巧 参数向量丫 =1-0^,稀疏参数向量丫 =1-0^中90%-95%的分量为0,只有5%-10%的分量 不为0;
[0016] (3)构造加权最小二乘损失函数
[0017] (4)引入稀疏参数向量丫中分量的惩罚函数
[0018] (5)由加权最小二乘损失函数结合稀疏参数向量丫中分量的惩罚函数构造惩罚加 权最小二乘目标函数9(β,σ;λ):
[0019]
(1)
[0020] 式中,β为讨厌参数,讨厌参数β用其加权最小二乘估计;§代替;λ表示调整参数;
[0021] (6)引入变换:
,并引入记号:
[0022]
[0024] (7)利用BIC信息准则选择惩罚加权最小二乘目标函数9(β,〇;λ)中最优的调整参 数λ;
[0025] (8)利用ΚΚΤ条件将惩罚加权最小二乘目标函数的优化转化为鞍点系统,利用共辆 梯度算法求解惩罚加权最小二乘目标函数的优化,对稀疏参数向量γ进行选择和估计;
[0026] (9)根据〇1和丫 1的对偶关系7, =1-1,获得标准方差0的选择和估计,稀疏参数向 巧' 量γ的估计中不等于零的分量所对应的标准方差〇的分量为异方差,即标准方差0的估计中 不等于1的分量为异方差,异方差所对应的待检测数据为异常点,通过检验异方差,完成异 常点检测。
[0027] 在根据本发明实施例的检测方法中,步骤(Ξ)中,当存在内生解释变量时,检测异 常点的具体步骤为:
[0028] (1)将均值漂移参数向量η引入步骤(一)中的线性回归模型,构造均值漂移模型, 均值漂移模型表示为:
[0029] γ=χβ+η+ε (3)
[0030] 其中,误差项ε~N(〇yi),均值漂移参数向量ιι=(ηι,···,ηη)τ;
[0031 ] (2)获取工具变量向量W,由均值漂移模型得到对应的条件矩模型:
[0032] E[g(Y,Xe+n) |w]=0 (4)
[0033] 其中,g( ·,·)是已知的二元函数,取g(ti,t2) = ti-t2;
[0034] (3)由B-样条或化urier级数构造工具变量向量W的变换的两个不同的集:
[003引 F=(fi(W),...,fp(W))T (5)
[0036] H=化 i(W),...,hp(W))T (6);
[0037] (4)根据条件矩模型和工具变量向量W的变换的两个集构造过识别条件:
[0038] E[g(Y,Xe+n)F]=0 (7)
[0039] E[g(Y,Xe+ri)扣=0 (8);
[0040] (5)引入均值漂移参数向量η中各分量的示性函数0' = ^··,"),根据过识别条 件和均值漂移参数向量η中各分量的示性函数构造融合广义矩损失函数LfcmmU):
[0041]
[0042] 其中,Wji和COj2为给定的权;
[0043] 为了表达方便,令Vi(ri) = (Fi(ri)T,出(ri)T)T,则融合广义矩损失函数LfgmmU)的矩 阵形式为:
[0044]
[0045] 其中,·/(/?) = ^ 1,· ' ·,巧,1,巧2,…,巧2 },
( 11,· · ·,Ir )为均值漂移参数向量n中非 零分量对应的标记;
[0046] (6)引入均值漂移参数向量η的分量的惩罚函数Pa(|i1j|);
[0047] (7)根据融合广义矩损失函数LfcmmU)和均值漂移参数向量η中各分量的惩罚函数 Ρα( II nj I)构造惩罚融合广义矩目标函数化GMM(n):
[0048]
川)
[0049] 其中,Ρλ( ·)为惩罚函数,参数λ为调整参数;
[0050] (8)利用BIC信息准则选择惩罚融合广义矩目标函数化GMM(n)中最优的调整参数λ;
[0化1] (9)令
表示一个光滑核函数,其中,F(t)为一个二次可微的累积 分布函数;(10)当hn^0+,光滑核函数
枚敛于故采用光滑技术用光滑核函数
'戈替融合广义矩损失函数LFCMM(ri)中示性函数%,*〇;)'进而获得光滑的融合广义矩损 失函数Lk;再结合关于均值漂移参数η的惩罚函数进而获得光滑的惩罚融合广义矩目标函 数Qk:
[005^
(12).
[0053] (11)利用迭代坐标下降法优化光滑的融合广义矩目标函数化,对均值漂移参数向 量η进行选择和估计,均值漂移参数向量η的估计中非零的分量所对应的待检测数据点为 异常点,通过检验均值漂移参数向量η的估计巧中非零的分量,完成异常点的检测。
[0054] 本发明提出的基于惩罚回归的快速异常点检测方法,首先判断线性回归模型中是 否存在内生解释变量,当不存在内生解释变量时,依据数据点的方差规律,构建标准方差的 惩罚加权最小二乘目标函数,对标准方差进行选择和估计,根据标准方差的选择和估计结 果检验异方差,从而进行异常点的检测,当存在内生解释变量时,依据数据点的均值规律, 构造均值漂移模型,根据均值漂移模型构建惩罚融合广义矩目标函数,进行均值漂移参数 的选择和估计,根据均值漂移参数的估计结果进行异常点的检测,不需要构造检验统计量 并求其分布,避免了比如最大似然估计等复杂的运算,能够一步给出所有数据的异常点情 况,适用于低维数据的处理同时也适用于高维数据的处理,扩大了使用范围。与现有技术相 比,通过根据本发明实施例的基于惩罚回归的快速异常点检测方法,能够解决多个异常点 时传统方法在掩盖和淹没运两种现象下可能失效的问题,节省检测的运行时间,提高数据 处理的效率。本发明提出的基于惩罚回归的快速异常点检测方法,还可W非常容易地借助 现有的优化算法和对应的软件来实现目标函数的优化,执行简单,操作方便。
【附图说明】
[0055] 附图1为本发明基于惩罚回归的快速异常点检测方法示意图。
[0056] 附图2为本发明不存在内生解释变量时基于惩罚回归的快速异常点检测方法流程 图。
[0057] 附图3为本发明存在内生解释变量时基于惩罚回归的快速异常点检测方法流程 图。
[005引附图4为在异常点所占比例为5%情况下本发明方法与传统方法的异常点检测结 果。
[0059] 附图5为在异常点所占比例为10%情况下本发明方法与传统方法的异常点检测结 果。
【具体实施方式】
[0060] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图对本发明实 施例作进一步说明。
[0061] 如图1所示为根据本发明实施例提供的一种基于惩罚回归的快速异常点检测方法 的示意图,该检测方法含有W下步骤:
[006^ ( - )利用数据采集工具采集待检测数据点画出待检测数据点的散点图, 散点图中90%-95%的数据点在同一直线附近的数据点用线性回归模型Υ =地+ε表示,其中 Υ为响应变量所构成的向量,X为解释变量构成的矩阵,ε为随机误差,满足Ε ( ε )= 0,
,判断线性回归模型Υ = Χβ+ε中是否存在内生解释变量。
[0063] (二)当线性回归模型中不存在内生解释变量时,依据采集的数据点的方差规律, 构造稀疏参数向量丫 =I-cTi,由于异方差是非常态的,方差向量中90%-95%的分量相 同,5%-10%的分量不同,把待检测数据进行标准化,运样对应的方差向量σ2中90%-95% 的分量为1,只有5%-10%的分量不为1,因此标准差向量σ = (σι,…,〇η)τ中90%-95%的分 量为1,只有5%-10%的分量不为1,故稀疏参数向量丫 中90%-95%的分量为0,只有 5%-10 %的分量不为0。构造加权最小二乘损失函数,由稀疏参数向量丫中分量的惩罚函数 结合加权最小二乘损失函数构造惩罚加权最小二乘目标函数,优化关于稀疏参数向量丫的 惩罚加权最小二乘目标函数,进行稀疏参数向量γ的选择和估计,稀疏参数向量γ的估计 中不等于零的分量所对应的方差分量为异方差,异方差所对应的待检测数据为异常点,通 过异方差检验完成异常点的检测。
[0064] (Ξ)当线性回归模型中存在内生解释变量时,依据采集的数据点的均值规律,构 造均值漂移模型y=地巧+ε,其中误差项ε~N(〇yi),均值漂移参数向量η=(ηι,···,ηη)τ; 如果均值漂移参数向量η的第i个分量ru显著不等于零,则说明第i个待检测数据点的均值 确实有漂移,因而数据点(Xi,yi)不符合既定的线性回归方程义+ 则第i个点为异 常点;由于异常点是非常态的,既待检测数据点中只有5%-10%的数据点为异常点,因此均 值漂移参数向量η中只有5%-10%的分量不为零,而90%-95%的分量为零,运说明均值漂 移参数向量η是稀疏的。根据均值漂移参数向量η构造融合广义矩损失函数,由融合广义矩 损失函数结合均值漂移参数向量η的分量的惩罚函数构造惩罚融合广义矩目标函数,优化 关于均值漂移参数向量η的惩罚融合广义矩目标函数,进行均值漂移参数向量η的选择和估 计,均值漂移参数向量η的估计《中非零的分量所对应的待检测数据点为异常点,通过检验 均值漂移参数向量η的估计诗中非零的分量完成异常点的检测。
[0065] 实施例一:如图2所示,一种基于惩罚回归的快速异常点检测方法,该检测方法含 有W下步骤:
[0066] 步骤一:利用数据采集工具如数据采集器生成η= 100个待检测数据点。待测数据 点的具体生成方式为:设Ρ0为待检测数据点中异常点所占的比例,为了得到1〇化〇个异常点, 令XI,从穿中随机抽取1〇化〇个分量,然后运1〇化〇个分量每一个乘^一个随机标 准差参数ω~化if ([ 1.5,3.5]),用运10化0个分量和剩余的n-lO化0分量生成参数向量σ = (曰ι,···,〇η),进而得到回归误差ε对应的斜方差矩阵
[0067] 获取待检测数据点后,画出待检测数据点的散点图,散点图中90%-95%的数据点 在同一直线附近的数据点用线性回归模型Υ =地+ε表示,其中ε~Ν(0,Σ)。判断线性回归模 型中生成的运100个待测数据点是否存在内生解释变量,其具体步骤为:
[006引(1)给定解释变量X,解释变量X按由下方式得到,令Ρ = 0. 5, Km。=//"',则
。由线性回归模型计算条件期望Ε(ε IX)。
[0069] (2)由数据点生成过程可W看到,解释变量X与回归误差变量ε是相互独立的,因此 条件期望Ε(ε|Χ)=〇,则线性回归模型中不存在内生解释变量。
[0070] 步骤二:检测异常点,其具体步骤为:
[0071 ] (1)定义标准方差向量为0 = (〇1,…,〇η)τ,标准差向量0 = (〇1,…,〇η)τ中90%-95% 的分量为1,只有5 %-10 %的分量不为1。
[0072] (2)记I = α,…,l)τ,o-l=(lM,…,l/on)τ,利用变换l-丄,/ = l,…,"构造稀疏 巧 参数向量丫 = I -0^,稀疏参数向量丫 = 1 -0^中90 % -95 %的分量为0,只有5%-10%的分量 不为0。
[0073] (3)构造加权最小二乘损失函数
[0074] (4)引入稀疏参数向量γ中分量的惩罚函数
,其中惩罚函数Ρα( ·)有多 种选择,考虑到SCAD惩罚函数满足变量选择的oracle性质,在本实施例中惩罚函数采用 SCAD惩罚函数,其具体表达式为:
[0075]
其中, 由贝叶斯观点并结合实际经验在实际执行中参数a的值取为3.7。
[0076] (5)由加权最小二乘损失函数结合稀疏参数向量丫中分量的惩罚函数构造惩罚加 权最小二乘目标函数9(β,σ;λ):
[0077]

[0078] 式中,β为讨厌参数,讨厌参数β用其加权最小二乘估计i代替;0为标准方差向量; λ表示惩罚函数中的调整参数。
[0079] (6)引入变换
ζ' = ν··,η,7 = (7,,…,尸,/,并引入记号:
[0080] 7* =〇',-奇知.一,。-苗户^,《=(巧-坤反〇,...,〇f,...,《=化成棘',: 义' = (《,···,《),惩罚加权最小二乘目标函数Ο(0,〇;λ)简化为:
[0081 ]
<'么).。
[0082] (7)利用BIC信息准则选择惩罚加权最小二乘目标函数9(β,〇;λ)中最优的调整参 数入。
[0083] (8)利用ΚΚΤ条件将惩罚加权最小二乘目标函数的优化转化为鞍点系统,利用共辆 梯度算法求解惩罚加权最小二乘目标函数的优化,对稀疏参数向量γ进行选择和估计。
[0084] (9)根据〇1和丫 1的对偶关系;1 ,获得标准方差σ的选择和估计,稀疏参数向 巧 量γ的估计中不等于零的分量所对应的标准方差〇的分量为异方差,即标准方差0的估计中 不等于1的分量为异方差,异方差所对应的待检测数据为异常点,通过检验异方差,完成异 常点检测。
[0085] 实施例二:如图3所示,一种基于惩罚回归的快速异常点检测方法,该检测方法含 有w下步骤:
[0086] 步骤一:利用数据采集器获取100个待检测数据点,待检测数据点的具体获取方式 为:利用化urier基函数作为对应的工具变量:护=^/??sin (>W,) + sinf sin以抓;;;)} 和// = Vlfcos(州叫+ cos(./,抓;0 + cos(./州/。},得到200个解释变量,其中要求前五个解 释变量(XI,拉,X3,X4,X5)是重要的。然后把解释变量分为两类:内生解释变量与外生解释变 量。若X功内生解释变量则记为乃,若X功外生解释变量则记为,假设式和义;分别满足 下列两式+ //, + 1)批+1)和乂; =/;', + //,+7,4-",巧中{e,ui,···,up}中每个变量都 是N(0,1),均值漂移参数向量n=(m, = 0,·.·,0),F=(Fl,..·,Fp)τ和H=化l,..·,Hp)τ是Ξ维工具变量W=(Wl,W2,化)τ~化(0,I3)的一 个变换。按上述方式得到52个内生解释变量化,乂2而而,一,乂52),运样在重要的解释变量 中(Xl,X2,X3)是内生解释变量,而(X4,X5)是外生解释变量。获得待检测数据点后,画出待检 测数据点的散点图,散点图中90%-95%的数据点在同一直线附近的数据点用线性回归模 型Υ =地+ε表示,系数参数向量中分量满足β= (01,…,05) = (5,-4,7,-2,1.5),0j = 〇,6《j 《200。判断线性回归模型中生成的100个随机样本是否存在内生解释变量,其具体步骤为:
[0087] (1)给定解释变量X,由线性回归模型计算条件期望E( ε IX);
[0088] (2)由于数据的获取过程可知解释变量X与回归误差不是独立的,因此条件期望Ε (ε IX)声0,则线性回归模型中存在内生解释变量。
[0089] 步骤二:检测异常点,其具体步骤为:
[0090] (1)将均值漂移参数向量η=(ηι,···,Γ?日,%,···,m日,化6,···,邮日)引入步骤(一)中的 线性回归模型,构造均值漂移模型,均值漂移模型表示为:
[0091] Υ=Χβ+η+ε (3)〇
[0092] (2)获取工具变量向量W,由均值漂移模型得到对应的条件矩模型:
[0093] E[g(Y,Xe+n) |w]=0 (4)
[0094] 其中,g(..)为已知的二元函数,在本实施例中取g(tl,t2) = t广t2。
[00M] (3)由B-样条或化urier级数构造工具变量向量W的变换的两个不同的集:
[0096] F=(fi(W),...,fp(W))T (5)
[0097] H=化 i(W),...,hp(W))T (6)。
[0098] (4)根据条件矩模型和工具变量向量W的变换的两个集F和Η构造过识别条件:
[0099] E[g(Y,Xe+n)F]=0 (7)
[0100] E[g(Y,X0+ri)扣=0 (8)。
[0101] (5)引入均值漂移参数向量η中各分量的示性函数心=1,…,碱冲良据过识别条 件和均值漂移参数向量η中各分量的示性函数构造融合广义矩损失函数LfcmmU):
[0102]
[0103] 其中coji和c〇j2为给定的权。
[0104] 为了表达方便,令Vi(n) = (Fi(ri)T,出(ri)T)T,则融合广义矩损失函数LfgmmU)的矩 (10) 阵形式为:[01051
[0106] 其中.'咐)=^&巧^1,'",巧,|,巧,;,''',巧,:^11,。'山)为均值漂移参数向量11中非零 分量对应的标记。
[0107] (6)引入均值漂移参数向量η的分量的惩罚函数ΡΑ(|ιυ|),其中惩罚函数Pa(.)有 多种选择,考虑到SCAD惩罚函数满足变量选择的oracle性质,在本实施例中惩罚函数采用 SCAD惩罚函数,其具体表达式为:
[0108]
,其 中,由贝叶斯观点并结合实际经验在实际执行中参数a的值取为3.7。
[0109] (7)根据融合广义矩损失函数LfgmmU)和均值漂移参数向量η的分量的惩罚函数Pa (I屯I )构造惩罚融合广义矩目标函数化GMM(ri):
[0110]
[0111] 其中Pa( ·)为惩罚函数,参数λ为调整参数。
[0112] (8)利用BIC信息准则选择惩罚融合广义矩目标函数化GMM(ri)中最优的调整参数λ。
[0113] (9)4
良示一个光滑核函数,其中,F(t)为一个logistic累积分 布函数,其表示式为:
[0114] (10)在利用光滑技术来近似示性函数时,光滑参数h的值取为0.1,运样对于均值 漂移参数中所有分量分别利用光滑核函邀
来近似代替代替融合广义 矩损失函数LfgmmU)中示性函数'进而获得光滑的融合广义矩损失函数Lk。再结合关于 均值漂移参数η的惩罚函数进而获得光滑的惩罚融合广义矩目标函数化:
[0115]
(12)
[0116] (11)利用迭代坐标下降法优化光滑的融合广义矩目标函数化,对均值漂移参数向 量η进行选择和估计,均值漂移参数向量η的估计々中非零的分量所对应的待检测数据点为 异常点,通过检验均值漂移参数向量η的估计々中非零的分量,完成异常点的检测。具体执行 结果为么:C =(9.8,化1,化'3,9.8,1〇. 2,1化巧^
[0117] 为了进行比较,存在内生解释变量时传统的异常点检测方法W及W及基于惩罚最 小二乘的方法已经基本失效。在此实施例中采用惩罚最小二乘方法来说明,由惩罚最小二 乘方法得到的均值漂移参数的估计为巧=?-8Α-9.5,-7.4, -8.2,-9. !,化…,0).
[0118] 由本实施例的执行结果可清楚地看到,当存在内生解释变量时通常惩罚最小二乘 方法已经不再是相合的,因此基于惩罚最小二乘的异常点检测方法W及传统的构造检验统 计量的异常点检测方法不再有效。而从待检测数据的均值规律出发结合关于均值漂移参数 的惩罚而得到惩罚融合广义矩方法能成功地识别所有的异常点,故本发明所提出的基于惩 罚融合广义矩估计的异常点检测方法有了大幅度地提高,而且比现存的异常点检测方法有 更广的使用范围。
[0119] 在异常点所占总数据的比例分别为0.05和0.10的两种情况下,分别执行如下传统 的异常点检测方法:残差(/',.),外学生化残差(r〇,F检验化),似然比检验化Ri),t检验(ti), W及Score检验(SCO。为了比较本发明所提出的方法与传统方法在异常点检测中的表现, 考虑下面Ξ个标准:平均掩盖概率即检测到的真正正常点的比例(M),平均淹没概率即正常 点被识别为异常点的比例(S),联合识别率即0掩盖模拟的比例(JD)。理想的情况应该是 0,S>0 和 JD>0。
[0120] 在上述Ξ个标准下,图4和图5分别给出了本发明提出的方法化TOD)与传统的六种 方法的结果。从上述图中所示结果可W清楚地看到传统方法需要构造检验统计量并求其分 布,而且只能依逐步的方式给出数据点异常情况,因此运行时间较长效率较低,更重要的 是,存在多个异常点时传统方法在掩盖和淹没运两种现象下检测精度很低。而本发明提出 的方法因为不需要构造检验统计量和求其分布,且只需一步地给出所有待检测数据点的异 常点情况,因此大幅节省了运行时间,更重要的是,存在多个异常点时基本不会受到掩盖和 淹没现象的影响,因此大幅提高了异常点检测的精度。
[0121] 上述实施例用来解释本发明,而不是对本发明进行限制,在本发明的精神和权利 要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
【主权项】
1. 一种基于惩罚回归的快速异常点检测方法,其特征在于:含有以下步骤: (一) 利用数据采集工具采集待检测数据点,画出待检测数据点的散点图,散点 图中90%-95%的数据点在同一直线附近的数据点用线性回归模型Υ = Χβ+ε表示,其中Y为 响应变量所构成的向量,X为解释变量构成的矩阵,ε为随机误差,满足Ε ( ε )= 0, 沒吻)=σ2 = (g,…,,判断线性回归模型Υ=Χβ+ε中是否存在内生解释变量; (二) 当线性回归模型中不存在内生解释变量时,依据采集的数据点的方差规律,构造 稀疏参数向量γ =1-〇4,构造加权最小二乘损失函数,由稀疏参数向量γ中分量的惩罚函 数结合加权最小二乘损失函数构造惩罚加权最小二乘目标函数,优化关于稀疏参数向量γ 的惩罚加权最小二乘目标函数,进行稀疏参数向量γ的选择和估计,稀疏参数向量γ的估 计中不等于零的分量所对应的方差分量为异方差,异方差所对应的待检测数据为异常点, 通过检验异方差,完成异常点的检测; (三) 当线性回归模型中存在内生解释变量时,依据采集的数据点的均值规律,构造均 值漂移模型7 = Χβ+η+ε,其中误差项ε~Ν(0,〇2Ι),均值漂移参数向量ri=(ru,…,ηη) Τ;根据 均值漂移参数向量η构造融合广义矩损失函数,由融合广义矩损失函数结合均值漂移参数 向量η的分量的惩罚函数构造惩罚融合广义矩目标函数,优化关于均值漂移参数向量η的惩 罚融合广义矩目标函数,进行均值漂移参数向量η的选择和估计,均值漂移参数向量η的估 计#中非零的分量所对应的待检测数据点为异常点,通过检验均值漂移参数向量η的估计冷 中非零的分量,完成异常点的检测。2. 根据权利要求1所述的基于惩罚回归的快速异常点检测方法,其特征在于:步骤(一) 中,判断线性回归模型中是否存在内生解释变量的具体步骤为: (1) 给定解释变量X,由线性回归模型计算条件期望Ε( ε | X); (2) 判断条件期望Ε(ε |Χ)是否为零,若条件期望Ε(ε |Χ)为零,则线性回归模型中不存在 内生解释变量,若条件期望Ε( ε | X)不为零,则线性回归模型中存在内生解释变量。3. 根据权利要求1所述的基于惩罚回归的快速异常点检测方法,其特征在于:步骤(二) 中,当不存在内生解释变量时,检测异常点的具体步骤为: (1)定义标准方差向量为σ = (〇1,···,ση)Τ,标准差向量σ=(σι,···,011)^905^-95%的分 量为1,只有5%-10%的分量不为1; ⑵记Ι = (1,···,1)Τ,σ-'(ΙΜ,···,1/ση)τ,造稀疏参数向 量γ =1-〇'稀疏参数向量γ =1-(^中90%-95%的分量为0,只有5%-10%的分量不为0;(5)由加权最小二乘损失函数结合稀疏参数向量γ中分量的惩罚函数构造惩罚加权最 小二乘目标函数9(β,σ;λ):式中,β为讨厌参数,讨厌参数β用其加权最小二乘估计#代替;λ表示调整参数;(7) 利用BIC信息准则选择惩罚加权最小二乘目标函数〇(β,σ;λ)中最优的调整参数λ; (8) 利用ΚΚΤ条件将惩罚加权最小二乘目标函数的优化转化为鞍点系统,利用共辄梯度 算法求解惩罚加权最小二乘目标函数的优化,对稀疏参数向量γ进行选择和估计;,获得标准方差σ的选择和估计,稀疏参数向量γ 的估计中不等于零的分量所对应的标准方差σ的分量为异方差,即标准方差σ的估计6中不 等于1的分量为异方差,异方差所对应的待检测数据为异常点,通过检验异方差,完成异常 点检测。4.根据权利要求1所述的基于惩罚回归的快速异常点检测方法,其特征在于:步骤(三) 中,当存在内生解释变量时,检测异常点的具体步骤为: (1) 将均值漂移参数向量η引入步骤(一)中的线性回归模型,构造均值漂移模型,均值 漂移模型表示为: Υ = Χβ+η+ε (3) 其中,误差项ε~Ν(0,σ2Ι),均值漂移参数向量q=(runn)T; (2) 获取工具变量向量W,由均值漂移模型得到对应的条件矩模型: E[g(Y,Xf3+n)|W]=〇 (4) 其中,g( ·,·)为已知的二元函数,取g(tl,t2) = tl_t2; (3) 由B-样条或Fourier级数构造工具变量向量W的变换的两个不同的集: FKf^W),…,fP(W))T (5) H=(hi(ff),---,hP(ff))T (6); (4) 根据条件矩模型和工具变量向量W的变换的两个集构造过识别条件: E[g(Y,Xf3+n)F]=0 (7) E[g(Y,Xi3+n)H]=0 (8); (5) 引入均值漂移参数向量ri中各分量的示性函数,根据过识别条件和均值漂移参数向 量η各分量的示性函数构造融合广义矩损失函数L FCMM(n):其中,ω 和ω j2为给定的权,为了表达方便,令Vi(n) = (Fi(n)T,Hi(n)T)T,则融合广义矩 损失函数LFCMM(n)的矩阵形式为:其中,= 气P···,气Μ%,…,气:」,(11,…,lr)为均值漂移参数向量η中非零分 量对应的标记; (6) 引入均值漂移参数向量II中各分量的惩罚函数ρλ( I ru I ); (7) 根据融合广义矩损失函数LfcmmU)和均值漂移参数向量II中各分量的惩罚函数ρλ( ml)构造惩罚融合广义矩目标函数QFGMM(n):其中,Ρλ( ·)为惩罚函数,参数λ为调整参数; (8) 利用BIC信息准则选择惩罚融合广义矩目标函数QfgmmU)中最优的调整参数λ;_表不一个光滑核函数,其中,F(t)为一个二次可微的累积分布函数; (10) ihn4〇+,光滑核函数 收敛于故采用光滑技术用光滑核函数 代替融合广义矩损失函数LFCMM(n)中示性函数?丨'进而获得光滑的融合广义矩损失函数 Lk;再结合关于均值漂移参数η的惩罚函数进而获得光滑的惩罚融合广义矩目标函数QK:(11) 利用迭代坐标下降法优化光滑的融合广义矩目标函数QK,对均值漂移参数向量η进 行选择和估计,均值漂移参数向量η的估计力中非零的分量所对应的待检测数据点为异常 点,通过检验均值漂移参数向量η的估计冷中非零的分量,完成异常点的检测。
【文档编号】G06F17/18GK105824785SQ201610141620
【公开日】2016年8月3日
【申请日】2016年3月11日
【发明人】宋允全, 张青华, 渐令
【申请人】中国石油大学(华东)
再多了解一些
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1