零膨胀泊松分布参数的一种稳健估计方法

文档序号:6562647阅读:897来源:国知局
专利名称:零膨胀泊松分布参数的一种稳健估计方法
技术领域
本发明对零膨胀泊松模型(ZIP)参数提供一种的稳健估计方法,适用于生产制造、质量控制、疾病监控以及社会科学等相关领域。
背景技术
带有大量“零”值的计数型数据广泛存在于诸多领域,如工业生产、质量控制、服务业、疾病监控、物种研究等。在稳定的生产过程中,由于工序能力良好,致使观测的缺陷数大部分情况下都为“零”,此时观测数据表现为零膨胀数据;在职业健康领域,评价工作环境风险指数时所用到的工伤数据也经常是零膨胀数据,因为生产技术和保障条件的提高,大部分情况下工人不会受伤,这样,工人受伤的次数经常是“零”;在医学领域,哮喘是一种临床常见的疾病,对受试者来说,可能是健康人,也有可能是哮喘患者,如果在一个试验期内没有哮喘病发作,则用“零”记录,如果发作k次,用k作记录,得到观测的数据也是零膨胀数据。对于零膨胀数据,当“零”值的比例超过正常泊松分布时,一般用零膨胀泊松模型对计数型数据进行建模。正是由于过多“零”值的存在,对于零膨胀泊松模型而言,分布参数的稳健估计尤其重要。通常情况下用均值对其参数λ进行估计,但均值很容易受到异常值(也称离群值)的影响,因此,需要寻求分布参数的稳健估计,有效避免异常值的影响。 一般用中位数等L统计量进行参数估计,然而零膨胀数据中“零”值的比例过大,使得中位数、加宽中位数、中均值、三均值等L统计量经常等于零,因此,无法直接利用它们进行稳健参数估计。为此,本发明给出了零膨胀泊松模型(ZIP)分布参数的一种稳健估计方法。

发明内容
(1)本发明的目的针对零膨胀泊松分布容易受到异常值影响的问题,提出一种分布参数稳健估计方法。该发明首先把零膨胀泊松分布看作退化分布{X = 0}和非零泊松分布的一种混合分布;然后,利用中位数、加宽中位数、中均值、三均值等L统计量对非零泊松分布的均值进行稳健估计,从而得到零膨胀泊松分布参数的稳健估计。(2)技术方案零膨胀泊松分布是一种广义的泊松分布(GZIP),其概率密度函数通常定义为
l-p + pe-"· j = 0,
由于均值容易受到异常值的影响,所以用均值对零膨胀泊松分布参数进行估计鲁棒性差、不稳健。同时,零膨胀数据中过多“零”值的存在,致使中位数和四分位数经常为零, 从而无法应用中位数、加宽中位数、中均值和三均值等进行参数估计。为此,必须从一个新的角度来看待零膨胀泊松分布和寻找稳健参数估计。
如果随机变量Y DZIPh λ),其值域A= {Y彡0},而A可以分为两部分B= {Y =0}和c = IY > 0},即A = B+C。根据贝叶斯定理,可以把零膨胀泊松分布看作由退化分布IX = O1和参数为λ的非零泊松分布Z所组成的混合分布,其中,退化分布和非零泊松分布所占的比重分别为l-p+pe_A和p(l-e_A)。非零泊松分布Z的概率密度函数定义如下/^^) = -^^-^,2 = 1,2, - (2)
\-e z\其均值为E(Z) = X/(l-e_A)。显然,零膨胀数据中的非“零”值一定来自非零泊松分布,换句话说,零膨胀数据中的非“零”值构成非零泊松分布一个简单随机样本。根据探索性数据分析的经验,可以利用中位数、加宽中位数、中均值和三均值等对非零泊松分布的均值E(Z)进行稳健估计,从而得到零膨胀泊松分布参数λ和ρ的稳健估计。现在考虑一组来自零膨胀泊松分布的观测值Ix1,&,…,^J,样本量为η。简单起见,假设有no个“零”值和Ii1个非“零”值,并用AA,…々来记录这些非“零”值。根据前述对零膨胀泊松分布的认识, ···, 可以看作来自参数为λ的非零泊松分布的样本。由于样本均值F对离群值非常敏感,因此,用中位数、加宽中位数、中均值和三均值来对E(Z)进行稳健估计,进而得到零膨胀泊松分布的参数λ和ρ的稳健估计。i.使用中位数中位数是最简单的L估计量,作为一种稳健位置估计量,其已广泛应用于多种领域。将^而,…, 按升序排序,即%&(,··、、,则中位数为
iZ(( I+l)/2)5W1 为奇数,
MED = Γ (3)
{[z(V2)+Z((V2)+1)]/2,巧为偶数.把该中位数作为E(Z)的估计,由公式⑷即可得参数λ的估计
Γ π义
- = MED(4)
\-e-AV, 而参数ρ的最大似然估计则为
, _ η-η0 _ ηλPmed = “~~“~~“(5λ
n(l-e MED) n(l-e MED){b)ii使用加宽中位数加宽中位数对离群值具有稳健性,而且对观测值的舍入和分组不敏感,因此,可以使用加宽中位数作为E(Z)的稳健估计。{ …,、}的加宽中位数的定义为
BMED =
(6)
Ζ,
((^1)/2-1) +^+1)/2) +^+1)/2+1)1/35巧为奇数且5 <12
Zi
((M1+1)/2-2) + +1)/2-1) + +1)/2) + +1)/2+1) + Z((Wl+l)/2+2) 1 ^ 5, 为奇数且万} > 13
Z1
(V2-D / 6 + z刚丨 3 + ^((V2)+1)丨 3 + z((V2)+2) / 6,^为偶数且5 <^<12
2) + ν2)—υ +Z(V2) + V2)+1)]/5 + [z((V2)—2) + V2)+3)]/l0,^为偶数且^ >13
把加宽中位数代入到公式⑷和(5),得到参数λ和ρ的稳健估计和^jm皿。iii.使用中均值通常切尾均值需要知道离群值比例,使用中均值可以有效避免确定离群值比例的困难。中均值是样本中间部分的均值,定义如下

权利要求
1.一种零膨胀泊松分布参数的稳健估计方法,其特征在于其实施步骤如下 步骤一把零膨胀泊松分布看作退化分布{X = 0}和非零泊松分布的一种混合分布; 步骤二 提取零膨胀数据中的非零数据,按从小到大的顺序排序并统计其数量Π 1 ; 步骤三用非零数据的中位数、加宽中位数、中均值以及三均值对非零泊松分布均值进行稳健估计;步骤四利用非零泊松分布均值与零膨胀泊松分布参数λ的关系得到参数λ的稳健估计;步骤五在参数λ的稳健估计基础上,运用极大似然估计得到零膨胀泊松分布参数P 的稳健估计。
2.根据权利要求1所述的一种用于高质量过程统计控制的Ω事件间隔控制图的制作方法,其特征在于在步骤三中所述的稳健估计是指在粗差不可避免的情况下,选择合适的估计方法,使所估计的参数减免粗差的影响,得出正常模式下最佳的估计值。
3.根据权利要求1所述的一种用于高质量过程统计控制的Ω事件间隔控制图的制作方法,其特征在于在步骤四中所述的利用非零泊松分布均值与零膨胀泊松分布参数λ的关系,该非零泊松分布均值即用E(Z)表示与零膨胀泊松分布参数λ有如下关系在得到非零泊松分布均值E (Z)后,通过上述公式即可得到零膨胀泊松分布λ的参数估计。
4.根据权利要求1所述的一种用于高质量过程统计控制的Ω事件间隔控制图的制作方法,其特征在于在步骤五中所述的极大似然估计方法是求估计的另一种方法,它是建立在极大似然原理的基础上的一个统计方法。
全文摘要
本发明零膨胀泊松分布的一种稳健参数估计方法,其具体步骤是1.把零膨胀泊松分布看作退化分布{X=0}和非零泊松分布的一种混合分布;2.提取零膨胀数据中的非零数据,并按从小到大的顺序排序;3.用非零数据的中位数、加宽中位数、中均值以及三均值对非零泊松分布均值进行稳健估计;4.利用非零泊松分布均值与零膨胀泊松分布参数λ的关系得到参数λ的稳健估计;5.在参数λ的稳健估计基础上,运用极大似然估计得到零膨胀泊松分布参数p的稳健估计。本发明为零膨胀泊松分布提供了一种稳健参数估计方法,进而得到零膨胀泊松分布参数的稳健估计,可以有效解决零膨胀泊松分布容易受异常值影响的问题,同时避免了零膨胀数据中离群值识别的困难。
文档编号G06F19/00GK102243695SQ20111022325
公开日2011年11月16日 申请日期2011年8月5日 优先权日2011年8月5日
发明者李大宇, 杨军, 赵宇 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1