顾及数据不确定性的关联规则显著性检验方法及装置的制造方法

文档序号:10624865阅读:484来源:国知局
顾及数据不确定性的关联规则显著性检验方法及装置的制造方法
【专利摘要】本发明适用于数据挖掘技术领域,提供了顾及数据不确定性的关联规则显著性检验方法及装置。所述方法包括:获取关联规则,并判断获取的所述关联规则是否为高效规则;若所述关联规则不为所述高效规则,则认为所述关联规则为虚假规则;若所述关联规则为所述高效规则,则对所述关联规则进行统计检验,并判断所得检验统计量的值是否低于预设显著性水平,若是,则接受所述关联规则为真实规则;若否,则认为所述关联规则为虚假规则。本发明基于统计健全检验法,能将族错误率控制在较低水平;修正随机数据误差对所述统计检验运算的影响,由此显著恢复由于随机数据误差引起的统计检验结果中真实规则的丢失,大大提高了关联规则挖掘结果的可靠性。
【专利说明】
顾及数据不确定性的关联规则显著性检验方法及装置
技术领域
[0001] 本发明属于数据挖掘技术领域,尤其涉及顾及数据不确定性的关联规则显著性检 验方法及装置。
【背景技术】
[0002] 关联规则挖掘旨在提取数据库中所有符合给定兴趣度指标的规则,是数据挖掘中 的一大研究课题。关联规则挖掘尤其适合探索现代数据库中复杂且多角的关系,目前已广 泛应用于研究与实践中的数据分析与决策支持。
[0003] 提升关联规则挖掘价值的关键在于获取可靠的结果,即发现有助于决策的真实规 贝IJ,并避免表达数据中并不存在的虚假规则,W防误导用户做出错误决策。数据库中的项目 很可能组合成数W万计甚至亿计的潜在规则,因此,挖掘结果中通常包含大量的虚假规则, 送已成为关联规则挖掘结果可靠性的关键阻碍因素。另外,关联规则挖掘所用数据中普遍 存在的误差是数据不确定性的一大来源。误差从源数据传播到关联规则挖掘中的每一个阶 段,导致结果中真实规则的丢失和虚假规则的增加。
[0004] 最初的关联规则研究提出了采用支持度(support)和可信度(confidence)两个 基本的兴趣度指标来衡量关联规则的价值。后续研究又提出了采用其它指标值与支持度、 可信度结合来衡量关联规则的价值。每条关联规则中的指标值由该关联规则及其相关模式 在数据库中的数量计算得来。若指标值高于(有时是低于)给定的阔值,则认为该关联规 则为真实规则,否则认为该关联规则为虚假规则。送些单一阔值的兴趣度指标可能有效地 减少虚假规则,但所采用的阔值通常难W通过科学推导确定,也缺少普适的经验值,而是由 用户主观给定。因此,所采用的阔值很可能并不合理,很可能导致不能有效滤除虚假规则, 或者误删过多的真实规则。综上,采用该方法筛选出的关联规则的可靠性较低。
[0005] 对关联规则的统计检验是一类重要的避免虚假规则的方法。在送类方法中,若关 联规则对给定兴趣度指标的符合程度不具有统计显著性,则认为其为虚假规则,并将其滤 除。无论是全体数据还是抽样数据,都是现实世界的有限次表达,可W看作现实的"有限样 本"。在数据中,一条关联规则之所W符合给定的兴趣度指标,可能并非由于相应的关联在 现实中确实符合该兴趣度指标,而仅出自现实在数据中进行有限次表达(即采样)的偶然, 此时该规则为虚假规则。因此,很多研究利用统计检验来滤除虚假规则。W零假设为例,检 验的结果为一概率值P表示零假设成立时,该关联规则得到数据中观测到的兴趣度指标值 的可能性,也就是该关联规则为虚假规则的可能性。当P小于给定的显著性水平α,如0. 05 时,则接受该关联规则为真实规则,反之则认为该关泽规则为虚假规则并将其删除。
[0006] 统计检验可W显著减少虚假规则,但很难将其基本消除。显著性水平α指的是 每条通过检验的关联规则为虚假规则的概率。若η条关联规则被同时检验,则接受至少一 条虚假规则的可能性,即族错误率将远远大于α。即使α和η值较小,族错误率仍然接近 100%,即结果中几乎必然有虚假规则。送个问题可W用多重比较的Bonferroni修正来解 决。最直接的办法是,要将族错误率控制在α,则将检验每条关联规则的显著性水平设为 Κ = α/η。但此法收效不佳,所得结果中通常仍然包含多条虚假规则。送是因为被检验的 关联规则一般已经过支持度等兴趣度指标的初步筛选,因而比其他关联规则更倾向于通过 检验。
[0007] 统计健全检验成功地将族错误率控制在很低的水平,如5%。该方法针对只含 一个项目y的关联规则后件Υ = {y},送也是常见的实际情况,对每一条规则X - y,X = Ixi... X。},检验其是否符合W下条件,且符合程度具有统计显著性:
[0008] 所化=1...巧,Pr(.v I 义)> Pr(.v I Λ.…?.ν:,"})。
[0009] 也就是说,X中每一个项目都使y发生的可能性更大,X中没有兀余项目。 对于Vwr=L..M,Ρφ.! 乂)的假设检验,其零假设为Pr(y|X)= Pr (y IX- {Xm}),即X - y在数据中呈现为高效规则仅仅出于偶然,而非出自项目Xm与关联规 则中其他项目的真实关联。
[0010] 费氏精确检验(Fisher exact test)是最适合检验 ¥w = 1...内,Ρφ' I 乂) > I义-挺,})的方法,步骤如下。令a, b,C,d为数据D中含有W 下模式的记录数量:
[0011]
[0012]
[001引其中|D|为数据中记录的总数,、指数据中不含此项目,如b为包含X中所有项 目,且不包含y的记录数量。该检验的P值为
[0014]
[0015] 在统计健全检验法中,Bonferroni修正不使用待检测规则的数量η,而取显著性 水平Κ = a/s,s为数据中所有项目排列组合出的潜在规则的总数。如有20个数据项,规 定X中至多有4个项目,贝U
+巧xCL;(义包含两个项目)+句X瑞J (X包含互个项目)+均X瑞_4 (X包含 四个巧目)=100700。只需少量的数据项,S就达到数W万计甚至亿计,导致K值极小。 实验证明,采用该K值能发现相当大比例的真实规则,而族错误率可低至不到1%。
[0016] 统计健全检验法是目前避免虚假规则最有效的方法,可将族错误率控制在很低的 水平。然而,当数据有误差时,统计健全检验法会同时造成大量真实规则的丢失,而数据误 差在关联规则挖掘中是非常普遍的。除系统误差外,数据误差多随机发生,与数据项没有关 联,因此会弱化数据项之间的关联,导致很多原本能被发现的真实规则无法通过检验而丢 失,严重影响关联规则挖掘结果的可靠性。
[0017] 现有的顾及数据不确定性的关联规则挖掘方法主要针对不确定数据库的数据结 构,即对每一记录或数据项赋予概率值,表示该记录或数据项的不确定程度。如医学实验 中,患者甲10天中有7天头痛,则记录条"甲"的"头痛"属性值为"有",其概率值为0. 7。 然而,送些研究不适用于解决随机数据误差对关联规则统计检验的影响。送些研究通常将 误差列为数据不确定性的一大来源,但对数据项赋予固定概率值的模型与数据误差的随机 发生的表现相去甚远。现有技术均采用基于固定概率值的不确定数据结构,而无一针对数 据误差的随机性进行建模。
[0018] 综上,现有的统计健全检验法能有效避免虚假规则,但在存在数据误差时,会明显 导致真实规则的丢失。

【发明内容】

[0019] 鉴于此,本发明实施例提供了一种顾及数据不确定性的关联规则显著性检验方法 及装置,W解决现有的统计健全检验法在存在数据误差时导致真实规则大量丢失的问题。
[0020] -方面,本发明实施例提供了一种顾及数据不确定性的关联规则显著性检验方 法,包括:
[0021] 获取关联规则,并判断获取的所述关联规则是否为高效规则;
[0022] 若所述关联规则不为所述高效规则,则认为所述关联规则为虚假规则;
[0023] 若所述关联规则为所述高效规则,则对所述关联规则进行统计检验,并判断所得 检验统计量P的值是否低于预设显著性水平,若是,则接受所述关联规则为真实规则;若 否,则认为所述关联规则为虚假规则;所述统计检验涉及的每一个数据模式为若干数据项 的集合,每个数据项指的是数据中一个属性中的一个类别,每个属性的误差概率分布为已 知;
[0024] 所述对所述关联规则进行统计检验包括:
[0025] 对所述统计检验涉及的每一个数据模式,将其中指定数据项所对应的属性的误差 概率分布表达为误差矩阵,所述误差矩阵包括指定属性的全部k个类别之间的误差分布, 其中,指定属性指的是所述指定数据项对应的属性,k为大于1的整数;
[0026] 根据所述误差矩阵,对数据误差的传播进行建模,得到所述k个类别的观测支持 度分布期望及方差;
[0027] 根据所估计的k个类别的观测支持度分布W及所述误差矩阵,计算所述k个类别 的真实支持度估计值;
[0028] Wci表示所述统计检验涉及的数据模式中的指定数据项,将所述k个类别中的每 个类别与所述数据模式中除CiW外的所有数据项求并集,得到k个并集,其中包含C 1的并 集即为所述数据模式;根据所述k个类别的真实支持度估计值,W及k个并集在数据中的支 持度观测值,计算所述数据模式的真实支持度估计值;
[0029] 根据所述统计检验所涉及数据模式的真实支持度估计值,计算所述统计检验的第 一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值,W对第一 参数观测值、第二参数观测值、第Η参数观测值W及第四参数观测值受到数据误差的影响 进行修正;
[0030] 根据所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参 数估计真值计算所述检验统计量Ρ的值。
[0031] 第二方面,本发明实施例提供了一种顾及数据不确定性的关联规则显著性检验装 置,包括:
[0032] 高效规则判断单元,用于获取关联规则,并判断获取的所述关联规则是否为高效 规则;
[0033] 虚假规则判定单元,用于若所述关联规则不为所述高效规则,则认为所述关联规 则为虚假规则;
[0034] 检验单元,用于若所述关联规则为所述高效规则,则对所述关联规则进行统计检 验,并判断所得检验统计量P的值是否低于预设显著性水平,若是,则接受所述关联规则为 真实规则;若否,则认为所述关联规则为虚假规则;所述统计检验涉及的每一个数据模式 为若干数据项的集合,每个数据项指的是数据中一个属性中的一个类别,每个属性的误差 概率分布为已知;
[0035] 所述检验单元包括检验统计量值计算子单元,所述检验统计量值计算子单元具体 用于:
[0036] 对所述统计检验涉及的每一个数据模式,将其中指定数据项所对应的属性的误差 概率分布表达为误差矩阵,所述误差矩阵包括所述指定属性的全部k个类别之间的误差分 布,其中,指定属性指的是所述指定数据项对应的属性,k为大于1的整数;
[0037] 根据所述误差矩阵,对数据误差的传播进行建模,得到所述k个类别的观测支持 度分布期望及方差;
[0038] 根据所估计的k个类别的观测支持度分布W及所述误差矩阵,计算所述k个类别 的真实支持度估计值;
[0039] Wci表示所述统计检验涉及的数据模式中的指定数据项,将所述k个类别中的每 个类别与所述数据模式中除CiW外的所有数据项求并集,得到k个并集,其中包含C 1的并 集即为所述数据模式;根据所述k个类别的真实支持度估计值,W及k个并集在数据中的支 持度观测值,计算所述数据模式的真实支持度估计值;
[0040] 根据所述统计检验所涉及数据模式的真实支持度估计值,计算所述统计检验的第 一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值,W对第一 参数观测值、第二参数观测值、第Η参数观测值W及第四参数观测值受到数据误差的影响 进行修正;
[0041] 根据所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参 数估计真值计算所述检验统计量Ρ的值。
[0042] 与现有技术相比,本发明实施例的有益效果是;基于统计健全检验法,在将族错误 率控制在较低水平的前提下,修正随机数据误差对统计检验运算的影响,由此显著恢复由 于随机数据误差引起的统计检验结果中真实规则的丢失,大大提高了关联规则挖掘结果的 可靠性。
【附图说明】
[0043] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可W根据送些 附图获得其他的附图。
[0044] 图1是本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法的实 现流程图;
[0045] 图2是本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法步骤 S104的具体实现流程图;
[0046] 图3是本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法中用 σ (s(c,))和Z控制确定钟化))时高估E(s(c,))的概率为任意值的示意图;
[0047] 图4是本发明实施例提供的顾及数据不确定性的关联规则显著性检验装置的结 构框图。
【具体实施方式】
[0048] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本发明,并 不用于限定本发明。
[0049] 图1示出了本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法 的实现流程图,参照图1 :
[0050] 在步骤S101中,获取关联规则;
[005。 在步骤S102中,判断获取的所述关联规则是否为高效规则,若否,执行步骤S103 ; 若是,执行步骤S104;
[0052] 在步骤S103中,认为所述关联规则为虚假规则;
[0053] 在步骤S104中,对所述关联规则进行统计显著性检验,计算检验统计量的值;
[0054] 在步骤S105中,判断步骤S104所得检验统计量的值是否低于预设显著性水平,若 是,执行步骤S106 ;若否,执行步骤S103 ;
[00巧]在步骤S106中,接受所述关联规则为真实规则。
[0056] 在本发明实施例中,逐个获取待检验的关联规则。对于获取的每一个关联规则,首 先判断该关联规则是否为高效规则。若该关联规则不为高效规则,则认为该关联规则为虚 假规则,并删除该关联规则。若该关联规则为高效规则,则进一步对该关联规则的高效性进 行统计检验,判断所得统计量的值是否低于预设显著性水平,若是,接受该关联规则为真实 规则;若否,认为该关联规则为虚假规则,并删除该关联规则。在所有关联规则检验完成后, 向用户展示所有真实规则。其中,预设显著性水平α可W为0.05,在此不作限定。
[0057] 图2示出了本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法 步骤S104的具体实现流程图,参照图2 :
[0058] 在步骤S201中,对所述统计检验涉及的每一个数据模式,将其中指定数据项所对 应的属性的误差概率分布表达为误差矩阵,所述误差矩阵包括指定属性的全部k个类别之 间的误差分布,其中,指定属性指的是所述指定数据项对应的属性,k为大于1的整数。
[0059] 在本发明实施例中,将数据视为分类数据。分类数据是关联规则挖掘中最常用的 两种数据之一,另一种最常用的事务数据很容易转换为分类数据,而定量数据通常先分类 为分类数据再用于关联规则挖掘。
[0060] 作为本发明的一个实施例,指定属性a有k个类别1,…,k,用数据项Cl,…,Ck表 示。当一条记录中a的真实分类为j时,a的值被记录为i的概率为Pij,i,j e [1,k],则a 的误差矩阵为
[0061]
[0062] P主对角线上的元素表示i = j,即正确记录各分类的概率,其他元素均为各种 数据与真实分类不符,即误差发生情况的概率。根据不确定关联规则挖掘的常用简化假 设一各数据项的不确定概率表现相互独立,正确或错误记录a属性值的各种情况,其可能 性在所有记录中相同,与记录中其他属性的值无关。因此,可W用单一的P对a在全体数据 中的误差传播进行建模。
[0063] 在步骤S202中,根据所述误差矩阵,对数据误差的传播进行建模,得到所述k个类 别的观测支持度分布期望及方差。
[0064] 对表示类别i的数据项Ci,其观测支持度S (Ci)为数据中包含Ci的记录条数,而其 真实支持度s〇(Ci)为实际包含Ci的记录条数,在现实中不可知。s(Ci)与s〇(Ci)的差异即 为随机数据误差的影响。对a的真值为j的Se(c,)条记录,每条记录中a的值被误记录为 i是一个概率为Pi,的伯努利实验。因此,数据中a的真值为j,而记录值为i的记录条数 S (C j- C i)服从二项分布;S (C j- C i)~B (S。(C j),Pi.j)。由于关联规则挖掘中 S。(C j),S。(C j) Pi.j和 s 〇(;Cj) (1-Pi.j)均较大,该分布可近似为正态分布;s(;Cj一 c i)~N(s〇(;Cj)Pi.j,s〇(;Cj) Pi.j(l-Pi.j))。因
,'而 s (Cl - c i),…,s (Ck- c i)相互独立,因此 s (Ci)也 近似服从正态分布,该分布的期望和方差为
[0071] 在步骤S203中,根据所估计的k个类别的观测支持度分布W及所述误差矩阵,计 算所述k个类别的真实支持度估计值。
[0072] 在步骤S204中,W Ci表示所述统计检验涉及的数据模式中的指定数据项,将所述 k个类别中的每个类别与所述数据模式中除Ci W外的所有数据项求并集,得到k个并集,其 中包含Ci的并集即为所述数据模式;根据所述k个类别的真实支持度估计值,W及k个并 集在数据中的支持度观测值,计算所述数据模式的真实支持度估计值。
[0073]
[0074] E(S(a)) = PS〇(a)
[00巧]等同于S〇(a) =piE(S(a))。观ilj支持度分布期望E(s(a))的值由P和S〇(a)决 定,Se(a)为现实中未知的所有类别的真实支持度,因此观测支持度分布期望E(S(a))也未 知。若能确定观测支持度分布期望E(S(a))的观测支持度分布期望估计值.?巧(U)),则可得 真实支持度Sc(a)的真实支持度估计值;§〇悼):
[0076]
[0077] 展开各心)二P-1史㈱础并取其第i行,可得类别i的真实支持度估计值為(C,):
[0078]
[007引其中成1为P堪(i,如位置上的元素值。
[0080] 根据对S。(Ci)进行估值的目的不同,旬:洗',))大于或小于实际E (S (C,))的概 率,也即E(s(c,))被高估或低估的概率,可能需要为化1)间的任意值。对此,可取 丘心((;,.))='如/.)-.却、'如/.)),Z 为常量此时我们将 s(Cj)视为 E(s(Cj))+z σ (s(Cj)), 而事实上s(c,) >E(s(c,))+z。(s(c,))的概率为1-Φ(ζ),Φ为标准正态分布的累 计密度函数。句.s、(t',))大于实际E(s(c,)),即E(s(c,))被高估的情况等同于s(c,)> E(s(Cj))+z σ (s(Cj)),其概率也为 1-Φ (Ζ),如图 3 所示。
[00引]将
中复替换为s(Cj)-z〇 (s(Cj)),再用
)代换。(S(Cj)),有
[0082]
[008引s0ki)也是未知的真值,应替换为估计值马(C/):
[0084]
[00财对全部类别的真实支持度估计值马(C,),···,却咕)各写出形如
的等式,所有 等式联立可解出马知),…成似)。但此解法比较繁琐,且仅需一个.?0(C,)时也必须解出全部 、?0似,…Jo似,浪费运算时间。事实上
右侧的可W用观测支持度ski)来 近似,送对所得4((·,.)的影响很小:
[0086]
[0087] 在步骤S205中,根据所述统计检验涉及的数据模式的真实支持度估计值,计算所 述统计检验的第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估 计真值,W对第一参数观测值、第二参数观测值、第Η参数观测值W及第四参数观测值受到 数据误差的影响进行修正。
[008引令I为a W外的Ν个属性的集合,先将I视为无随机发生的数据误差,若存在误差 则将各个存在误差的数据项比照Ci逐一处理。设I U {cj的不含Ci误差的真实支持度为 3。(1 U {cj),而观测支持度为s(I U {cj)。基于各数据项不确定概率表现相互独立的假 设,若将
申的C潜换为I U (ciK等式同样 成立。因此,记由P和Z确定的、s(I U Ci)的估计真值为旬?.,/,Ρ,ζ),有
[0089]
[0090] 费氏精确检验中的四个关键计算参数曰,b,C,d可改写为
[0091] a = S 狂 U {y})
[0092] b = S 狂)-S 狂 U {y})
[0093] C = S (狂-{Xm}) U {y}) -S 狂 U {y}),
[0094] d = s 狂-{Xm}) -s 佩-s (狂-{Xm}) U {y}) +s 狂 U {y})
[0095] 其中a表示第一参数,b表示第二参数,c表示第H参数,d表示第四参数,Xm为被 检验是否兀余的项,XmE X,s表示各数据模式的观测支持度。设a~d的真值(无随机数 据误差影响)为a。,b。,C。,d。,根据
所示的各关键计算参数的内容,可变化I和Ci的值,将
莖用于a~ d,得其估计真值4, 4, 4,或。4~4受误差的影响小于a~d,故使用爲~義代替a~ d计算检验值,可使检验结果更加准确。
[0096] 在步骤S206中,根据所述第一参数估计真值、第二参数估计真值、第Η参数 估计真值W及第四参数估计真值计算所述检验统计量Ρ的值,即在计算检验统计量
时,使用,.的值代替a~d。 嗦~
[0097] 本发明实施例提供了基于统计健全检验法的修正方法,根据统计学原理和误差传 播定律,建立数学模型来描述随机数据误差在统计检验中的传播,直至对统计检验所用的 关键计算参数(第一参数、第二参数、第Η参数W及第四参数)的影响。根据所建立的数学 模型W及已知的随机数据误差水平可W得到关键计算参数的修正量,即相对于存在随机数 据误差的数据中的观测值而言,关键计算参数的估计真值。关键计算参数的估计真值比观 测值更接近真值,因此用关键计算参数的估计真值代替观测值计算检验值,可W使计算结 果更加准确,有利于增加真实规则。
[0098] 优选地,步骤S205中在所述根据所述统计检验所涉及数据模式的真实支持度估 计值,计算第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真 值时,所述方法还包括:
[0099] 使用经过随机化处理的数据进行模拟的关联规则提取,求出使所述统计检验的族 错误率小于指定上限的最佳参数修正量,其中,所述最佳参数修正量为非负数;
[0100] 将所述最佳参数修正量用于计算所述第一参数估计真值W及第四参数估计真 值;
[0101] 将所述最佳参数修正量的相反数用于计算所述第二参数估计真值W及第Η参数 估计真值。
[0102] 计算第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估 计真值时,还需要根据用户要求的所述统计检验错误接受虚假规则的风险上限值(即指定 上限),确定一最佳参数修正量。确定最佳参数修正量后,应将最佳参数修正量用于计算所 述第一参数估计真值W及第四参数估计真值,而将最佳参数修正量的相反数用于计算所述 第二参数估计真值W及第Η参数估计真值。
[0103] 由
可知,当曰、d值增大或b、C 值减小时,P值减小,导致真实规则和虚假规则均更可能通过检验。为了不增加虚假规则, 最佳参数修正量不能令a、d增大或b、C减小,因此应使用非负的最佳参数修正量,并用 岩偽,/,P:,z):修正a、山用后(c',、/,P,_:皆修正b、C。
[0104] 使用经过随机化处理的数据进行模拟的关联规则提取,求出最佳参数修正量,使 在所述统计检验错误接受虚假规则的风险小于用户要求上限的前提下,统计检验有能力发 现最多的正确规则。
[0105] 优选地,在所述求出使所述统计检验的族错误率小于指定上限的最佳参数修正量 的过程中,所述方法还包括:
[0106] 对数据中每个属性在所有记录中的类别进行η次随机排列,其中,η为大于1的整 数;
[0107] 对每一次随机排列,从随机排列后的数据中获取关联规则,取参数修正量Ζ为0, 对获取的所述关联规则进行统计检验,并逐渐增大Ζ值,直至所有所述关联规则均被判定 为虚假规则,并记录此时的Ζ值;
[0108] 将η次数据随机排列所得到的η个Ζ值中最大者作为所述最佳参数修正量。
[010引等式
f的最佳参 参数修正量Z是控制统计检验关键计算参数修正程度的关键。Z值越小,修正程度越大,使 修正检验有能力发现更多真实规则,但也增大了过度修正的可能和最终产生虚假规则的风 险。如果能分析得出族错误率和Z值之间的定量关系,就可W根据用户给定的族错误率上 限,直接确定所需的Z值。但族错误率和Z值的关系极度复杂,受到误差分布和数据本身的 诸多不确定因素影响,几乎不可能将送些影响全部定量化,而对任何一种影响估计得很不 准确,就无法确定合理的Z值。由于难W对确定修正参数所需的Z值进行上述定量分析,在 本发明实施例中使用W下模拟法作为替代方案来确定Z值,使真实规则得到最大程度的增 加,同时族错误率不超过用户给定的指定上限rm。、。模拟法步骤如下:
[0110] 第一步,对数据表中每一列即每一属性,将该列所有属性值随机重新排序;
[0111] 第二步,使用关联规则挖掘算法提取步骤一所得随机化数据中的关联规则,用修 正方法检验所得关联规则,先取Z = 0,逐渐增加 Z值,直到所有关联规则都被拒绝,即不能 通过检验;
[0112] 第Η步,将第一步和第二步重复η次,找到η次中最大的令所有关联规则被拒绝的 Ζ值。
[0113] 第一步所得的随机化数据中,各数据项支持度(数量)与实际数据相同,但失去 了所有数据项间的关联。因此,从随机化数据中发现的任何关联规则均为虚假规则。除失 去关联外,随机化数据保存了实际数据中的其他特征,送些特征可W用来模拟族错误率和Ζ 值关系的诸多不确定影响因素。因此,将第Η步所得的最大Ζ值用于检验从实际数据中提 取的关联规则,族错误率应与模拟过程中的值处于同一水平。
[0114] 循环数η由rm。、确定。每个循环可W看作无限种数据随机化可能情况中的一个抽 样,如果每次随机化后检验中接受至少一条虚假规则的概率为rm。、,则在η个"抽样"循环 中,接受不多于一条虚假规则的概率为 [011 引
[0116] K表示接受虚假规则的数量。所需η值为令PHK《1)《0.5的最小正整数,也 就是说,当数据误差在模拟中呈现平均程度的影响(概率为0.5)时,族错误率不高于rm。、。 当给定rm。,为0. 05时,所需循环数为η = 34。虽然Z值可W使检验拒绝所有规则,但Z值 再减少一个递增时的最小单位量,就会产生虚假规则,因此计算中应包括Pr化=1)。
[0117] 需要说明的是,模拟法中检验结果的族错误率取决于rm。、,而非检验所用的预设显 著性水平K。不过,因为取预设显著性水平K = a/s和采用模拟法的目的均为使族错误 率低于用户给定的上限bm。、或α),因此,rm。、和α -般应取相同的值,如0.05。
[0118] 在步骤S205所述根据所述统计检验所涉及数据模式的真实支持度估计值,计算 第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值时,所述 方法还包括:
[0119] 根据有误差的数据项Ci在所述关联规则中的位置不同,采取不同的修正数学式计 算所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值。
[0120] 对规则X - y,误差可能发生在Η种位置;Xm,y或某个XmW外的项目X。送Η 种情况下,為~或需要Η套不同的公式化表示。
[0121] 当误差项Ci在关联规则中的位置为C 1= Xm时:
[0135]
[0136] 最后,使用第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参 数估计真值取代原统计检验中的四个关键参数值,计算检验统计量P的值,W修正数据误 差对所得P值的影响。
[0137] 进一步地,所述根据所述第一参数估计真值、第二参数估计真值、第Η参数估计真 值W及第四参数估计真值计算所述检验统计量Ρ的值,其具体过程为:
[0138] 将所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数 估计真值用于健全统计检验法,计算所述检验统计量Ρ的值。
[0139] 本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法能明显提高 关联规则挖掘结果的可靠性,在随机数据误差存在的普遍情况下,增加真实规则,严格控制 虚假规则,使挖掘结果在数据分析和决策支持中更具价值。
[0140] 本发明实施例基于独创误差传播模型的统计检验参数修正,可W减少随机数据误 差对统计检验计算结果的影响,弥补高达近60%由于随机数据误差造成的真实规则损失。 最有实际意义的关联规则往往对误差非常敏感,此时本发明实施例就尤其有效。同时,使用 模拟过程控制修正程度的机制,使虚假规则数量接近统计健全检验法达到的极低水平(族 错误率巧% ),明显优于绝大部分其他滤除虚假规则的方法(减少虚假规则比例,但族错误 率仍接近100%)。
[0141] 本发明实施例已在合成数据和真实数据实验中得到验证和应用。合成数据试验的 数据为计算机根据预先设计的、已知的真实规则生成,因此可W明确判断检验结果中的真 实与虚假规则。在低至2%,高至36%记录包含误差的多种误差水平,W及多种数据量的情 况下,运用本发明实施例提供的修正方法均比原始统计健全检验法发现更多的真实规则。 修正方法的效果可W用恢复率来表示;恢复率=(修正方法发现的真实规则数-原始方法 发现的真实规则数)/(无随机误差数据中发现的真实规则数-原始方法发现的真实规则 数)Χ100%。原始方法和修正方法均指应用于有随机数据误差的情况。在各误差水平下, 修正方法的平均恢复率约为58 %。修正方法得到的虚假规则虽也高于原始方法,但平均族 错误率仅为2%,最差情况即最高误差水平下也不过5%。增加的真实规则与虚假规则数量 比例约为130:1。
[0142] 真实数据实验的数据为±地利用和人口、收入等社会经济指标在1985~1999年 的变化。真实数据中的真实规则未知,而模拟实验证明,统计健全检验从无误差数据中发现 的真实规则族错误率不到1 %,因此借用无误差数据中发现的关联规则作为真实规则,来评 估原始方法和修正方法用于有误差数据的结果。在多种误差水平下,修正方法均发现更多 的真实规则。其中,包含两个年份±地利用变化(利用类型不同)的规则最有实际意义,但 仅有约100条,且对误差非常敏感。原始方法导致45%~85%此类真实规则的丢失,而修正 方法发现的真实规则为原始方法的2~4倍。现实中的关联规则挖掘经常与本实验相似: 最重要的规则数量稀少,且对误差敏感,因此修正方法具有很高的潜在实用价值。
[0143] 应理解,在本发明实施例中,上述各过程的序号的大小并不意味着执行顺序的先 后,各过程的执行顺序应W其功能和内在逻辑确定,而不应对本发明实施例的实施过程构 成任何限定。
[0144] 本发明实施例基于统计健全检验法,在将族错误率控制在较低水平的前提下,修 正随机数据误差对统计检验运算的影响,由此显著恢复由于随机数据误差引起的统计检验 结果中真实规则的丢失,大大提高了关联规则挖掘结果的可靠性。
[0145] 图4示出了本发明实施例提供的顾及数据不确定性的关联规则显著性检验装置 的结构框图,该装置可W用于运行图1或图2所述的顾及数据不确定性的关联规则显著性 检验方法。为了便于说明,仅示出了与本发明实施例相关的部分。参照图4,所述装置包括:
[0146] 高效规则判断单元41,用于获取关联规则,并判断获取的所述关联规则是否为高 效规则;
[0147] 虚假规则判定单元42,用于若所述关联规则不为所述高效规则,则认为所述关联 规则为虚假规则;
[0148] 检验单元43,用于若所述关联规则为所述高效规则,则对所述关联规则进行统计 检验,并判断所得检验统计量P的值是否低于预设显著性水平,若是,则接受所述关联规则 为真实规则;若否,则认为所述关联规则为虚假规则;所述统计检验涉及的每一个数据模 式为若干数据项的集合,每个数据项指的是数据中一个属性中的一个类别,每个属性的误 差概率分布为已知;
[0149] 检验单元43包括检验统计量值计算子单元431,检验统计量值计算子单元431具 体用于:
[0150] 对所述统计检验涉及的每一个数据模式,将其中指定数据项Ci所对应的属性的误 差概率分布表达为误差矩阵,所述误差矩阵包括所述指定属性的全部k个类别之间的误差 分布,其中,指定属性指的是所述指定数据项对应的属性,k为大于1的整数;
[0151] 根据所述误差矩阵,对数据误差的传播进行建模,得到所述k个类别的观测支持 度分布期望及方差;
[0152] 根据所估计的k个类别的观测支持度分布W及所述误差矩阵,计算所述k个类别 的真实支持度估计值;
[0153] Wci表示所述统计检验涉及的数据模式中的指定数据项,将所述k个类别中的每 个类别与所述数据模式中除CiW外的所有数据项求并集,得到k个并集,其中包含C 1的并 集即为所述数据模式;根据所述k个类别的真实支持度估计值,W及k个并集在数据中的支 持度观测值,计算所述数据模式的真实支持度估计值;
[0154] 根据所述统计检验所涉及数据模式的真实支持度估计值,计算所述统计检验的第 一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值,W对第一 参数观测值、第二参数观测值、第Η参数观测值W及第四参数观测值受到数据误差的影响 进行修正;
[0155] 根据所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参 数估计真值计算所述检验统计量Ρ的值。
[0156] 优选地,根据实行检验统计量值计算子单元431的需求,所述装置还包括检验参 数修正单元44,检验参数修正单元44用于:
[0157] 使用经过随机化处理的数据进行模拟的关联规则提取,求出使所述统计检验的族 错误率小于指定上限的最佳参数修正量,其中,所述最佳参数修正量为非负数;
[0158] 将所述最佳参数修正量用于计算所述第一参数估计真值W及第四参数估计真 值;
[0159] 将所述最佳参数修正量的相反数用于计算所述第二参数估计真值W及第Η参数 估计真值。
[0160] 根据实行检验参数修正单元44的需求,所述装置还包括最佳参数修正量确定单 元45,最佳参数修正量确定单元45用于:
[0161] 对数据中每个属性在所有记录中的类别进行η次随机排列,其中,η为大于1的整 数;
[0162] 对每一次随机排列,从随机排列后的数据中获取关联规则,取参数修正量Ζ为0, 对获取的所述关联规则进行统计检验,并逐渐增大Ζ值,直至所有所述关联规则均被判定 为虚假规则,并记录此时的Ζ值;
[0163] 将η次数据随机排列所得到的η个Ζ值中最大者作为所述最佳参数修正量。
[0164] 进一步地,所述检验参数修正单元44还用于:
[0165] 根据Ci在所述关联规则中所处的的位置,获取与所述位置对应的修正数学式计算 所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值。
[0166] 进一步地,检验统计量值计算子单元431在检验参数修正单元44、所述装置还包 括最佳参数修正量确定单元45的辅助下,获取所述第一参数估计真值、第二参数估计真 值、第Η参数估计真值W及第四参数估计真值后,检验统计量值计算子单元431还用于:
[0167] 将所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数 估计真值用于健全统计检验法,计算所述检验统计量Ρ的值。
[016引本领域普通技术人员可W意识到,结合本文中所公开的实施例描述的各示例的单 元及算法步骤,能够W电子硬件、或者计算机软件和电子硬件的结合来实现。送些功能究竟 W硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员 可W对每个特定的应用来使用不同方法来实现所描述的功能,但是送种实现不应认为超出 本发明的范围。
[0169] 所属领域的技术人员可W清楚地了解到,为描述的方便和简洁,上述描述的装置 和单元的具体工作过程,可W参考前述方法实施例中的对应过程,在此不再赏述。
[0170] 在本申请所提供的几个实施例中,应该理解到,所掲露的装置和方法,可W通过其 它的方式实现。例如,W上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分, 仅仅为一种逻辑功能划分,实际实现时可W有另外的划分方式,例如多个单元或组件可W 结合或者可W集成到另一个系统,或一些特征可W忽略,或不执行。另一点,所显示或讨论 的相互之间的禪合或直接禪合或通信连接可W是通过一些接口,单元的间接禪合或通信连 接,可W是电性,机械或其它的形式。
[0171] 所述作为分离部件说明的单元可W是或者也可W不是物理上分开的,作为单元显 示的部件可W是或者也可W不是物理单元,即可W位于一个地方,或者也可W分布到多个 网络单元上。可W根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。
[0172] 另外,在本发明各个实施例中的各功能单元可W集成在一个处理单元中,也可W 是各个单元单独物理存在,也可W两个或两个W上单元集成在一个单元中。
[0173] 所述功能如果W软件功能单元的形式实现并作为独立的产品销售或使用时,可W 存储在一个计算机可读取存储介质中。基于送样的理解,本发明的技术方案本质上、或者说 对现有技术做出贡献的部分、或者该技术方案的部分可软件产品的形式体现出来,该 软件产品存储在一个存储介质中,包括若干指令用W使得一台计算机设备(可W是个人计 算机,服务器,网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述 的存储介质包括;U盘、移动硬盘、只读存储器(ROM, ReacK)nly Memo巧)、随机存取存储器 (RAM, Random Access Memory)、磁碟或者光盘等各种可W存储程序代码的介质。
[0174] W上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明掲露的技术范围内,可轻易想到的变化或替换,都应 涵盖在本发明的保护范围之内。因此,本发明的保护范围应W所述权利要求的保护范围为 准。
【主权项】
1. 一种顾及数据不确定性的关联规则显著性检验方法,其特征包括: 获取关联规则,并判断获取的所述关联规则是否为高效规则; 若所述关联规则不为所述高效规则,则认为所述关联规则为虚假规则; 若所述关联规则为所述高效规则,则对所述关联规则进行统计检验,并判断所得检验 统计量P的值是否低于预设显著性水平,若是,则接受所述关联规则为真实规则;若否,则 认为所述关联规则为虚假规则;所述统计检验涉及的每一个数据模式为若干数据项的集 合,每个数据项指的是数据中一个属性中的一个类别,每个属性的误差概率分布为已知; 所述对所述关联规则进行统计检验,计算检验统计量的值包括: 对所述统计检验涉及的每一个数据模式,将其中指定数据项所对应的属性的误差概率 分布表达为误差矩阵,所述误差矩阵包括指定属性的全部k个类别之间的误差分布,其中, 指定属性指的是所述指定数据项对应的属性,k为大于1的整数; 根据所述误差矩阵,对数据误差的传播进行建模,得到所述k个类别的观测支持度分 布期望及方差; 根据所估计的k个类别的观测支持度分布以及所述误差矩阵,计算所述k个类别的真 实支持度估计值; 以(^表示所述统计检验涉及的数据模式中的指定数据项,将所述k个类别中的每个类 别与所述数据模式中除Cl以外的所有数据项求并集,得到k个并集,其中包含C 4勺并集即 为所述数据模式;根据所述k个类别的真实支持度估计值,以及k个并集在数据中的支持度 观测值,计算所述数据模式的真实支持度估计值; 根据所述统计检验所涉及数据模式的真实支持度估计值,计算所述统计检验的第一参 数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值,以对第一参数 观测值、第二参数观测值、第三参数观测值以及第四参数观测值受到数据误差的影响进行 修正; 根据所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估 计真值计算所述检验统计量p的值。2. 如权利要求1所述的方法,其特征在于,在所述根据所述统计检验所涉及数据模式 的真实支持度估计值,计算第一参数估计真值、第二参数估计真值、第三参数估计真值以及 第四参数估计真值时,所述方法还包括: 使用经过随机化处理的数据进行模拟的关联规则提取,求出使所述统计检验的族错误 率小于指定上限的最佳参数修正量,其中,所述最佳参数修正量为非负数; 将所述最佳参数修正量用于计算所述第一参数估计真值以及第四参数估计真值; 将所述最佳参数修正量的相反数用于计算所述第二参数估计真值以及第三参数估计 真值。3. 如权利要求2所述的方法,其特征在于,在所述求出使所述统计检验的族错误率小 于指定上限的最佳参数修正量的过程中,所述方法还包括: 对数据中每个属性在所有记录中的类别进行η次随机排列,其中,η为大于1的整数; 对每一次随机排列,从随机排列后的数据中获取关联规则,取参数修正量ζ为0,对获 取的所述关联规则进行统计检验,并逐渐增大ζ值,直至所有所述关联规则均被判定为虚 假规则,并记录此时的ζ值; 将η次数据随机排列所得到的η个z值中最大者作为所述最佳参数修正量。4. 如权利要求2所述的方法,其特征在于,在所述根据所述统计检验所涉及数据模式 的真实支持度估计值,计算第一参数估计真值、第二参数估计真值、第三参数估计真值以及 第四参数估计真值时,所述方法还包括: 根据Cl在所述关联规则中所处的的位置,获取与所述位置对应的修正数学式计算所述 第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值。5. 如权利要求1所述的方法,其特征在于,所述根据所述第一参数估计真值、第二参数 估计真值、第三参数估计真值以及第四参数估计真值计算所述检验统计量P的值,其具体 过程为: 将所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计 真值用于健全统计检验法,计算所述检验统计量P的值。6. -种顾及数据不确定性的关联规则显著性检验装置,其特征包括: 高效规则判断单元,用于获取关联规则,并判断获取的所述关联规则是否为高效规 则; 虚假规则判定单元,用于若所述关联规则不为所述高效规则,则认为所述关联规则为 虚假规则; 检验单元,用于若所述关联规则为所述高效规则,则对所述关联规则进行统计检验,并 判断所得检验统计量P的值是否低于预设显著性水平,若是,则接受所述关联规则为真实 规则;若否,则认为所述关联规则为虚假规则;所述统计检验涉及的每一个数据模式为若 干数据项的集合,每个数据项指的是数据中一个属性中的一个类别,每个属性的误差概率 分布为已知; 所述检验单元包括检验统计量值计算子单元,所述检验统计量值计算子单元具体用 于: 对所述统计检验涉及的每一个数据模式,将其中指定数据项所对应的属性的误差概率 分布表达为误差矩阵,所述误差矩阵包括所述指定属性的全部k个类别之间的误差分布, 其中,指定属性指的是所述指定数据项对应的属性,k为大于1的整数; 根据所述误差矩阵,对数据误差的传播进行建模,得到所述k个类别的观测支持度分 布期望及方差; 根据所估计的k个类别的观测支持度分布以及所述误差矩阵,计算所述k个类别的真 实支持度估计值; 以^表示所述统计检验涉及的数据模式中的指定数据项,将所述k个类别中的每个类 别与所述数据模式中除Cl以外的所有数据项求并集,得到k个并集,其中包含c』勺并集即 为所述数据模式;根据所述k个类别的真实支持度估计值,以及k个并集在数据中的支持度 观测值,计算所述数据模式的真实支持度估计值; 根据所述统计检验所涉及数据模式的真实支持度估计值,计算所述统计检验的第一参 数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值,以对第一参数 观测值、第二参数观测值、第三参数观测值以及第四参数观测值受到数据误差的影响进行 修正; 根据所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估 计真值计算所述检验统计量P的值。7. 如权利要求6所述的装置,其特征在于,所述装置还包括检验参数修正单元,所述检 验参数修正单元用于: 使用经过随机化处理的数据进行模拟的关联规则提取,求出使所述统计检验的族错误 率小于指定上限的最佳参数修正量,其中,所述最佳参数修正量为非负数; 将所述最佳参数修正量用于计算所述第一参数估计真值以及第四参数估计真值; 将所述最佳参数修正量的相反数用于计算所述第二参数估计真值以及第三参数估计 真值。8. 如权利要求7所述的装置,其特征在于,所述装置还包括最佳参数修正量确定单元, 所述最佳参数修正量确定单元用于: 对数据中每个属性在所有记录中的类别进行η次随机排列,其中,η为大于1的整数; 对每一次随机排列,从随机排列后的数据中获取关联规则,取参数修正量ζ为0,对获 取的所述关联规则进行统计检验,并逐渐增大ζ值,直至所有所述关联规则均被判定为虚 假规则,并记录此时的ζ值; 将η次数据随机排列所得到的η个ζ值中最大者作为所述最佳参数修正量。9. 如权利要求7所述的装置,其特征在于,所述检验参数修正单元还用于: 根据Cl在所述关联规则中所处的的位置,获取与所述位置对应的修正数学式计算所述 第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值。10. 如权利要求6所述的装置,其特征在于,所述检验统计量值计算子单元具体用于: 将所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计 真值用于健全统计检验法,计算所述检验统计量P的值。
【文档编号】G06F17/30GK105989095SQ201510076329
【公开日】2016年10月5日
【申请日】2015年2月12日
【发明人】史文中, 张安舒
【申请人】香港理工大学深圳研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1