顾及数据不确定性的关联规则显著性检验方法及装置的制造方法

文档序号：10624865阅读：484来源：国知局

顾及数据不确定性的关联规则显著性检验方法及装置的制造方法
【专利摘要】本发明适用于数据挖掘技术领域，提供了顾及数据不确定性的关联规则显著性检验方法及装置。所述方法包括：获取关联规则，并判断获取的所述关联规则是否为高效规则；若所述关联规则不为所述高效规则，则认为所述关联规则为虚假规则；若所述关联规则为所述高效规则，则对所述关联规则进行统计检验，并判断所得检验统计量的值是否低于预设显著性水平，若是，则接受所述关联规则为真实规则；若否，则认为所述关联规则为虚假规则。本发明基于统计健全检验法，能将族错误率控制在较低水平；修正随机数据误差对所述统计检验运算的影响，由此显著恢复由于随机数据误差引起的统计检验结果中真实规则的丢失，大大提高了关联规则挖掘结果的可靠性。
【专利说明】
顾及数据不确定性的关联规则显著性检验方法及装置
技术领域
[0001] 本发明属于数据挖掘技术领域，尤其涉及顾及数据不确定性的关联规则显著性检验方法及装置。
【背景技术】
[0002] 关联规则挖掘旨在提取数据库中所有符合给定兴趣度指标的规则，是数据挖掘中的一大研究课题。关联规则挖掘尤其适合探索现代数据库中复杂且多角的关系，目前已广泛应用于研究与实践中的数据分析与决策支持。
[0003] 提升关联规则挖掘价值的关键在于获取可靠的结果，即发现有助于决策的真实规贝IJ，并避免表达数据中并不存在的虚假规则，W防误导用户做出错误决策。数据库中的项目很可能组合成数W万计甚至亿计的潜在规则，因此，挖掘结果中通常包含大量的虚假规则，送已成为关联规则挖掘结果可靠性的关键阻碍因素。另外，关联规则挖掘所用数据中普遍存在的误差是数据不确定性的一大来源。误差从源数据传播到关联规则挖掘中的每一个阶段，导致结果中真实规则的丢失和虚假规则的增加。
[0004] 最初的关联规则研究提出了采用支持度（support)和可信度（confidence)两个基本的兴趣度指标来衡量关联规则的价值。后续研究又提出了采用其它指标值与支持度、可信度结合来衡量关联规则的价值。每条关联规则中的指标值由该关联规则及其相关模式在数据库中的数量计算得来。若指标值高于（有时是低于）给定的阔值，则认为该关联规则为真实规则，否则认为该关联规则为虚假规则。送些单一阔值的兴趣度指标可能有效地减少虚假规则，但所采用的阔值通常难W通过科学推导确定，也缺少普适的经验值，而是由用户主观给定。因此，所采用的阔值很可能并不合理，很可能导致不能有效滤除虚假规则，或者误删过多的真实规则。综上，采用该方法筛选出的关联规则的可靠性较低。
[0005] 对关联规则的统计检验是一类重要的避免虚假规则的方法。在送类方法中，若关联规则对给定兴趣度指标的符合程度不具有统计显著性，则认为其为虚假规则，并将其滤除。无论是全体数据还是抽样数据，都是现实世界的有限次表达，可W看作现实的"有限样本"。在数据中，一条关联规则之所W符合给定的兴趣度指标，可能并非由于相应的关联在现实中确实符合该兴趣度指标，而仅出自现实在数据中进行有限次表达（即采样）的偶然，此时该规则为虚假规则。因此，很多研究利用统计检验来滤除虚假规则。W零假设为例，检验的结果为一概率值P表示零假设成立时，该关联规则得到数据中观测到的兴趣度指标值的可能性，也就是该关联规则为虚假规则的可能性。当P小于给定的显著性水平α，如0. 05 时，则接受该关联规则为真实规则，反之则认为该关泽规则为虚假规则并将其删除。
[0006] 统计检验可W显著减少虚假规则，但很难将其基本消除。显著性水平α指的是每条通过检验的关联规则为虚假规则的概率。若η条关联规则被同时检验，则接受至少一条虚假规则的可能性，即族错误率将远远大于α。即使α和η值较小，族错误率仍然接近 100%，即结果中几乎必然有虚假规则。送个问题可W用多重比较的Bonferroni修正来解决。最直接的办法是，要将族错误率控制在α，则将检验每条关联规则的显著性水平设为 Κ = α/η。但此法收效不佳，所得结果中通常仍然包含多条虚假规则。送是因为被检验的关联规则一般已经过支持度等兴趣度指标的初步筛选，因而比其他关联规则更倾向于通过检验。
[0007] 统计健全检验成功地将族错误率控制在很低的水平，如5%。该方法针对只含一个项目y的关联规则后件Υ = {y}，送也是常见的实际情况，对每一条规则X - y，X = Ixi... X。}，检验其是否符合W下条件，且符合程度具有统计显著性：
[0008] 所化=1...巧，Pr(.v I 义）> Pr(.v I Λ.…?.ν:,"})。
[0009] 也就是说，X中每一个项目都使y发生的可能性更大，X中没有兀余项目。对于Vwr=L..M，Ρφ.! 乂）的假设检验，其零假设为Pr(y|X)= Pr (y IX- {Xm})，即X - y在数据中呈现为高效规则仅仅出于偶然，而非出自项目Xm与关联规则中其他项目的真实关联。
[0010] 费氏精确检验（Fisher exact test)是最适合检验￥w = 1...内，Ρφ' I 乂) > I义-挺,})的方法，步骤如下。令a, b，C，d为数据D中含有W 下模式的记录数量：
[0011]
[0012]
[001引其中|D|为数据中记录的总数，、指数据中不含此项目，如b为包含X中所有项目，且不包含y的记录数量。该检验的P值为
[0014]
[0015] 在统计健全检验法中，Bonferroni修正不使用待检测规则的数量η,而取显著性水平Κ = a/s，s为数据中所有项目排列组合出的潜在规则的总数。如有20个数据项，规定X中至多有4个项目，贝U
+巧xCL;(义包含两个项目）+句X瑞J (X包含互个项目）+均X瑞_4 (X包含四个巧目）=100700。只需少量的数据项，S就达到数W万计甚至亿计，导致K值极小。实验证明，采用该K值能发现相当大比例的真实规则，而族错误率可低至不到1%。
[0016] 统计健全检验法是目前避免虚假规则最有效的方法，可将族错误率控制在很低的水平。然而，当数据有误差时，统计健全检验法会同时造成大量真实规则的丢失，而数据误差在关联规则挖掘中是非常普遍的。除系统误差外，数据误差多随机发生，与数据项没有关联，因此会弱化数据项之间的关联，导致很多原本能被发现的真实规则无法通过检验而丢失，严重影响关联规则挖掘结果的可靠性。
[0017] 现有的顾及数据不确定性的关联规则挖掘方法主要针对不确定数据库的数据结构，即对每一记录或数据项赋予概率值，表示该记录或数据项的不确定程度。如医学实验中，患者甲10天中有7天头痛，则记录条"甲"的"头痛"属性值为"有"，其概率值为0. 7。然而，送些研究不适用于解决随机数据误差对关联规则统计检验的影响。送些研究通常将误差列为数据不确定性的一大来源，但对数据项赋予固定概率值的模型与数据误差的随机发生的表现相去甚远。现有技术均采用基于固定概率值的不确定数据结构，而无一针对数据误差的随机性进行建模。
[0018] 综上，现有的统计健全检验法能有效避免虚假规则，但在存在数据误差时，会明显导致真实规则的丢失。

【发明内容】

[0019] 鉴于此，本发明实施例提供了一种顾及数据不确定性的关联规则显著性检验方法及装置，W解决现有的统计健全检验法在存在数据误差时导致真实规则大量丢失的问题。
[0020] -方面，本发明实施例提供了一种顾及数据不确定性的关联规则显著性检验方法，包括：
[0021] 获取关联规则，并判断获取的所述关联规则是否为高效规则；
[0022] 若所述关联规则不为所述高效规则，则认为所述关联规则为虚假规则；
[0023] 若所述关联规则为所述高效规则，则对所述关联规则进行统计检验，并判断所得检验统计量P的值是否低于预设显著性水平，若是，则接受所述关联规则为真实规则；若否，则认为所述关联规则为虚假规则；所述统计检验涉及的每一个数据模式为若干数据项的集合，每个数据项指的是数据中一个属性中的一个类别，每个属性的误差概率分布为已知；
[0024] 所述对所述关联规则进行统计检验包括：
[0025] 对所述统计检验涉及的每一个数据模式，将其中指定数据项所对应的属性的误差概率分布表达为误差矩阵，所述误差矩阵包括指定属性的全部k个类别之间的误差分布，其中，指定属性指的是所述指定数据项对应的属性，k为大于1的整数；
[0026] 根据所述误差矩阵，对数据误差的传播进行建模，得到所述k个类别的观测支持度分布期望及方差；
[0027] 根据所估计的k个类别的观测支持度分布W及所述误差矩阵，计算所述k个类别的真实支持度估计值；
[0028] Wci表示所述统计检验涉及的数据模式中的指定数据项，将所述k个类别中的每个类别与所述数据模式中除CiW外的所有数据项求并集，得到k个并集，其中包含C 1的并集即为所述数据模式；根据所述k个类别的真实支持度估计值，W及k个并集在数据中的支持度观测值，计算所述数据模式的真实支持度估计值；
[0029] 根据所述统计检验所涉及数据模式的真实支持度估计值，计算所述统计检验的第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值，W对第一参数观测值、第二参数观测值、第Η参数观测值W及第四参数观测值受到数据误差的影响进行修正；
[0030] 根据所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值计算所述检验统计量Ρ的值。
[0031] 第二方面，本发明实施例提供了一种顾及数据不确定性的关联规则显著性检验装置，包括：
[0032] 高效规则判断单元，用于获取关联规则，并判断获取的所述关联规则是否为高效规则；
[0033] 虚假规则判定单元，用于若所述关联规则不为所述高效规则，则认为所述关联规则为虚假规则；
[0034] 检验单元，用于若所述关联规则为所述高效规则，则对所述关联规则进行统计检验，并判断所得检验统计量P的值是否低于预设显著性水平，若是，则接受所述关联规则为真实规则；若否，则认为所述关联规则为虚假规则；所述统计检验涉及的每一个数据模式为若干数据项的集合，每个数据项指的是数据中一个属性中的一个类别，每个属性的误差概率分布为已知；
[0035] 所述检验单元包括检验统计量值计算子单元，所述检验统计量值计算子单元具体用于：
[0036] 对所述统计检验涉及的每一个数据模式，将其中指定数据项所对应的属性的误差概率分布表达为误差矩阵，所述误差矩阵包括所述指定属性的全部k个类别之间的误差分布，其中，指定属性指的是所述指定数据项对应的属性，k为大于1的整数；
[0037] 根据所述误差矩阵，对数据误差的传播进行建模，得到所述k个类别的观测支持度分布期望及方差；
[0038] 根据所估计的k个类别的观测支持度分布W及所述误差矩阵，计算所述k个类别的真实支持度估计值；
[0039] Wci表示所述统计检验涉及的数据模式中的指定数据项，将所述k个类别中的每个类别与所述数据模式中除CiW外的所有数据项求并集，得到k个并集，其中包含C 1的并集即为所述数据模式；根据所述k个类别的真实支持度估计值，W及k个并集在数据中的支持度观测值，计算所述数据模式的真实支持度估计值；
[0040] 根据所述统计检验所涉及数据模式的真实支持度估计值，计算所述统计检验的第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值，W对第一参数观测值、第二参数观测值、第Η参数观测值W及第四参数观测值受到数据误差的影响进行修正；
[0041] 根据所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值计算所述检验统计量Ρ的值。
[0042] 与现有技术相比，本发明实施例的有益效果是；基于统计健全检验法，在将族错误率控制在较低水平的前提下，修正随机数据误差对统计检验运算的影响，由此显著恢复由于随机数据误差引起的统计检验结果中真实规则的丢失，大大提高了关联规则挖掘结果的可靠性。
【附图说明】
[0043] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可W根据送些附图获得其他的附图。
[0044] 图1是本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法的实现流程图；
[0045] 图2是本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法步骤 S104的具体实现流程图；
[0046] 图3是本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法中用 σ (s(c,))和Z控制确定钟化))时高估E(s(c,))的概率为任意值的示意图；
[0047] 图4是本发明实施例提供的顾及数据不确定性的关联规则显著性检验装置的结构框图。
【具体实施方式】
[0048] 为了使本发明的目的、技术方案及优点更加清楚明白，W下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用W解释本发明，并不用于限定本发明。
[0049] 图1示出了本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法的实现流程图，参照图1 :
[0050] 在步骤S101中，获取关联规则；
[005。在步骤S102中，判断获取的所述关联规则是否为高效规则，若否，执行步骤S103 ; 若是，执行步骤S104;
[0052] 在步骤S103中，认为所述关联规则为虚假规则；
[0053] 在步骤S104中，对所述关联规则进行统计显著性检验，计算检验统计量的值；
[0054] 在步骤S105中，判断步骤S104所得检验统计量的值是否低于预设显著性水平，若是，执行步骤S106 ;若否，执行步骤S103 ;
[00巧]在步骤S106中，接受所述关联规则为真实规则。
[0056] 在本发明实施例中，逐个获取待检验的关联规则。对于获取的每一个关联规则，首先判断该关联规则是否为高效规则。若该关联规则不为高效规则，则认为该关联规则为虚假规则，并删除该关联规则。若该关联规则为高效规则，则进一步对该关联规则的高效性进行统计检验，判断所得统计量的值是否低于预设显著性水平，若是，接受该关联规则为真实规则；若否，认为该关联规则为虚假规则，并删除该关联规则。在所有关联规则检验完成后，向用户展示所有真实规则。其中，预设显著性水平α可W为0.05,在此不作限定。
[0057] 图2示出了本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法步骤S104的具体实现流程图，参照图2 :
[0058] 在步骤S201中，对所述统计检验涉及的每一个数据模式，将其中指定数据项所对应的属性的误差概率分布表达为误差矩阵，所述误差矩阵包括指定属性的全部k个类别之间的误差分布，其中，指定属性指的是所述指定数据项对应的属性，k为大于1的整数。
[0059] 在本发明实施例中，将数据视为分类数据。分类数据是关联规则挖掘中最常用的两种数据之一，另一种最常用的事务数据很容易转换为分类数据，而定量数据通常先分类为分类数据再用于关联规则挖掘。
[0060] 作为本发明的一个实施例，指定属性a有k个类别1，…，k，用数据项Cl,…，Ck表示。当一条记录中a的真实分类为j时，a的值被记录为i的概率为Pij，i，j e [1，k]，则a 的误差矩阵为
[0061]
[0062] P主对角线上的元素表示i = j，即正确记录各分类的概率，其他元素均为各种数据与真实分类不符，即误差发生情况的概率。根据不确定关联规则挖掘的常用简化假设一各数据项的不确定概率表现相互独立，正确或错误记录a属性值的各种情况，其可能性在所有记录中相同，与记录中其他属性的值无关。因此，可W用单一的P对a在全体数据中的误差传播进行建模。
[0063] 在步骤S202中，根据所述误差矩阵，对数据误差的传播进行建模，得到所述k个类别的观测支持度分布期望及方差。
[0064] 对表示类别i的数据项Ci，其观测支持度S (Ci)为数据中包含Ci的记录条数，而其真实支持度s〇(Ci)为实际包含Ci的记录条数，在现实中不可知。s(Ci)与s〇(Ci)的差异即为随机数据误差的影响。对a的真值为j的Se(c,)条记录，每条记录中a的值被误记录为 i是一个概率为Pi,的伯努利实验。因此，数据中a的真值为j，而记录值为i的记录条数 S (C j- C i)服从二项分布；S (C j- C i)~B (S。(C j)，Pi.j)。由于关联规则挖掘中 S。(C j)，S。(C j) Pi.j和 s 〇(；Cj) (1-Pi.j)均较大，该分布可近似为正态分布；s(；Cj一 c i)~N(s〇(；Cj)Pi.j，s〇(；Cj) Pi.j(l-Pi.j))。因
，'而 s (Cl - c i),…，s (Ck- c i)相互独立，因此 s (Ci)也近似服从正态分布，该分布的期望和方差为
[0071] 在步骤S203中，根据所估计的k个类别的观测支持度分布W及所述误差矩阵，计算所述k个类别的真实支持度估计值。
[0072] 在步骤S204中，W Ci表示所述统计检验涉及的数据模式中的指定数据项，将所述 k个类别中的每个类别与所述数据模式中除Ci W外的所有数据项求并集，得到k个并集，其中包含Ci的并集即为所述数据模式；根据所述k个类别的真实支持度估计值，W及k个并集在数据中的支持度观测值，计算所述数据模式的真实支持度估计值。
[0073]
[0074] E(S(a)) = PS〇(a)
[00巧]等同于S〇(a) =piE(S(a))。观ilj支持度分布期望E(s(a))的值由P和S〇(a)决定，Se(a)为现实中未知的所有类别的真实支持度，因此观测支持度分布期望E(S(a))也未知。若能确定观测支持度分布期望E(S(a))的观测支持度分布期望估计值.?巧(U))，则可得真实支持度Sc(a)的真实支持度估计值;§〇悼)：
[0076]
[0077] 展开各心）二P-1史㈱础并取其第i行，可得类别i的真实支持度估计值為(C,):
[0078]
[007引其中成1为P堪（i,如位置上的元素值。
[0080] 根据对S。(Ci)进行估值的目的不同，旬:洗',))大于或小于实际E (S (C,))的概率，也即E(s(c,))被高估或低估的概率，可能需要为化1)间的任意值。对此，可取丘心((;,.))='如/.)-.却、'如/.))，Z 为常量此时我们将 s(Cj)视为 E(s(Cj))+z σ (s(Cj))，而事实上s(c,) >E(s(c,))+z。（s(c,))的概率为1-Φ(ζ)，Φ为标准正态分布的累计密度函数。句.s、(t',))大于实际E(s(c,))，即E(s(c,))被高估的情况等同于s(c,)> E(s(Cj))+z σ (s(Cj))，其概率也为 1-Φ (Ζ)，如图 3 所示。
[00引]将
中复替换为s(Cj)-z〇 (s(Cj))，再用
)代换。（S(Cj))，有
[0082]
[008引s0ki)也是未知的真值，应替换为估计值马(C/):
[0084]
[00财对全部类别的真实支持度估计值马(C,)，···，却咕）各写出形如
的等式，所有等式联立可解出马知)，…成似）。但此解法比较繁琐，且仅需一个.?0(C,)时也必须解出全部、?0似，…Jo似，浪费运算时间。事实上
右侧的可W用观测支持度ski)来近似，送对所得4((·,.)的影响很小：
[0086]
[0087] 在步骤S205中，根据所述统计检验涉及的数据模式的真实支持度估计值，计算所述统计检验的第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值，W对第一参数观测值、第二参数观测值、第Η参数观测值W及第四参数观测值受到数据误差的影响进行修正。
[008引令I为a W外的Ν个属性的集合，先将I视为无随机发生的数据误差，若存在误差则将各个存在误差的数据项比照Ci逐一处理。设I U {cj的不含Ci误差的真实支持度为 3。(1 U {cj)，而观测支持度为s(I U {cj)。基于各数据项不确定概率表现相互独立的假设，若将
申的C潜换为I U (ciK等式同样成立。因此，记由P和Z确定的、s(I U Ci)的估计真值为旬?.，/，Ρ,ζ)，有
[0089]
[0090] 费氏精确检验中的四个关键计算参数曰，b，C，d可改写为
[0091] a = S 狂 U {y})
[0092] b = S 狂)-S 狂 U {y})
[0093] C = S (狂-{Xm}) U {y}) -S 狂 U {y}),
[0094] d = s 狂-{Xm}) -s 佩-s (狂-{Xm}) U {y}) +s 狂 U {y})
[0095] 其中a表示第一参数，b表示第二参数，c表示第H参数，d表示第四参数，Xm为被检验是否兀余的项，XmE X，s表示各数据模式的观测支持度。设a~d的真值（无随机数据误差影响）为a。，b。，C。，d。，根据
所示的各关键计算参数的内容，可变化I和Ci的值，将
莖用于a~ d，得其估计真值4, 4, 4,或。4~4受误差的影响小于a~d，故使用爲~義代替a~ d计算检验值，可使检验结果更加准确。
[0096] 在步骤S206中，根据所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值计算所述检验统计量Ρ的值，即在计算检验统计量
时，使用，.的值代替a~d。嗦~
[0097] 本发明实施例提供了基于统计健全检验法的修正方法，根据统计学原理和误差传播定律，建立数学模型来描述随机数据误差在统计检验中的传播，直至对统计检验所用的关键计算参数（第一参数、第二参数、第Η参数W及第四参数）的影响。根据所建立的数学模型W及已知的随机数据误差水平可W得到关键计算参数的修正量，即相对于存在随机数据误差的数据中的观测值而言，关键计算参数的估计真值。关键计算参数的估计真值比观测值更接近真值，因此用关键计算参数的估计真值代替观测值计算检验值，可W使计算结果更加准确，有利于增加真实规则。
[0098] 优选地，步骤S205中在所述根据所述统计检验所涉及数据模式的真实支持度估计值，计算第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值时，所述方法还包括：
[0099] 使用经过随机化处理的数据进行模拟的关联规则提取，求出使所述统计检验的族错误率小于指定上限的最佳参数修正量，其中，所述最佳参数修正量为非负数；
[0100] 将所述最佳参数修正量用于计算所述第一参数估计真值W及第四参数估计真值；
[0101] 将所述最佳参数修正量的相反数用于计算所述第二参数估计真值W及第Η参数估计真值。
[0102] 计算第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值时，还需要根据用户要求的所述统计检验错误接受虚假规则的风险上限值（即指定上限），确定一最佳参数修正量。确定最佳参数修正量后，应将最佳参数修正量用于计算所述第一参数估计真值W及第四参数估计真值，而将最佳参数修正量的相反数用于计算所述第二参数估计真值W及第Η参数估计真值。
[0103] 由
可知，当曰、d值增大或b、C 值减小时，P值减小，导致真实规则和虚假规则均更可能通过检验。为了不增加虚假规则，最佳参数修正量不能令a、d增大或b、C减小，因此应使用非负的最佳参数修正量，并用岩偽,/，P:，z):修正a、山用后(c',、/，P，_:皆修正b、C。
[0104] 使用经过随机化处理的数据进行模拟的关联规则提取，求出最佳参数修正量，使在所述统计检验错误接受虚假规则的风险小于用户要求上限的前提下，统计检验有能力发现最多的正确规则。
[0105] 优选地，在所述求出使所述统计检验的族错误率小于指定上限的最佳参数修正量的过程中，所述方法还包括：
[0106] 对数据中每个属性在所有记录中的类别进行η次随机排列，其中，η为大于1的整数；
[0107] 对每一次随机排列，从随机排列后的数据中获取关联规则，取参数修正量Ζ为0，对获取的所述关联规则进行统计检验，并逐渐增大Ζ值，直至所有所述关联规则均被判定为虚假规则，并记录此时的Ζ值；
[0108] 将η次数据随机排列所得到的η个Ζ值中最大者作为所述最佳参数修正量。
[010引等式
f的最佳参参数修正量Z是控制统计检验关键计算参数修正程度的关键。Z值越小，修正程度越大，使修正检验有能力发现更多真实规则，但也增大了过度修正的可能和最终产生虚假规则的风险。如果能分析得出族错误率和Z值之间的定量关系，就可W根据用户给定的族错误率上限，直接确定所需的Z值。但族错误率和Z值的关系极度复杂，受到误差分布和数据本身的诸多不确定因素影响，几乎不可能将送些影响全部定量化，而对任何一种影响估计得很不准确，就无法确定合理的Z值。由于难W对确定修正参数所需的Z值进行上述定量分析，在本发明实施例中使用W下模拟法作为替代方案来确定Z值，使真实规则得到最大程度的增加，同时族错误率不超过用户给定的指定上限rm。、。模拟法步骤如下：
[0110] 第一步，对数据表中每一列即每一属性，将该列所有属性值随机重新排序；
[0111] 第二步，使用关联规则挖掘算法提取步骤一所得随机化数据中的关联规则，用修正方法检验所得关联规则，先取Z = 0,逐渐增加 Z值，直到所有关联规则都被拒绝，即不能通过检验；
[0112] 第Η步，将第一步和第二步重复η次，找到η次中最大的令所有关联规则被拒绝的 Ζ值。
[0113] 第一步所得的随机化数据中，各数据项支持度（数量）与实际数据相同，但失去了所有数据项间的关联。因此，从随机化数据中发现的任何关联规则均为虚假规则。除失去关联外，随机化数据保存了实际数据中的其他特征，送些特征可W用来模拟族错误率和Ζ 值关系的诸多不确定影响因素。因此，将第Η步所得的最大Ζ值用于检验从实际数据中提取的关联规则，族错误率应与模拟过程中的值处于同一水平。
[0114] 循环数η由rm。、确定。每个循环可W看作无限种数据随机化可能情况中的一个抽样，如果每次随机化后检验中接受至少一条虚假规则的概率为rm。、，则在η个"抽样"循环中，接受不多于一条虚假规则的概率为 [011 引
[0116] K表示接受虚假规则的数量。所需η值为令PHK《1)《0.5的最小正整数，也就是说，当数据误差在模拟中呈现平均程度的影响（概率为0.5)时，族错误率不高于rm。、。当给定rm。,为0. 05时，所需循环数为η = 34。虽然Z值可W使检验拒绝所有规则，但Z值再减少一个递增时的最小单位量，就会产生虚假规则，因此计算中应包括Pr化=1)。
[0117] 需要说明的是，模拟法中检验结果的族错误率取决于rm。、，而非检验所用的预设显著性水平K。不过，因为取预设显著性水平K = a/s和采用模拟法的目的均为使族错误率低于用户给定的上限bm。、或α)，因此，rm。、和α -般应取相同的值，如0.05。
[0118] 在步骤S205所述根据所述统计检验所涉及数据模式的真实支持度估计值，计算第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值时，所述方法还包括：
[0119] 根据有误差的数据项Ci在所述关联规则中的位置不同，采取不同的修正数学式计算所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值。
[0120] 对规则X - y，误差可能发生在Η种位置；Xm，y或某个XmW外的项目X。送Η 种情况下，為~或需要Η套不同的公式化表示。
[0121] 当误差项Ci在关联规则中的位置为C 1= Xm时：
[0135]
[0136] 最后，使用第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值取代原统计检验中的四个关键参数值，计算检验统计量P的值，W修正数据误差对所得P值的影响。
[0137] 进一步地，所述根据所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值计算所述检验统计量Ρ的值，其具体过程为：
[0138] 将所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值用于健全统计检验法，计算所述检验统计量Ρ的值。
[0139] 本发明实施例提供的顾及数据不确定性的关联规则显著性检验方法能明显提高关联规则挖掘结果的可靠性，在随机数据误差存在的普遍情况下，增加真实规则，严格控制虚假规则，使挖掘结果在数据分析和决策支持中更具价值。
[0140] 本发明实施例基于独创误差传播模型的统计检验参数修正，可W减少随机数据误差对统计检验计算结果的影响，弥补高达近60%由于随机数据误差造成的真实规则损失。最有实际意义的关联规则往往对误差非常敏感，此时本发明实施例就尤其有效。同时，使用模拟过程控制修正程度的机制，使虚假规则数量接近统计健全检验法达到的极低水平（族错误率巧％ )，明显优于绝大部分其他滤除虚假规则的方法（减少虚假规则比例，但族错误率仍接近100%)。
[0141] 本发明实施例已在合成数据和真实数据实验中得到验证和应用。合成数据试验的数据为计算机根据预先设计的、已知的真实规则生成，因此可W明确判断检验结果中的真实与虚假规则。在低至2%，高至36%记录包含误差的多种误差水平，W及多种数据量的情况下，运用本发明实施例提供的修正方法均比原始统计健全检验法发现更多的真实规则。修正方法的效果可W用恢复率来表示；恢复率=(修正方法发现的真实规则数-原始方法发现的真实规则数）/(无随机误差数据中发现的真实规则数-原始方法发现的真实规则数）Χ100%。原始方法和修正方法均指应用于有随机数据误差的情况。在各误差水平下，修正方法的平均恢复率约为58 %。修正方法得到的虚假规则虽也高于原始方法，但平均族错误率仅为2%，最差情况即最高误差水平下也不过5%。增加的真实规则与虚假规则数量比例约为130:1。
[0142] 真实数据实验的数据为±地利用和人口、收入等社会经济指标在1985~1999年的变化。真实数据中的真实规则未知，而模拟实验证明，统计健全检验从无误差数据中发现的真实规则族错误率不到1 %，因此借用无误差数据中发现的关联规则作为真实规则，来评估原始方法和修正方法用于有误差数据的结果。在多种误差水平下，修正方法均发现更多的真实规则。其中，包含两个年份±地利用变化（利用类型不同）的规则最有实际意义，但仅有约100条，且对误差非常敏感。原始方法导致45%~85%此类真实规则的丢失，而修正方法发现的真实规则为原始方法的2~4倍。现实中的关联规则挖掘经常与本实验相似：最重要的规则数量稀少，且对误差敏感，因此修正方法具有很高的潜在实用价值。
[0143] 应理解，在本发明实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应W其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
[0144] 本发明实施例基于统计健全检验法，在将族错误率控制在较低水平的前提下，修正随机数据误差对统计检验运算的影响，由此显著恢复由于随机数据误差引起的统计检验结果中真实规则的丢失，大大提高了关联规则挖掘结果的可靠性。
[0145] 图4示出了本发明实施例提供的顾及数据不确定性的关联规则显著性检验装置的结构框图，该装置可W用于运行图1或图2所述的顾及数据不确定性的关联规则显著性检验方法。为了便于说明，仅示出了与本发明实施例相关的部分。参照图4,所述装置包括：
[0146] 高效规则判断单元41，用于获取关联规则，并判断获取的所述关联规则是否为高效规则；
[0147] 虚假规则判定单元42,用于若所述关联规则不为所述高效规则，则认为所述关联规则为虚假规则；
[0148] 检验单元43,用于若所述关联规则为所述高效规则，则对所述关联规则进行统计检验，并判断所得检验统计量P的值是否低于预设显著性水平，若是，则接受所述关联规则为真实规则；若否，则认为所述关联规则为虚假规则；所述统计检验涉及的每一个数据模式为若干数据项的集合，每个数据项指的是数据中一个属性中的一个类别，每个属性的误差概率分布为已知；
[0149] 检验单元43包括检验统计量值计算子单元431，检验统计量值计算子单元431具体用于：
[0150] 对所述统计检验涉及的每一个数据模式，将其中指定数据项Ci所对应的属性的误差概率分布表达为误差矩阵，所述误差矩阵包括所述指定属性的全部k个类别之间的误差分布，其中，指定属性指的是所述指定数据项对应的属性，k为大于1的整数；
[0151] 根据所述误差矩阵，对数据误差的传播进行建模，得到所述k个类别的观测支持度分布期望及方差；
[0152] 根据所估计的k个类别的观测支持度分布W及所述误差矩阵，计算所述k个类别的真实支持度估计值；
[0153] Wci表示所述统计检验涉及的数据模式中的指定数据项，将所述k个类别中的每个类别与所述数据模式中除CiW外的所有数据项求并集，得到k个并集，其中包含C 1的并集即为所述数据模式；根据所述k个类别的真实支持度估计值，W及k个并集在数据中的支持度观测值，计算所述数据模式的真实支持度估计值；
[0154] 根据所述统计检验所涉及数据模式的真实支持度估计值，计算所述统计检验的第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值，W对第一参数观测值、第二参数观测值、第Η参数观测值W及第四参数观测值受到数据误差的影响进行修正；
[0155] 根据所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值计算所述检验统计量Ρ的值。
[0156] 优选地，根据实行检验统计量值计算子单元431的需求，所述装置还包括检验参数修正单元44,检验参数修正单元44用于：
[0157] 使用经过随机化处理的数据进行模拟的关联规则提取，求出使所述统计检验的族错误率小于指定上限的最佳参数修正量，其中，所述最佳参数修正量为非负数；
[0158] 将所述最佳参数修正量用于计算所述第一参数估计真值W及第四参数估计真值；
[0159] 将所述最佳参数修正量的相反数用于计算所述第二参数估计真值W及第Η参数估计真值。
[0160] 根据实行检验参数修正单元44的需求，所述装置还包括最佳参数修正量确定单元45,最佳参数修正量确定单元45用于：
[0161] 对数据中每个属性在所有记录中的类别进行η次随机排列，其中，η为大于1的整数；
[0162] 对每一次随机排列，从随机排列后的数据中获取关联规则，取参数修正量Ζ为0，对获取的所述关联规则进行统计检验，并逐渐增大Ζ值，直至所有所述关联规则均被判定为虚假规则，并记录此时的Ζ值；
[0163] 将η次数据随机排列所得到的η个Ζ值中最大者作为所述最佳参数修正量。
[0164] 进一步地，所述检验参数修正单元44还用于：
[0165] 根据Ci在所述关联规则中所处的的位置，获取与所述位置对应的修正数学式计算所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值。
[0166] 进一步地，检验统计量值计算子单元431在检验参数修正单元44、所述装置还包括最佳参数修正量确定单元45的辅助下，获取所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值后，检验统计量值计算子单元431还用于：
[0167] 将所述第一参数估计真值、第二参数估计真值、第Η参数估计真值W及第四参数估计真值用于健全统计检验法，计算所述检验统计量Ρ的值。
[016引本领域普通技术人员可W意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够W电子硬件、或者计算机软件和电子硬件的结合来实现。送些功能究竟 W硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可W对每个特定的应用来使用不同方法来实现所描述的功能，但是送种实现不应认为超出本发明的范围。
[0169] 所属领域的技术人员可W清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可W参考前述方法实施例中的对应过程，在此不再赏述。
[0170] 在本申请所提供的几个实施例中，应该理解到，所掲露的装置和方法，可W通过其它的方式实现。例如，W上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可W有另外的划分方式，例如多个单元或组件可W 结合或者可W集成到另一个系统，或一些特征可W忽略，或不执行。另一点，所显示或讨论的相互之间的禪合或直接禪合或通信连接可W是通过一些接口，单元的间接禪合或通信连接，可W是电性，机械或其它的形式。
[0171] 所述作为分离部件说明的单元可W是或者也可W不是物理上分开的，作为单元显示的部件可W是或者也可W不是物理单元，即可W位于一个地方，或者也可W分布到多个网络单元上。可W根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0172] 另外，在本发明各个实施例中的各功能单元可W集成在一个处理单元中，也可W 是各个单元单独物理存在，也可W两个或两个W上单元集成在一个单元中。
[0173] 所述功能如果W软件功能单元的形式实现并作为独立的产品销售或使用时，可W 存储在一个计算机可读取存储介质中。基于送样的理解，本发明的技术方案本质上、或者说对现有技术做出贡献的部分、或者该技术方案的部分可软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用W使得一台计算机设备（可W是个人计算机，服务器，网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括；U盘、移动硬盘、只读存储器（ROM, ReacK)nly Memo巧）、随机存取存储器 (RAM, Random Access Memory)、磁碟或者光盘等各种可W存储程序代码的介质。
[0174] W上所述，仅为本发明的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明掲露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应W所述权利要求的保护范围为准。
【主权项】
1. 一种顾及数据不确定性的关联规则显著性检验方法，其特征包括：获取关联规则，并判断获取的所述关联规则是否为高效规则；若所述关联规则不为所述高效规则，则认为所述关联规则为虚假规则；若所述关联规则为所述高效规则，则对所述关联规则进行统计检验，并判断所得检验统计量P的值是否低于预设显著性水平，若是，则接受所述关联规则为真实规则；若否，则认为所述关联规则为虚假规则；所述统计检验涉及的每一个数据模式为若干数据项的集合，每个数据项指的是数据中一个属性中的一个类别，每个属性的误差概率分布为已知；所述对所述关联规则进行统计检验，计算检验统计量的值包括：对所述统计检验涉及的每一个数据模式，将其中指定数据项所对应的属性的误差概率分布表达为误差矩阵，所述误差矩阵包括指定属性的全部k个类别之间的误差分布，其中，指定属性指的是所述指定数据项对应的属性，k为大于1的整数；根据所述误差矩阵，对数据误差的传播进行建模，得到所述k个类别的观测支持度分布期望及方差；根据所估计的k个类别的观测支持度分布以及所述误差矩阵，计算所述k个类别的真实支持度估计值；以(^表示所述统计检验涉及的数据模式中的指定数据项，将所述k个类别中的每个类别与所述数据模式中除Cl以外的所有数据项求并集，得到k个并集，其中包含C 4勺并集即为所述数据模式；根据所述k个类别的真实支持度估计值，以及k个并集在数据中的支持度观测值，计算所述数据模式的真实支持度估计值；根据所述统计检验所涉及数据模式的真实支持度估计值，计算所述统计检验的第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值，以对第一参数观测值、第二参数观测值、第三参数观测值以及第四参数观测值受到数据误差的影响进行修正；根据所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值计算所述检验统计量p的值。2. 如权利要求1所述的方法，其特征在于，在所述根据所述统计检验所涉及数据模式的真实支持度估计值，计算第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值时，所述方法还包括：使用经过随机化处理的数据进行模拟的关联规则提取，求出使所述统计检验的族错误率小于指定上限的最佳参数修正量，其中，所述最佳参数修正量为非负数；将所述最佳参数修正量用于计算所述第一参数估计真值以及第四参数估计真值；将所述最佳参数修正量的相反数用于计算所述第二参数估计真值以及第三参数估计真值。3. 如权利要求2所述的方法，其特征在于，在所述求出使所述统计检验的族错误率小于指定上限的最佳参数修正量的过程中，所述方法还包括：对数据中每个属性在所有记录中的类别进行η次随机排列，其中，η为大于1的整数；对每一次随机排列，从随机排列后的数据中获取关联规则，取参数修正量ζ为0,对获取的所述关联规则进行统计检验，并逐渐增大ζ值，直至所有所述关联规则均被判定为虚假规则，并记录此时的ζ值；将η次数据随机排列所得到的η个z值中最大者作为所述最佳参数修正量。4. 如权利要求2所述的方法，其特征在于，在所述根据所述统计检验所涉及数据模式的真实支持度估计值，计算第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值时，所述方法还包括：根据Cl在所述关联规则中所处的的位置，获取与所述位置对应的修正数学式计算所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值。5. 如权利要求1所述的方法，其特征在于，所述根据所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值计算所述检验统计量P的值，其具体过程为：将所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值用于健全统计检验法，计算所述检验统计量P的值。6. -种顾及数据不确定性的关联规则显著性检验装置，其特征包括：高效规则判断单元，用于获取关联规则，并判断获取的所述关联规则是否为高效规则；虚假规则判定单元，用于若所述关联规则不为所述高效规则，则认为所述关联规则为虚假规则；检验单元，用于若所述关联规则为所述高效规则，则对所述关联规则进行统计检验，并判断所得检验统计量P的值是否低于预设显著性水平，若是，则接受所述关联规则为真实规则；若否，则认为所述关联规则为虚假规则；所述统计检验涉及的每一个数据模式为若干数据项的集合，每个数据项指的是数据中一个属性中的一个类别，每个属性的误差概率分布为已知；所述检验单元包括检验统计量值计算子单元，所述检验统计量值计算子单元具体用于：对所述统计检验涉及的每一个数据模式，将其中指定数据项所对应的属性的误差概率分布表达为误差矩阵，所述误差矩阵包括所述指定属性的全部k个类别之间的误差分布，其中，指定属性指的是所述指定数据项对应的属性，k为大于1的整数；根据所述误差矩阵，对数据误差的传播进行建模，得到所述k个类别的观测支持度分布期望及方差；根据所估计的k个类别的观测支持度分布以及所述误差矩阵，计算所述k个类别的真实支持度估计值；以^表示所述统计检验涉及的数据模式中的指定数据项，将所述k个类别中的每个类别与所述数据模式中除Cl以外的所有数据项求并集，得到k个并集，其中包含c』勺并集即为所述数据模式；根据所述k个类别的真实支持度估计值，以及k个并集在数据中的支持度观测值，计算所述数据模式的真实支持度估计值；根据所述统计检验所涉及数据模式的真实支持度估计值，计算所述统计检验的第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值，以对第一参数观测值、第二参数观测值、第三参数观测值以及第四参数观测值受到数据误差的影响进行修正；根据所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值计算所述检验统计量P的值。7. 如权利要求6所述的装置，其特征在于，所述装置还包括检验参数修正单元，所述检验参数修正单元用于：使用经过随机化处理的数据进行模拟的关联规则提取，求出使所述统计检验的族错误率小于指定上限的最佳参数修正量，其中，所述最佳参数修正量为非负数；将所述最佳参数修正量用于计算所述第一参数估计真值以及第四参数估计真值；将所述最佳参数修正量的相反数用于计算所述第二参数估计真值以及第三参数估计真值。8. 如权利要求7所述的装置，其特征在于，所述装置还包括最佳参数修正量确定单元，所述最佳参数修正量确定单元用于：对数据中每个属性在所有记录中的类别进行η次随机排列，其中，η为大于1的整数；对每一次随机排列，从随机排列后的数据中获取关联规则，取参数修正量ζ为0,对获取的所述关联规则进行统计检验，并逐渐增大ζ值，直至所有所述关联规则均被判定为虚假规则，并记录此时的ζ值；将η次数据随机排列所得到的η个ζ值中最大者作为所述最佳参数修正量。9. 如权利要求7所述的装置，其特征在于，所述检验参数修正单元还用于：根据Cl在所述关联规则中所处的的位置，获取与所述位置对应的修正数学式计算所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值。10. 如权利要求6所述的装置，其特征在于，所述检验统计量值计算子单元具体用于：将所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值用于健全统计检验法，计算所述检验统计量P的值。
【文档编号】G06F17/30GK105989095SQ201510076329
【公开日】2016年10月5日
【申请日】2015年2月12日
【发明人】史文中, 张安舒
【申请人】香港理工大学深圳研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：史文中;张安舒;
技术所有人：香港理工大学深圳研究院;
我是此专利的发明人

上一篇：账号信息的清理方法及装置的制造方法
上一篇：敏感词的自动发现方法及其装置和应用

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。