项集挖掘方法及装置的制造方法

文档序号:10665783阅读:512来源:国知局
项集挖掘方法及装置的制造方法【专利摘要】本发明公开了一种项集挖掘方法及装置,属于数据挖掘领域。所述方法包括:获取自定义的权重和最低期望权重阈值ε;根据数据项的发生概率和权重,计算不确定性数据库D中的项集的项权重概率上限iubwp,将iubwp≥|D|*ε的项集挖掘为高期望权重上限项集HUBEWI;计算每个HUBEWI的期望权重支持度expWSup,将expWSup≥|D|*ε的HUBEWI挖掘为高权重项集HEWI。本发明通过计算项集的项权重概率上限得到高期望权重上限项集,再计算高期望权重上限项集的期望权重支持度获取高权重项集,以少量计算量先挖掘出高期望权重上限项集作为候选项集,缩小高权重项集的挖掘范围,解决了挖掘高权重项集只能处理精确数据,尚无针对不确定性数据库的高权重项集挖掘技术的问题,达到了提高挖掘的效能的效果。【专利说明】项集挖掘方法及装置
技术领域
[0001]本发明涉及数据挖掘领域,特别涉及一种项集挖掘方法及装置。【
背景技术
】[0002]不确定性数据库(英文〖uncertaindatabase)中通常包括有至少一个事务(英文:transaction),每个事务中包括至少一个数据项(英文:item),比如,一条关于天气记录的事务中,包括天气类型、湿度和温度等数据项。每个数据项有各自对应的发生概率。[0003]目前现有的一种数据挖掘方法中,用户自定义对每个数据项的权重,然后根据每个数据项的权重,从精确数据库中的各个数据项集(itemset)中挖掘高频繁权重项集(英文:HighFrequentWeightedItemset,简称:HFWI)。项集是由至少一个数据项构成的集合,用于表征精确数据库中内在的一种关联规则。[0004]在实现本发明的过程中,发明人发现现有技术至少存在以下问题:目前的相关数据挖掘方法,只能处理精确数据,并没考虑到现实应用中普遍存在的不确定性数据,尚无能有效处理不确定性数据的高权重项集挖掘技术的提出,而且需要计算每个数据项集的期望权重支持度,计算量较大,从而导致挖掘高权重项集的效率较低,占用了计算机的大量处理内存。【
发明内容】[0005]为了解决无法针对不确定性数据挖掘高权重项集的问题,本发明实施例提供了一种项集挖掘方法及装置。所述技术方案如下:[0006]第一方面,提供了一种项集挖掘方法,该方法包括:[0007]获取自定义的权重和最低期望权重阈值ε,该权重是不确定性数据库D中的数据项所对应的权重,该不确定性数据库D包括至少一个事务,每个事务包括至少一个数据项;[0008]根据该数据项的发生概率和该权重,计算该不确定性数据库D中的候选项集的项权重概率上限iubwp,将该iubwp彡|D|*ε的项集挖掘为高期望权重上限项集HUBEWI;该项集是包括至少一个数据项的集合,该|D|是该不确定性数据库D中的事务总数;[0009]计算每个HUBEWI的期望权重支持度expWSup,将该expWSup多该|D|*ε的HUBEWI挖掘为高权重项集HEWI。[0010]第二方面,提供了一种项集挖掘装置,该装置包括:[0011]获取模块,用于获取自定义的权重和最低期望权重阈值ε,该权重是不确定性数据库D中的数据项所对应的权重,该不确定性数据库D包括至少一个事务,每个事务包括至少一个数据项;[0012]第一计算模块,用于根据该数据项的发生概率和该权重,计算该不确定性数据库D中的项集的项权重概率上限iubwp,将该iubwp彡|D|*ε的项集挖掘为高期望权重上限项集HUBEWI;该项集是包括至少一个数据项的集合,该|D|是该不确定性数据库D中的事务总数;[0013]第二计算模块,用于计算每个HUBEWI的期望权重支持度expWSup,将该expWSup彡该IDI*ε的HUBEWI挖掘为高权重项集HEWI。[0014]本发明实施例提供的技术方案带来的有益效果是:[0015]通过计算各个项集的项权重概率上限得到高期望权重上限项集,再计算高期望权重上限项集的期望权重支持度来获取高权重项集,以少量计算量先挖掘出高期望权重上限项集作为候选项集,从而缩小高权重项集的挖掘范围,解决了现有技术中挖掘高权重项集只能处理精确数据,尚无针对不确定性数据库的高权重项集挖掘技术的问题,达到了提高挖掘的效能的效果。【附图说明】[0016]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0017]图1示出了本发明一个实施例提供的项集挖掘方法的方法流程图;[0018]图2Α示出了本发明另一个实施例提供的项集挖掘方法的方法流程图;[0019]图2Β示出了本发明另一个实施例提供的项集挖掘方法的方法流程图;[0020]图2C示出了本发明一个实施例提供的(k+l)_项集生成方法的示意图;[0021]图3示出了本发明一个实施例提供的项集挖掘装置的装置结构示意图;[0022]图4示出了本发明另一个实施例提供的项集挖掘装置的装置结构示意图。【具体实施方式】[0023]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0024]为了便于对本发明实施例进行说明,预先对本发明实施例涉及的基本概念进行如下介绍:[0025]l、transaction(事务):指数据库中的一条记录。比如,当数据库中记录的是超市商品的购买记录,则数据库中的每一个事务对应商品的购买记录,该购买记录中包含购买商品的数量和名称等信息。[0026]2、item(数据项):事务中记录的每条信息项目,且一个事务中包含至少一个数据项。比如,当数据库中的事务对应顾客的购买记录时,事务中的数据项则可以是购买记录中,购买商品的数量和名称等信息。[0027]3、itemset(项集):至少一个数据项构成的集合,用于表征数据库内在的一种关联规则。事务与项集的不同的点是,事务通常是由实际的事件所触发生成的数据库中的记录;而项集通常是从数据库挖掘而出的,并不一定有实际的含义。[0028]4、k-itemSet(k-项集):包含有k个数据项的集合。比如,1-项集可以为A,即只包含数据项A;2_项集可以为AB,即包含数据项A和B。[0029]5、D(UncertainDatabases,不确定性数据库):指存储的事务中的数据项存在一定发生概率的数据库。[0030]一种示意性的不确定性数据库的结构如表一所示。比如,不确定性数据库中记录的是未来天气情况,则数据库中每一种天气情况对应一个发生概率,即不确定性数据库中的每个事务对应一个发生概率。[0031]表一[0032][0033]6、TID(transactionID,事务标识):用于在同一个不确定性数据库中区别不同的事务。比如,排在不确定性数据库第一行的事务为T1,第二行的事务为T2。[0034]7、itemweightinatransaction(项集在事务中的项集权重):项集在事务中的项集权重等于组成项集的各个数据项在事务中的权重的平均值,用于表示项集在事务中的重要程度。[0035]8、itemweightinD(项集在不确定性数据库中的项集权重):项集在不确定性数据库中的项集权重等于项集在事务中的项集权重,用于表示项集在不确定性数据库中的重要程度。[0036]比如,在表一示出的不确定性数据库D中,包括4、8、(:、0346个数据项,假设用户自定义设置的这6个数据项的权重表(weight-talbe)w-table为:[0037]{w(A)=0.2,w(B)=0.75,w(C)=0.9,w(D)=1.0,w(E)=0.55,w(F)=0.3,}[0038]9、itemprobabilityinatransaction(项集在事务中的项集概率):项集在事务中的项集概率等于组成项集的各个数据项在事务中的发生概率的乘积,用于表示项集在事务中的发生概率。[0039]10、expSup(Expectedsupport,期望支持度):项集的期望支持度等于项集在包含该项集的各个事务中的项集概率之和。[0040]ll、expWSup(Expectedweightedsupport,期望权重支持度):项集的期望权重支持度等于项集的期望支持度与项集在不确定性数据库中的项集权重的乘积。[0041]12、HEWI(HighExpectedWeightedItemset,高权重项集):若项集的期望权重支持度大于或等于最低期望权重阈值与不确定性数据库中事务总数的乘积,则将该项集确定为高权重项集。[0042]13、tubw(Transactionupper-boundweight,事务权重上限):事务的事务权重上限等于事务包括的各个项集在不确定性数据库的项集权重中的最大值。[0043]14、tubp(Transactionupper-boundprobability,事务概率上限):事务的事务概率上限等于事务包括的各个项集的发生概率的最大值。[0044]15、tubwp(Transactionupper-boundweightedprobability,事务权重概率上限):事务权重概率上限等于事务的事务概率上限与事务权重上限的乘积。[0045]16、iubwp(Itemupper-boundweightedprobability,项权重概率上限):项集的项权重概率上限等于包含该项集的各事务的事务权重概率上限之和。[0046]17、HUBEWI(Highupper-boundexpectedweighteditemset,高期望权重上限项集):若项集的项权重概率上限大于或等于最低期望权重阈值与不确定性数据库中事务总数的乘积,则将该项集确定为高期望权重上限项集。[0047]本发明实施例还提供了以下规则:[0048]1、在一个事务中,任何项集的权重均小于或等于该事务的事务权重上限,即:[0049][0050]在上式中,X用于表示项集,Tq用于表示不确定性数据库D包括的事务,i,用于表示项集X包括的数据项,|k|用于表示项集X包括的数据项的个数,w(X,Tq)用于表示项集X在事务Tq的项集权重,W(ij,Tq)用于表示项集X包括的数据项在事务Tq的权重,tubw(Tq)用于表示事务Tq的事务权重上限。[0051]2、在一个事务中,任何项集的项集概率均小于或等于该事务的事务概率上限,即:[0052]p(X,Tq)<tubp(Tq)。[0053]在上式中,p(X,Tq)用于表示项集X的在事务Tq的项集概率,tubp(Tq)用于表示事务Tq的事务权重上限。[0054]3nHUBEWDCproperty(Highupper-boundexpectedweighteddownwardclosureproperty,向下闭合的高期望权重上限属性):如果一个项集是高期望权重上限项集,那么该项集的任何一个子集也是高期望权重上限项集。[0055]4、高权重项集属于高期望权重上限项集,即:[0056][0057]在上式中,HEWIs用于表示高权重项集,HUBEWIs用于表示高期望权重上限项集。[0058]请参考图1,其示出了本发明一个实施例提供的项集挖掘方法的方法流程图。参见图1,该方法包括:[0059]步骤101,获取自定义的权重和最低期望权重阈值ε,该权重是不确定性数据库D中的数据项所对应的权重,该不确定性数据库D包括至少一个事务,每个事务包括至少一个数据项。[0060]步骤102,根据数据项的发生概率和权重,计算不确定性数据库D中的项集的项权重概率上限iubwp,将该iubwp彡|D|*ε的项集挖掘为高期望权重上限项集HUBEWI;该项集是包括至少一个数据项的集合,该|D|是不确定性数据库D中的事务总数。[0061]步骤103,计算每个HUBEWI的期望权重支持度expWSup,将expWSup彡|D|*ε的HUBEWI挖掘为高权重项集HEWI。[0062]综上所述,本发明实施例提供的方法,通过计算各个项集的项权重概率上限得到高期望权重上限项集,再计算高期望权重上限项集的期望权重支持度来获取高权重项集,以少量计算量先挖掘出高期望权重上限项集作为候选项集,从而缩小高权重项集的挖掘范围,解决了现有技术中挖掘高权重项集只能处理精确数据,尚无针对不确定性数据库的高权重项集挖掘技术的问题,达到了提高挖掘的效能的效果。[0063]请参考图2Α,其示出了本发明另一个实施例提供的项集挖掘方法的方法流程图。参见图2Α,该方法包括:[0064]步骤201,获取自定义的权重和最低期望权重阈值ε,该权重是不确定性数据库D中的数据项所对应的权重,该不确定性数据库D包括至少一个事务,每个事务包括至少一个数据项。[0065]不确定性数据库D是指存储的事务中的数据项存在一定发生概率的数据库,该不确定性数据库D包括至少一个事务,每个事务包括至少一个数据项。[0066]比如,在表一示出的不确定性数据库D中,包括了10个事务和A、B、C、D、E、F6个数据项,以及各个数据项在各个事务中的发生概率。[0067]用户可以根据实际挖掘需要,自定义设置各个数据项的权重和最低期望权重阈值ε〇[0068]比如,当用户需要挖掘的不确定性数据库D中记录的是未来天气情况,即不确定性数据库中每个事务包含的数据项可以是天气类型及天气类型对应的发生概率。用户可以根据对不确定性数据库中的各种数据项的重视程度设置各个数据项的权重。假如用户对数据项Α非常重视,则可以将数据项Α的权重设置得较高。[0069]为了保证挖掘的项集具有较高的发生概率,用户可以将最低期望权重阈值ε设置的较大。[0070]在本发明实施例中,为了区分不同的事务,还为每个事务设置一个TID(TransactionIdentity,事务标识),该事务标识TID用于确定对应的事务。[0071]比如,表一中事务标识1对应的事务为(A,0.25),(C,0.4),(E,1.0)。[0072]步骤202,根据数据项的发生概率和该权重,计算不确定性数据库D中的项集的项权重概率上限iubwp,将该iubwp彡|D|*ε的项集挖掘为高期望权重上限项集HUBEWI;该项集是包括至少一个数据项的集合,该|D|是该不确定性数据库D中的事务总数。[0073]用户需要从不确定性数据库中挖掘出符合要求的k_项集。[0074]在本发明实施例中,定义k_项集是包含k个数据项的集合,k彡1,比如,{A,B,C}包含了3个数据项,则{A,B,C}是一个3-项集。[0075]其中,当k=1时,该1-项集即为一个数据项,比如,{A}即为一个1-项集。[0076]定义k-项集中每个数据项在包含该k-项集的事务中的权重之和除以k的值,为该k-项集在包含该k-项集的事务中的项集权重,即:[0077][0078]在上式中,X用于表示该k_项集,Tq用于表示不确定性数据库D包括的事务,i^用于表示项集X包括的数据项,|k|用于表示项集X包括的数据项的个数,w(X,Tq)用于表示项集X在事务Tq的项集权重,W(ij,Tq)用于表示项集X包括的数据项在事务Tq的权重。[0079]比如,根据表一示出的不确定性数据库D,以k-项集为3-项集{A,C,E}为例,项集{A,C,E}的项集权重为:[0080]w(ACE)=w(ACE,I\)=(w(A,I\)+w(C,I\)+w(C,?\))/3[0081]=(0.2+0.9+0.55)/3[0082]=0.55[0083]定义k-项集中每个数据项在包含k-项集的事务中的发生概率的乘积,为该k-项集在每个事务中的项集概率,SP:[0084][0085]在上式中,X用于表示该k_项集,ij用于表示该k_项集包括的数据项,p(X,Tq)用于表示项集X的在事务Tq的项集概率,P(i,,Tq)用于表示该k-项集包括的数据项在事务Tq的发生概率。[0086]比如,根据表一示出的不确定性数据库D,以k-项集为3-项集{A,C,E}为例,3-项集{A,C,E}在事务T1中的项集概率为:[0087]p(ACE,I\)=p(A,?\)Xp(C,?\)Xp(E,?\)[0088]=0.25X0.4X1.0[0089]=0.1[0090]首先,定义事务的事务权重概率上限tubwp等于事务的事务权重上限tubw和事务概率上限tubp的乘积,即对于每个事务,其对应:[0091]tubwp(Tq)=tubw(Tq)Xtubp(Tq)[0092]在上式中,tubwp(Tq)用于表示事务Tq的事务权重概率上限,tubw(Tq)用于表示事务Tq的事务权重上限,tUbp(Tq)用于表示事务Tq的事务概率上限。[0093]其中,事务权重上限tubw为事务包括的各个数据项的权重的最大值,事务概率上限tubp为事务包括的各个数据项的发生概率的最大值。[0094]根据以上定义,在获取了不确定性数据库D中用户自定义的每个数据项的权重和每个数据项的发生概率后,可以计算出每个事物的事务权重概率上限tubwp。[0095]根据表一示出的不确定性数据库D和用户自定义的权重表w-table,计算得到事务T1的事务权重概率上限tubwp为:[0096]tubwp(I\)=tubw(?\)Xtubp(?\)=0·9X1.0=0·9[0097]在上式中,?\用于表示不确定性数据库D中事务标识为1的事务,tubwp(TJ用于表示事务!\的事务权重概率上限。[0098]步骤203,对于每个k-项集,根据包含有该k-项集的事务的tubwp,计算该k-项集的项权重概率上限iubwp,该k-项集是包含k个数据项的集合,k多1。[0099]首先,定义k-项集的项权重概率上限iubwp为不确定性数据库D中,所有包括该k_项集的事务的事务权重概率上限tubwp之和。[0100]即:[0101][0102]在上式中,X用于表示k_项集,iubwp(X)用于表示k_项集的项权重概率上限。[0103]其中,该步骤可以被替换为步骤203a,如图2B所示,在图2B中:[0104]步骤203a:对于每个k-项集,将包含该k-项集的每个事务的tubwp之和,确定为该k-项集的项权重概率上限iubwp。[0105]对于每个k-项集,首先,从不确定性数据库D中确定包括该k-项集的各个事务。[0106]比如,以k-项集为3-项集{A,C,E}为例,在表一示出不确定性数据库D中,1\、T2、T3包括了3-项集{A,C,E}。[0107]其次,根据权重概率上限iubwp的定义,将确定的包括该k-项集的各个事务的事务权重概率上限tubwp相加,得到该k-项集的权重概率上限iubwp。[0108]比如,根据表一示出的不确定性数据库D,以k-项集为3-项集{A,C,E}为例,计算{A,C,E}的项权重概率上限为:[0109]iubwp(ACE)=tubwp(T^+tubwp(Τ3)+tubwp(Τ10)[0110]=0.9+0.9+0.9=2.7[0111]在上式中,iubwp(ACE)用于表示3-项集{Α,C,Ε}的项权重概率上限,tubwp(?\)用于表示事务!\的事务权重概率上限,tubwp(Τ2)用于表示事务1~2的事务权重概率上限,tubwp(Τ3)用于表示事务1~3的事务权重概率上限。[0112]根据表一示出的不确定性数据库D和不确定性数据库D中各个事务的事务权重概率上限tubwp,得到的各个1-项集的项概率权重上限iubwp如表二:[0113]表二[0114][0115]步骤204,将iubwp彡该IDI*ε的k-项集添加到第k组HUBEWI中。[0116]首先,定义iubwp彡|D|*ε的k-项集为高期望权重上限项集HUBEWI,其中,该|D是不确定性数据库D中的事务总数。[0117]根据该定义,对于每个k-项集,在计算出该k-项集的项权重概率上限iubwp后,比较该不确定性数据库D中的事务总数|D|与ε的乘积与该k-项集的项权重概率上限iubwp的大小,若该k-项集的iubwp彡|D|*ε,则将该k-项集添加到第k组高期望权重上限项集HUBEWI中。[0118]比如,以k=1为例,设1-项集为{A}。假设ε为10%,计算出1-项集{A}的项权重概率上限iubwp为3.6,不确定性数据库D中的事务总数|D|为10。由于iubwp(Α)=3.6>10%X10,因此,可以将{A}添加到第1组高期望权重上限项集HUBEWI中。[0119]根据表二示出的各个1-项集的项概率权重上限iubwp,设ε为45%,得到iubwp彡|D|*ε的1-项集如表三:[0120]表三[0121][0122]步骤205,当第k组HUBEWI不组HUBEWI中的k-项集自连接生成(k+1)-项集,该(k+1)-项集是该k-项集的超集,该(k+l)_项集是包含k+Ι个数据项的项集。[0123]当第k组HUBEWI不为空时,按照第k候选项集中项集的排列顺序,将每个项集与排在该项集之后的项集进行合并且去重后,生成一个(k+l)_项集。[0124]比如,当第1候选项集中包含的项集为A、B、C、D和E时,且排列顺序为A-B-C-D-E时,自连接生成的2-项集即为AB、AC、AD、AE、BC、BD、BE、CD、CE和DE。[0125]又比如,当第2候选项集为AC、AD、AE、BE、⑶和CE时,生成的3-项集即为A⑶、ACE、ABE、BCE和CDE。[0126]为了方便理解,结合图2C,以第1候选项集中包含的项集为{A}、{B}、{C}、{D}、{E}为例对k-项集自连接生成(k+l)_项集的过程进行说明。[0127](1)将每个数据项分别构成第一候选项集,则得到的第一候选项集为{A}、{B}、{C}、{D}、{E},分别计算这5个第一候选项集的项权重概率上限iubwp,判断每个第一候选项集是否满足iubwp彡|D|*ε。[0128](2)假设5个第一候选项集都满足iubwp彡|D|*e,则获取每个第一候选项集的真超集,得到第二候选项集,则根据第一候选项集{A}得到第二候选项集{AB}、{AC}、{AD}、{AE},根据第一候选项集{A}得到第二候选项集{BC}、{BD}、{BE},根据第一候选项集{C}得到第二候选项集{CD}、{CE},根据第一候选项集{D}得到第二候选项集{DE}。分别计算这10个第二候选项集的项权重概率上限iubwp,判断每个第二候选项集是否满足iubwp多|D|*ε。[0129](3)假设这10个第二候选项集中的项集{AC}不满足iubwp彡|D|*e,则可以确定项集{AC}的真超集{ABC}、{ACD}、{ACE}、{ABCD}、{ABCE}、{ABCDE}都不满足iubwp多|D|*ε。[0130]对于除项集{AC}之外的第二候选项集,获取这些第二候选项集的真超集中不包含项集{AC}的项集,得到第三候选项集。则根据第二候选项集{ΑΒ}得到第三候选项集{ABD}、{ABE},根据第二候选项集{AD}得到第三候选项集{ADE},根据第二候选项集{BC}得到第三候选项集{BCE},根据第二候选项集{BD}得到第三候选项集{BDE},根据第二候选项集ICD}得到第三候选项集ICDE}。分别计算这7个第三候选项集的项权重概率上限iubwp,判断每个第三候选项集是否满足iubwp彡|D|*ε。[0131](4)假设这7个第三候选项集中的项集{BCD}不满足iubwp彡|D|*ε,则可以确定项集出⑶}的真超集{Β⑶Ε}不满足iubwp彡|D|*ε,可以直接过滤掉。[0132]对于除项集{Β⑶}之外的第三候选项集,获取这些第三候选项集的真超集中不包含项集{AC}和{BCD}的项集,得到第四候选项集,则根据第三候选项集{ABD}得到第四候选项集{ABDE}。[0133](5)计算第四候选项集{ABDE}的项权重概率上限iubwp,判断第四候选项集{ABDE}是否满足iubwp彡|D|*ε。[0134]为了方便理解,在图2C中,用斜线对不满足iubwp彡|D|*e的候选集进行了标识,以网格线对不满足iubwp彡|D|*ε的候选集的真超集进行了标识。[0135]显而易见的,根据上述步骤204将不满足iubwp彡|D|*ε的k-项集进行过滤,使得根据第k候选项集中的k-项集自连接生成(k+1)-项集数量远小于不确定性数据库中包含的(k+l)_项集的总数,从而达到了缩小挖掘范围的效果。[0136]对每个k_项集的项权重概率上限iubwp与|D|*e的大小判断过程完成后,可以检测第k组HUBEWI中是否存在k-项集,若检测到第k组HUBEWI中存在k-项集,则生成各个k-项集的超集(k+Ι)-项集。[0137]比如,当k为1时,若检测到第1组HUBEWI中存在1-项集,则生成各个1-项集的超集2-项集。若检测到第1组HUBEWI中的1-项集分别为{A}、{B}、{F},则生成的2-项集为{A,B}、{A,F}、{B,F}。在本发明实施例中,可使用Q的算法生成k-项集的超集(k+Ι)-项集,其中,HUBEWIk为第k组HUBEWI。[0138]需要说明的是,若当该第k组HUBEWI为空时,则无法生成(k+Ι)-项集,执行步骤207〇[0139]比如,根据表三示出的的1-项集,自连接生成的2-项集即为:{BC}、{BD}、{BF}、{CD}、{CF}、{DF}。[0140]继续计算{BC}、{BD}、{BF}、{CD}、{CF}、{DF}的项概率权重上限iubwp如表四:[0141]表四[0142][0143][0144]根据表四示出的2-项集{BC}、{BD}、{BF}、{CD}、{CF}、{DF}的项概率权重上限iubwp,计算得到满足iubwp彡IDI*ε=4·5的2-项集为{BC}。[0145]此时,根据{BC}无法获取3-项集,因此,第3组HUBEWI为空,无法生成(k+1)-项集,执行步骤207。[0146]根据上述不确定性数据库D中k_项集的描述,本发明实施例得出了一个k_项集的高期望权重上限的向下闭合属性HUBEWDCproperty,该属性为:如果一个k-项集是高期望权重上限项集HUBEWI,则该k-项集的任何一个子集也是高期望权重上限项集HUBEWI,即:[0147]iubwp(Xk)iubwp(Xk[0148]该属性的证明方式如下:[0149]设Xk为一个k_项集,该k_项集的子集为Xk\由于dk,则包含Xk1的事务包括了包含Xk的事务,因此:「01501[0151]通过该属性,可以推导出:假如k-项集为高期望权重上限项集HUBEWI,那么该k_项集的超集(k+l)_项集也可能是高期望权重上限项集HUBEWI;若k-项集不是高期望权重上限项集HUBEWI,那么该k-项集的超集(k+Ι)-项集也不可能是高期望权重上限项集HUBEWI〇[0152]步骤206,将k更新为k+1,再次执行根据该对于每个k-项集,根据包含有该k-项集的事务的tubwp,计算该k-项集的项权重概率上限iubwp的步骤。[0153]若第k组高期望权重上限项集HUBEWI不为空,则还需要执行步骤203计算新生成的(k+Ι)-项集的项权重概率上限iubwp,从而从新生成的(k+Ι)-项集中继续确定高期望权重上限项集HUBEWI,直到获取不到候选项集。[0154]步骤207,对于每个HUBEWI,计算该HUBEWI在包含有该HUBEWI的事务中的项集权重,将该项集权重确定为该HUBEWI在不确定性数据库D的项集权重。[0155]在获取了所有高期望权重上限项集HUBEWI后,对于高期望权重上限项集HUBEWI,可以计算该高期望权重上限项集HUBEWI在包含有该高期望权重上限项集HUBEWI的事务中的项集权重。[0156]由于高期望权重上限项集HUBEWI为k-项集,因此可以根据k-项集的项集权重计算方法计算高期望权重上限项集HUBEWI在包含有该高期望权重上限项集HUBEWI的事务中的项集权重。[0157]其中,k-项集的项集权重计算方法已在步骤202a中示出,此处不做赘述。[0158]需要说明的是,由于在获取高期望权重上限项集HUBEWI时,已经计算了高期望权重上限项集HUBEWI中各个k-项集在各个事务中的项集权重,因此,也可以直接从存储的项集权重中,获取高期望权重上限项集HUBEWI在包含有该高期望权重上限项集HUBEWI的事务中的项集权重。[0159]步骤208,获取HUBEWI在包含有该HUBEWI的事务中的项集概率。[0160]在获取了所有高期望权重上限项集HUBEWI后,对于高期望权重上限项集HUBEWI,可以计算该高期望权重上限项集HUBEWI在包含有该高期望权重上限项集HUBEWI的事务中的项集权重。[0161]由于高期望权重上限项集HUBEWI为k-项集,因此可以根据k-项集的项集概率计算方法计算高期望权重上限项集HUBEWI在包含有该高期望权重上限项集HUBEWI的事务中的项集概率。[0162]需要说明的是,由于在获取高期望权重上限项集HUBEWI时,已经计算了高期望权重上限项集HUBEWI中各个k-项集在各个事务中的项集概率,因此,也可以直接从存储的项集概率中,获取高期望权重上限项集HUBEWI在包含有该高期望权重上限项集HUBEWI的事务中的项集概率。[0163]步骤209,将HUBEWI在所有包含有该HUBEWI的事务中的项集概率之和,确定为该HUBEWI的期望支持度expSup。[0164]首先,对于每个HUBEWI中的k-项集,定义该k-项集在每个包含有该k-项集的事务中的项集概率之和为该k-项集的期望支持度exoSuD,即:[0165][0166]在上式中,expSup(X)用于表示k-项集X的期望支持度。[0167]比如,以3-项集{A,C,E}为例进行说明,计算得到的{A,C,E}的期望支持度expSup为:[0168]expSup(ACE)=p(ACE,+p(ACE,T3)+p(ACE,T10)[0169]=0.1+0.63+0.306[0170]=1.036[0171]步骤210,根据项集权重与expSup,计算HUBEWI的期望权重支持度expWSup。[0172]对于每个HUBEWI中的k-项集,定义该k-项集的期望支持度expSup与该k-项集在不确定性数据库D的项集权重的乘积为该k-项集的期望权重支持度expWSup,即:[0173][0174]比如,以3-项集{A,C,E}为例进行说明,计算得到的{A,C,E}的期望权重支持度expWSup为:[0175]expffSup(ACE)=w(ACE)XexpSup(ACE)[0176]=0.55X1.036[0177]=0.5698[0178]步骤211,若expWSup彡该|D|*ε,则将HUBEWI挖掘为高权重项集HEWI。[0179]对于每个HUBEWI中的k-项集,首先比较该k-项集的期望权重支持度expWSup与IDI*ε的大小,若该k-项集的期望权重支持度expWSup大于或等于IDI*ε,则将该k-项集确定为高权重项集HEWI。[0180]SP,当每个HUBEWI中的k-项集满足:[0181]expWSup(X)多εX|D|[0182]则将该k-项集确定为高权重项集HEWI。[0183]根据高期望权重上限的向下闭合属性HUBEWDCproperty,本发明实施例提出了一个定理:高权重项集HEWI属于高期望权重上限项集。[0184]该定理的证明方式如下:[0185]由于W(X)=W(X,Tq),w(X,Tq)彡tubw(Tq),并且p(X,Tq)彡tubp(Tq),则:[0186][0187]在上式中,expWSup(X)用于表示k-项集X的期望权重支持度。[0188]因此,如果一个项集不是不确定性数据库D中的高期望权重上限项集HUBEWI,那么该项集也不可能是该不确定性数据库D中的高权重项集HEWI。[0189]本发明实施例通过使用该定理,在确定了单个数据项,即1-项集中的高期望权重上限项集HUBEWI后,只需要对计算出的k-项集的超集(k+l)_项集继续进行项集挖掘,从而极大缩小了从不确定性数据库中挖掘高期望权重数据项的挖掘范围。[0190]由于现有的高权重项集HWI挖掘方法不但不适用于处理不确定性数据库,而且需要的计算量极大。而本发明实施例提出的方法,通过计算不确定性数据库D中的各个项集的项权重概率上限iubwp,从而将项权重概率上限iubwp不满足iubwp彡|D|*ε的项集除去,即,通过很少计算量即可除去大部分的高权重项集HEWI,从而能够缩小挖掘高权重项集的范围,减少确定高权重项集HEWI时需要的计算量。[0191]综上所述,本发明实施例提供的方法,通过计算各个项集的项权重概率上限得到高期望权重上限项集,再计算高期望权重上限项集的期望权重支持度来获取高权重项集,以少量计算量先挖掘出高期望权重上限项集作为候选项集,从而缩小高权重项集的挖掘范围,解决了现有技术中挖掘高权重项集只能处理精确数据,尚无针对不确定性数据库的高权重项集挖掘技术的问题,达到了提高挖掘的效能的效果。[0192]需要说明的一点是,上述步骤202,根据各个数据项的发生概率和该权重,计算每个事务的事务权重概率上限tubwp,具体可以包括步骤202a和步骤202b,如图2B所示,在图2B中:[0193]步骤202a,将每个事务包含的各个数据项的权重中的最大值确定为该事务的事务权重上限tubw,将每个事务包含的各个数据项的发生概率中的最大值确定为该事务的事务概率上限tubp。[0194]在计算事务的事务权重上限tubw时,首先从用户自定义设置的权重表w-table中获取该事务中包括的各个数据项的权重,然后,将该事务中各个数据项的权重的最大值确定为该事务的事务权重上限tubw,即:[0195]tubw(Tq)=max{w(i^Tq),w(i2,Tq),w(i3,Tq)...,w(ij,Tq)}[0196]其中Tq用于表示事务,ipi2、V-卜用于表示在事务Tq中的数据项,j用于表示事务Tq的数据项数目,《α,,!;)用于表示事务Tq中第j个数据项的权重,tubW(Tq)用于表不事务Tq的事务权重上限。[0197]需要说明的是,由于一个数据项的权重在不确定性数据库D中任何一个事务的权重都是相同的,因此,得出推论一:[0198]w(i.j,Tq)=w(i.j),即tubw(Tq)=max{w(i!),w(i2),w(i3)···,w(i.j)}〇[0199]比如,根据表一示出的不确定性数据库D和用户自定义的权重表w-table,计算不确定性数据库D中各个事务的事务权重上限tubw如表五:[0200]表五[0201][0202]根据事务权重上限tubw的定义,可以得出推论二:对于任一事务,该事务的事务权重上限tubw太干等干该車备包栝的仵何k_烦集的权雷。该推论二的推导讨程如下:[0203][0204]所以,结合事务权重上限tubw的定义,可以推出,当一个事务包括了一个k_项集,那么该k_项集的权重小于等于该事务的事务权重上限tubw,因此推论二得证。[0205]对于每个事务,在计算事务概率上限tubp时,首先比较事务中包括的各个数据项的发生概率,然后,将该事务中数据项的发生概率的最大值确定为该事务的事务概率上限tubp,即:[0206]tubp(Tq)=max{p(i^Tq),p(i2,Tq),p(i3,Tq)...,p(ij,Tq)}[0207]其中,Pa,,Tq)用于表示事务Tq中第j个数据项的发生概率,tUbp(Tq)用于表示事务Tq的事务概率上限。[0208]比如,根据表一示出的不确定性数据库D,计算不确定性数据库D中事务T1的事务概率上限tubp为:[0209]tubp(I\)=max{p(A,I\),p(C,I\),p(E,I\)}=max{0·25,0·4,1.0}=1.0[0210]根据表一示出的不确定性数据库D,计算不确定性数据库D中各个事务的事务概率上限tubp如表六:[0211]表六[0212][0213]根据事务概率上限tubp的定义,可以得出推论三:对于任一事务,该事务的事务概率上限tubp大于等于该事务包括的任何k_项集的概率。该定理的推导过程如下:[0214]由于tubp(Tq)=maxfedTq),p(i2,Tq),p(i3,Tq).··,p(i.j,Tq)},则:[0215][0216]即:[0217]p(X,Tq)彡tubp(Tq)[0218]所以,结合事务概率上限tubp的定义,可以推出,当一个事务包括了一个k_项集,那么该k-项集的概率小于等于该事务的事务概率上限tubp,因此推论二得证。[0219]步骤202b,根据事务的tubw和tubp,计算每个事务的事务权重概率上限tubwp。[0220]在不确定性数据库D中,对于任一事务,在计算出该事务的事务权重上限tubw和事务概率上限tubp后,定义事务的tubw和tubp的乘积为该事务的事务权重概率上限tubwp〇[0221]比如,根据表五示出的不确定性数据库D中各事务的tubw值和表六示出的不确定性数据库D中各事务的tubp值,得到的各事务的tubwp如表七:[0222]表七[0223][0224]需要说明的另一点是,本发明实施例所使用的算法的伪代码示意如下:[0225]输入:不确定性数据库D,用户自定义权重表w-table,最小期望权重支持度阈值ε〇[0226]输出:高权重期望项集HEWI%[0227]l:foreachTqinDdo[0228]2:calculatetubw(Tq),tubp(Tq),andtubwp(Tq)·//计算事务权重概率上限[0229]3:endfor[0230]4:foreachijinDdo[0231]5:calculateiubwpQ);//计算项权重概率上限[0232]6:ifiubwp(ij)彡εX|D|then[0233]TzHUBEWI1-ij.获取高期望权重上限项集[0234]8:endif[0235]9:endfor[0236]10:setk-2.[0237]11:setXas(k)-itemset.[0238]12:whileHUBEWIk1关nulldo//当第k-1候选项集不为空时[0239]13:Ck=Apriori_gen(HUBEWIkΟ.//根据第k-1候选项集中的(k-1)-项集自连接生成k项集[0240]14:foreachk-itemsetXinCkdo[0241]15:scanDtocalculateiubwp(X)[0242]16:ifiubwp(X)彡εX|D|then//高期望权重上限项集判断公式[0243]17:HUBEWIk-X[0244]18:endif[0245]19:endfor[0246]20:k-k+1//生成k+1候选项集[0247]21:endwhile[0248]22:HUBEWIs-UkHUBEWIk.//将每组高期望权重上限项集作为高期望权重上限项集[0249]23:foreachk-itemsetinHUBEWIsdo[0250]24:scanDtocalculateexpSup(X)[0251]25:calculateexpffSup(X)=w(X)XexpSup(X)[0252]26:ifexpWSup(X)彡εX|D|then//高权重项集判断公式[0253]27:HEWIs-Χ·[0254]28:endif[0255]29:endfor[0256]30:returnHEWIs.[0257]请参考图3,其示出了本发明一个实施例提供的项集挖掘装置的装置结构示意图。参见图3,该装置包括:获取模块310、第一计算模块320、第二计算模块330。[0258]获取模块310,用于获取自定义的权重和最低期望权重阈值ε,该权重是不确定性数据库D中的数据项所对应的权重,该不确定性数据库D包括至少一个事务,每个事务包括至少一个数据项;[0259]第一计算模块320,用于根据该数据项的发生概率和该权重,计算该不确定性数据库D中的项集的项权重概率上限iubwp,将该iubwp彡|D|*ε的项集挖掘为高期望权重上限项集HUBEWI;该项集是包括至少一个数据项的集合,该|D|是该不确定性数据库D中的事务总数;[0260]第二计算模块330,用于计算每个HUBEWI的期望权重支持度expWSup,将该expWSup彡该|D|*ε的HUBEWI挖掘为高权重项集HEWI。[0261]综上所述,本发明实施例提供的装置,通过计算各个项集的项权重概率上限得到高期望权重上限项集,再计算高期望权重上限项集的期望权重支持度来获取高权重项集,以少量计算量先挖掘出高期望权重上限项集作为候选项集,从而缩小高权重项集的挖掘范围,解决了现有技术中挖掘高权重项集只能处理精确数据,尚无针对不确定性数据库的高权重项集挖掘技术的问题,达到了提高挖掘的效能的效果。[0262]请参考图4,其示出了本发明另一个实施例提供的项集挖掘装置的装置结构示意图。参见图4,该装置包括:获取模块410、第一计算模块420、第二计算模块430。[0263]获取模块410,用于获取自定义的权重和最低期望权重阈值ε,该权重是不确定性数据库D中的数据项所对应的权重,该不确定性数据库D包括至少一个事务,每个事务包括至少一个数据项;[0264]第一计算模块420,用于根据该数据项的发生概率和该权重,计算该不确定性数据库D中的项集的项权重概率上限iubwp,将该iubwp彡|D|*ε的项集挖掘为高期望权重上限项集HUBEWI;该项集是包括至少一个数据项的集合,该|D|是该不确定性数据库D中的事务总数;[0265]第二计算模块430,用于计算每个HUBEWI的期望权重支持度expWSup,将该expWSup彡该|D|*ε的HUBEWI挖掘为高权重项集HEWI。[0266]可选的,该第一计算模块420,包括:第一计算单元421、第二计算单元422、项集添加单元423、超集生成单元424、项集更新单元425。[0267]第一计算单元421,用于根据该数据项的发生概率和该权重,计算每个事务的事务权重概率上限tubwp;[0268]第二计算单元422,用于对于每个k-项集,根据包含有该k-项集的事务的tubwp,计算该k-项集的项权重概率上限iubwp,该k-项集是包含k个数据项的集合,k多1;[0269]项集添加单元423,用于将该iubwp彡该|D|*ε的k-项集添加到第k组HUBEWI中;[0270]超集生成单元424,用于当该第k组HUBEWI不为空时,根据该第k组HUBEWI中的k_项集自连接生成(k+l)_项集,该(k+l)_项集是该k-项集的超集,该(k+l)_项集是包含k+Ι个数据项的项集;[0271]项集更新单元425,用于将k更新为k+Ι,再次执行根据该对于每个k-项集,根据包含有该k-项集的事务的tubwp,计算该k-项集的项权重概率上限iubwp的步骤。[0272]可选的,该第一计算单元421,包括:第一计算子单元421a、第二计算子单元421b。[0273]第一计算子单元421a,用于将每个事务包含的各个数据项的权重中的最大值确定为该事务的事务权重上限tubw,将每个事务包含的各个数据项的发生概率中的最大值确定为该事务的事务概率上限tubp;[0274]第二计算子单元421b,用于根据该事务的tubw和tubp,计算每个事务的事务权重概率上限tubwp。[0275]可选的,该第一计算单元421,还用于对于每个k-项集,将包含该k-项集的每个事务的tubwp之和,确定为该k-项集的项权重概率上限iubwp。[0276]可选的,该第二计算模块430,包括:权重确定单元431、概率获取单元432、第一支持度确定单元433、第二支持度确定单元434、项集挖掘单元435。[0277]权重确定单元431,用于对于每个该HUBEWI,计算该HUBEWI在包含有该HUBEWI的事务中的项集权重,将该项集权重确定为该HUBEWI在不确定性数据库D的项集权重;[0278]概率获取单元432,用于获取该HUBEWI在每个包含有该HUBEWI的事务中的项集概率;[0279]第一支持度确定单元433,用于将该HUBEWI在所有包含有该HUBEWI的事务中的项集概率之和,确定为该HUBEWI的期望支持度expSup;[0280]第二支持度确定单元434,用于根据该项集权重与该expSup,计算该HUBEWI的期望权重支持度expWSup;[0281]项集挖掘单元435,用于当该expWSup彡该|D|*ε时,将该HUBEWI挖掘为高权重项集HEWI。[0282]综上所述,本发明实施例提供的装置,通过计算各个项集的项权重概率上限得到高期望权重上限项集,再计算高期望权重上限项集的期望权重支持度来获取高权重项集,以少量计算量先挖掘出高期望权重上限项集作为候选项集,从而缩小高权重项集的挖掘范围,解决了现有技术中挖掘高权重项集只能处理精确数据,尚无针对不确定性数据库的高权重项集挖掘技术的问题,达到了提高挖掘的效能的效果。[0283]需要说明的是:上述实施例提供的项集挖掘装置在挖掘项集时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的项集挖掘装置与项集挖掘方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。[0284]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。[0285]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。[0286]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。【主权项】1.一种项集挖掘方法,其特征在于,所述方法包括:获取自定义的权重和最低期望权重阈值ε,所述权重是不确定性数据库D中的数据项所对应的权重,所述不确定性数据库D包括至少一个事务,每个事务包括至少一个数据项;根据所述数据项的发生概率和所述权重,计算所述不确定性数据库D中的项集的项权重概率上限iubwp,将所述iubwp彡|D|*ε的项集挖掘为高期望权重上限项集HUBEWI;所述项集是包括至少一个数据项的集合,所述|D|是所述不确定性数据库D中的事务总数;计算每个HUBEWI的期望权重支持度expWSup,将所述expWSup彡所述|D|*ε的HUBEWI挖掘为高权重项集HEWI。2.根据权利要求1所述的方法,其特征在于,所述根据所述数据项的发生概率和所述权重,计算所述不确定性数据库D中的项集的项权重概率上限iubwp,将所述iubwp彡|D|*ε的项集挖掘为高期望权重上限项集HUBEWI,包括:根据所述数据项的发生概率和所述权重,计算每个事务的事务权重概率上限tubwp;对于每个k-项集,根据包含有所述k-项集的事务的tubwp,计算所述k-项集的项权重概率上限iubwp,所述k-项集是包含k个数据项的集合,k多1;将所述iubwp彡所述|D|*ε的k-项集添加到第k组HUBEWI中;当所述第k组HUBEWI不为空时,根据所述第k组HUBEWI中的k-项集自连接生成(k+1)-项集,所述(k+1)-项集是所述k-项集的超集,所述(k+1)-项集是包含k+Ι个数据项的项集;将所述k更新为k+1,再次执行根据所述对于每个k-项集,根据包含有所述k-项集的事务的tubwp,计算所述k-项集的项权重概率上限iubwp的步骤。3.根据权利要求2所述的方法,其特征在于,所述根据所述数据项的发生概率和所述权重,计算每个事务的事务权重概率上限tubwp,包括:将每个事务包含的各个数据项的所述权重中的最大值确定为所述事务的事务权重上限tubw,将每个事务包含的各个数据项的所述发生概率中的最大值确定为所述事务的事务概率上限tubp;根据所述事务的tubw和tubp,计算每个事务的事务权重概率上限tubwp。4.根据权利要求2所述的方法,其特征在于,所述对于每个k-项集,根据包含有所述k_项集的事务的tubwp,计算所述k-项集的项权重概率上限iubwp,包括:对于每个k-项集,将包含所述k-项集的每个事务的所述tubwp之和,确定为所述k-项集的项权重概率上限iubwp。5.根据权利要求1至4任一所述的方法,其特征在于,所述计算每个HUBEWI的期望权重支持度expWSup,将所述expWSup彡所述|D|*ε的HUBEWI挖掘为高权重项集HEWI,包括:对于每个所述HUBEWI,计算所述HUBEWI在包含有所述HUBEWI的事务中的项集权重,将所述项集权重确定为所述HUBEWI在所述不确定性数据库D的项集权重;获取所述HUBEWI在每个包含有所述HUBEWI的事务中的项集概率;将所述HUBEWI在所有包含有所述HUBEWI的事务中的项集概率之和,确定为所述HUBEWI的期望支持度expSup;根据所述项集权重与所述expSup,计算所述HUBEWI的期望权重支持度expWSup;若所述expWSup彡所述IDI*ε,则将所述HUBEWI挖掘为高权重项集HEWI。6.-种项集挖掘装置,其特征在于,所述装置包括:获取模块,用于获取自定义的权重和最低期望权重阈值ε,所述权重是不确定性数据库D中的数据项所对应的权重,所述不确定性数据库D包括至少一个事务,每个事务包括至少一个数据项;第一计算模块,用于根据所述数据项的发生概率和所述权重,计算所述不确定性数据库D中的项集的项权重概率上限iubwp,将所述iubwp彡|D|*ε的项集挖掘为高期望权重上限项集HUBEWI;所述项集是包括至少一个数据项的集合,所述|D|是所述不确定性数据库D中的事务总数;第二计算模块,用于计算每个HUBEWI的期望权重支持度expWSup,将所述expWSup彡所述|D|*ε的HUBEWI挖掘为高权重项集HEWI。7.根据权利要求6所述的装置,其特征在于,所述第一计算模块,包括:第一计算单元,用于根据所述数据项的发生概率和所述权重,计算每个事务的事务权重概率上限tubwp;第二计算单元,用于对于每个k-项集,根据包含有所述k-项集的事务的tubwp,计算所述k-项集的项权重概率上限iubwp,所述k-项集是包含k个数据项的集合,k多1;项集添加单元,用于将所述iubwp彡所述|D|*ε的k-项集添加到第k组HUBEWI中;超集生成单元,用于当所述第k组HUBEWI不为空时,根据所述第k组HUBEWI中的k-项集自连接生成(k+l)_项集,所述(k+l)_项集是所述k-项集的超集,所述(k+l)_项集是包含k+Ι个数据项的项集;项集更新单元,用于将所述k更新为k+Ι,再次执行根据所述对于每个k-项集,根据包含有所述k-项集的事务的tubwp,计算所述k-项集的项权重概率上限iubwp的步骤。8.根据权利要求7所述的装置,其特征在于,所述第一计算单元,包括:第一计算子单元,用于将每个事务包含的各个数据项的所述权重中的最大值确定为所述事务的事务权重上限tubw,将每个事务包含的各个数据项的所述发生概率中的最大值确定为所述事务的事务概率上限tubp;第二计算子单元,用于根据所述事务的tubw和tubp,计算每个事务的事务权重概率上限tubwp。9.根据权利要求7所述的装置,其特征在于,所述第一计算单元还用于对于每个k-项集,将包含所述k-项集的每个事务的所述tubwp之和,确定为所述k-项集的项权重概率上限iubwp。10.根据权利要求6至9任一所述的装置,其特征在于,所述第二计算模块,包括:权重确定单元,用于对于每个所述HUBEWI,计算所述HUBEWI在包含有所述HUBEWI的事务中的项集权重,将所述项集权重确定为所述HUBEWI在不确定性数据库D的项集权重;概率获取单元,用于获取所述HUBEWI在每个包含有所述HUBEWI的事务中的项集概率;第一支持度确定单元,用于将所述HUBEWI在所有包含有所述HUBEWI的事务中的项集概率之和,确定为所述HUBEWI的期望支持度expSup;第二支持度确定单元,用于根据所述项集权重与所述expSup,计算所述HUBEWI的期望权重支持度expWSup;项集挖掘单元,用于当所述expWSup彡所述IDI*ε时,将所述HUBEWI挖掘为高权重项集HEWI〇【文档编号】G06F17/30GK106033449SQ201510116198【公开日】2016年10月19日【申请日】2015年3月17日【发明人】林浚玮,李勇,王巨宏,赖晓平,甘文生【申请人】哈尔滨工业大学深圳研究生院,腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1