文本词间完全加权正负关联模式挖掘方法及其挖掘系统的制作方法

文档序号:6546972阅读:128来源:国知局
文本词间完全加权正负关联模式挖掘方法及其挖掘系统的制作方法
【专利摘要】一种文本词间完全加权正负关联模式挖掘方法及其挖掘系统,利用中文文本预处理模块进行预处理,构建文本数据库和特征词项目库;利用特征词频繁项集和负项集挖掘实现模块从文本数据库中挖掘完全加权特征词候选项集,计算权重维数比,采用多兴趣度阈值剪枝策略剪除无趣的项集,得出有趣的完全加权特征词频繁项集和负项集模式;利用完全加权词间正负关联规则挖掘实现模块从频繁项集和负项集中挖掘有效的完全加权特征词正负关联规则模式,利用完全加权词间关联模式结果显示模块将挖掘到的正负关联规则模式输出给用户。本发明能够大幅度减少不必要的频繁项集、负项集和关联规则模式产生,提高中文特征词关联规则挖掘效率,获得高质量的中文词间关联模式。
【专利说明】文本词间完全加权正负关联模式挖掘方法及其挖掘系统
【技术领域】
[0001]本发明属于数据挖掘领域,具体是一种基于权重维数比的文本词间完全加权正负关联模式挖掘方法及其挖掘系统,适用于文本挖掘中特征词关联模式发现以及文本信息检索查询扩展等领域。
【背景技术】
[0002]近20年来,关联模式挖掘技术研究取得了显著的成就,经历了项无加权挖掘技术、项加权挖掘技术和项完全加权挖掘技术等三个研究阶段。
[0003]第I阶段:项无加权正负关联模式挖掘研究
[0004]项无加权正负关联模式挖掘的主要特点是以项集在数据库中出现的概率为关联模式的支持度,将项集按平等一致的方式处理。早期的项无加权挖掘研究是以正关联模式挖掘研究为主研方向,其典型方法是Apriori方法(R.Agrawal, T.1mielinski, A.Swam1.Mining association rules between sets of items in large database[C]//Proceeding of1993ACM SIGMOD International Conference on Management ofData, Washington D.C.,1993,(5): 207-216.)。在此基础上,学者们从不同的角度和方法提出很多新颖的关联模式挖掘方法,旨在提高挖掘效率、减少冗余的和无效的模式产生,例如,Du、Glass、WANG等为了减少无效和无趣的规则,将兴趣度加入关联模式评价框架中,提出了改进的 Apriori 方法(Du Ping, Gao Yongping.A New Improvement of AprioriAlgorithm for Mining Association Rules[C]//Proceeding of20IOInternationalConference on Computer Application and System Modeling(ICCASM2010),2010IEEE,ICCASM2010,2010:529-532.D.H.Glass.Confirmation measures of association ruleinterestingness[J].Knowledge-Based Systems, 2013(44):65 - 77.WANG Pe1-ji,SHILinj BAI Jin-niu,ZHAO Yu-lin.Mining Association Rules Based on Apriori Algorithmand Application[C]//Proceeding of2009International Forum on Computer ScienceTechnology and Applications, 2009IEEE,IFCSTAi09,25_27Dec.2009,Chongqing,China,V0.1,Page: 141-143.),宋威、Narmadha等在所提出的挖掘方法(宋威,李晋宏,徐章艳等.一种新的频繁项集精简表示方法及其挖掘算法的研究[J].计算机研究与发展,2010,47 (2): 277-285.D.Narmadhaj G.NaveenSundarj S.Geetha.A Novel Approachto Prune Mined Association Rules in Large Databases[C]//Proceeding of20113rdInternational Conference on Electronics Computer Technology (ICECT), 2011IEEEj 8-10April2011, Kanyakumarij India, Vol.5, Page: 409-413.)中米用了 新的项集剪枝策略,有效地提1?关联I旲式的挖掘效率。1997年,Brin等人发现在关联规则挖掘中存在有趣的具有否定关系的规则(Sergey Brin, Rajeev Motwanij Craig Silverstein.Beyond market baskets: generalizing association rules to correlations [C].Proceedings of1997ACM SIGMOD international conference on Management of data.Tucson, Arizona.1997.UAS:ACM press,1997:265-276.),即负关联模式,此后,项无加权负关联模式挖掘得到广泛关注和研究,出现了一些典型的关联规则挖掘方法,例如,L1、Piao等人分别提出的在多数据库中挖掘强负关联规则方法(Hong Li, XuegangHu.Efficient Mining of Strong Negative Association Rules in Mult1-Database[C]//precceedings of International Conference on Computational Intelligence andSoftware Engineering, ll-13Dec.2009, Wuhan, China, page: 1-4.)和基于相关性和双置信度的正负关联规则挖掘方法(Xiufeng Piao, Zhanlong Wang, Gang Liu.Research onMining Positive and Negative Association Rules Based on Dual Confidence[C]//Proceedings of20105th International Conference on Internet Computing forScience and Engineering, 2010IEEE, page: 102-105.)。传统的项无加权关联模式挖掘的不足是:没有考虑存在项目权值的情况,挖掘时常常导致大量冗余的、无趣的和无效的关联模式产生。
[0005]第2阶段:项加权关联模式挖掘研究
[0006]项加权关联模式挖掘有效地克服了上述传统关联模式挖掘的缺陷,引入了项目权重,以体现项目具有不同的重要性。项加权关联模式挖掘研究起于1998年,其典型方法是香港中文大学的Cai等提出的MINWAL(O)和MINWAL(W)方法(C.H.Cai,A.da, ff.C.Fu, et al.Mining Association Rules with Weighted Items[C]//Proceedings of IEEEInternational database Engineering and Application Symposiums, 1998:68-77.)。此后,项加权关联模式挖掘研究得到越来越多学者的极大兴趣和研究。有的从项目权值的设置与处理方面进行研究,Kumar等构造一种加权树和加权闭项集树,进而提出了基于加权树的加权频繁项集挖掘方法和加权关联规则挖掘方法(Preetham Kumar, V.S.Ananthanarayana.Discovery of Weighted Association Rules Mining[C]//Proceedings of the2nd International Conference on Computer and Automation Engineering(2010ICCAE), 2010IEEE, 26_28Feb, 2010,Singapore, Vol.5,page:718-722.),其挖掘效率都得到显著提高;有的从挖掘方式方面对传统的加权模式挖掘方法进行改进,Yun等提出了在噪音环境下也能稳定地挖掘出加权频繁项集的挖掘方法(U.Yun, K.H.Ryu.Approximate weighted frequent pattern mining with/without noisyenvironments [J].Knowledge-Based Systems, 2011 (24): 73 - 82.),为加权关联模式挖掘提供新的思路和方法,取得良好的挖掘效果。随着实际应用的需要,人们发现加权负关联模式也有着重要的理论和应用价值,因为在期望有利因素的同时也希望发现一些不利因素,加权负关联模式可以有效地发现那些有趣的不利因素,2008年以来,加权负模式挖掘技术得到了关注和研究,Jiang、Zhao等提出了基于相关性的加权负关联规则方法(Y.Y.Zhao, H.Jiang,R.Geng, et al.Mining Weighted Negative Association Rules Based onCorrelation from Infrequent Items[C]//Proceedings of the2009InternationalConference on Advanced Computer Control, IEEE Computer Society, 2009:270-273.),均获得了良好的挖掘效果。加权正负关联规则挖掘的缺陷是:虽然重视了项目之间具有不同的重要性,但忽略了项目权值在数据库各个事务记录具有不同权值的情况。
[0007]第3阶段:项完全加权关联模式挖掘研究
[0008]项完全加权关联模式挖掘技术有效地解决了上述项加权关联模式挖掘的缺陷,考虑了项目在数据库各个事务记录中具有不同重要性(即不同权值)的数据特点,通常将项目权值客观分布于事务记录并随记录变化而变化的数据称为完全加权数据。典型的完全加权关联规则挖掘方法是KWEstimate方法(谭义红,林亚平.向量空间模型中矩阵加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)、方法和方法等,但不能挖掘完全加权负关联规则,目前,对于完全加权负关联规则模式挖掘方法,国外鲜有报道。面对信息时代中的海量完全加权数据,急需一套成熟的完全加权正负模式挖掘技术应用于文本挖掘和信息检索等领域,以发现更加接近实际情况的文本特征词正负关联模式,以及能够在信息检索过程中发现更接近实际的词间关联模式,实现查询扩展,改善信息检索的查准率和查全率。
[0009]综上所述,现有技术对项无加权挖掘和项加权挖掘技术研究比较充分,而对项完全加权关联模式挖掘技术研究存在不足,特别是完全加权负模式挖掘技术鲜有报道。完全加权关联模式挖掘在文本挖掘、教育数据挖掘和信息检索查询扩展等领域有着重要的理论和应用价值,因为海量的文本数据和教育系统中课程考试成绩数据都是属于项完全加权数据。传统的项无加权挖掘方法对这些完全加权数据进行挖掘,由于没有考虑完全加权数据固有的特点,只考虑项目频度,常常导致大量冗余的、无效的和虚假的关联模式产生,而现有的项加权挖掘方法不能适用完全加权数据挖掘。因此,完全加权正负关联模式挖掘的深入研究具有重要的现实意义和广阔的应用前景。

【发明内容】
[0010]本发明所要解决的技术问题在于,针对中文文本特征词正负关联模式挖掘进行深入探索,提出一种文本词间完全加权正负关联模式挖掘方法及其挖掘系统,提高挖掘效率,应用于文本挖掘,能够发现更加实际合理的正负特征词关联模式,从而提高文本聚类和分类的精度,以及本文信息检索性能。
[0011]本发明解决上述技术问题所采取的技术方案是:一种文本词间完全加权正负关联模式挖掘方法,包括如下步骤:
[0012](I)中文文本数据预处理:将待处理的中文文本数据进行预处理:分词、去除停用词、提取特征词及其权值计算,同时,计算最小项集权重维数比阈值minwdR ;中文文本数据预处理的结果是构建基于向量空间模型的中文文本数据库Text database,即TD,以及特征词项目库;
[0013]最小项集权重维数比阈值minwdR计算公式是:minwdR = nXminsup, η为中文文本数据库记录数,minsup为最小支持度阈值;
[0014]特征词权值计算公式是=Wij= (0.5+0.SXtfij/maXj^tfij)) Xidfi,
[0015]其中,Wij为第i个特征词在第j篇文档的权值,tfu为第i个特征词在第j篇文档的词频,Idfi为第i个特征词的逆向文档频度,其值idfi = 1g(N7Zdfi), N为文档集中文档总数,df,为含有第i个特征词的文档数量;
[0016](2)挖掘完全加权特征词频繁项集和负项集,包括以下步骤2.1和步骤2.2:
[0017]2.1、从特征词项目库中提取特征词候选1_项集C1,并挖掘完全加权特征词频繁1_项集L1 ;具体步骤按照2.1.1~2.1.3进行:
[0018]2.1.1、从特征词项目库中提取特征词候选1_项集C1 ;
[0019]2.1.2、累加特征词候选1_项集C1在中文文本数据库TD中的权值总和mVi,计算其项集权重维数比WdR(C1);
[0020]
【权利要求】
1.一种文本词间完全加权正负关联模式挖掘方法,其特征在于,包括如下步骤: (1)中文文本数据预处理:将待处理的中文文本数据进行预处理:分词、去除停用词、提取特征词及其权值计算,同时,计算最小项集权重维数比阈值HiinwdR ;中文文本数据预处理的结果是构建中文文本数据库Text database,即TD,以及特征词项目库; 最小项集权重维数比阈值minwdR计算公式是:minwdR = nXminsup, η为中文文本数据库记录数,minsup为最小支持度阈值; 特征词权值计算公式是=Wij = (0.5+0.SXtfij/maXj^tfij)) Xidfi, 其中,Wij为第i个特征词在第j篇文档的权值,tf.j为第i个特征词在第j篇文档的词频,Idfi为第i个特征词的逆向文档频度,其值idfi = 1g(NZdfi), N为文档集中文档总数,df,为含有第i个特征词的文档数量; (2)挖掘完全加权特征词频繁项集和负项集,包括以下步骤2.1和步骤2.2: `2.1、从特征词项目库中提取特征词候选1_项集C1,并挖掘完全加权特征词频繁1_项集L1 ;具体步骤按照 2.1.1~2.1.3进行: `2.1.1、从特征词项目库中提取特征词候选1_项集C1 ; `2.1.2、累加特征词候选1_项集C1在中文文本数据库TD中的权值总和11^ ?计算其项集权重维数比WdR(C1);
wdR (C1) = μ*y_ 其中,wC1是特征词候选L项集C1在TD中的权值总和; `2.1.3、将特征词候选1_项集C1中其项集权重维数比WdR(C1)大于或等于最小项集权重维数比阈值minwdR即WdR(C1)≥minwdR的频繁1_项集L1加入到特征词频繁项集集合termPIS ; `2.2、从完全加权特征词候选2_项集开始,按照步骤2.2.1~2.2.4进行操作: `2.2.1、将特征词频繁(:1-1)_项集进行Apriori连接,生成特征词候选i_项集Ci ;所述的 i > 2 ; `2.2.2、累加特征词候选i_项集Ci在中文文本数据库TD中的权值总和以及计算其项集权重维数比WdR(Ci);
Wr
WdR(Ct) = ^- 其中,=HraW是特征词候选i_项集Ci在TD中的权值总和,k为特征词候选1项集Ci的项目个数; `2.2.3、特征词候选〔项集的项集权重维数比WdR(Ci)与最小项集权重维数比阈值minwdR比较,将特征词候选〔项集中其项集权重维数比不小于最小项集权重维数比阈值即WdR(Ci)≥minwdR的特征词频繁i_项集Li取出,存入特征词频繁项集集合termPIS,同时,将其项集权重维数小于支最小项集权重维数比阈值即wdR(Ci)〈minwdR的特征词负i_项集Ni存入特征词负项集集合termNIS ; `2.2.4、将i的值加1,当特征词频繁项集Lp1为空就转入(3)步,否则,继续`2.2.1 ~2.2.3 步骤;(3)特征词频繁项集和负项集剪枝: .3.1、对于特征词频繁项集集合termPIS中的每一个频繁i_项集Li,根据最小频繁项集兴趣度阈值minFIInt,计算InterestingFI (Li, minFIInt)值,剪除其InterestingFI (Li, minFIInt)值为假false的频繁项集,剪枝后得到新的特征词频繁项集集合 termPIS ; InterestingFI (Lk, minFIInt)的计算公式如下:
2.一种适用于权利要求1所述的文本词间完全加权正负关联模式挖掘方法的挖掘系统,其特征在于,包括以下4个模块: 中文文本预处理模块:用于对中文文本分词、去除停用词和提取特征词,计算特征词权值等预处理,构建文本数据库和特征词项目库; 特征词频繁项集和负项集挖掘实现模块:用于从文本数据库中挖掘完全加权特征词候选项集,计算候选项集的权重维数比,采用多兴趣度阈值剪枝策略剪除无趣的项集,得出有趣的完全加权特征词频繁项集和负项集模式; 完全加权词间正负关联规则挖掘实现模块:采用支持度-PR模型-互信息-兴趣度评价框架,通过项集权重维数比的简单计算和比较,从有趣的频繁项集和负项集中挖掘有效的完全加权特征词正负关联规则模式; 完全加权词间关联模式结果显示模块:将挖掘出来的有效的完全加权特征词正负关联规则模式输出显示给用户,供用户选择和使用。
3.根据权利要求2所述的挖掘系统,其特征在于,所述的特征词频繁项集和负项集挖掘实现模块包括以下3个模块: 特征词候选项集挖掘模块功能:负责从中文文本数据库挖掘候选项集,具体是:首先从特征词项目库中产生候选1-项集,再出挖掘特征词频繁1_项集;然后,将特征词频繁(1-1)_项集进行Apriori连接,生成特征词候选i_项集;所述的i > 2 ;累加特征词候选i_项集在中文文本数据库中的权值总和以及计算其项集权重维数比; 特征词频繁项集和负项集挖掘模块:负责产生特征词频繁项集和负项集,具体是:特征词候选i_项集的项集权重维数比与最小项集权重维数比阈值比较,将特征词候选〔项集中其项集权重维数比不小于最小项集权重维数比阈值的特征词频繁i_项集取出,存入特征词频繁项集集合,同时,将其项集权重维数小于支最小项集权重维数比阈值的特征词负i_项集存入特征词负项集集合; 频繁项集和负项集剪枝模块:负责对频繁项集和负项集剪枝,即根据最小频繁项集兴趣度阈值minFIInt和最小负项集兴趣度阈值minNIInt,对频繁项集和负项集进行剪枝,并产生有趣的频繁项集和负项集。
4.根据权利要求2所述的挖掘系统,其特征在于,所述的完全加权词间正负关联规则挖掘实现模块,包括以下2个模块: 完全加权词间正关联规则挖掘模块:负责从从特征词频繁项集集合中挖掘有效的完全加权特征词正关联规则模式; 完全加权词间负关联规则挖掘模块:负责从特征词频繁项集集合和负项集集合中挖掘有效的完全加权特征词负关联规则模式。
5.根据权利要求2-4中任一项所述的挖掘系统,其特征在于,所述的挖掘系统中的最小支持度阈值minsup ,最小置信度阈值minconf,最小频繁项集兴趣度阈值minFIInt和minNIInt最小负项集兴趣度阈值由用户输入。
【文档编号】G06F17/30GK103955542SQ201410213073
【公开日】2014年7月30日 申请日期:2014年5月20日 优先权日:2014年5月20日
【发明者】黄名选, 夏冰 申请人:广西教育学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1