基于偏序项集的中英文本词间关联规则挖掘方法及其系统的制作方法

文档序号:6624902阅读:166来源:国知局
基于偏序项集的中英文本词间关联规则挖掘方法及其系统的制作方法
【专利摘要】一种基于偏序项集的中英文本词间关联规则挖掘方法及其系统,利用文本信息预处理模块进行预处理,构建文本信息数据库和特征词项目库;利用特征词频繁偏序项集实现模块挖掘特征词候选项集,求出候选项集的偏序项集,采用新的项集剪枝方法对候选偏序项集剪枝,计算候选偏序项集权值,采用新的计算方法计算候选偏序项集支持度,由此得出频繁偏序项集;利用完全加权词间关联规则挖掘实现模块挖掘有效的特征词关联规则模式;利用关联规则模式结果显示模块将关联规则模式输出给用户。本发明具有良好的挖掘效率,得到更接近实际的文本特征词关联规则模式,这些模式运用于中文或者英文文本挖掘、信息检索等领域,运用于搜索引擎,可以提高查询性能。
【专利说明】 基于偏序项集的中英文本词间关联规则挖掘方法及其系统

【技术领域】
[0001]本发明属于数据挖掘领域,具体是一种基于偏序项集的中英文文本词间关联规则挖掘方法及其挖掘系统,适用于中英文文本挖掘中特征词关联模式发现以及中英文文本信息检索查询扩展、中英文文本跨语言信息检索等领域。

【背景技术】
[0002]20年多来,关联规则挖掘研究取得了显著的技术成果,主要集中在基于项频度的挖掘和基于项权值的挖掘技术两个方面。
[0003]基于项频度的挖掘也称无加权关联规则挖掘,其主要特点是按平等一致的原则处理项集,将项集在事务中出现的概率和条件概率作为其项集的支持度和关联规则的置信度。最具代表性的经典方法是Apr1ri 方法(R.Agrawal, T.1mielinski, A.Swam1.Miningassociat1n rules between sets of items in large database[C]// Proceeding of1993 ACM SIGMOD Internat1nal Conference on Management of Data, WashingtonD.C., 1993, (5): 207-216.),在此基础上,学者们采用不同的方法、从不同的角度改进了Apr1ri 方法。
[0004]基于频度的挖掘方法虽然得到广泛的研究,但还存在如下缺陷:只重视项频度,忽略存在项目权值的情况,导致冗余的、无效的和无趣的关联模式增多。为了解决上述问题,基于项权值的加权关联模式挖掘技术得到广泛讨论和研究,其特点是引入项权值,以体现项目之间具有不同的重要性和项目在事务记录中具有不同的权值。根据项权值的来源不同,基于项权值的挖掘分为基于项权值固定的加权模式挖掘技术和基于项权值变化的完全加权模式挖掘技术两类。
[0005]基于项权值固定的加权模式挖掘是早期的基于项权值挖掘方法,自1998年以来得到众多学者的关注和深入研究,其特点是:项目权值来源于用户或者领域专家设置,在事务挖掘过程中固定不变。其典型算法是Cai等提出的加权关联规则挖掘算法MINWAL(O)和 MINWAL (W) ( C.H.Cai, A.da, V.C.Fu, et al.Mining Associat1n Rules withWeighted Items [C]//Proceedings of IEEE Internat1nal database Engineering andApplicat1n Symposiums, 1998: 68-77.)。在此基础上,出现了改进的加权模式挖掘方法,其在挖掘效率和挖掘性能方面均获得良好的表现。
[0006]基于项权值固定的加权关联规则挖掘方法的局限性是没有考虑项目权值随着事务记录变化而变化的情况,即忽略项权值变化的情况,不能解决具有项权值变化特征的数据挖掘问题。通常将具有项权值变化特征的数据称为完全加权数据,也称矩阵加权数据。文本信息是典型的完全加权数据,海量的文本信息中其特征词权值是依赖于各个文档,并随文档不同而变化。完全加权关联规则挖掘技术克服了基于项权值固定的加权模式挖掘的缺陷,用于挖掘具有项权值变化特征的数据中各种关联模式,属于基于项权值变化的挖掘技术,主要特点是其项目权值依赖于事务而动态变化。典型的完全加权关联规则挖掘方法是2003年谭义红等提出的向量空间模型中完全加权关联规则的挖掘算法KWEstimate (谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)以及面向查询扩展的矩阵加权关联规则挖掘算法MWARM(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009, 20 (7): 1854-1865.),这些方法在挖掘完全加权数据关联模式均获得良好的挖掘效果,并且已经成功地运用于信息检索查询扩展领域(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009, 20 (7): 1854-1865.,黄名选,严小卫,张师超.完全加权关联规则挖掘及其在查询扩展中的应用[J].计算机应用研究,2008,25(6): 1724-1727.),获得了显著的效果。现有的基于权值变化的挖掘方法的缺陷是:其所挖掘的关联模式数量仍然很庞大,增加用户选择所需模式的难度,无趣的、虚假的和无效的关联模式还很多,很难将其技术上升到应用层面。
[0007]随着网络技术和信息技术的发展,完全加权数据(如网络文本信息数据)数量迅猛增多,已经成为海量数据,如何从这些海量完全加权数据中挖掘有用的、更接近实际情况的关联模式是当前亟待解决的问题。基于项权值固定的挖掘算法不适用处理完全加权数据,目前多数仍然采用基于频度的挖掘方法处理这些数据,导致大量冗余的、无效的和无趣的关联模式产生。针对上述问题,本发明根据中英文文档数据的特点,提一种新的基于偏序项集的中英文本特征词关联规则模式挖掘方法及其挖掘系统。该发明采用新的偏序项集支持度计算方法和剪枝技术,避免很多无效的、虚假的和无趣的关联模式产生,极大提高中英文文本挖掘效率,所挖掘出的特征词关联规则模式更加接近实际情况。实验结果表明,该发明提出的文本挖掘方法所挖掘的特征词关联模式数量以及挖掘时间均明显减少,其挖掘性能优于现有完全加权模式挖掘方法和基于频度的模式挖掘方法的,其特征词关联模式可为信息检索提供可靠的查询扩展词来源,因此,该发明方法在文本挖掘、信息检索等领域具有重要的应用价值和广阔的应用前景。


【发明内容】

[0008]本发明所要解决的技术问题在于,针对中英文文文本特征词关联模式挖掘进行深入探索,提出一种基于偏序项集的中英文文本词间关联规则挖掘方法及其系统,提高中英文文本挖掘效率,应用于中英文文本信息检索查询扩展,可以提高检索性能,应用于中英文文本挖掘,能够发现更加实际合理的中英文特征词关联模式,从而提高文本聚类和分类的精度。在搜索引擎(例如百度、谷歌等)中使用本发明方法可以获取高质量的扩展词实现用户查询扩展,提高查全率和查准率。
[0009]本发明解决上述技术问题所采取的技术方案是:一种基于偏序项集的中英文文本词间关联规则挖掘方法,包括如下步骤:
(O中英文文本信息数据预处理:将待处理的中英文文本信息数据进行预处理:中文文本分词,英文文本词干提取,去除停用词、提取特征词及其权值计算,构建基于向量空间模型的文本信息数据库和特征词项目库。
[0010]米用 Porter (见 http://tartarus.0rg/?martin/PorterStemmer)程序作为英文文档词干提取程序,中文分词程序是中国科学院计算技术研究所研制开发的ICTCLAS汉语分词系统(见http:// www.1ctclas.0rg/)。
[0011]文本特征词权值计算公式是=(l+ln(i/i7)) XidfJ,其中,I7为第i个特征词在第J篇文档的权值,iW/;.为第i个特征词的逆向文档频度,其值YoTi=1g OVAZfi),#为文档集中文档总数,OTi为含有第?个特征词的文档数量,tfiJ为第i个特征词在第J篇文档的词频;
(2)挖掘完全加权特征词频繁偏序项集,包括以下步骤2.1和步骤2.2:
2.1、挖掘完全加权特征词频繁1_项集乙,具体步骤按照2.1.1和2.1.3进行:
2.1.1、从特征词项目库中提取特征词候选1_项集C;,累加文本信息数据库中所有项目的权值,得到全部项目权值总和W,累加C1在文本信息数据库中的权值累加总和
,计算G的支持度(C1)。p1sup (JO1)的公式如下:

【权利要求】
1.一种基于偏序项集的中英文本词间关联规则挖掘方法,其特征在于,包括如下步骤: (O中英文文本信息数据预处理:将待处理的中英文文本信息数据进行预处理:中文文本分词,英文文本词干提取,去除停用词、提取特征词及其权值计算,构建基于向量空间模型的文本信息数据库和特征词项目库; (2)挖掘完全加权特征词频繁偏序项集,包括以下步骤2.1和步骤2.2: (2.1)挖掘完全加权特征词频繁1_项集乙,具体步骤按照2.1.1和2.1.3进行: (2.1.1)从特征词项目库中提取特征词候选1_项集C;,累加文本信息数据库中所有项目的权值,得到全部项目权值总和W,累加C1在文本信息数据库中的权值累加总和wb;,计算C1的支持度poison (C1); (2.1.2)将特征词候选1_项集C11中其支持度piMop (C1) ^ms的频繁1_项集Z7加入到特征词频繁项集集合as为最小支持度阈值; (2.1.3)在文本信息数据库中累加候选1-项集C1的出现频度/^,提取& (C1),计算C1的偏序项集权值期望/?/勝私,2); (2.2)挖掘完全加权特征词频繁项集4,所述的A彡2,按照步骤2.2.Γ 2.2.12进行操作: (2.2.1)对于候选(A-1) _项集CV1,将w (C^1) <P0IWB (C^1, k)的不可能成为频繁k_项集的Ck'剪除,得到新的候选项集Ch集合; 其中,为在文本信息数据库中的权值累加总和,/?/勝(C;+ k)为包含完全加权候选认-1) _项集G1的左_项集权值期望; (2.2.2)将其项集频度不为O的特征词候选、k -1)_项集进行Apr1ri连接,生成特征词候选项集G ; (2.2.3)如果G为空,则退出2.2步转入(3)步;否则,如果G不空,转入2.2.4步;(2.2.4)对于候选左_项集C;,考察G的任何认_1)_项集子集,如果存在一个其认_1)_项子集的项集权值小于其对应的偏序项集权重期望(即?-ι)< POIWBiCk^k)),则该项集G一定是非频繁项集,从其集合中删除该项集,得到新的候选偏序项集PoG集合; (2.2.5)在文本信息数据库中累加候选项集G的出现频度及其各个项目权值W1 {Ck), W2 (C),...,wk (Ca),提取 & (Ca),计算 Ck 的权重期望 POIWB {Ck, k+l); (2.2.6)删除其项集频度为O的候选项集Ck,得到新的Ck集合; (2.2.7)求出每个Ck的偏序项集poC;; (2.2.8)考察偏序项集poC i的闻序真子集,若存在poC ^的闻序真子集是非频繁的,则偏序项集PC^ , 一定是非频繁的,从其集合中删除该项集,得到新的候选偏序项集poG集合; (2.2.9)考察偏序项集poC k的高权项目的项目权值,若存在poC k的高权项目的项目权值小于1_项集的最小权值阈值则偏序项集PoCr k 一定是非频繁的,从其集合中删除该项集,得到新的候选偏序项集poC;集合的计算公式为-Jninw=WXms ; (2.2.10)考察偏序项集的低权项目,若存在PoCi的低权项目的项目权值不小于minw,则偏序项集poC k 一定是频繁的,将该项集加入到特征词频繁项集集合FIS ; (2.2.11)对余下的偏序项集i,计算计算其支持度p1sopboC〉,若p1supipoCk)彡as.,则该偏序项集/70^ ^是频繁的,加入到特征词频繁项集集合/7Z^ ; (2.2.12)将左的值加1,循环2.2.Γ2.2.12步骤,直到Ck为空,则退出2.2步转入如下(3)步; (3)从特征词频繁项集集合/^?中挖掘有效的完全加权特征词强关联规则模式,包括以下步骤: (3.1)从特征词频繁项集集合/取出特征词频繁项集Zi,找出Zi的所有真子集; (3.2)从Zi的真子集集合中任意取出两个真子集J7和厶,当J7 η 0,并且J7 ,JI2=Li,若『12彡(Ml2Zkl) Xw1 Xmc,则挖掘出特征词强关联规则J7 —厶;若#12彡O12/k2) Xff2Xffic,则挖掘出特征词强关联规则I2 -* I1 ;所述的kr、k2和ki2分别为项集I1' I2和Q1,心)的项目个数,?6和化分别为、厶和(/,,石)的项集权值,^为最小置信度阈值; (3.3)继续3.2步骤,当特征词频繁项集Zi的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤3.4 ; (3.4)继续3.1步骤,当特征词频繁项集集合中每个频繁项集Zi都被取出一次,而且仅能取出一次,则(3)步运行结束; 至此,完全加权特征词关联规则模式挖掘结束。
2.一种适用于权利要求1所述的基于偏序项集的中英文本词间关联规则挖掘系统,其特征在于,包括以下4个模块: 文本信息预处理模块:用于将待处理的中英文本数据进行预处理,即中文文本分词、英文文本词干提取、去除停用词以及特征词提取及其权值计算等,构建基于向量空间模型的文本信息数据库和特征词项目库; 特征词频繁偏序项集生成模块:该模块用于从文本信息数据库挖掘完全加权特征词候选偏序项集,并采用新的剪枝方法对候选偏序项集剪枝,得到最终的候选偏序项集,通过新的偏序项集支持度计算方法,从候选偏序项集中得出完全加权特征词频繁偏序项集模式; 完全加权特征词关联规则生成模块:该模块通过项集权重及其维数的简单计算和比较,从完全加权特征词频繁偏序项集(Λ,I2)中挖掘有效的完全加权特征词强关联规则模式-J1 -* I2 ; 关联规则模式结果显示模块:将有效的完全加权特征词强关联规则模式以用户喜欢的形式显示给用户,供用户分析、选择和使用。
3.根据权利要求2所述的挖掘系统,其特征在于,所述的文本信息预处理模块包括以下2个模块: 中英文文本预处理模块:该模块负责对中文文本信息进行分词和去除中文停用词,对英文文本信息进行词干提取和去除英文停用词等中英文语料预处理工作; 文本数据库和项目库构建模块:该模块主要进行中文和英文特征词提取及其权重计算,构建基于向量空间模型的文本信息数据库和中英文特征词项目库。
4.根据权利要求2所述的挖掘系统,其特征在于,所述的特征词频繁偏序项集生成模块包括以下3个模块: 特征词候选偏序项集生成模块:该模块主要从文本信息数据库中挖掘特征词候选偏序项集,具体过程如下:从特征词项目库中提取候选1-项集,在文本信息数据库中累加候选1-项集的权值总和,计算其支持度,得出完全加权特征词频繁1_项集;然后,通过Apr1ri连接,由完全加权特征词频繁0-1)_项集生成特征词候选k_项集;所述的々^ 2 ;累加特征词候选k_项集的各个项目在文本信息数据库中的项目权值,得出完全加权特征词候选偏序k_项集; 特征词候选偏序项集剪枝模块:该模块利用本发明的剪枝方法对完全加权特征词候选偏序k_项集进行剪枝,将不可能频繁的候选偏序1项集删除,得到最终有可能频繁的候选偏序k_项集集合; 特征词频繁偏序项集生成模块:该模块主要是对上述模块剪枝后得到的最终候选偏序k_项集进行挖掘,即使用本发明的支持度计算方法计算候选偏序k_项集的支持度,与最小支持度阈值比较,得出完全加权特征词频繁偏序k_项集。
5.根据权利要求2所述的挖掘系统,其特征在于,所述的完全加权特征词关联规则生成模块包括以下2个模块: 特征词频繁偏序项集的子项集生成模块:该模块主要生成特征词频繁偏序项集所有的真子集,并求出各个真子集的项集权值和维数; 完全加权特征词关联规则生成模块:该模块通过项集权值的简单计算和比较,从特征词频繁偏序项集中挖掘有效的完全加权特征词强关联规则模式。
6.根据权利要求2-5中任一项所述的挖掘系统,其特征在于,所述的挖掘系统中的最小支持度阈值as,最小置信度阈值由用户输入。
【文档编号】G06F17/30GK104182527SQ201410427491
【公开日】2014年12月3日 申请日期:2014年8月27日 优先权日:2014年8月27日
【发明者】黄名选 申请人:广西教育学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1