基于项集权值比较的模式挖掘和混合扩展的文本检索方法与流程

文档序号：17537920发布日期：2019-04-29 14:11阅读：237来源：国知局

本发明属于信息检索领域，具体基于项集权值比较的模式挖掘和混合扩展的文本检索方法。

背景技术：

当前，网络信息资源已经成为了隐含巨大经济价值和研究价值的网络大数据，如何高效、准确地从网络大数据里找到更多所需的信息，一直是信息检索领域研究的热点问题。搜索引擎在一定程度上缓解了人们在互联网检索信息的困难，但是，现有的搜索引擎或者web信息检索系统往往是基于关键词机械式符号匹配的检索，很难避免信息过载和词不匹配等问题，例如，查询词是“电脑”，尽管“计算机”描述的是相同的含义，但是，“电脑”、“计算机”在信息检索系统里被认为是不同的检索词，这样，仅仅含有关键词“计算机”，而不含“电脑”的文档不能被检索出来，这是因为词不匹配的原因。

技术实现要素：

为了解决上述问题，本发明提出基于项集权值比较的模式挖掘和混合扩展的文本检索方法，采用基于项集权值比值的剪枝和混合扩展方法，能挖掘出与原查询相关的扩展词，能解决信息检索中查询主题漂移和词不匹配问题，提高和改善文本信息检索性能，具有较好的应用价值和推广前景。

本发明的技术方案如下：

基于项集权值比较的模式挖掘和混合扩展的文本检索方法，包括下列步骤：

步骤1.用户查询首次检索文档得到初检结果，用户对初检结果进行相关反馈判断得到初检相关文档集，预处理所述相关文档集，具体步骤如下：

(1.1)用户查询首次检索文档集得到初检前列文档。

(1.2)用户对初检前列文档进行相关性判断得到初检相关文档，构建初检相关文档集。

(1.3)预处理初检相关文档集，计算初检相关文档集特征词权值，构建文档索引库和特征词库。

初检相关文档集预处理要根据不同语种采用相应的预处理方法，例如，对于英文文档，预处理方法是：去除英文停用词，采用porter程序(详细见网址：http://tartarus.org/martin/porterstemmer)提取得到英文特征词词干，计算英文特征词权值；对于中文文档，预处理方法是：去除中文停用词，对中文文档进行分词后提取中文特征词，计算中文特征词权值。

所述特征词权值的计算公式，如式(1)所示的计算公式。

式(1)中，wij表示文档di中特征词tj的权值，tfj,i表示特征词tj在文档di中的词频，普遍将tfj,i进行标准化处理，所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频，idfj是逆文档频度(inversedocumentfrequency)。

步骤2.结合原查询词项，挖掘含有原查询词项的特征词频繁项集，并进行项集剪枝，具体步骤如下：

(2.1)从特征词库中提取特征词作为1_候选项集c1；

(2.2)扫描文档索引库，统计文档总数n和统计c1的项集权值w[c1]；

(2.3)计算最小权值支持阈值mws。所述mws计算公式如式(2)所示。

mws＝n×ms(2)

式(2)中，所述ms为最小支持度阈值，n为文档索引库的文本文档总数；

(2.4)如果w[c1]≥mws，则c1就是特征词1_频繁项集l1，添加到频繁项集集合fis(frequentitemset)。

(2.5)采用aproiri连接方法将特征词1_频繁项集l1自连接得到多个2_候选项集c2。

所述aproiri连接方法详见文献(agrawalr,imielinskit,swamia.miningassociationrulesbetweensetsofitemsinlargedatabase[c]//proceedingsofthe1993acmsigmodinternationalconferenceonmanagementofdata,washingtondc,usa,1993:207-216.)

(2.6)剪枝不含原查询词项的2_候选项集c2；

(2.7)对余下的2_候选项集c2，扫描文档索引库统计分别c2的项集权值w[c2]；

(2.8)如果w[c2]≥mws，则c2就是特征词2_频繁项集l2，添加到频繁项集集合fis(frequentitemset)。

(2.9)采用aproiri连接方法将特征词(k-1)_频繁项集lk-1自连接得到多个k_候选项集ck＝(i1,i2,…,ik)，所述k≥2；

(2.10)扫描文档索引库，分别统计各ck的项集权值w[ck]和各ck中最大的项目权值wm，分别得到所述最大的项目权值wm对应的项目im，所述m∈(1,2,…,k)；

(2.11)如果所述项目im对应的1_项集(im)是非频繁的，或者wm<mws，则剪枝所述ck；

(2.12)对于余下的ck，如果w[ck]≥mws×k并且wmin[(iq)]≥minrate×wmax[(ip)]，那么，对应的ck就是特征词k_频繁项集lk，添加到频繁项集集合fis；所述minrate为最小项集权值比阈值；所述wmin[(iq)]为最小项目的项集权值，wmax[(ip)]为最大项目的项集权值，wmin[(iq)]和wmax[(ip)]的含义如下：假设k_候选项集ck＝(i1,i2,…ik)，ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik)，在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)]，将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值，记为wmin[(iq)]，对应的1_项集记为(iq)，将与ck对应的所述项目iq称为ck的最小项目，同理，将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值，记为wmax[(ip)]，对应的1_项集记为(ip)，将与ck对应的所述项目ip称为ck的最大项目；所述q∈(1,2,…,k)，p∈(1,2,…,k)；

(2.13)如果特征词k_频繁项集lk为空集，这时，则特征词频繁项集挖掘结束，转入如下步骤3，否则，k加1后转入步骤(2.9)继续顺序循环。

步骤3.通过计算项集的卡方值和关联规则置信度值从频繁项集中提取含有原查询词项的强加权关联规则。

(3.1)构建lk的所有真子集项集集合；

(3.2)从真子集项集集合中任意取出两个真子集项集qt和et，且qt∪et＝lk，qtl为原查询词项集合，et为不含原查询词项的特征词项集et，计算项集(qt,et)的卡方(chi-square,chis)值，所述卡方chis(qt,et)计算公式如式(3)所示。

式(3)中，w[(qt)]为项集qt在文档索引库中项集权值，k1为项集qt的长度，w[(et)]为项集et在文档索引库中项集权值，k2为项集et的长度，w[(qt,et)]为项集(qt,et)在文档索引库中的项集权值总和，kl为项集(qt,et)的项目个数，n为文档索引库的文本文档总数；

(3.3)如果chis(qt,et)>0，则计算特征词加权关联规则置信度(weightedconfidence,wconf)wconf(qt→et)和wconf(et→qt)。

若wconf(qt→et)≥最小置信度阈值mc，则关联规则qt→et是强关联规则模式，添加到关联规则模式集合ar(associationrule)。若wconf(et→qt)≥mc，则et→qt是强关联规则模式，添加到ar。

所述wconf(qt→et)和wconf(et→qt)的计算公式如式(4)和(5)所示。

式(4)和(5)中，w[(qt)]，k1，w[(et)]，k2，w[(qt,et)]，kl的定义同式(3)。

(3.4)如果lk的每个真子集项集当且仅当都被取出一次，则本次lk中的特征词关联规则模式挖掘结束，这时从繁项集集合fis中重新取出另一个lk，并转入步骤(3.1)进行另一个lk的关联规则模式挖掘，否则，转入步骤(3.2)再顺序执行各个步骤；如果频繁项集集合fis中的每个lk都已经被取出挖掘关联规则模式，则结束关联规则模式挖掘，转入如下步骤4。

步骤4.将那些后件是原查询词项的强关联规则前件以及前件是原查询词项的强关联规则后件作为扩展词，计算所述扩展词权值。

从关联规则模式集合ar中提取每个关联规则et→qt的前件et和关联规则qt→et的后件et作为查询扩展词，所述扩展词的权值we计算公式如式(6)所示。

式(6)中，max(wconf())和max(chis())分别表示关联规则置信度和卡方值的最大值，表示项集中最小项目的项集权值和最大项目的项集权值的比值的最大值，即当扩展词重复出现在多个关联规则模式时，分别取上述3个度量值的最大值。

步骤5.扩展词与原查询词组合为新查询再次检索文档得到最后检索结果文档返回给用户。

本发明与现有技术相比，具有以下有益效果：

(1)本发明提出一种基于项集权值比较的模式挖掘和混合扩展的文本检索方法。该发明方法通过比较项集权值从初检相关文档集中挖掘含有原查询词项的频繁项集，通过项集中最小项目的项集权值和最大项目的项集权值的比值，以及项集的项目权值最大者或者最大项目权值对项集进行剪枝，通过计算项集的卡方值和关联规则置信度值从频繁项集中提取含有原查询词项的强加权关联规则，最后，将那些后件是原查询词项的强关联规则前件以及前件是原查询词项的强关联规则后件作为扩展词，扩展词与原查询词组合为新查询再次检索文档集得到最终检索结果文档返回给用户。实验结果表明，本发明方法能提高和改善文本检索性能，具有较好的应用价值，推广前景广阔。

(2)选择国际上普遍使用的标准数据集ntcir-5clir的英文文本语料作为本发明方法实验语料。实验结果表明，与现有方法比较，本发明方法的检索结果p@5和p@10值都比对比方法的高，效果显著，说明本发明方法的检索性能均优于现有的对比方法，能提高文本信息检索性能，减少信息检索中查询漂移和词不匹配问题，具有很高的应用价值和广阔的推广前景。

附图说明

图1为本发明基于加权关联规则前后件混合扩展的文本检索方法的流程示意图。

具体实施方式

为了更好地说明本发明的技术方案，下面将本发明涉及的相关概念介绍如下：

1.假设ds＝{d1,d2,…,dn}是文本文档集(documentset，ds)，其中，di(1≤i≤n)是文档集ds中的第i篇文档，di＝{t1,t2,…,tm,…,tp}，tm(m＝1,2,…,p)为文档特征词项目，简称特征项，一般是由字、词或词组构成，di中对应的特征项权值集合wi＝{wi1,wi2,…,wim,…,wip}，wim为第i篇文档di中第m个特征项tm对应的权值，t＝{t1,t2,…,tn}表示ds中全体特征项集合，t的各个子集均称为特征项项集，简称项集。

2.关联规则的前件和后件

设t1、t2是任意的文本特征词项集，将形如t1→t2的蕴含式称为文本特征词关联规则，其中，t1称为规则前件，t2称为规则后件。

3.项目权值和项集权值的区别描述如下：假设在文本文档索引库中统计k_候选项集ck＝(i1,i2,…,ik)的项集权值w[ck]，得到ck各个项目i1,i2,…,ik对应的权值为w1,w2,…,wk，那么，所述w1,w2,…,wk称为项目权值，而ck的项集权值w[ck]＝w1+w2+…+wk。

4.项集中最小项目和最大项目，以及项集中最小项目的项集权值和最大项目的项集权值的含义解释如下：

假设k_候选项集ck＝(i1,i2,…ik)，ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik)，在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)]，将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值，记为wmin[(iq)]，对应的1_项集记为(iq)，将与ck对应的所述项目iq称为ck的最小项目，同理，将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值，记为wmax[(ip)]，对应的1_项集记为(ip)，将与ck对应的所述项目ip称为ck的最大项目；所述q∈(1,2,…,k)，p∈(1,2,…,k)。

实施例1

如图1所示，基于项集权值比较的模式挖掘和混合扩展的文本检索方法，包括下列步骤：

步骤1.用户查询首次检索文档得到初检结果，用户对初检结果进行相关反馈判断得到初检相关文档集，预处理所述相关文档集，具体步骤如下：

(1.1)用户查询首次检索文档集得到初检前列文档。

(1.2)用户对初检前列文档进行相关性判断得到初检相关文档，构建初检相关文档集。

(1.3)预处理初检相关文档集，计算初检相关文档集特征词权值，构建文档索引库和特征词库。

所述特征词权值的计算公式，如式(1)所示的计算公式。

步骤2.结合原查询词项，挖掘含有原查询词项的特征词频繁项集，并进行项集剪枝，具体步骤如下：

(2.1)从特征词库中提取特征词作为1_候选项集c1；

(2.2)扫描文档索引库，统计文档总数n和统计c1的项集权值w[c1]；

(2.3)计算最小权值支持阈值mws。所述mws计算公式如式(2)所示。

mws＝n×ms(2)

式(2)中，所述ms为最小支持度阈值，n为文档索引库的文本文档总数；

(2.4)如果w[c1]≥mws，则c1就是特征词1_频繁项集l1，添加到频繁项集集合fis(frequentitemset)。

(2.5)采用aproiri连接方法将特征词1_频繁项集l1自连接得到多个2_候选项集c2。

(2.6)剪枝不含原查询词项的2_候选项集c2；

(2.7)对余下的2_候选项集c2，扫描文档索引库分别统计c2的项集权值w[c2]；

(2.8)如果w[c2]≥mws，则c2就是特征词2_频繁项集l2，添加到频繁项集集合fis(frequentitemset)。

(2.9)采用aproiri连接方法将特征词(k-1)_频繁项集lk-1自连接得到多个k_候选项集ck＝(i1,i2,…,ik)，所述k≥2；

(2.10)扫描文档索引库，分别统计各ck的项集权值w[ck]和各ck中最大的项目权值wm，分别得到所述最大的项目权值wm对应的项目im，所述m∈(1,2,…,k)；；

(2.11)如果所述项目im对应的1_项集(im)是非频繁的，或者wm<mws，则剪枝所述ck；

(2.13)如果特征词k_频繁项集lk为空集，这时，则特征词频繁项集挖掘结束，转入步骤3，否则，k加1后转入步骤(2.9)继续顺序循环。

本发明所述的剪枝采用如下方法：

(1)假设k_候选项集ck＝(i1,i2,…ik)，wmin[(iq)]为ck的最小项目的项集权值，wmax[(ip)]为ck的最大项目的项集权值，如果wmin[(iq)]<minrate×wmax[(ip)]，则所述ck是无效项集，剪除所述ck；本发明只挖掘wmin[(iq)]≥minrate×wmax[(ip)]的频繁项集；所述minrate为最小项集权值比阈值。。

(2)如果k_候选项集ck＝(i1,i2,…,ik)中最大的项目权值小于最小权值支持阈值mws，那么ck是非频繁的，则可以剪除所述ck；

(3)假设k_候选项集ck＝(i1,i2,…,ik)中最大项目权值对应的项目单独作为1_项集为(im)，如果所述1_项集(im)是非频繁的，则可以剪除所述ck。

(4)当挖掘到候选2_项集时，将不含原查询词项的候选2_项集删除，留下含有原查询词项的候选2_项集。

步骤3.通过计算项集的卡方值和关联规则置信度值从频繁项集中提取含有原查询词项的强加权关联规则。

(3.1)构建lk的所有真子集项集集合；

(3.3)如果chis(qt,et)>0，则计算特征词加权关联规则置信度(weightedconfidence,wconf)wconf(qt→et)和wconf(et→qt)。

所述wconf(qt→et)和wconf(et→qt)的计算公式如式(4)和(5)所示。

式(4)和(5)中，w[(qt)]，k1，w[(et)]，k2，w[(qt,et)]，kl的定义同式(3)。

(3.4)如果lk的每个真子集项集当且仅当都被取出一次，则本次lk中的特征词关联规则模式挖掘结束，这时从繁项集集合fis中重新取出另一个lk，并转入步骤(3.1)进行另一个lk的关联规则模式挖掘，否则，转入步骤(3.2)顺序执行各个步骤；如果频繁项集集合fis中的每个lk都已经被取出挖掘关联规则模式，则结束关联规则模式挖掘，转入如下步骤4。

步骤4.将那些后件是原查询词项的强关联规则前件以及前件是原查询词项的强关联规则后件作为扩展词，计算所述扩展词权值。

从关联规则模式集合ar中提取每个关联规则et→qt的前件et和关联规则qt→et的后件et作为查询扩展词，所述扩展词的权值we计算公式如式(6)所示。

步骤5.扩展词与原查询词组合为新查询再次检索文档得到最后检索结果文档返回给用户。

实验设计与结果：

为了说明本发明方法的有效性，特进行基于本发明方法和对比方法的信息检索实验，比较本发明方法和对比方法的检索性能。

实验语料：

以信息检索领域中国际上普遍使用的标准数据集ntcir-5clir的英文文本语料(见网址：http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-clir.html)作为本发明方法的实验语料，即选择ntcir-5clir语料中的英文文档集mainichidailynews2000、2001年和koreatimes2001年的新闻文本，共有26224篇英文文档作为本发明实验数据，具体是mainichidailynews2000的新闻文本6608篇(简称m0)，mainichidailynews2001的5547篇(简称m1)和koreatimes2001年的14069篇(简称k1)。

ntcir-5clir语料有文档测试集、50个查询主题集及其对应的结果集，其中，每个查询主题类型有title、desc、narr和conc等4种类型，结果集有2种评价标准，即高度相关，相关的rigid标准和高度相关、相关和部分相关的relax标准。本发明实验用的查询主题类型选择title和desc类型，title查询属于短查询，以名词和名词性短语简要描述查询主题，desc查询属于长查询，以句子形式简要描述查询主题。

本发明实验结果的评价指标是p@5和p@10。所述p@5是指对于测试查询返回的前5个结果的准确率，所述p@10是指对于测试查询返回的前10个结果的准确率。

对比方法介绍如下：

(1)对比方法1：基于完全加权关联规则挖掘的信息检索方法。所述对比方法1采用文献(黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展.小型微型计算机系统,2017,38(8):1783-1791.)的完全加权关联规则挖掘技术对英文文本首次检索结果的用户相关反馈文档集挖掘特征词关联规则，将规则前件是原查询词项的关联规则后件作为扩展词，扩展词和原查询组合为新查询再进行第二次检索，得到最终检索结果。实验参数是：最小置信度阈值mc为0.1，最小支持度阈值ms分别为0.8,1.0,1.3,1.5,1.7。

(2)对比方法2：基于完全加权正负关联规则挖掘的信息检索方法。所述对比方法2采用文献(周秀梅,黄名选.基于项权值变化的完全加权正负关联规则挖掘[j].电子学报,2015,43(8):1545-1554.)的完全加权正负关联规则挖掘技术对英文文本首次检索结果的用户相关反馈文档集挖掘特征词正负关联规则，将正关联规则前件是原查询词项的规则后件作为候选扩展词，将负关联规则前件是原查询词项的规则后件作为负扩展词，从候选扩展词中剪除负扩展词后得到最终的查询扩展词，扩展词和原查询组合为新查询再进行第二次检索，得到最终检索结果。实验参数是：最小置信度阈值mc为0.5，最小支持度阈值ms分别为0.2,0.25,0.3,0.35,0.4，最小兴趣度阈值mi为0.02。

(3)对比方法3：基于加权关联模式挖掘的信息检索方法。所述对比方法3是采用文献(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[j].情报学报,2017,36(3):307-318.)的加权关联模式挖掘方法对英文文本首次检索结果的用户相关反馈文档集进行挖掘，得到含有原查询词项的英文特征词关联规则，提取前件为原查询词项的关联规则后件作为扩展词，扩展词和原查询组合为新查询，进行第二次检索，得到最终检索结果。实验参数是：最小置信度阈值mc为0.01,最小兴趣度阈值mi为0.0001,最小置信度阈值ms为0.007,0.008,0.009,0.01,0.011。

实验方法和结果如下：

运行本发明方法和对比方法的源程序，提交50个英文查询主题的title和desc查询在3个英文数据集m0、m1和k1中进行英文文本信息检索实验。实验时，对初检前列50篇英文文档进行用户相关反馈后得到初检用户相关反馈文档(为了简便，本文实验中，将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档),本发明方法通过比较项集权值从初检用户相关反馈文档集中挖掘含有原查询词项的频繁项集，通过项集中最小项目的项集权值和最大项目的项集权值的比值，以及项集的项目权值最大者或者最大项目权值对项集进行剪枝，通过计算项集的卡方值和关联规则置信度值从频繁项集中提取含有原查询词项的强加权关联规则，最后，将那些后件是原查询词项的强关联规则前件以及前件是原查询词项的强关联规则后件作为扩展词，扩展词与原查询词组合为新查询再次检索文档集得到最终检索结果。通过实验，得到本发明方法和对比方法的检索结果p@5和p@10值分别如表1至表4所示，实验时挖掘到3_项集，其中，本发明方法的实验参数是：最小置信度阈值mc＝0.1，最小支持度阈值ms分别为0.5,0.6,0.7,0.8,0.9，最小项集关联度阈值minire＝0.4。

表1本发明方法与对比方法的检索结果p@5值比较(title查询主题)

表2本发明方法与对比方法的检索结果p@10值比较(title查询主题)

表3本发明方法与对比方法的检索结果p@5值比较(desc查询主题)

表4本发明方法与对比方法的检索结果p@10值比较(desc查询主题)

表1至表4表明，本发明方法的检索结果p@5和p@10值都比3个对比方法的检索结果高，效果显著。实验结果表明，本发明方法是有效的，确实能提高文本信息检索性能，具有很高的应用价值和广阔的推广前景。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄名选
技术所有人：广西财经学院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。