基于加权规则前后件混合扩展的印尼-英跨语言检索方法与流程

文档序号:17322827发布日期:2019-04-05 21:37阅读:138来源:国知局
基于加权规则前后件混合扩展的印尼-英跨语言检索方法与流程

本发明属于信息检索领域,具体是基于加权规则前后件混合扩展的印尼-英跨语言检索方法。



背景技术:

跨语言信息检索指的是借助机器翻译工具以一种语言的查询去检索另外一种或者多种语言的信息资源的检索技术。当前跨语言信息检索技术存在的问题是查询主题严重漂移和词不匹配问题,这些问题常常导致跨语言信息检索性能低下。随着网络技术和机器翻译技术的迅猛发展,跨语言信息检索技术得到了广泛的关注和讨论,学者们从不同的角度和方向对跨语言信息检索技术进行了深入探讨和研究,取得了丰富的成果,这些成果主要集中在基于相关反馈的(gaojf,niejy,zhangj,etal.trec-9clirexperimentsatmsrcn[c].in:proceedingsofthe9thtextretrievalevaluationconference,2001:343-353.吴丹,何大庆,王惠临.基于伪相关的跨语言查询扩展[j].情报学报,2010,29(2):232-239)、潜在语义的(闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[j].计算机工程,2009,35(10):49-53.宁健,林鸿飞.基于改进潜在语义分析的跨语言检索[j].中文信息学报,2010,24(3):105-111.)、语言模型的(raziehr,azadehs,irwink.multilingualinformationretrievalinthelanguagemodelingframework[j].informationretrievaljournal,2015,18(3):246-281.)和主题模型的(wangxuwen,zhangqiang,wangxiaojie,etal.cross-lingualpseudorelevancefeedbackbasedonweakrelevanttopicalignment.proceedingsofthe29thpacificasiaconferenceonlanguage,informationandcomputation,paclic29,shanghai,china,2015:529-534.罗远胜,王明文等.跨语言信息检索中的双语主题相关模型.小型微型计算机系统,2013,34(12):2758-2763.)等跨语言信息检索技术,但是,还没有最终完全解决跨语言信息检索中查询主题严重漂移和词不匹配问题。

随着中国-东盟自由贸易区建设的不断深入以及中国-东盟博览会每年的举办,世界各国与东盟印尼国家之间的交往更加密切和频繁,东盟印尼语跨语言信息检索和跨语言信息服务研究显得更加迫切,其重要性日益凸显。语言多样化成为了各国与东盟印尼国家之间扩大经贸往来和文化交流的瓶颈和困难,消除语言障碍已经成为一个亟需解决和刻不容缓的重要问题,东盟印尼语跨语言信息检索方法的研究具有重要的现实意义。当前,东盟印尼语跨语言信息检索面临的问题主要表现为查询主题严重漂移、词不匹配以及查询项翻译歧义和多义性等,这些问题也是当前国际上急需解决的跨语言信息检索中普遍存在的难题。

从目前的研究成果可以看出,跨语言信息检索研究的主要语言对象是英语、汉语等大语种以及欧洲国家语言和国内的少数民族语言等等,而针对东盟小语种印尼语的跨语言信息检索研究报道不多,同时,基于关联规则挖掘的跨语言信息检索研究不是很深入,还存在如下一些主要问题:①还没有找到一种最优的、最普遍适用各种语言环境的支持度计算方法和关联规则评估框架来挖掘文本信息中特征词之间存在的各种复杂关联。现有研究中,项集支持度要么只考虑项集频度,要么只考虑项集权值,或者仅仅将项平均权值与无加权支持度的简单乘积作为项集支持度,等等,使得挖掘出的扩展词质量(即与原查询的相关性)有待于提高;②关联规则评估方面,经典的支持度-置信度评估框架存在难以解决的缺陷,例如,冗余的、或者虚假的关联规则多,虽然出现了一些改进的评估框架,但是,还没有最终解决跨语言检索中查询主题漂移和词不匹配问题;③在扩展模型方面,关联规则后件扩展模型和前件扩展模型得到了很好的研究,但是忽略了对前后件混合扩展模型的研究。



技术实现要素:

本发明提出了一种基于加权规则前后件混合扩展的印尼-英跨语言检索方法,适用于跨语言信息检索领域,提高和改善跨语言检索性能,解决跨语言信息检索中查询主题漂移和词不匹配问题。

本发明采用如下技术方案:

基于加权规则前后件混合扩展的印尼-英跨语言检索方法,包括下列步骤:

步骤1.通过用户查询预处理将印尼语查询跨语言检索英文文档,构建初检用户相关反馈文档集,对初检用户相关反馈文档集进行预处理,具体步骤:

(1)用户查询预处理的内容是:印尼语用户查询通过机器翻译工具译为英文查询。

可以使用的机器翻译工具有:微软必应机器翻译接口microsofttranslatorapi,或者,谷歌机器翻译接口,等等。

(2)英文查询检索英文文档得到初检前列英文文档,用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建初检用户相关反馈文档集。

(3)预处理初检用户相关反馈文档集,构建英文文档索引库和特征词库,然后转入步骤2。

初检用户相关反馈文档集预处理内容是:去除英文停用词,通过词干提取得到特征词,计算特征词权值,最后构建英文文档索引库和特征词库。

本发明采用porter程序(详细见网址:http://tartarus.org/martin/porterstemmer)进行词干提取。

本发明提出初检用户相关反馈文档集中特征词权值wij的计算公式,如式(1)所示。

式(1)中,wij表示文档di中特征词tj的权值,n表示初检用户相关反馈文档集的文档总数,dfj表示含有特征词tj的文档数量,tfj,i表示特征词tj在文档di中的词频,max(tfi)表示文档di中出现的最大词频。

式(1)表明,在初检用户相关反馈文档中,含有某个特征词的初检用户相关反馈文档数量越多,则该特征词与原查询越相关,越重要,所述特征词的权值就越高。

步骤2.将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,从初检用户相关反馈文档集中挖掘含有原查询词项的特征词频繁项集,通过项权值排序对特征词项集进行剪枝,具体步骤如下:

(1)挖掘特征词1_频繁项集l1,具体为如下3个步骤:

(1.1)从特征词库中提取特征词作为1_候选项集c1;

(1.2)扫描英文文档索引库以便统计文档索引库中文档总数n和累加所有特征词权值的总和w,统计特征词1_候选项集c1在英文文档索引库的权值wc1及其出现次数nc1,计算c1的加权支持度wsup(c1),如式(2)所示。

(1.3)如果wsup(c1)≥ms,ms为最小支持度阈值,则c1就是特征词1_频繁项集l1,添加到特征词频繁项集集合fis(frequentitemset)。

(2)构建权值排序k_候选项集,对k_候选项集进行剪枝,挖掘出特征词k_频繁项集,所述k≥2,具体为如下8个步骤:

(2.1)采用aproiri连接方法将特征词(k-1)_频繁项集lk-1进行自连接得到特征词k_候选项集ck,所述k≥2;

aproiri连接方法详见文献(agrawalr,imielinskit,swamia.miningassociationrulesbetweensetsofitemsinlargedatabase[c]//proceedingsofthe1993acmsigmodinternationalconferenceonmanagementofdata,washingtondc,usa,1993:207-216.)

(2.2)如果k=2,删除没有包含译后英文原查询词项的特征词k_候选项集ck,将包含有译后英文原查询词项的ck留下,然后,转入步骤(2.3);如果k>2,则直接转入步骤(2.3)。

(2.3)统计特征词k_候选项集ck在英文文档索引库的项权值(w1,w2,…,wk),并且排降序,使得w1≥w2≥…≥wk,这样就得到特征词权值排序k_候选项集ck=(i1,i2,…,ik)。

(2.4)对权值排序k_候选项集ck=(i1,i2,…,ik)的子项集c1=(i1),c12=(i1,i2),c123=(i1,i2,i3),…,c123…k-1=(i1,i2,…,ik-1)进行考察,如果存在某个子项集是非频繁的,则该项集ck是非频繁的,剪除该项集ck;

(2.5)对于余下的权值排序k_候选项集ck,如果则该项集ck是非频繁的,剪除该项集ck,所述为权值排序k_候选项集ck在英文文档索引库中的出现次数,所述n为英文文档索引库中的文档总数,所述w为在英文文档索引库中累加所有特征词权值的总和。

(2.6)对剪枝后余下的权值排序k_候选项集ck,根据权值排序k_候选项集ck在英文文档索引库中的出现次数和所述ck的权值计算ck的加权支持度wsup(ck),如式(3)所示。

式(3)中,n为英文文档索引库中的文档总数,w为在英文文档索引库中累加所有特征词权值的总和,为权值排序k_候选项集ck的各个项权值(w1,w2,…,wk)之和,所述为权值排序k_候选项集ck的项集长度,所述项集长度是指该项集所包含的项个数。

(2.7)如果wsup(ck)≥ms,ms为最小支持度阈值,则该权值排序k_候选项集ck就是特征词k_频繁项集lk,添加到特征词频繁项集集合fis。

(2.8)若特征词k_频繁项集lk为空集,则特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.1)继续循环。

步骤3.采用置信度-相关系数评价框架从特征词频繁项集集合fis中挖掘特征词加权关联规则,具体步骤如下:

(3.1)对于特征词频繁项集集合fis中每一个加权k_频繁项集lk,所述k≥2,构建任意一个lk的所有真子集项集集合;

(3.2)从真子集项集集合中任意取出两个真子集项集qt和et,且qt∪et=lk,qen为译后英文原查询词项集合,计算项集(qt,et)的相关系数(weighteditemsetcorrelationcoefficient,wicc)wicc(qt,et),如式(4)所示。

式(4)中,k1、k2项k12分别为特征词项集qt、et以及项集(qt,et)的项集长度,n1、n2和n12分别为特征词项集qt、et以及项集(qt,et)在英文文档索引库中出现的次数,w1、w2和w12分别为特征词项集qt、et以及项集(qt,et)在英文文档索引库中的项集权值,n为英文文档索引库中的文档总数,w为在英文文档索引库中累加所有特征词权值的总和。

(3.3)如果wicc(qt,et)>0,则计算特征词加权关联规则置信度(weightedassociationruleconfidence,warc)warc(qt→et)和warc(et→qt)。

若warc(qt→et)≥最小置信度阈值mc,则关联规则qt→et是特征词强加权关联规则模式,加入到特征词加权关联规则模式集合war(weightedassociationrule)。

若warc(et→qt)≥mc,则关联规则et→qt是特征词强加权关联规则模式,加入到war。

warc(qt→et)和warc(et→qt)的计算公式如式(5)和(6)所示。

式(5)和(6)中,k1、k2、k12、n1、n2、n12、w1、w2和w12同式(4)的。

(3.4)如果lk的真子集项集集合中每个真子集项集当且仅当都被取出一次,则转入如下步骤(3.5),否则,转入步骤(3.2)再顺序进行各个步骤。

(3.5)从特征词频繁项集集合fis中重新取出另一个加权k_频繁项集lk,转入步骤(3.1)进行新一轮特征词加权关联规则模式挖掘,直到fis中每一个k_频繁项集lk都被取出为止,这时特征词加权关联规则模式挖掘结束,转入如下步骤4。

步骤4.从特征词加权关联规则模式集合war中提取那些后件是原查询词项的关联规则et→qt的前件项集et以及前件是原查询词项的关联规则qt→et的后件项集et作为译后扩展词,计算扩展词权值。

从特征词加权关联规则模式集合war中提取每个关联规则et→qt的前件et和关联规则qt→et的后件et作为印尼-英跨语言查询译后英文扩展词,所述英文扩展词的权值we计算公式如式(7)所示。

we=max(warc)+max(wicc)(7)

式(7)中,max(warc)和max(wicc)分别表示特征词加权关联规则置信度的最大值和相关系数中的最大值。当扩展词重复出现在多个加权关联规则模式时,会存在多个置信度和相关系数的情况,这时取最大值max(warc)和max(wicc)用来计算该扩展词的权值。

步骤5.扩展词与译后原查询词组合为新译后查询再次检索英文文档得到最后检索结果英文文档。

步骤6.通过机器翻译工具将最后检索结果英文文档译为印尼语文档并返回给用户。

本发明与现有技术相比,具有以下有益效果:

(1)本发明提出一种基于加权规则前后件混合扩展的印尼-英跨语言检索方法。该发明方法将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,从初检用户相关反馈文档集中挖掘含有原查询词项的特征词频繁项集,通过项权值排序对特征词候选项集进行剪枝,采用置信度-相关系数评价框架从特征词频繁项集中挖掘特征词加权关联规则,最后,将那些后件是原查询词项的关联规则前件项集以及前件是原查询词项的关联规则后件项集作为扩展词,扩展词与译后原查询词组合为新查询再次检索英文文档得到最终检索结果英文文档,通过机器翻译工具将最终检索结果英文文档译为印尼语文档并返回给用户。实验结果表明,本发明采用基于项权值排序的剪枝方法,提高了挖掘效率,采用了加权规则前后件混合扩展技术,跨语言信息检索性能得到很好的改善,有很好的应用价值和推广前景。

(2)选择国际上普遍使用的标准跨语言检索数据集ntcir-5clir作为本发明方法的实验语料,与跨语言基准检索和4个对比方法进行实验比较,实验结果表明,本发明方法的跨语言检索结果p@20和map值都比跨语言基准检索和4个对比方法的检索结果高,效果显著,说明本发明方法的检索性能均优于跨语言基准检索和对比方法,能提高印尼-英跨语言信息检索性能,减少跨语言信息检索中查询漂移和词不匹配问题,具有很高的应用价值和广阔的推广前景。

附图说明

图1为本发明所述的基于加权规则前后件混合扩展的印尼-英跨语言检索方法的流程示意图。

具体实施方式

为了更好地说明本发明的技术方案,下面将本发明涉及的相关概念介绍如下:

1.特征词关联规则的前件和后件:设x、y是任意的特征词项集,将形如x→y的蕴含式称为特征词关联规则,其中,x称为规则前件,y称为规则后件。

2.加权规则前后件混合扩展:

加权规则前后件混合扩展指的是扩展词来源于加权关联规则的前件和后件项集。并且,当扩展词来自于前件项集时,该规则后件一定是译后查询词项集合,同理,当扩展词属于后件项集时,其规则前件一定是查询词项集合。

3.特征词项集支持度

假设跨语言初检相关文档集由d1,d2,…,dn等文档组成,每篇文档特征词表示为t1,t2,…,tm,其对应的特征词权值为wi1,wi2,…,wim,则本发明提出特征词项集t支持度(weighteditemsetsupport,wis)的计算方法,如式(8)所示。

其中,nt、wt分别为特征词项集t在跨语言初检相关文档集中出现的频度和项集权值累加总和值,w为跨语言初检相关文档集中所有特征词权值总和值,n是跨语言初检相关文档集的文档总数,ki为项集t的长度(即项个数)。

式(7)的支持度计算公式将项集权值和频度与初检用户相关反馈英文文档集的特征词总权值和文档总数融合,克服了现有加权支持度计算的缺陷。

假设最小支持度阈值为ms,若wis(t)≥ms,则项集t是频繁项集。

4.加权关联规则置信度和相关系数

本发明提出特征词加权关联规则(t1→t2)置信度(weightedassociationruleconfidence,warc)计算方法如式(9)所示。

其中,i=i1∪i2,n1、w1分别为项集i1在跨语言初检相关文档集中出现的频度和项集权值累加总和值,k1为项集i1的长度,ni、wi和ki同式(7)。

本发明提出特征词项集相关系数(weighteditemsetcorrelationcoefficient,wicc)的计算方法如式(10)所示。

式(10)中,k1、k2项k12分别为特征词加权项集t1、t2以及项集(t1,t2)的项集长度,n1、n2和n12分别为特征词加权项集t1、t2以及项集(t1,t2)在英文文档索引库中出现的次数,w1、w2和w12分别为特征词加权项集t1、t2以及项集(t1,t2)在英文文档索引库中的项集权值,w和n是同式(8)。

假设最小置信度阈值为mc,若warc(i1→i2)≥mc,且wicc(i1,i2)>0,则是i1→i2强加权关联规则模式。

5.初检用户相关反馈文档集中特征词权值的计算

本发明提出初检用户相关反馈文档集中特征词权值wij的计算公式,如式(11)所示。

式(11)中,wij表示文档di中特征词tj的权值,n表示初检用户相关反馈文档集的文档总数,dfj表示含有特征词tj的文档数量,tfj,i表示特征词tj在文档di中的词频,max(tfi)表示文档di中出现的最大词频。

式(11)表明,在初检用户相关反馈文档集中,含有某个特征词的初检用户相关反馈文档数量越多,则该特征词与原查询越相关,越重要,所述特征词的权值就越高。

6.印尼-英跨语言译后扩展词权值的计算

本发明将加权置信度(warc)和相关系数(wicc)作为衡量印尼-英跨语言译后扩展词权值重要依据,提出扩展词权值we的计算公式,如式(12)所示。

we=max(warc)+max(wicc)(12)

式(12)中,max(warc)和max(wicc)分别表示关联规则置信度和相关系数中的最大值。当扩展词重复出现在多个加权关联规则模式时,会存在多个置信度和相关系数的情况,这时取最大值max(warc)和max(wicc)用来计算该扩展词的权值。

如图1所示,基于加权规则前后件混合扩展的印尼-英跨语言检索方法,包括下列步骤:

步骤1.通过用户查询预处理将印尼语查询跨语言检索英文文档,构建初检用户相关反馈文档集,对初检用户相关反馈文档集进行预处理,具体步骤:

(1)用户查询预处理的内容是:印尼语用户查询通过机器翻译工具译为英文查询。

可以使用的机器翻译工具有:微软必应机器翻译接口microsofttranslatorapi,或者,谷歌机器翻译接口,等等。

(2)英文查询检索英文文档得到初检前列英文文档,用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建初检用户相关反馈文档集。

(3)预处理初检用户相关反馈文档集,构建英文文档索引库和特征词库,然后转入步骤2。

初检用户相关反馈文档集预处理内容是:去除英文停用词,通过词干提取得到特征词,计算特征词权值,最后构建英文文档索引库和特征词库。

本发明采用porter程序(详细见网址:http://tartarus.org/martin/porterstemmer)进行词干提取。

本发明提出初检用户相关反馈文档集中特征词权值wij的计算公式,如式(13)所示。

式(13)中,wij表示文档di中特征词tj的权值,n表示初检用户相关反馈文档集的文档总数,dfj表示含有特征词tj的文档数量,tfj,i表示特征词tj在文档di中的词频,max(tfi)表示文档di中出现的最大词频。

式(13)表明,在初检用户相关反馈文档中,含有某个特征词的初检用户相关反馈文档数量越多,则该特征词与原查询越相关,越重要,所述特征词的权值就越高。

步骤2.将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,从初检用户相关反馈文档集中挖掘含有原查询词项的特征词频繁项集,通过项权值排序对特征词项集进行剪枝,具体步骤如下:

(1)挖掘特征词1_频繁项集l1,具体为如下3个步骤:

(1.1)从特征词库中提取特征词作为1_候选项集c1;

(1.2)扫描英文文档索引库以便统计文档索引库中文档总数n和累加所有特征词权值的总和w,统计特征词1_候选项集c1在英文文档索引库的权值及其出现次数计算c1的加权支持度wsup(c1),如式(14)所示。

(1.3)如果wsup(c1)≥ms,ms为最小支持度阈值,则c1就是特征词1_频繁项集l1,添加到特征词频繁项集集合fis(frequentitemset)。

(2)构建权值排序k_候选项集,对k_候选项集进行剪枝,挖掘出特征词k_频繁项集,所述k≥2,具体为如下8个步骤:

(2.1)采用aproiri连接方法将特征词(k-1)_频繁项集lk-1进行自连接得到特征词k_候选项集ck,所述k≥2;

aproiri连接方法详见文献(agrawalr,imielinskit,swamia.miningassociationrulesbetweensetsofitemsinlargedatabase[c]//proceedingsofthe1993acmsigmodinternationalconferenceonmanagementofdata,washingtondc,usa,1993:207-216.)

(2.2)如果k=2,删除没有包含译后英文原查询词项的特征词k_候选项集ck,将包含有译后英文原查询词项的ck留下,然后,转入步骤(2.3);如果k>2,则直接转入步骤(2.3)。

(2.3)统计特征词k_候选项集ck在英文文档索引库的项权值(w1,w2,…,wk),并且排降序,使得w1≥w2≥…≥wk,这样就得到特征词权值排序k_候选项集ck=(i1,i2,…,ik)。

(2.4)对权值排序k_候选项集ck=(i1,i2,…,ik)的子项集c1=(i1),c12=(i1,i2),c123=(i1,i2,i3),…,c123…k-1=(i1,i2,…,ik-1)进行考察,如果存在某个子项集是非频繁的,则该项集ck是非频繁的,剪除该项集ck;

(2.5)对于余下的权值排序k_候选项集ck,如果则该项集ck是非频繁的,剪除该项集ck,所述为权值排序k_候选项集ck在英文文档索引库中的出现次数,所述n为英文文档索引库中的文档总数,所述w为在英文文档索引库中累加所有特征词权值的总和。

(2.6)对剪枝后余下的权值排序k_候选项集ck,根据权值排序k_候选项集ck在英文文档索引库中的出现次数和所述ck的权值计算ck的加权支持度wsup(ck),如式(15)所示。

式(15)中,n为英文文档索引库中的文档总数,w为在英文文档索引库中累加所有特征词权值的总和,为权值排序k_候选项集ck的各个项权值(w1,w2,…,wk)之和,所述为权值排序k_候选项集ck的项集长度,所述项集长度是指该项集所包含的项个数。

(2.7)如果wsup(ck)≥ms,ms为最小支持度阈值,则该权值排序k_候选项集ck就是特征词k_频繁项集lk,添加到特征词频繁项集集合fis。

(2.8)若特征词k_频繁项集lk为空集,则特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.1)继续循环。

步骤3.采用置信度-相关系数评价框架从特征词频繁项集集合fis中挖掘特征词加权关联规则,具体步骤如下:

(3.1)对于特征词频繁项集集合fis中每一个加权k_频繁项集lk,所述k≥2,构建任意一个lk的所有真子集项集集合;

(3.2)从真子集项集集合中任意取出两个真子集项集qt和et,且qt∪et=lk,qen为译后英文原查询词项集合,计算项集(qt,et)的相关系数(weighteditemsetcorrelationcoefficient,wicc)wicc(qt,et),如式(16)所示。

式(16)中,k1、k2项k12分别为特征词项集qt、et以及项集(qt,et)的项集长度,n1、n2和n12分别为特征词项集qt、et以及项集(qt,et)在英文文档索引库中出现的次数,w1、w2和w12分别为特征词项集qt、et以及项集(qt,et)在英文文档索引库中的项集权值,n为英文文档索引库中的文档总数,w为在英文文档索引库中累加所有特征词权值的总和。

(3.3)如果wicc(qt,et)>0,则计算特征词加权关联规则置信度(weightedassociationruleconfidence,warc)warc(qt→et)和warc(et→qt)。

若warc(qt→et)≥最小置信度阈值mc,则关联规则qt→et是特征词强加权关联规则模式,加入到特征词加权关联规则模式集合war(weightedassociationrule)。

若warc(et→qt)≥mc,则关联规则et→qt是特征词强加权关联规则模式,加入到war。

warc(qt→et)和warc(et→qt)的计算公式如式(17)和(18)所示。

式(17)和(18)中,k1、k2、k12、n1、n2、n12、w1、w2和w12同式(16)的。

(3.4)如果lk的真子集项集集合中每个真子集项集当且仅当都被取出一次,则转入如下步骤(3.5),否则,转入步骤(3.2)再顺序进行各个步骤。

(3.5)从特征词频繁项集集合fis中重新取出另一个加权k_频繁项集lk,转入步骤(3.1)进行新一轮特征词加权关联规则模式挖掘,直到fis中每一个k_频繁项集lk都被取出为止,这时特征词加权关联规则模式挖掘结束,转入如下步骤4。

步骤4.从特征词加权关联规则模式集合war中提取那些后件是原查询词项的关联规则et→qt的前件项集et以及前件是原查询词项的关联规则qt→et的后件项集et作为译后扩展词,计算扩展词权值。

从特征词加权关联规则模式集合war中提取每个关联规则et→qt的前件et和关联规则qt→et的后件et作为印尼-英跨语言查询译后英文扩展词,所述英文扩展词的权值we计算公式如式(19)所示。

we=max(warc)+max(wicc)(19)

式(19)中,max(warc)和max(wicc)分别表示特征词加权关联规则置信度的最大值和相关系数中的最大值。当扩展词重复出现在多个加权关联规则模式时,会存在多个置信度和相关系数的情况,这时取最大值max(warc)和max(wicc)用来计算该扩展词的权值。

步骤5.扩展词与译后原查询词组合为新译后查询再次检索英文文档得到最后检索结果英文文档。

步骤6.通过机器翻译工具将最后检索结果英文文档译为印尼语文档并返回给用户。

实验设计与结果:

为了说明本发明方法的有效性,特进行了基于本发明方法和对比方法的印尼-英跨语言信息检索实验,比较本发明方法和对比方法的跨语言信息检索性能。

实验语料:

以信息检索领域中国际上普遍使用的跨语言标准数据集ntcir-5clir语料(见网址:http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-clir.html)作为本发明实验语料,即选择ntcir-5clir语料中的英文文档集mainichidailynews2000、2001年和koreatimes2001年的新闻文本,共有26224篇英文文档作为本发明实验数据,具体是mainichidailynews2000的新闻文本6608篇(简称m0数据集),mainichidailynews2001的5547篇(简称m1数据集)和koreatimes2001年的14069篇(简称k1数据集)。

ntcir-5clir语料有文档测试集、50个查询主题集及其对应的结果集,其中,每个查询主题类型有title、desc、narr和conc等4种类型,结果集有2种评价标准,即高度相关,相关的rigid标准和高度相关、相关和部分相关的relax标准。本发明实验用的查询主题类型选择title和desc类型,title查询属于短查询,以名词和名词性短语简要描述查询主题,desc查询属于长查询,以句子形式简要描述查询主题。

实验结果评价指标采用p@20和map。所述p@20是指对于测试查询返回的前20个结果的准确率,所述map为平均查准率均值(meanaverageprecision,map)。

由于ntcir-5clir语料没有提供印尼语查询版本,特请翻译机构的东盟语言专业翻译人员将其50个中文版查询主题语料人工翻译为印尼语查询作为本发明实验的源语言查询。

对比方法:

(1)基准检索:印尼-英跨语言基准检索方法。

所述基准检索方法指将印尼语查询通过机器翻译为英文后检索英文文档得到的检索结果,检索过程中没有实行各种扩展技术。

(2)对比方法1:基于伪相关反馈扩展的印尼-英跨语言信息检索方法。

所述对比方法1是基于文献(吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[j].情报学报,2010,29(2):232-239.)的伪相关反馈扩展方法实现的印尼-英跨语言信息检索结果。实验方法:提取印尼-英跨语言初检前列英文文档20篇构建初检相关文档集,提取特征词项并计算其权值,按权值降序排列将前列20个特征词项作为英文扩展词,扩展词和原查询词组合为新查询再次检索英文文档,得到最终检索结果。

(3)对比方法2:基于加权关联模式挖掘的印尼-英跨语言信息检索方法。

所述对比方法2是基于文献(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[j].情报学报,2017,36(3):307-318.)的跨语言查询扩展方法实现的印尼-英跨语言信息检索结果。实验参数是:最小置信度阈值mc为0.01,最小兴趣度阈值mi为0.0001,最小置信度阈值ms为0.007,0.008,0.009,0.01,0.011。

(4)对比方法3:基于完全加权正负关联规则挖掘的印尼-英跨语言信息检索方法。

所述对比方法3采用文献(周秀梅,黄名选.基于项权值变化的完全加权正负关联规则挖掘[j].电子学报,2015,43(8):1545-1554.)的完全加权正负关联规则挖掘技术对印尼-英跨语言初检用户相关反馈文档集挖掘特征词关联规则,将规则前件是原查询词项的关联规则后件作为扩展词,实现越印尼-英跨语言信息检索。实验参数是:最小置信度阈值mc为0.5,最小支持度阈值ms分别为0.2,0.25,0.3,0.35,0.4,最小兴趣度阈值mi为0.02。

(5)对比方法4:基于完全加权关联规则挖掘的印尼-英跨语言信息检索方法。

所述对比方法4采用文献(黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展.小型微型计算机系统,2017,38(8):1783-1791.)的完全加权关联规则挖掘技术对印尼-英跨语言初检用户相关反馈文档集挖掘特征词关联规则,将规则前件是原查询词项的关联规则后件作为扩展词,实现印尼-英跨语言查询译后扩展。实验参数是:最小置信度阈值mc为0.1,最小支持度阈值ms分别为0.8,1.0,1.3,1.5,1.7。

实验方法和结果如下:

运行本发明方法和对比方法的源程序,首先将50个印尼语查询主题的title和desc查询通过机器翻译系统翻译为英文查询,并在3个数据集m0、m1和k1中进行英文文档检索,以实现印尼-英跨语言信息检索。实验时,对印尼-英跨语言初检结果的前列50篇英文文档进行用户相关反馈后得到初检用户相关反馈文档(为了简便,本发明实验中,将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档)。通过实验,得到本发明方法和对比方法的印尼-英跨语言检索结果p@20和map值分别如表1至表4所示,实验时挖掘到3_项集,其中,本发明方法的实验参数是:最小支持度阈值ms=0.001,最小置信度阈值mc分别为0.1,0.3,0.5,0.7,0.9。

表1本发明方法与对比方法的检索结果p@20值比较(title查询主题)

表2本发明方法与对比方法的检索结果map值比较(title查询主题)

表3本发明方法与对比方法的检索结果p@20值比较(desc查询主题)

表4本发明方法与对比方法的检索结果map值比较(desc查询主题)

表1至表4表明,本发明方法的跨语言检索结果p@20和map值都比跨语言基准检索和4个对比方法检索结果的高,效果显著。实验结果表明,本发明方法是有效的,能有效地减少跨语言检索中查询主题漂移和词不匹配问题,确实能提高印尼-英跨语言信息检索性能,具有很高的应用价值和广阔的推广前景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1