基于词间加权关联模式的越英跨语言文本检索方法及系统与流程

文档序号:17239936发布日期:2019-03-30 08:32阅读:来源:国知局

技术特征:

1.一种基于词间加权关联模式的越英跨语言文本检索方法,其特征在于,包括如下步骤:

(1)将越南语用户查询通过机器翻译模块翻译为英文查询式检索英文文档;

(2)提取跨语言初步检索结果前列r篇英文文档提交给用户,让用户对初步检索文档进行相关性判断;

(3)根据用户的相关性判断确定初检英文相关文档,构建用户反馈英文相关文档集,文档集中的文档数设为n;

(4)预处理用户反馈英文相关文档集,即进行去除停用词、英文词干提取、计算特征词权值和提取特征词的预处理操作,构建初检英文相关文档库;

(5)扫描初检英文相关文档库,首先计算初检英文相关文档库中所有特征项权值总和W,然后挖掘加权特征词1_候选项集C1,计算C1权值w(C1),统计C1以外的项目的最大权值maxCwi(!C1)和C1的支持计数nc1,ms为最小支持度阈值,定义:特征词k_项集权值阈值是指对包含q_项集ftwIq的后续k_项集ftwIk的权值预测(q<k),记为KIWT(q,k),计算KIWT(1,2)的值,KIWT(1,2)的计算公式是:KIWT(1,2)=n×1×ms-nc1×maxCwi(!C1);

(6)计算C1的加权支持度ftwISup(C1),如果加权支持度ftwISup(C1)≧ms,则从1_候选项集C1挖掘1_频繁项集L1,并加到特征词加权频繁项集集合L,ftwISup(C1)的计算公式是:

(7)挖掘k_项集,其中所述的k≧2,包括步骤(7.1)至(7.7):

(7.1)比较候选(k-1)_项集Ck-1权值W(Ck-1)和KIWT(k-1,k)值,剪除其W(Ck-1)<KIWT(k-1,k)的候选项集Ck-1;

(7.2)将余下的进行候选(k-1)_项集Ck-1进行Aproiri连接,得到候选k_项集Ck;

(7.3)当k=2时,剪除不含查询项的候选2_项集;

(7.4)扫描初检英文相关文档库,统计Ck以外的项目的最大权值maxCwi(!Ck)和Ck的支持计数nck,计算Ck权值w(Ck)和KIWT(k-1,k)的值,KIWT(k-1,k)的计算公式是:KIWT(k-1,k)=n×k×ms-nck×maxCwi(!Ck);

(7.5)剪除nck为0的候选项集Ck;

(7.6)对余下的候选k_项集Ck,计算Ck支持度ftwISup(Ck),如果ftwISup(Ck)≧ms,则从候选k_项集Ck中挖掘k_频繁项集Lk,并加到特征词加权频繁项集集合L,ms为最小支持度阈值,ftwISup(Ck)的计算公式是:

(7.7)若k大于候选项集长度阈值或者候选k_项集为空集,则挖掘结束,否则,继续循环步骤(7.1)至(7.6);

(8)从特征词加权频繁项集集合L中挖掘含有查询词项的英文特征词加权关联规则,构建英文特征词加权关联规则库;

(9)从英文特征词加权关联规则库中提取与原查询相关的英文扩展词,构建英文扩展词库;

(10)将原查询和扩展词组合成新查询再次检索英文文档,得到最终检索结果英文文档;

(11)将最终检索结果英文文档经机器翻译模块翻译为越南语文档,最后将最终检索结果英文文档和最终检索结果越南语文档返回给用户。

2.根据权利要求1所述的基于词间加权关联模式的越英跨语言文本检索方法,其特征在于,所述步骤(4)中特征词权值的计算采用tf-idf方法,其计算公式是:

其中,tfm,n表示特征词tm在文档dn中的出现次数,dfm表示含有特征词tm的文档数量,N表示文档集合中总的文档数量。

3.根据权利要求1所述的基于词间加权关联模式的越英跨语言文本检索方法,其特征在于,所述步骤(8)的方法包括步骤(8.1)至(8.2):

(8.1)从特征词加权频繁项集集合L中提取某一加权i_频繁项集ftwIi,找出ftwIi的所有真子集,进行步骤(8.1.1)至(8.1.4)的操作:

(8.1.1)从ftwIi的真子集集合中任意取出两个真子集ftwI1和ftwI2,当并且ftwI1∪ftwI2=ftwIi;

(8.1.2)计算规则(ftwI1→ftwI2)以及(ftwI2→ftwI1)的英文特征项关联规则条件概率比ftARCPIR及其兴趣度ftARI值;

ftARCPIR(ftwI1→ftwI2)和ftARCPIR(ftwI2→ftwI1)的计算公式如下:

ftARI(ftwI1→ftwI2)和ftARI(ftwI2→ftwI1)的计算公式如下:

ftARI(ftwI1→ftwI2)=ftwISup(ftwI1)×ftwISup(ftwI1,ftwI2)×(1–ftwISup(ftwI2)),

ftARI(ftwI2→ftwI1)=ftwISup(ftwI2)×ftwISup(ftwI1,ftwI2)×(1–ftwISup(ftwI1)),

其中,ftwISup(ftwI1)为的加权频繁项集ftwI1支持度,ftwISup(ftwI2)为的加权频繁项集ftwI2支持度,ftwISup(ftwI1,ftwI2)为的加权频繁项集(ftwI1,ftwI2)支持度;

(8.1.3)如果ftARCPIR(ftwI1→ftwI2)≧mc,并且ftARI(ftwI1→ftwI2)≧mi,则挖掘出英文特征词加权强关联规则ftwI1→ftwI2;若ftARCPIR(ftwI2→ftwI1)≧mc,并且ftARI(ftwI2→ftwI1)≧mi,则挖掘出英文特征词加权强关联规则ftwI2→ftwI1,所述的mc为最小置信度阈值,mi为最小兴趣度阈值;

(8.1.4)循环进行步骤(8.1.1)至(8.1.3),直到加权i_频繁项集ftwIi的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(8.2);

(8.2)循环进行步骤(8.1),当特征词加权频繁项集集合L中的项集都被取出一次,而且仅能取出一次,则挖掘结束。

4.一种适用于权利要求1所述基于词间加权关联模式的越英跨语言文本检索方法的检索系统,其特征在于,包括如下4个模块和3个数据库:

机器翻译模块:该模块使用必应机器翻译接口,用于将用户提交的越南语用户查询翻译为英文查询式,以及将最终检索结果英文文档翻译为越南语文档提交给用户;

文本检索模块:用于对译后的英文查询式在英文文档集上进行检索,得到跨语言初检英文文档集;

加权关联模式挖掘模块:用于将前列r篇跨语言初检英文文档提交给用户,由用户对这些文档进行相关性判断并确定初检英文相关文档库,然后,采用加权关联模式挖掘技术对初检英文相关文档库挖掘与查询相关的英文扩展词实现跨语言查询扩展,扩展词和原查询组合成新查询再次检索得到最终检索结果英文文档;

最终结果显示模块:用于将最终检索结果英文文档经机器翻译模块翻译为越南语文档,并将最终检索结果英文文档和最终检索结果越南语文档返回用户;

初检英文相关文档库;

英文特征词加权关联规则库;

英文扩展词库。

5.根据权利要求4所述的检索系统,其特征在于:所述加权关联模式挖掘模块包括以下5个模块:

初检结果用户相关反馈信息提取模块:用于根据用户对初检英文文档进行的相关性判断确定初检英文文档集,构建用户反馈英文相关文档集;

英文文档预处理模块:用于将用户反馈英文相关文档集进行去停用词、词干提取、计算特征词权值和提取特征词的预处理,构建初检英文相关文档库;

加权关联规则挖掘模块:用于对初检英文相关文档库进行英文特征词加权关联规则挖掘,主要挖掘含有原查询词项的加权特征词项频繁项集和关联规则模式,构建英文特征词加权关联规则库;

扩展词生成模块:用于从英文特征词加权关联规则库中提取与原查询相关的英文扩展词,构建英文扩展词库;

查询扩展实现模块:用于从英文扩展词库中提取英文扩展词,将扩展词和原查询组合成新查询,再次检索,得到最终检索结果英文文档。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1