一种基于匹配度检索英文文本的方法与流程

文档序号:11216486阅读:1365来源:国知局
一种基于匹配度检索英文文本的方法与流程

本发明涉及英文文本检索,具体涉及一种基于匹配度检索英文文本的方法。



背景技术:

对于英文文本的检索,目前的主要方式是根据检索对象与预先设定的关键词进行匹配,确定是否匹配,即将待检索的英文文本分割成不同关键词的形式分别进行检索,但是计算机不能有效拆解人类的语言模式,因此不能理解查询意图,从而导致搜索出的信息不够准确。

针对上述问题,用户在搜索时可以加入高级语法进行操作,但高级语法输入复杂对用户要求高,使得用户体验度降低,并且待检索语句与事先设定的关键词匹配度不够。



技术实现要素:

本发明设计开发了一种基于匹配度检索英文文本的方法,本发明的发明目的之一是解决待检索语句的检索结果列表。

本发明的发明目的之二是提高待检索语句与预先设定匹配度的问题。

本发明提供的技术方案为:

一种基于匹配度检索英文文本的方法,包括如下步骤:

步骤一、在服务器预先存储检索信息,每篇英文文献关联一个检索单位,对于任意一个检索单位均包括id、英文文献录入时间和至少一个检索条,所述检索条为由所述检索单位关联的英文文献的摘要中的至少一个名词和实意动词组成,并且对全部检索条进行预设权重;

步骤二、输入检索英文,对所述检索英文拆分名词与实意动词,并且将所述名词与所述实意动词扩展成为检索语句;

步骤三、对所述检索语句进行相似度评价得到检索权重,并将所述检索权重与所述预设权重分别进行匹配,按照匹配度进行排序得到检索结果列表。

优选的是,在所述步骤二中,所述检索语句为所述名词和所述实意动词的逻辑组合;其中,所述逻辑组合包括:或、且、非逻辑关系。

优选的是,在所述步骤三中,对所述检索语句进行相似度评价得到检索权重包括如下步骤:

根据所述名词查找所述名词所述领域,并且确定在所述领域内关键词;

将所述名词在所述领域内的领域密度、领域深度、与所述关键词的关系以及与所述关键词之间的联系强度,计算与所述关键词之间的词权;

根据所述词权,计算与所述关键词之间的检索距离;

根据所述检索距离,计算所述检索语句的相似度评分;

将所述检索语句的相似度评分作为所述检索权重。

优选的是,在所述步骤三中,匹配时按所述预设权重大小依次进行匹配。

优选的是,在所述步骤三中,匹配后得到的检索结果列表对应的信息数量是否大于预定数量,如果大于预定数量,则取预定数量的检索结果列表。

优选的是,所述预定数量为25条。

优选的是,在所述步骤三中,所述检索权重与所述预设权重分别进行匹配的匹配过程采用模糊控制方法进行匹配;

分别将检索权重η与预设权重η′之差δη、检索权重与预设权重之差δη与预设权重η′的比值匹配度φ转换为模糊论域中的量化等级;

将所述检索权重η与预设权重η′之差δη、所述检索权重与预设权重之差δη与预设权重η′的比值输入模糊控制模型,将所述检索权重η与预设权重η′之差δη分为7个等级,将所述检索权重与预设权重之差δη与预设权重η′的比值分为7个等级,匹配度φ分为5个等级;

模糊控制模型输出为匹配度φ;根据所述匹配度φ,进行检索输出。

优选的是,所述检索权重η与预设权重η′之差δη的论域为[-10,10],检索权重与预设权重之差δη与预设权重η′的比值的论域为[-0.1,0.1],设定量化因子都为1,匹配度φ的论域为[0,1]。

优选的是,所述检索权重η与预设权重η′之差δη分为7个等级,模糊集为{nb,nm,ns,0,ps,pm,pb},检索权重与预设权重之差δη与预设权重η′的比值分为7个等级,模糊集为{nb,nm,ns,0,ps,pm,pb},将匹配度φ分为5个等级,模糊集为{0,ps,pm,pb,pvb};隶属函数均选用三角形隶属函数。

优选的是,模糊控制模型控制规则为:

如果权重差δη为nm,权重差比值为pm或者pb,则匹配度φ为s;如果权重差δη为pb,权重差比值为pm或者pb,则匹配度φ为pvb。

本发明与现有技术相比较所具有的有益效果:

1、本发明将关键词进行匹配度计算的过程设定在限定的名词上,消除了借此、连词以及其他无实意的词对检索结果造成的干扰,减小检索负担,提高检索效率;

2、本发明通过模糊控制的方式运算检索的文本与预先设定文本的匹配度,提高了匹配效率以及增加结果的准确性;

3、本发明通过对预设多个检索条,分别进行匹配度的计算,提高了检索结果的全面性。

附图说明

图1为本发明所述的流程图。

图2是检索权重η与预设权重η′之差δη的隶属函数。

图3是检索权重与预设权重之差δη与预设权重η′的比值的隶属函数。

图4是匹配度φ的隶属函数。

具体实施方式

下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。

如图1所示,本发明提供一种基于匹配度检索英文文本的方法,包括如下步骤:

步骤一、在服务器预先存储检索信息,每篇英文文献关联一个检索单位,对于任意一个检索单位均包括id、英文文献录入时间和至少一个检索条,所述检索条为由所述检索单位关联的英文文献的摘要中的至少一个名词和实意动词组成,并且对全部检索条进行预设权重;

步骤二、输入检索英文,对所述检索英文拆分名词与实意动词,并且将所述名词与所述实意动词扩展成为检索语句;

步骤三、对所述检索语句进行相似度评价得到检索权重,并将所述检索权重与所述预设权重分别进行匹配,按照匹配度进行排序得到检索结果列表。

在另一种实施例中,在步骤二中,检索语句为名词和实意动词的逻辑组合;其中,逻辑组合包括:或、且、非逻辑关系。

在另一种实施例中,在步骤三中,对检索语句进行相似度评价得到检索权重包括如下步骤:

根据所述名词查找名词所在的领域,并且确定在领域内的关键词;将所述名词在所述领域内的领域密度、领域深度、与所述关键词的关系以及与所述关键词之间的联系强度,计算与所述关键词之间的词权;根据所述词权,计算与所述关键词之间的检索距离;根据所述检索距离,计算所述检索语句的相似度评分;将所述检索语句的相似度评分作为所述检索权重。

在另一种实施例中,在步骤三中,匹配时根据预设权重的大小依次进行匹配,从预设权重大的开始匹配,依次到最后预设权重小的,得到多个不同的检索结果列表。

在另一种实施例中,在步骤三中,匹配后得到的检索结果列表对应的信息数量是否大于预定数量,如果大于预定数量,则取预定数量的检索结果列表;在本实施例中,预定数量为25条。

实施例

在名词所在的领域内确定关键词c2,名词c1与关键词c2之间的语义相似性被定义为:

其中,distc1,c2为名词c1与关键词c2之间的检索距离,利用两者之间最短路径的边上权值(词权)之和计算;词权与关键词之间连系的强度直接相关,则子概念ci和其父概念c′联系的强度,可以表示为:

优选的是,考虑到其他因素,如在所属领域内的局部密度、概念深度和概念关系,整个概念之间的边权wt(ci,c′)表示为:

其中,d(c′)表示c′在名词所在的领域中的深度,e(c′)为名词所在的领域的关系数,为名词所在的领域中的平均关系数,r(ci,c′)表示概念关系因子,参数α(α≥0)和β(0≤β≤1)控制领域深度和密度对于整个词权计算的贡献,ic(c)是概念之间连系计算的变形形式,即:

ic(c)=-logp(c),

其中,p(c)为概念c在整个领域内出现的概率。

综上所述,名词c1与关键词c2之间的语义距离可以表示为:

其中,path(c1,c2)是从名词c1到关键词c2经过路径上的所有概念,lsuper(c1,c2)表示c1、c2之间最小父概念;

根据等同关系、继承关系和属性关系分别对应的r(ci,c′)定义为1.0、0.6和0.3;在实际应用过程中密度e(c′)和深度d(c′)并不起什么作用,α与β分别设置0和1,扩展性语义搜索中,名词c1为关键词c2的父概念,最终的语义距离可以简化为:

通过名词c1和关键词c2之间的语义距离得到检索语句的相似度评分,并且将该相似度评分作为检索权重。

在另一种实施例中,采用模糊控制方法计算检索权重与预设权重的匹配度φ,模糊控制模型的输入是检索权重η与预设权重η′的权重差δη和检索权重与预设权重的之差δη与预设权重η′的权重差比值输出是匹配度φ;所述检索权重η与预设权重η′的权重差δη的变化范围为[-10,10],检索权重与预设权重之差δη与预设权重η′的权重差比值变化范围为[-0.1,0.1],设定量化因子都为1,因此其论域分别为[-10,10]和[-0.1,0.1];匹配度φ的模糊论域为[0,1],为了保证控制的精度,使其在各种模式下都能很好地进行控制,根据反复试验,最终将权重差δη变化范围分为七个等级,权重差δη的模糊集为{nb,nm,ns,zo,ps,pm,pb},nb表示负大,nm表示负中等,ns表示负小,zo表示零,ps表示正小,pm表示正中等,pb表示正大;权重差比值变化范围分为七个等级,模糊集为{nb,nm,ns,zo,ps,pm,pb},nb表示负大,nm表示负中等,ns表示负小,zo表示零,ps表示正小,pm表示正中等,pb表示正大;输出的匹配度φ分为5个等级,分别为{zo,ps,pm,pb,pvb},zo表示零,ps表示小,pm表示中等,pb表示大,pvb表示极大;隶属函数均选用三角形隶属函数,如图2、3、4所示。

模糊控制模型的控制规则选取经验为:

如果权重差δη为负中等,权重差比值为正中等或者正大,则匹配度φ为小;如果权重差δη为正大,权重差比值为正中等或者正大,则匹配度φ为极大;具体的模糊控制规则如表1所示。

表1模糊控制规则

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1