基于标引关联关系的信息检索排序方法

文档序号:6656114阅读:289来源:国知局
专利名称:基于标引关联关系的信息检索排序方法
技术领域
本发明涉及一种对检索结果的排序方法,属于信息分析与辅助决策领域。
背景技术
在检索文献时为了获得更加精准的检索结果,尤其是在某学科或领域进行文献检索时,经常会出现由于检索词使用不当,或用户主观描述偏差而产生的检索结果不精准。实际上,检索词之间也具有关联关系,如上下位或同位关系等,根据检索词之间的关联关系, 可判断用户提出的检索词集合与待查文献具有的标引集合之间的相似度,用来获得该文献是否为用户所需,或与用户意图是否相关,从而对检索结果进行排序,以提高检索准确度。

发明内容
本发明的目的在于提供一种基于标引关联关系的信息检索排序方法,以快速准确的解决公众(针对专业知识匮乏的人群或者语言习惯和表述多样化)由于错误或不确切的描述检索词而造成的检索结果有误差。通过标引到文献的关联映射,实现检索结果的排序, 向用户提供相关度最大的一系列检索结果。尤其适用于在专业范围对相近或相似文献进行检索相关度排序。本发明所述一种基于标引关联关系的信息检索排序方法,包括如下步骤步骤1 根据检索词的规范名称补充与这些基本检索词具有上下位、同位等关联关系的词汇,将基本检索词和补充的词汇作为标引库的构成元素,并建立和保存标引库中每两个标引之间的关联关系;所述每两个标引之间的关联关系包括上下位、同位关联关系; 其中所述上下位关系包括标引之间的从属关系,所述同位关系包括同义、近义、相似关系。步骤2 将每篇文献相关的检索词作为该文献的标引,以每篇文献所具有的标引的集合构成该文献的文献模型α = ( , a2,…,ak,…,,其中m为该文献具有的标引的个数;将各文献模型作为文献库的构成元素;步骤3 把每个文献模型构建为一个文献向量,构建方法为以该文献模型包含的所有标引的权值构成文献向量i (Wcti , Wai ,…, Kt,...,^m ),其中^^是该文献模型中标引4的权值,其取值表示标引4与该文献A 之间的关联程度,权值越大则关联程度越高;作为优选,所述文献模型中标引4的权值是根据该标引4在该文献中出现频率和/或出现位置预先设置的。步骤4:在进行检索之前,将用户提供的所有检索词即标引的集合构成一个检索模型B;即检索模型B为β = (bi;b2, -,bj,…,bn),共包含η个标引;步骤5 将当前检索模型B构建为一个检索向量;构建方法为以当前检索模型B中包含的所有标引的权值构成检索向量云(Wbi , Wb2 ‘…,Wbj ‘…,巧 ),其中表示检索模型B中的标引…的权值,对其赋值采用如下两种方法之一
(1)根据用户输入该标引的顺序或用户主观认为其与检索结果的主要程度进行赋值,标引越主要或输入顺序越靠前则权值越大;(2)检索模型B中的各标引均采取相同的权值,即不区分标引顺序和主要程度;步骤6 计算当前检索模型B与各文献的文献模型之间的相似度,相似度越大则认为该文献与用户需要的检索结果之间相关程度越大,文献模型A和检索模型B的相似度 Sim(A, B)采用如下公式来计算
权利要求
1.一种基于标引关联关系的信息检索排序方法,其特征在于,包括如下步骤步骤1 根据检索词的规范名称补充与这些基本检索词具有上下位、同位等关联关系的词汇,将基本检索词和补充的词汇作为标引库的构成元素,并建立和保存标引库中每两个标引之间的关联关系;步骤2:将每篇文献相关的检索词作为该文献的标引,以每篇文献所具有的标引的集合构成该文献的文献模型α = ( , a2,…,ak,…,am),其中m为该文献具有的标引的个数;将各文献模型作为文献库的构成元素;步骤3 把每个文献模型构建为一个文献向量,构建方法为以该文献模型包含的所有标引的权值构成文献向量(K, ‘ K2 ‘ · ,Wak,…,% ),其中巧t是该文献模型中标引4的权值,其取值表示标引4与该文献A 之间的关联程度,权值越大则关联程度越高;步骤4:在进行检索之前,将用户提供的所有检索词即标引的集合构成一个检索模型 B;即检索模型B为β = (bi;b2,…,b」,…,bn),共包含η个标引; 步骤5 将当前检索模型B构建为一个检索向量;构建方法为 以当前检索模型B中包含的所有标引的权值构成检索向量云CfVbi ,Wh ,…,Wbj,···, ),其中『ι表示检索模型B中的标引…的权值,对其赋值采用如下两种方法之一(1)根据用户输入该标引的顺序或用户主观认为其与检索结果的主要程度进行赋值, 标引越主要或输入顺序越靠前则权值越大;(2)检索模型B中的各标引均采取相同的权值,即不区分标引顺序和主要程度;步骤6 计算当前检索模型B与各文献的文献模型之间的相似度,相似度越大则认为该文献与用户需要的检索结果之间相关程度越大,文献模型A和检索模型B的相似度Sim(Α, B)采用如下公式来计算
2.根据权利要求1所述一种基于标引关联关系的信息检索排序方法,其特征在于,步骤1中所述每两个标引之间的关联关系包括上下位、同位关联关系;其中所述上下位关系包括标引之间的从属关系,所述同位关系包括同义、近义、相似关系。
3.根据权利要求1所述一种基于标引关联关系的信息检索排序方法,其特征在于,步骤3中所述文献模型中标引%的权值^fli是根据该标引%在该文献中出现频率和/或出现位置预先设置的。
4.根据权利要求1-3所述任一种基于标引关联关系的信息检索排序方法,其特征在于,步骤6中,检索模型B中的标引…与待比对的文献模型A中的标引%两标引之间的距离取值如下屯与%完全相同则之间距离Tw为1 ;若…与%为从属关系则距离为0. 5 ;若 bj与%为兄弟关系则距离为0. 25 ;若…与%为同义关系则距离为1 ;若…与%为相似关系则距离为0. 6 ;若…与%为无关系则距离为0。
5.据权利要求1-3所述任一种基于标引关联关系的信息检索排序方法,其特征在于, 步骤6中,所述Τ;,,和Cyi的取值原则为两标引完全相同则距离为1 ;从属关系则距离为0.5 ; 兄弟关系则距离为0. 25 ;同义关系则距离为1 ;相似关系则距离为0. 6 ;无关系则距离为0。
6.据权利要求1-3所述任一种基于标引关联关系的信息检索排序方法,其特征在于, 步骤6进行之前,还包括预先对文献进行粗筛,然后对粗筛得到的文献集合进行步骤6,即计算当前检索模型B与粗筛获得的文献集合中各文献的文献模型之间的相似度。
全文摘要
本发明所述一种基于标引关联关系的信息检索排序方法,属于信息分析与辅助决策领域。首先构建文献库、标引库,并建立它们之间的关联。将每篇文献相关的检索词作为该文献的标引,构成该文献的文献模型,在进行检索之前,将用户提供的所有检索词即标引的集合构成一个检索模型,计算其与文献库中各文献的文献模型之间的相似度,从高到底进行排序,将排序后的文献作为最终的检索结果提供给用户。本发明的有益效果在于,能够在把用户误认为的标引作为推理条件的情况下,弱化错误干扰结果,并依据错误的标引条件,结合现有的标引之间的关联关系,让正确的标引参与推理运算,从而实现推理的正确性和抗干扰性。
文档编号G06F17/30GK102163222SQ20111008362
公开日2011年8月24日 申请日期2011年4月2日 优先权日2011年4月2日
发明者方安, 池慧, 洪娜, 高东平 申请人:中国医学科学院医学信息研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1