对文档排序的方法和设备的制作方法

文档序号:6357657阅读:110来源:国知局
专利名称:对文档排序的方法和设备的制作方法
技术领域
本发明涉及信息检索领域,特别涉及用于对文档排序的方法与设备。
背景技术
随着电子信息的广泛应用和扩展,在各种分布式系统中聚集了大量的多样性信息。如何帮助用户从海量信息中找到有用的信息是一个得到越来越多关注的问题。信息检索技术是从文档集合中搜索信息,其可以包括搜索文档中的一部分信息、搜索文档本身、搜索描述文档的元数据、在数据库内部进行搜索,等等。所进行搜索的信息也可以是多种多样的,例如文本、声音、数据,等等。目前,文档排序主要分为查询相关方法以及查询无关方法。查询相关方法是指当用户进行查询时,根据用户输入的查询内容来对文档进行排序,以使得用户更加准确地得 到所关心的信息。在现有的基于语义的文档排序的方法中,主要基于本体库来确定查询和文档的语义相关性,从而按照相关性的大小对文档进行排序。然而,目前的方法仅考虑了查询和文档中的概念上的语义相关性,并没有考虑这些概念之间的关系也存在的语义相关性,而这种关系语义相关性对于理解用户的查询目的以及准确匹配目标文档来说是非常有帮助的。因此,现有技术的各种文档排序方法经常造成用户无法快速和准确地得到希望的查询结果。

发明内容
针对以上问题,本发明提供了一种对文档排序的方法和设备。根据本发明的第一方面,提供了一种对文档排序的方法。该方法可以包括步骤根据用户的查询和本体库,抽取查询语义信息;根据文档、查询和本体库,抽取文档语义信息;确定文档语义信息和查询语义信息的关系语义相关度;以及基于关系语义相关度,对文档进行排序。根据本发明的第二方面,提供了一种对文档排序的设备。该设备可以包括查询语义信息抽取装置,配置为根据用户的查询和本体库,抽取查询语义信息;文档语义信息抽取装置,配置为根据文档、查询和本体库,抽取文档语义信息;关系语义相关度确定装置,配置为文档语义信息和查询语义信息的关系语义相关度;以及排序装置,配置为基于关系语义相关度,对文档进行排序。本发明的方法和设备不仅基于查询与文档之间的概念语义相关度而且基于二者之间的关系语义相关度来对文档排序,通过考虑文档和查询在语义方面的关系,有效提高了查询准确度,使得用户可以更快和更准确地得到希望的查询结果。通过以下对说明本发明原理的优选实施方式的描述,并结合附图,本发明的其他特征以及优点将会是显而易见的。


通过以下结合附图的说明,并且随着对本发明的更全面了解,本发明的其他目的和效果将变得更加清楚和易于理解,其中图I是按照本发明的一个实施例的对文档排序的方法的流程图;图2是按照本发明的另一个实施例的对文档排序的方法的流程图;图3是按照本发明的一个实施例的确定文档语义信息和查询语义信息的关系语义相关度的方法的流程图;图4是按照本发明的另一个实施例的确定文档语义信息和查询语义信息的关系语义相关度的方法的流程·
图5是按照本发明的另一个实施例的确定文档语义信息和查询语义信息的关系语义相关度的方法的流程图;以及图6是按照本发明的一个实施例的对文档排序的设备的方框图。在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。
具体实施例方式附图中的流程图和框图,图示了按照本发明各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。现有技术中的文档排序主要分为与查询相关的方法以及与查询无关的方法。与查询相关的方法是指当用户进行查询时,根据用户输入的查询内容来对文档进行排序。与查询无关的方法是指不考虑文档与特定查询的匹配程度,而例如根据文档的内在特性来直接对文档排序。本发明的对文档进行排序的方法属于与查询相关的方法。也就是说,当接收到用户输入的查询后,根据该查询来确定多个文档的排列顺序。在本发明的一个实施方式中公开了一种对文档排序的方法和设备。本发明的对文档排序的方法是基于用户输入的查询来进行的。本发明的方法可以适用于对多个文档的排序。在根据本发明的一个实施方式中,首先可以根据用户的查询和本体库抽取查询语义信息,并可以根据文档、用户的查询和本体库抽取文档语义信息;然后,可以确定所述文档语义信息和所述查询语义信息的关系语义相关度,并基于所确定的关系语义相关度来对这些文档进行排序。本发明的方法在对文档进行排序的过程中不仅考虑了用户查询中包含的概念以及文档中所包含的概念,而且考虑了用户查询与文档之间的基于关系的语义相关度(在本发明中,也称为“关系语义相关度”),从而有效提高了对文档排序的准确度。为了清楚起见,首先对本发明中所使用的术语作以解释。I.本体库
本体库(Ontology)最早是一个哲学的范畴。在目前的应用中,可以将本体库认为是共享概念模型的明确的形式化规范说明。本体库可以用于捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇(也即,概念),并从不同层次的形式化模式上给出这些概念和概念之间相互关系的明确定义。从语义上讲,概念之间的关系主要有4种,参见表I。表I概念之间的关系分类
权利要求
1.一种对文档排序的方法,包括 根据用户的查询和本体库,抽取查询语义信息; 根据文档、所述查询和所述本体库,抽取文档语义信息; 确定所述文档语义信息和所述查询语义信息的关系语义相关度;以及 基于所述关系语义相关度,对所述文档进行排序。
2.根据权利要求I的方法,其中根据用户的查询和本体库抽取查询语义信息包括 根据本体库,提取用户的查询所包括的查询概念集合; 根据所述本体库,得到所述查询概念集合中的每两个概念之间的语义路径;以及根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目。
3.根据权利要求2的方法,其中根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目包括 根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的正向语义路径集合和反向语义路径集合;以及 根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目。
4.根据权利要求I的方法,其中根据文档、所述查询和所述本体库抽取文档语义信息包括 根据所述本体库,提取文档包括的概念集合和所述查询包括的概念集合; 根据所述文档包括的概念集合和所述查询包括的概念集合的交集,得到文档概念集合; 根据所述文档,得到所述文档概念集合中的每两个概念之间的语义路径;以及根据所述文档概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目。
5.根据权利要求4的方法,其中根据所述文档概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目包括 根据所述文档概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的正向语义路径集合和反向语义路径集合;以及 根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目。
6.根据权利要求3或5的方法,其中根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目包括 去除所述正向语义路径集合中的冗余路径,以优化所述正向语义路径集合; 去除所述反向语义路径集合中的冗余路径,以优化所述反向语义路径集合;以及根据优化的正向语义路径集合的成员数目以及优化的反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目。
7.根据权利要求3或5的方法,其中根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目包括 根据所述正向语义路径集合与所述反向语义路径集合确定互逆路径对;以及根据所述正向语义路径集合的成员数目、所述反向语义路径集合的成员数目以及所述互逆路径对的数目,得到所述每两个概念之间的语义路径数目。
8.根据权利要求I的方法,其中确定所述文档语义信息和所述查询语义信息的关系语义相关度包括 获取所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目;以及 基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目,确定所述文档语义信息和所述查询语义信息的关系语义相关度。
9.根据权利要求8的方法,其中基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度包括 计算所述文档语义信息中的语义路径的数目之和,作为文档数目; 计算所述查询语义信息中的语义路径的数目之和,作为查询数目;以及将所述文档数目与所述查询数目的比值确定为所述文档语义信息和所述查询语义信息关系语义相关度。
10.根据权利要求8的方法,其中基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度包括 获取查询语义信息中所包含的概念集合; 根据所述文档语义信息,确定所述概念集合中的每两个概念之间的文档语义路径数目; 根据所述查询语义信息,确定所述概念集合中的每两个概念之间的查询语义路径数目; 计算所述每两个概念之间的文档语义路径数目与查询语义路径数目的比值;以及 将所述比值的乘积确定为所述文档语义信息和所述查询语义信息的关系语义相关度。
11.根据权利要求8的方法,其中基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度包括 根据所述文档语义信息,确定文档生成树集合; 根据所述查询语义信息,确定查询生成树集合,所述查询生成树集合中的成员与所述文档生成树集合中的成员--对应,形成多个生成树对; 基于所述文档语义信息中的语义路径的数目,计算所述文档生成树集合中的每个文档生成树所描述的文档语义关系的所有组合数目; 基于所述查询语义信息中的语义路径的数目,计算所述查询生成树集合中的每个查询生成树所描述的查询语义关系的所有组合数目; 根据所述文档语义关系的所有组合数目以及所述查询语义关系的所有组合数目,确定每个生成树对的语义关联分数;以及 将所述生成树对的语义关联分数的均值确定为所述文档语义信息和所述查询语义信息的关系语义相关度。
12.根据权利要求I的方法,其中基于所述关系语义相关度对所述文档进行排序包括 获取所述文档与所述查询的概念语义相关度; 基于所述关系相关度和所述概念相关度确定所述文档的分数;以及 按照所述文档的分数大小对所述文档进行排序。
13.根据权利要求12的方法,其中基于所述关系相关度和所述概念相关度确定所述文档的分数包括 利用关系权重和概念权重对所述关系相关度和概念相关度分别进行加权,其中所述关系权重和所述概念权重的取值均在O至I的区间内,所述关系权重与所述概念权重之和为I ;以及 对加权后的关系相关度和加权后的概念相关度求和,得到所述文档的分数。
14.根据权利要求I的方法,其中基于所述关系语义相关度,对所述文档进行排序包括 获取所述文档与所述查询的概念语义相关度; 根据所述概念相关度对文档排序; 对排序后的文档进行分组;以及 根据所述关系相关度对每组文档中的各个文档进行排序。
15.—种对文档排序的设备,包括 查询语义信息抽取装置,配置为根据用户的查询和本体库,抽取查询语义信息; 文档语义信息抽取装置,配置为根据文档、所述查询和所述本体库,抽取文档语义信息; 关系语义相关度确定装置,配置为所述文档语义信息和所述查询语义信息的关系语义相关度;以及 排序装置,配置为基于所述关系语义相关度,对所述文档进行排序。
16.根据权利要求15的设备,其中所述查询语义信息抽取装置包括 用于根据本体库,提取用户的查询所包括的查询概念集合的装置; 用于根据所述本体库,得到所述查询概念集合中的每两个概念之间的语义路径的装置;以及 用于根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目的装置。
17.根据权利要求16的设备,其中用于根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目的装置包括 用于根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的正向语义路径集合和反向语义路径集合的装置;以及 用于根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目的装置。
18.根据权利要求15的设备,其中所述文档语义信息抽取装置包括 用于根据所述本体库,提取文档包括的概念集合和所述查询包括的概念集合的装置;用于根据所述文档包括的概念集合和所述查询包括的概念集合的交集,得到文档概念集合的装置;用于根据所述文档,得到所述文档概念集合中的每两个概念之间的语义路径的装置;以及 用于根据所述文档概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目的装置。
19.根据权利要求18的设备,其中用于根据所述文档概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目的装置包括 用于根据所述文档概念集合中的每两个概念之间的语义路径,确定每两个概念之间的正向语义路径集合和反向语义路径集合的装置;以及 用于根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目的装置。
20.根据权利要求17或19的设备,其中用于根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目得到所述每两个概念之间的语义路径的数目的装置包括 用于去除所述正向语义路径集合中的冗余路径,以优化所述正向语义路径集合的装置; 用于去除所述反向语义路径集合中的冗余路径,以优化所述反向语义路径集合的装置;以及 用于根据优化的正向语义路径集合的成员数目以及优化的反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目的装置。
21.根据权利要求17或19的设备,其中用于根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目得到所述每两个概念之间的语义路径数目的装置包括 用于根据所述正向语义路径集合与所述反向语义路径集合确定互逆路径对的装置;以及 用于根据所述正向语义路径集合的成员数目、所述反向语义路径集合的成员数目以及所述互逆路径对的数目,得到所述每两个概念之间的语义路径数目的装置。
22.根据权利要求15的设备,其中所述关系语义相关度确定装置包括 用于获取所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目的装置;以及 用于基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目,确定所述文档语义信息和所述查询语义信息的关系语义相关度的装置。
23.根据权利要求22的设备,其中用于基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度的装置包括 用于计算所述文档语义信息中的语义路径的数目之和,作为文档数目的装置; 用于计算所述查询语义信息中的语义路径的数目之和,作为查询数目的装置;以及用于将所述文档数目与所述查询数目的比值确定为所述文档语义信息和所述查询语义信息关系语义相关度的装置。
24.根据权利要求22的设备,其中用于基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度的装置包括 用于获取查询语义信息中所包含的概念集合的装置; 用于根据所述文档语义信息,确定所述概念集合中的每两个概念之间的文档语义路径数目的装置; 用于根据所述查询语义信息,确定所述概念集合中的每两个概念之间的查询语义路径数目的装置; 用于计算所述每两个概念之间的文档语义路径数目与查询语义路径数目的比值的装置;以及 用于将所述比值的乘积确定为所述文档语义信息和所述查询语义信息的关系语义相关度的装置。
25.根据权利要求22的设备,其中用于基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度的装置包括 用于根据所述文档语义信息,确定文档生成树集合的装置; 用于根据所述查询语义信息,确定查询生成树集合的装置,所述查询生成树集合中的成员与所述文档生成树集合中的成员--对应,形成多个生成树对; 用于基于所述文档语义信息中的语义路径的数目,计算所述文档生成树集合中的每个文档生成树所描述的文档语义关系的所有组合数目的装置; 用于基于所述查询语义信息中的语义路径的数目,计算所述查询生成树集合中的每个查询生成树所描述的查询语义关系的所有组合数目的装置; 用于根据所述文档语义关系的所有组合数目以及所述查询语义关系的所有组合数目,确定每个生成树对的语义关联分数的装置;以及 用于将所述生成树对的语义关联分数的均值确定为所述文档语义信息和所述查询语义信息的关系语义相关度的装置。
26.根据权利要求15的设备,其中所述排序装置包括 用于获取所述文档与所述查询的概念语义相关度的装置; 用于基于所述关系相关度和所述概念相关度确定所述文档的分数的装置;以及 用于按照所述文档的分数大小对所述文档进行排序的装置。
27.根据权利要求26的设备,其中用于基于所述关系相关度和所述概念相关度确定所述文档的分数的装置包括 用于利用关系权重和概念权重对所述关系相关度和概念相关度分别进行加权的装置,其中所述关系权重和所述概念权重的取值均在O至I的区间内,所述关系权重与所述概念权重之和为I ;以及 用于对加权后的关系相关度和加权后的概念相关度求和,得到所述文档的分数的装置。
28.根据权利要求15的设备,其中所述排序装置包括 用于获取所述文档与所述查询的概念语义相关度的装置; 用于根据所述概念相关度对文档排序的装置;用于对排序后的文档进行分组的装置;以及用于根据所述关系相关度对每组文档中的各个文档进行排序的装置。
全文摘要
本发明公开了一种对文档排序的方法和设备,该方法包括步骤根据用户的查询和本体库,抽取查询语义信息;根据文档、查询和体库,抽取文档语义信息;确定文档语义信息和查询语义信息的关系语义相关度;以及基于关系语义相关度,对文档进行排序。本方法和设备能够有效提高对文档排序的准确度。
文档编号G06F17/30GK102708104SQ201110085808
公开日2012年10月3日 申请日期2011年3月28日 优先权日2011年3月28日
发明者刘博 , 刘春辰, 李建强, 赵彧 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1