用于计算文档重要性的设备及方法

文档序号:6356882阅读:201来源:国知局
专利名称:用于计算文档重要性的设备及方法
技术领域
本发明涉及信息检索领域,具体涉及一种用于计算文档重要性的设备及方法。
背景技术
随着电子信息量的不断增长,大量的多样化信息存在于不同的分布式系统中,使得用户从中查找有用信息变得非常困难。 信息检索(Infrmation Retrieval, IR)技术可用于在文档集合中搜索特定信息,其可被进一步细分为搜索文档中包含的信息、搜索文档本身、搜索描述文档的元数据、在数据库中搜索文本、声音、图像或数据(无论是关系型单机数据库还是超文本联网数据库,例如以太网或内容/文档管理系统)。在给定查询的情况下,文档检索主要使用查询相关方法和查询无关方法的组合来对文档进行排序。查询相关方法对查询与文档之间的相似度进行度量。查询无关方法考虑与特定查询的匹配程度无关的特征而对文档进行排序。在实际使用中,无论是对于一般的文档搜索引擎还是特定的查询/回答或数据挖掘系统,使用查询无关方法计算文档重要性都扮演了重要的角色。传统的信息检索技术主要采用文档的内部信息来度量查询与文档之间的相似度(查询相关分数)。对于网页排序,Web的超链接结构扮演了重要的角色。例如PageRank使用页面在Web的图结构中的位置来确定其重要性(查询无关分数)。参考文献I ( “The PageRank citation ranking Bringing order to theweb,,,L Page,S. Brin, R. Motwani,and T.Winograd, Technical Report,Stanford University,1999)描述了一种向网页分配重要性等级的方法。该方法主要包括如下步骤(I)针对给定的网页集合,提取超链接;(2)建立链接图,将每一个页面看作节点并将每一个超链接看作定向边。⑶网页重要性排序,链接图可被理解为马尔可夫链,其中网页可被视为状态,而页面之间的链接可被视为状态的跳转。通过假定初始概率分布,计算对应的马尔可夫链的稳态概率分布。参考文献2(US6285999B1)描述了一种链接数据库中的节点排序方法。对于链接数据库中的文档,根据引用该文档的其他文档的等级来计算该文档的等级。然而,链接图并不是很可靠的数据源,这是因为Web中的超链接可以由Web内容的创建者随意增加或删除,这使得网站的建立者能够伪造网页的重要性分数。此外,对于一般的文档集合,不存在文档之间的超链接关系,因此现有的技术方案无法应用于一般的文档集合。

发明内容
为了解决上述技术问题,本发明使用目标文档和外部文档(即外部源中的文档)之间的语义关联来计算文档重要性。具体地,本发明使用外部文档集合作为隐性知识源,首先构建目标文档与外部文档之间的语义关联,然后采用所构建的语义关联来计算文档的重要性分数。根据本发明的一个方面,提供了一种文档重要性计算设备,包括语义关联建立单元,用于建立来自目标文档集合的目标文档与来自外部文档集合的外部文档之间的语义关联;以及文档重要性计算单元,用于根据语义关联来计算目标文档的重要性分数。优选地,语义关联建立单元度量目标文档与外部文档之间的文本相似度,由此来建立目标文档与外部文档之间的语义关联。优选地,语义关联建立单元把目标文档和外部文档分别定义为类文档和实例文档,并计算实例文档属于类文档的概率,由此来建立目标文档与外部文档之间的语义关联。
优选地,文档重要性计算单元根据与目标文档相关联的外部文档的个数来计算目标文档的重要性分数。优选地,文档重要性计算单元生成包括目标文档作为节点的图结构,所述图结构中连接节点的每条边都具有权重,所述每条边的权重由与该边所连接的两个目标文档都关联的外部文档的个数来决定,所述文档重要性计算单元根据目标文档的边权重之和来计算目标文档的重要性分数。优选地,文档重要性计算单元生成包括目标文档作为节点的图结构,所述图结构中连接节点的每条边都具有权重,所述每条边的权重由与该边所连接的两个目标文档都关联的外部文档的个数来决定,所述文档重要性计算单元根据与目标文档相关联的外部文档的个数以及目标文档的边权重之和来计算目标文档的重要性分数。优选地,文档重要性计算单元首先根据与目标文档相关联的外部文档的个数计算目标文档的中间重要性分数,然后根据中间重要性分数和目标文档的边权重之和来计算目标文档的重要性分数。优选地,文档重要性计算设备还包括语义关联存储单元,用于存储所述语义关联建立单元建立的语义关联。根据本发明的另一个方面,提供了一种文档重要性计算方法,包括建立来自目标文档集合的目标文档与来自外部文档集合的外部文档之间的语义关联;以及根据语义关联来计算目标文档的重要性分数。优选地,通过度量目标文档与外部文档之间的文本相似度,建立目标文档与外部文档之间的语义关联。优选地,通过把目标文档和外部文档分别定义为类文档和实例文档并计算实例文档属于类文档的概率,建立目标文档与外部文档之间的语义关联。优选地,根据与目标文档相关联的外部文档的个数来计算目标文档的重要性分数。优选地,生成包括目标文档作为节点的图结构,所述图结构中连接节点的每条边都具有权重,所述每条边的权重由与该边所连接的两个目标文档都关联的外部文档的个数来决定,根据目标文档的边权重之和来计算目标文档的重要性分数。优选地,生成包括目标文档作为节点的图结构,所述图结构中连接节点的每条边都具有权重,所述每条边的权重由与该边所连接的两个目标文档都关联的外部文档的个数来决定,根据与目标文档相关联的外部文档的个数以及目标文档的边权重之和来计算目标文档的重要性分数。
优选地,首先根据与目标文档相关联的外部文档的个数计算目标文档的中间重要性分数,然后根据中间重要性分数和目标文档的边权重之和来计算目标文档的重要性分数。优选地,文档重要性计算方法还包括在建立目标文档与外部文档之间的语义关联后,存储所述语义关联。本发明能够在文档之间不存在超链接的情况下计算文档的重要性分数,提高了文档检索的精确度。


通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中图I是示出了根据本发明一个实施例的文档重要性计算设备的框图;图2是示出了根据本发明另一个实施例的文档重要性计算设备的框图;以及图3是示出了根据本发明一个实施例的文档重要性计算方法的流程图。
具体实施例方式下面,通过结合附图对本发明的具体实施例的描述,本发明的原理和实现将会变得明显。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了与本发明无关的公知技术的详细描述。首先,通过下表I对本说明书中的几个术语的含义做出如下说明
文档重要性:I在给定查询的情况下,主要使用查询相关方
权利要求
1.一种文档重要性计算设备,包括 语义关联建立単元,用于建立来自目标文档集合的目标文档与来自外部文档集合的外部文档之间的语义关联;以及 文档重要性计算单元,用于根据语义关联来计算目标文档的重要性分数。
2.根据权利要求I所述的文档重要性计算设备,其中,所述语义关联建立単元度量目标文档与外部文档之间的文本相似度,由此来建立目标文档与外部文档之间的语义关联。
3.根据权利要求I所述的文档重要性计算设备,其中,所述语义关联建立単元把目标文档和外部文档分别定义为类文档和实例文档,并计算实例文档属于类文档的概率,由此来建立目标文档与外部文档之间的语义关联。
4.根据权利要求I所述的文档重要性计算设备,其中,所述文档重要性计算单元根据与目标文档相关联的外部文档的个数来计算目标文档的重要性分数。
5.根据权利要求I所述的文档重要性计算设备,其中,所述文档重要性计算单元生成包括目标文档作为节点的图结构,所述图结构中连接节点的每条边都具有权重,所述每条边的权重由与该边所连接的两个目标文档都关联的外部文档的个数来决定,所述文档重要性计算单元根据目标文档的边权重之和来计算目标文档的重要性分数。
6.根据权利要求I所述的文档重要性计算设备,其中,所述文档重要性计算单元生成包括目标文档作为节点的图结构,所述图结构中连接节点的每条边都具有权重,所述每条边的权重由与该边所连接的两个目标文档都关联的外部文档的个数来决定,所述文档重要性计算单元根据与目标文档相关联的外部文档的个数以及目标文档的边权重之和来计算目标文档的重要性分数。
7.根据权利要求6所述的文档重要性计算设备,其中,所述文档重要性计算单元首先根据与目标文档相关联的外部文档的个数计算目标文档的中间重要性分数,然后根据中间重要性分数和目标文档的边权重之和来计算目标文档的重要性分数。
8.根据权利要求I所述的文档重要性计算设备,还包括 语义关联存储単元,用于存储所述语义关联建立単元建立的语义关联。
9.一种文档重要性计算方法,包括 建立来自目标文档集合的目标文档与来自外部文档集合的外部文档之间的语义关联;以及 根据语义关联来计算目标文档的重要性分数。
10.根据权利要求9所述的文档重要性计算方法,其中,通过度量目标文档与外部文档之间的文本相似度,建立目标文档与外部文档之间的语义关联。
11.根据权利要求9所述的文档重要性计算方法,其中,通过把目标文档和外部文档分别定义为类文档和实例文档并计算实例文档属于类文档的概率,建立目标文档与外部文档之间的语义关联。
12.根据权利要求9所述的文档重要性计算方法,其中,根据与目标文档相关联的外部文档的个数来计算目标文档的重要性分数。
13.根据权利要求9所述的文档重要性计算方法,其中,生成包括目标文档作为节点的图结构,所述图结构中连接节点的每条边都具有权重,所述每条边的权重由与该边所连接的两个目标文档都关联的外部文档的个数来決定,根据目标文档的边权重之和来计算目标文档的重要性分数。
14.根据权利要求9所述的文档重要性计算方法,其中,生成包括目标文档作为节点的图结构,所述图结构中连接节点的每条边都具有权重,所述每条边的权重由与该边所连接的两个目标文档都关联的外部文档的个数来决定,根据与目标文档相关联的外部文档的个数以及目标文档的边权重之和来计算目标文档的重要性分数。
15.根据权利要求14所述的文档重要性计算方法,其中,首先根据与目标文档相关联的外部文档的个数计算目标文档的中间重要性分数,然后根据中间重要性分数和目标文档的边权重之和来计算目标文档的重要性分数。
16.根据权利要求9所述的文档重要性计算方法,还包括 在建立目标文档与外部文档之间的语义关联后,存储所述语义关联。
全文摘要
本发明提供了一种文档重要性计算设备,包括语义关联建立单元,用于建立来自目标文档集合的目标文档与来自外部文档集合的外部文档之间的语义关联;以及文档重要性计算单元,用于根据语义关联来计算目标文档的重要性分数。本发明还提供了一种文档重要性计算方法。本发明能够在文档之间不存在超链接的情况下计算文档的重要性分数,可以有效提高文档检索的精确度。
文档编号G06F17/30GK102682040SQ20111007486
公开日2012年9月19日 申请日期2011年3月16日 优先权日2011年3月16日
发明者刘博 , 李建强, 赵彧 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1