Xml关键词检索的摘要生成方法

文档序号:6340714阅读:286来源:国知局
专利名称:Xml关键词检索的摘要生成方法
技术领域
本发明涉及XML检索技术,尤其是一种XML关键词检索的摘要生成方法,可以应用 在XML关键词搜索引擎以及其他结构化或者半结构化数据的关键词搜索引擎中。
背景技术
自1998年诞生以来,由于开放性,自描述性以及简洁性等特点,XML文档现广泛应 用于互联网,数据库等领域,已经成为互联网上数据交换和集成的语言标准。随着XML文档 的大量涌现,如何快速地从大规模XML文档中寻找出满足用户需求的信息成为信息检索以 及数据库领域的一个研究热点。一个具体的XML文件如

图1所示,图2是图1所示XML文 档对应的树形结构。XML信息检索可分为两大类关键词检索和“关键词+结构”检索。由W3C(the Worldffide Web Consortium)颁布的XML检索标准XPath和XQuery是“关键词+结构”检 索的代表,“关键词+结构”检索在为用户准确表达其查询需求方面提供了有效的描述手段, 从而能获得高质量的查询结果。但是“关键词+结构”检索要求用户掌握相关的查询语言, 并且对XML文档的结构信息有所了解,从而限制了这种检索方式在实际中的应用范围。关 键词检索是一种经过实践证明且取得巨大成功的检索方式,是在传统搜索引擎中被广泛采 用的检索手段。在传统搜索引擎的影响下,普通互联网用户现在已经习惯于关键词检索方 式,因为关键词检索简单易用,能迅速被普通用户所掌握。因此,XML关键词检索比“关键词 +结构”检索更具有现实应用意义。XML关键词检索也因此成为了 XML信息检索领域的研究 ^^点οXML关键词检索即用户以关键词作为表达查询的手段对XML文档(集)进行检索 的模式。由于XML文档是包含层次结构信息的,而关键词检索只能模糊地表达用户的查询 语义,如何通过关键词检索,充分利用XML文档内部的结构信息,来为用户提供精确的检索 服务就是一件非常有现实意义且具有极大挑战性的事情。目前,关于XML关键词检索已有相当多的研究,但对于XML检索结果的摘要提取的 技术研究仍然比较欠缺。传统的搜索引擎(如谷歌、百度等)在对给出关键词找出相应的网 页作为结果后,把每个网页中出现关键词的一段文字作为摘要返回给用户,如附图3所示。 与传统的搜索引擎不同,基于XML的关键词检索提供了更丰富的结构信息,大量标签的引 入以及树形结构的组织使得每个XML文档中各信息之间的结构关系更加清晰,这使得对每 个XML文档进行摘要提取时也能按照树形结构组织,从而给用户提供更加形象化的信息。文献[1][2][3]针对XML关键词检索的摘要提取提出了 XSeek模型,并根据此 模型实现了自动生成摘要的系统extract,系统实现的实例见附图4。XSeek模型提出 了一个好的摘要(snippet)所应满足的几个条件完整性(self-contained)、可区分性 (distinguishable)和代表性(r印resentative)。完整性是指摘要应包含相关的“主语”, 也就是要包含必要的实体信息,即文档描述的对象是什么;区分性是指不同的文档的摘要 应互不相同,用户能通过摘要就区分出不同文档之间的差异性;代表性是指摘要应该把对
4应文档的最突出的一些特征反映出来,能反映文档的主要信息。在满足以上三个条件的基 础上,一个好的摘要还应尽量简短,[1]中还给出了在有长度限定(不能超过LimitSize)的 情况下生成符合上述三个条件的算法,[3]对相应的extract系统进行了展示。XSeek模型提出了评价一个摘要好坏的几条标准,并实现了在长度限定的情况下 生成比较符合完整性、可区分性和代表性三个条件的摘要的算法。但是XSeek模型没有对 每个评价标准给出定量的计算公式,从而不能对摘要满足各个标准的程度进行一个准确的 评估。[1]中将XML文档内树中的节点分成了四类实体节点(entity),联接节点 (connection),属性节点(attribute)和值节点(value)。其中值节点都是XML树中的叶节 点,其内容反映的是一些具体的取值;属性节点是只包含一个值节点作为其子节点的非叶 节点,它给出了对应值节点的类型和名称。一个属性节点和其相应的值节点一起构成了一 个完整的属性信息属性名称+属性值,如“姓名” + “张三”一起构成了某一个人的“姓名” 这一属性。实体节点就是包含多个属性节点作为子节点的非叶节点(其子节点当中也可以 包含实体节点),反映的是一个具体的描述对象,比如一个人、一个公司或一个国家等。联接 节点是子节点中只包含实体节点(通常是同名节点)的非叶节点,反映的是实体节点之间 的关系。如附图2中,paper节点(0. 0)、Institution(0. 0. 1)节点是实体节点,分别指代 论文和发表论文的单位;title 节点(0. 0. 0,0. 1.0)、Introduction 节点(0. 0. 2,0. 1.2)、 Name 节点(0. 0. 1. 1. 0,0. 0. 1. 1. 1,0. 1. 1. 0,0. 1. 1. 1)是属性节点,分别指代论文(0. 0)的 标题、介绍和作者等属性的名称;上述属性节点的子节点(所有叶节点)都为值节点,指代 对应属性的具体取值,可以认为值节点0.0. 1.0对应的属性节点(0.0. 1的单位名称)被省 略;proceedings节点是联接节点,表明的是这些论文(paper节点)都是在同一个会刊里 的,authors节点也是联接节点,可以认为name节点的父节点author节点(实体节点)被 省略。参考文献[1]Z. Liu, Y. Chen identifying meaningful return information for XML keyword search. In SIGMOD 2007,pages329-340.[2]Z. Liu, J. Walker, Y. Chen :XSeek :A Semantic XML Search Engine Using Keywords. In VLDB 2007 :1330-1333[3]Yu Huang,Ziyang Liu,Yi Chen. eXtract :A Snippet Generation System for XML Search. In VLDB 2008,Pagesl392_1395[4]Y. Xu, Y. Papakonstantinou. Efficient keyword search for smallest LCAs in XML databases. In SIGMOD 2005,pages537_538

发明内容
为解决传统XML关键词检索缺少对信息重要性的定量衡量的问题,本发明重新定 义了评价一个摘要好坏的三个标准关联性(correlativeness)、明确性(explicitness) 和区分性(distinctiveness),并给出了相应的计算公式,同时通过提出MR印A模型对这三 个属性进行综合得到XML文档中各属性的重要程度。本发明的详细技术方案如下
方案1 一种XML关键词检索的摘要生成方法,包括如下步骤1)输入查询Q ;2)找 到与Q相关的XML文档;3)提取文档中的属性a ;4)计算属性a的权重;5)选取权重值最 大的K个属性,加入到摘要中;其特征在于,所述步骤4)中属性a的权重W的计算方法如下ff(e, a) = (Dist(a) · Expl (a, Q)) c。rr(e’a),其中,-Dist (a)用于衡量属性a的区分性强弱,Dist (a) = exp (pa) ‘ H (a)Η{α) = ~^ρ(α.)·Ιο§[ρ(α.)]
/=1其中,pa指属性a在该类实体中出现的比例,H(a)是属性a的信息熵;-Expl (a, Q)用于衡量属性a对于查询Q的明确性,其中,Q= {qi,q2,……qn},Qi表示关键词Qi的长度,a表示属性a的值节点 的长度;-Corr (e, a)用于衡量属性a与实体e间的关联性;Corr(e, a) = k,ength^a). f\Numiei), 其中,Num(ei)表示路径中第i个实体同层的该类实体的个数。方案2 作为方案1的一种优选实现,其特征在于,所述K的取值为5 7,这样能 既减少信息冗余又兼顾信息的完整。方案3 作为方案1的一种优选实现,其特征在于,在步骤1)之前进一步包括对 XML文档进行预处理,把XML文档中的元素归并为三类关系、实体和属性。方案4 作为方案3的一种优选实现,其特征在于,在XML数据集预处理时把下列 信息存储在索引文件中所有属性节点的长度,所有属性强度的区分性强弱,所有实体节点 的子节点中同名实体节点的数量。方案5 作为方案4的一种优选实现,其特征在于,所述属性强度的区分性强弱是 通过计算属性的熵得到的。本发明同时提出了一种新的衡量XML关键词检索的摘要的重要性程度的模型,记 作MR印A模型,描述如下方案6 —种衡量XML关键词检索的摘要的重要性程度的模型,记作MR印A模型, 其特征在于,所述模型包含如下三个评价要素区分性,明确性,关联性;该模型衡量XML关 键词检索的摘要的重要性程度的计算公式为W(e,a) = (Dist(a) ·Εχρ1 (a,Q))to&’a),其中-Dist (a)用于衡量属性a的区分性强弱,Dist (a) = exp (pa) · H (a) H (a) = -^ρ(α.)Λοζ[ρ(α.)\
其中,pa指属性a在该类实体中出现的比例,H(a)是属性a的信息熵;-Expl (a, Q)用于衡量属性a对于查询Q的明确性,
权利要求
1.一种XML关键词检索的摘要生成方法,包括如下步骤1)输入查询Q ;2)找到与Q相 关的XML文档;3)提取文档中的属性a ;4)计算属性a的权重;5)选取权重值最大的K个 属性,加入到摘要中;其特征在于,所述步骤4)中属性a的权重W的计算方法如下
2.如权利要求1所述的摘要生成方法,其特征在于,所述K的取值为5 7。
3.如权利要求1所述的摘要生成方法,其特征在于,在步骤1)之前进一步包括对XML 文档进行预处理,把XML文档中的元素归并为三类关系、实体和属性。
4.如权利要求3所述的摘要生成方法,其特征在于,在XML数据集预处理时把下列信息 存储在索引文件中所有属性节点的长度,所有属性强度的区分性强弱,所有实体节点的子 节点中同名实体节点的数量。
5.如权利要求4所述的摘要生成方法,其特征在于,所述属性强度的区分性强弱是通 过计算属性的熵得到的。
6.一种衡量XML关键词检索的摘要的重要性程度的模型,记作MRepA模型,其特征在 于,所述模型包含如下三个评价要素区分性,明确性,关联性;该模型衡量XML关键词检索 的摘要的重要性程度的计算公式为W(e,a) = (Dist(a) · Expl (a,Q))c。rr(e’a),其中-Dist (a)用于衡量属性a的区分性强弱, Dist (a) = exp (pa) · H(a)
全文摘要
本发明提供了一种XML关键词检索的摘要生成方法以及一种评判摘要重要程度的模型。该模型包含三个评价要素区分性,明确性,关联性。区分性用于衡量属性a的区分性强弱,明确性用于衡量属性a对于查询Q的明确性,关联性用于衡量属性a与实体e间的关联性。本发明提供的方法利用该模型对XML关键词检索的摘要的重要性进行定量分析,计算公式为W(e,a)=(Dist(a)·Expl(a,Q))Corr(e,a),然后选取最重要的top-K个属性作为描述实体的摘要,解决了传统XML关键词检索缺少对信息重要性的定量衡量的问题。
文档编号G06F17/30GK102004802SQ20101061495
公开日2011年4月6日 申请日期2010年12月30日 优先权日2010年12月30日
发明者江家健, 邓志鸿 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1