将可扩展标记语言文档树转化为紧凑查询树的方法

文档序号:6564203阅读:180来源:国知局
专利名称:将可扩展标记语言文档树转化为紧凑查询树的方法
技术领域
本发明涉及一种将可扩展标记语言文档树转化为紧凑查询树的方法,属于网络数据处理技术领域。
背景技术
传统的关系数据库和可扩展标记语言(eXtensible Markup Language,以下简称XML)文档数据库的查询处理方法主要是利用结构化查询语言(Structured Query Language,以下简称SQL)和XML查询语言(以下简称XQuery)进行查询。首先,对非专业的数据库用户来说,这些语言很难理解和掌握;第二,这些查询语言都需要复杂的数据库模式的支持。因此,传统的数据库查询方法虽然强大,但是对大多数用户来说并不友好。
随着大量可扩展标记语言文档数据的出现,可扩展标记语言不再单纯的是为了增强应用程序对从网络上获得的文档的解释和操作能力,它已经逐步成为网上数据交换和数据表示的事实标准,而如何有效地存储和查询这些可扩展标记语言文档数据成为数据库界研究的一个热点问题。当前,关键字搜索已被广泛用于文本文档查询和万维网上的数据检索,数据库研究人员已经注意到了关键字搜索的便利之处,而且已经在关系数据库和可扩展标记语言文档数据库中引入了关键字搜索技术。
目前,解决可扩展标记语言文档数据关键字搜索的有效方法之一就是在可扩展标记语言文档树中找出相关关键字的全部的最小共同祖先(Lowest Common Ancestor,简称LCA)。文献“L.Guo,F.Shao,C.Botev,and J.Shanmugasundaram.XRANKRanked KeywordSearch over XML Documents.In Proceedings of the 2003 ACM SIGMOD InternationalConference on Management of Data,San Diego,California,USA,2003.pp.16-27”首先提出了最小共同祖先的概念,并利用这个概念完成可扩展标记语言文档数据的关键字搜索。虽然该方法返回了一些子树作为关键字搜索的结果,但是它不能返回连接树来解释所有的关键字之间是如何相互连接的。

发明内容
本发明的目的是针对已有技术中基于最小共同祖先的关键字搜索方法存在的问题,提出一种将可扩展标记语言文档树转化为紧凑查询树的方法,以适合半结构化数据的关键字搜索的数据结构,解决基于最小共同祖先的关键字搜索方法不能得到所有关键字的连接树的问题。
本发明提出的将可扩展标记语言文档树转化为紧凑查询树的方法,包括以下步骤(1)根据用户给定的关键字集合遍历可扩展标记语言文档树,删除树中不包含用户给定关键字的内容结点和孤立结点,得到可扩展标记语言文档查询树;(2)遍历上述可扩展标记语言文档查询树,删除其中只有一个孩子结点的结构结点,并保持该结构结点的孩子结点与该结构结点的父亲结点之间的连接路径。
利用本发明方法得到紧凑查询树是可扩展标记语言文档查询树的子树,它包含所有相关的内容结点和它们的祖先结点,而不包含任何无关的结点。因此紧凑查询树的结构简单、明了、紧凑,包含的结点数量少,比可扩展标记语言文档树的规模要小,且更加容易操作。而且紧凑查询树不包含任何连接结点,用于关键字搜索时,不仅可以得到紧凑的连接树,而且查询结果更加有意义,满足用户的需求。


图1是用于搜索关键字{T1,T3}的可扩展标记语言文档树示例。
图2是用于搜索关键字{T1,T3}的可扩展标记语言文档查询树示例。
图3是用于搜索关键字{T1,T3}的紧凑查询树示例。
具体实施例方式
首先根据用户给定的关键字集合遍历可扩展标记语言文档树,删除树中不包含用户给定关键字的内容结点及其孤立结点,内容结点是包含文本数据的叶结点,而孤立结点是删除内容结点后形成的不包含关键字的叶结点,这样就得到了可扩展标记语言文档查询树。接着遍历可扩展标记语言文档查询树,检查其中的结构结点,结构结点是可扩展标记语言文档查询树中除了内容结点以外的其他所有结点,将只有一个孩子结点的结构结点(又称连接结点)删除,并保持其父亲结点和孩子结点之间的路径连接,这样就得到了最终的用于关键字搜索的紧凑查询树。
以下结合附图详细介绍本发明方法的一个实施例假设用户给定的关键字集合是{T1,T3},将如图1所示的可扩展标记语言文档树转换成紧凑查询树的详细过程如下(1)遍历如图1所示的可扩展标记语言文档树,删除其中所有的T2和T4结点。T2和T4结点的删除,导致结构结点N4也要被删除。最终得到如图2所示的适合于关键字集合{T1,T3}搜索的可扩展标记语言文档查询树。
(2)遍历如图2所示的可扩展标记语言文档查询树,删除其中的连接结点N3和N5,并保持N3的父亲结点N1与N3的孩子结点T1之间的路径连接,保持N5的父亲结点N2与N5的孩子结点T3之间的路径连接。最终得到如图3所示的适合于关键字集合{T1,T3}搜索的紧凑查询树。
权利要求
1.一种将可扩展标记语言文档树转化为紧凑查询树的方法,其特征在于该方法包括以下步骤(1)根据用户给定的关键字集合遍历可扩展标记语言文档树,删除树中不包含用户给定关键字的内容结点和孤立结点,得到可扩展标记语言文档查询树;(2)遍历上述可扩展标记语言文档查询树,删除其中只有一个孩子结点的结构结点,并保持该结构结点的孩子结点与该结构结点的父亲结点之间的连接路径。
全文摘要
本发明涉及一种将可扩展标记语言文档树转化为紧凑查询树的方法,属于网络数据处理技术领域。首先根据用户给定的关键字集合遍历可扩展标记语言文档树,删除树中不包含用户给定关键字的内容结点和孤立结点,得到可扩展标记语言文档查询树;遍历上述可扩展标记语言文档查询树,删除其中只有一个孩子结点的结构结点,并保持该结构结点的孩子结点与该结构结点的父亲结点之间的连接路径。利用本发明方法得到的紧凑查询树是可扩展标记语言文档查询树的子树,结构简单、明了、紧凑,包含的结点数量少,更加容易操作。而且不包含任何连接结点,用于关键字搜索时,不仅可以得到紧凑的连接树,而且查询结果更加有意义,满足用户的需求。
文档编号G06F17/30GK1975738SQ200610165238
公开日2007年6月6日 申请日期2006年12月15日 优先权日2006年12月15日
发明者李国良, 冯建华, 王建勇, 塔娜, 周立柱 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1