一种在无线数据广播点播模式下xml文档分割方法

文档序号:7664322阅读:137来源:国知局
专利名称:一种在无线数据广播点播模式下xml文档分割方法
技术领域
本发明属于无线数据广播技术领域,具体涉及一种在点播模式下的XML文档分割方
法。
背景技术
XML (extensible Markup Language)即可扩展标记语言,自1998年出现以来发展 迅速,目前已经成为国际互联网数据交换的标准格式。对XML格式数据的研究也是当前 的研究热点。
XML文档是比较典型的半结构化数据(Semi-Structural Data)。半结构化数据是指 介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数 据(如声音、图像文件等)之间的数据。它一般是自描述的,数据的结构和内容混在一 起,没有明显的区分。XML将结构信息编码到文档中,可以更加准确地描述用户感兴趣的 数据,更好地体现了用户的需求。
无线数据广播是移动数据管理的一个重要研究分支,通过向空中广播数据,可以支 持大量移动计算设备并发访问服务器上的数据,发送代价与接收者个数基本无关;利用 无线信道的天然广播特性,提高了系统的可伸縮性。其研究的核心是服务器广播信道的 组织和调度。
无线数据广播体现无线通信的无线、低带宽、非对称、考虑节能、支持用户移动和 广播特性等主要特点,是一种新型的数据访问方式, 一直受到重点关注。数据库和移动 计算这两个领域最重要的会议和期刊均发表了多篇研究无线数据广播的论文。同时,无
线数据广播技术有着很好的应用前景,在消费电子、公共信息的发布、军事等很多领域 已有实际的应用。而无线局域网的高速推广和3G网络的部署,将为无线数据应用提供更 好的基础网络平台。
无线数据广播是目前无线移动网络中广泛采用的数据传递方法,广播服务器通过公 共的信道发送信息,用户在广播信道上侦听并及时将自己感兴趣的数据下载到本地。从 用户角度,无线信道可看成是存储数据的载体,和可随机访问的内存和硬盘不同,无线 信道中的数据只能顺序访问。
按照调度模式不同,典型的无线数据广播包括以下三类-(1)周期广播模式(Broadcast Mode/Push-basedMode)
服务器端将存储的数据以一种确定的调度方式在广播信道上循环广播,用户端只需在广播信道上侦听, 一旦发现自己感兴趣的数据则下载到本地。
(2) 点播模式(On-demand Mode/Pull-based Mode) 用户通过上行信道将自己的请求发送给服务器端,服务器根据所有用户的请求状况
安排调度。
(3) 混合模式(Hybrid Mode) 混合模式对于热门数据采用周期广播模式而对于不热门的数据采用On-demand模
式。用户首先在广播信道上侦听, 一旦发现没有自己需要的数据时,则将自己的请求 显式地发送给服务器。然后在on-demand信道上等待需要的数据。
如何快速访问和节省能源是无线数据广播中研究的两个主要问题,相应的,有两个 评价广播性能的主要参数访问时间(Access Time)和调谐时间(Tuning Time)
(1) 访问时间从用户提出请求到请求得到满足之间经过的时间。
(2) 调谐时间用户在提出请求到请求得到满足之间需要保持侦听状态的时间。在 广播信道中插入索引是减少调谐时间的主要方法,如何设计高效率的索引也得到了很多 研究者的关注。
广播调度策略是影响无线数据广播系统性能的关键因素。广播模式中一个完整的数 据广播序列称为一个广播周期(Broadcast cycle);如何合理地安排一个广播周期中每个
数据出现的频率以及这些数据之间的顺序以使平均访问时间最少是数据广播中的主要研 究问题之一。
将XML技术与无线数据广播结合是近年来比较热门的研究领域,已出现的技术有XML 无线数据广播索引技术和调度技术,XML文档剪枝技术等。已有的技术主要考虑了文档相 对于用户查询的热门程度(即平均每个XML文档的被所有用户请求的次数),而没有考虑 用户查询的文档分支选择率(即每个用户查询所请求的XML文档分支占所有XML文档含 有的分支的比例),从而影响了无线数据广播系统的性能,存在一定的技术缺陷。

发明内容
本发明针对背景技术中所述的现有方法仅仅考虑XML文档相对于査询的热门程度的 缺陷,提出了一种在无线数据广播点播模式下根据用户查询的XML文档分支选择率来进 行XML文档分割的方法。该方法可以进一步提高无线数据广播系统的性能。
本发明提出的无线数据广播点播模式下的XML文档分割方法,其总体思路是首先对 服务器端的XML文档集合进行预处理,即根据用户的查询请求,对XML文档集合中没有被 任意一个用户请求到的文档分支进行剪枝,删除冗余的XML文档分支。然后将用户查询分 成两个集合,其中一个集合包含了文档分支选择率(即一个用户査询所请求的所有文档
分支与服务器端的所有经过剪枝后的XML文档之间的比率)比较低的查询请求,另一个 集合则包含了文档分支选择率较高的查询请求。第三,根据所得到的两个查询集合,通 过本发明提出的方法对经过剪枝后的XML文档进行分割,得到两个分割文档集合。第四, 构造下一个广播周期的索引,并将这两个文档集合依次广播出去。最后,用户根据索引 和本身的査询请求,定位和下载相应的XML文档。 本发明方法的详细描述如下
(1) 对服务器端的XML文档集合进行预处理
在点播模式下,服务器端可以根据到来的査询请求,对XML文档集合Z 中没有被任意 一个用户请求到的文档分支进行剪枝,得到文档集合,"。通过预处理后,可以避免广播"垃 圾"数据,即任意一个用户都不感兴趣的数据,从而提高了无线数据广播系统的性能。
(2) 将用户査询分成两个集合 首先根据用户查询的文档分支选择率,按升序对用户査询进行排序。然后根据指定的
W ^SW/t尸w'/70值,典型的取值有2, 4, 8, 16, 32, 64或128等,将用户查询分成 两个集合。其中一个集合包含了文档分支选择率比较低的査询请求,记为fi,占所有用户 査询的C尸-"/ 尸的比例。另一个集合则包含了文档分支选择率较高的査询请求,记为fe, 占所有用户査询的7/5"尸的比例。
(3) 根据査询集合的分割结果对文档进行分割
首先对尸"集合中经过剪枝后的XML文档按照用户请求的热门程度进行降序排序。然 后,根据第(2)步得到的两个査询集合,对经过剪枝后的每个XML文档进行分割。
(a) 根据包含了文档分支选择率比较低的査询请求的查询集合ft对XML文档进行分 割,即将所有被ft请求的文档分支保留,没有被G请求的文档分支全部剪枝掉,得到第一 个文档分割集合"51。
(b) 根据包含了文档分支选择率较高的査询请求的查询集合fe,继续对XML文档集 合进行分割,即将所有被込请求的文档分支保留,同时去除所有已经在文档分割集合 中出现的分支节点,但是需要保证新文档分支路径的完整性(细节可以参考具体实施方式
内容),而没有被込请求的文档分支全部剪枝掉,从而得到第二个文档分割集合"&。
(4) 广播XML文档分割集合 利用己有的索引技术和广播调度技术,构造下一个广播周期的索引,将第(3)步得
到的两个XML文档分割集合Z 51和"&依次广播出去。
(a) 根据尸"生成相应的DataGuides索引
(b) 对索引"C中每一个Dataguide文档A的对所有的节点进行标记,用于指明该 节点将会在文档分割集合"51和"&中的哪个集合出现或是在这两个集合都出现。
(c)计算索引Z^中每一个Dataguide文档0^所索引的XML文档/^的偏移量,包括 两个偏移量0//set7和o/rseC分别指向相应的文档pc/在文档分割集合"51和"&中的 两个分割文档(如果都存在的话)。
(d) 根据a,b,c三个步骤的结果,构造下一个广播周期的索引/。
(e) 广播索引/到无线广播信道上。
(f) 广播文档分割集合Z^到无线广播信道上。
(g) 广播文档分割集合"&到无线广播信道上。 (5)移动终端访问协议
(a) 移动终端下载索引/;根据索引J和用户的査询请求,计算得出相应的匹配文 档和偏移量,移动终端切换至休眠状态,等待匹配文档的到来。
(b) 对于所匹配的文档分支全部在一个文档分割集合,"&或"&,中的査询请求, 移动终端只需要下载相应的匹配文档;而对于所匹配的文档分支分布在两个文档分割集 合,/ 51和Z &,中的査询请求,移动终端需要分别下载z^和"5;中的相应的匹配文档,然 后通过合并操作,将原来属于同一个XML文档的文档分支进行复原,从而得到最终的匹配 文档。
本发明所描述的无线数据广播点播模式下的XML文档分割方法具有以下的优点
(1) 引入了用户査询的XML文档分支选择率概念,对用户查询集合以及XML文档进 行分割,使得热门的XML文档分支可以优先广播。
(2) 优化了文档分支选择率较低的用户查询请求的访问时间和调协时间,使得XML 文档分支选择率较低的用户查询可以更快地得到满足,从而提高了无线数据广播的性能。


图1服务器端的XML文档图。
图2移动终端提出的査询请求集合图。
图3根据用户查询对服务器端的XML文档进行剪枝后的结果文档图。
图4利用本发明所述的XML文档分割方法对剪枝后的XML文档进行分割的结果集"51图。
图5利用本发明所述的XML文档分割方法对剪枝后的XML文档进行分割的结果集图。
图6利用本发明所述的XML文档分割方法对剪枝后的XML文档进行分割的结果图。 图7采用本发明所述的XML文档分割方法对剪枝后的XML文档进行分割的测试结果图。
图8采用本发明所述的XML文档分割方法对无线数据广播系统的访问时间影响的测试 结果图。
图9采用本发明所述的XML文档分割方法对无线数据广播系统的调协时间影响的测试 结果图。
具体实施例方式
下面结合实施例子来详细介绍本发明所述的XML文档分割方法的执行过程。
1. 对服务器端的XML文档集合进行预处理
实现中,利用现有的XML文档剪枝算法,根据图2所示的用户査询请求对图1所示 的服务器端的XML文档Z 进行剪枝,其中原文档的Va/b/d)分支由于没有被用户请求, 被剪枝掉了。剪枝的结果尸"如图3所示。为了支持文档分割后的复原操作,每个节点上 添加了按层次遍历顺序所得到的序号。
2. 将用户査询分成两个集合
利用现有的XML文档过滤方法,如XFilter, YFilter, lazy DFA等,算出用户査询 的文档分支选择率,并按升序对用户查询进行排序。显然査询{/a/c}比查询{/a/c/g}的文 档分支选择率要高,因此排序后的结果为{/a/c/g, /a/c}。然后根据指定的57^5^^尸0^" 值,这里取值为2,将用户查询分成两个集合ft (/a/cl及込{/a/c/g }。
3. 根据查询集合的分割结果对文档进行分割
首先对尸"集合中经过剪枝后的XML文档按照用户请求的热门程度进行降序排序,这 里图3的尸Z 集合中只含有一个文档,因此不需要排序。然后,根据第2步得到的两个查 询集合G和込,对经过剪枝后的XML文档进行分割。
(a) 将图3中所有被ft请求的文档分支保留,没有被G请求的文档分支全部剪枝掉, 得到第一个文档分割集合"&。(见图4)
(b) 将图3中所有被込请求的文档分支保留,同时去除所有己经在文档分割集合"S. 中出现的分支节点,但保留新文档分支路径的完整性(在图3所示的例子中,删除了 "51 集合中己出现的文档分支(/a/c/g)中的/g节点),而没有被fe请求的文档分支全部剪枝掉
(在图3的例子中没有这样的文档分支),从而得到第二个文档分割集合"&。(见图5)
4、 广播XML文档分割集合
利用己有的索引技术和广播调度技术,将第3步得到的两个XML文档分割集合啦和 "&依次广播出去。(见图6)
5、 移动终端访问协议
对于所匹配的文档分支全部在一个文档分割集合,"&或"&,中的査询请求,例如查 询W,移动终端只需要下载相应的匹配文档;而对于所匹配的文档分支分布在两个文档分 割集合,"&和"&,中的查询请求,例如査询< 么移动终端需要分别下载"&和"&中的相 应的匹配文档,然后通过合并操作,根据这两个分割文档的节点序号,可以将被分割开来 的文档分支进行复原,从而得到最终的匹配文档。(复原后的XML文档即为图3所示的文 档)
对这个例子的分析如下1.如果没有采用本发明所述的XML文档分割方法,对于査 询^和<7么它们所需要下载的节点数总共是14个,即图3所示文档被下载了两次。2. 采用了本发明所述的XML文档分割方法后,査询ql所需要下载的节点树为3个,见图4; 而查询q2所需要下载的节点数为9个,即等于图4和图5的节点数之和。所以总共需要 下载12个节点。
本发明所示的XML文档分割方法的批量测试是在Linux 2.6的平台上进行,实验对 象是News Industry Text Format (NIFT) DTD所定义的200个XML文档和100至500个 用户查询(采用XPath表示),默认的5F值为4,即XML文档分支选择率较低的75%(可 根据(4-1)/4得出)的查询被划分到同一个集合^中,其余的用户査询被划分到另一个集 合込中。
其中图7所示的测试结果为,当用户査询数从100变化到500时的XML文档分割结 果。如图所示,根据ft分割得到的XML文档集合Z^占总分割文档集合的比例低于20yo, 而"&集合所占的比例超过了 80%。因此,75y。的查询只需要下载Z^中的XML文档分支即 可得到满足。
图8和图9分别给出了当用户査询数从100变化到500时,XML文档分割方法对无线 数据广播系统的访问时间和调协时间的影响。从这两个图可以看出,采用了本发明所述 的XML文档分割方法后,系统的平均访问时间减少了 34%左右,而平均调试时间则减少了 20%以上。
综上,本发明所述的XML文档分割方法可以有效提高无线数据广播系统的性能。
权利要求
1、一种在无线数据广播点播模式下XML文档分割方法,其特征在于具体步骤如下(1)对服务器端的XML文档集合进行预处理在点播模式下,服务器端根据到来的查询请求,对XML文档集合D中没有被任意一个用户请求到的文档分支进行剪枝,得到文档集合PD;(2)将用户查询分成两个集合首先根据用户查询的文档分支选择率,按升序对用户查询进行排序;然后根据指定的SP,将用户查询分成两个集合,其中一个集合包含了文档分支选择率比较低的查询请求,记为Q1,占所有用户查询的(SP-1)/SP的比例,另一个集合则包含了文档分支选择率较高的查询请求,记为Q2,占所有用户查询的1/SP的比例;(3)根据查询集合的分割结果对文档进行分割首先对PD集合中经过剪枝后的XML文档按照用户请求的热门程度进行降序排序;然后,根据第(2)步得到的两个查询集合,对经过剪枝后的每个XML文档进行分割;(4)广播XML文档分割集合利用已有的索引技术和广播调度技术,构造下一个广播周期的索引,将第(3)步得到的两个XML文档分割集合DSL和DSH依次广播出去;(5)移动终端访问协议(a)移动终端下载索引I;根据索引I和用户的查询请求,计算得出相应的匹配文档和偏移量,移动终端切换至休眠状态,等待匹配文档的到来;(b)对于所匹配的文档分支全部在一个文档分割集合DSL或DSH中的查询请求,移动终端只需要下载相应的匹配文档;而对于所匹配的文档分支分布在两个文档分割集合DSL和DSH中的查询请求,移动终端需要分别下载DSL和DSH中的相应的匹配文档,然后通过合并操作,将原来属于同一个XML文档的文档分支进行复原,从而得到最终的匹配文档。
2、 根据权利要求1所述的方法,其特征在于步骤(3)中所述对经过剪枝后的每个XML 文档进行分割的步骤如下(a) 根据包含文档分支选择率比较低的査询请求的查询集合&对XML文档进行分割, 即将所有被fi请求的文档分支保留,没有被ft请求的文档分支全部剪枝掉,得到第一个文 档分割集合"&;(b) 根据包含文档分支选择率较高的査询请求的查询集合込,继续对XML文档集合 进行分割,即将所有被込请求的文档分支保留,同时去除所有已经在文档分割集合"&中 出现的分支节点,但是需要保证新文档分支路径的完整性,而没有被ft请求的文档分支全部剪枝掉,从而得到第二个文档分割集合"&。
3、根据权利要求1所述的方法,其特征在于步骤(4)中所述对广播XML文档分割 集合的步骤如下(a) 根据尸"生成相应的DataGuides索引(b) 对索引PG中每一个Dataguide文档c/g的对所有的节点进行标记,用于指明该 节点将会在文档分割集合"&和"&中的哪个集合出现或是在这两个集合都出现;(c) 计算索引"G中每一个Dataguide文档0^所索引的XML文档a/的偏移量,包括 两个偏移量和oZfset么分别指向相应的文档/^在文档分割集合5&和55〃中的 两个分割文档;(d) 根据a,b,c三个步骤的结果,构造下一个广播周期的索引/;(e) 广播索引/到无线广播信道上;(f) 广播文档分割集合"&到无线广播信道上;(g) 广播文档分割集合"&到无线广播信道上。
全文摘要
本发明属于无线数据广播技术领域,具体为一种在无线数据广播点播模式下XML文档分割的方法。该项方法的步骤为首先对服务器端的XML文档集合进行预处理,对XML文档集合中的文档分支进行剪枝;然后将用户查询分成两个集合,它们分别包含了文档分支选择率比较低的查询请求和文档分支选择率较高的查询请求;第三,根据所得到的两个查询集合,对经过剪枝后的XML文档进行分割,得到两个分割文档集合;第四,构造下一个广播周期的索引,并将这两个分割文档集合广播出去;最后,移动终端根据访问协议来访问无线信道上的数据。本发明进一步提高了无线数据广播系统的性能。
文档编号H04L29/06GK101179577SQ20071017217
公开日2008年5月14日 申请日期2007年12月13日 优先权日2007年12月13日
发明者平 余, 孙未未, 张卓瑶, 覃泳睿 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1