结构化文档的处理方法和设备的制作方法

文档序号:6583133阅读:157来源:国知局
专利名称:结构化文档的处理方法和设备的制作方法
技术领域
本发明涉及信息处理领域,更具体地说,涉及用于处理结构化文档的方法和设备。
背景技术
结构化文档,例如标准通用标签语言SGML文档或扩展标签语言XML文档,是一种 简单的数据存储文档,被广泛用于进行数据存储和交换。特别是XML,其简单性使得很容易 在任何应用程序中加载XML文档,并对XML文档中的数据进行分析。在结构化文档中,使用 一系列简单的标签标识作为内容的数据,而这些标签可以用方便的方式定义和建立。一个 标签和所标识的内容称为结构化文档的一个元素。在用结构化文档进行数据交换时,产生结构化文档的称为生产方,而加载结构化 文档以进行数据分析的称为消费方。一般来说,生产方产生的结构化文档包括大量的数据。 结构化文档从生产方传输到消费方,必然消耗大量的网络资源。因此需要一种方案来优化 结构化文档的生产、传输和消费。

发明内容
有鉴于此,本发明提供了一种用于处理结构化文档的方法和设备,以便在数据传 输量、处理量和文档规范性方面提供优化的处理方法。根据本发明实施例的处理结构化文档的方法包括获取结构化文档的消费方对结构化文档中元素的访问模式,所述元素包括标签和 内容;根据所述访问模式确定压缩规则,所述压缩规则指定结构化文档中的至少一个待 压缩元素和至少一个非压缩元素;和用压缩后元素替换所述至少一个待压缩元素以形成压缩后的结构化文档,其中所 述压缩后元素的标签是特定的压缩标签,所述压缩后元素的内容是压缩所述至少一个待压 缩元素的结果。本发明还公开了相应的处理结构化文档的设备,该设备包括访问模式监视器,配置为获取结构化文档的消费方对结构化文档中元素的访问模 式,所述元素包括标签和内容;压缩规则决策模块,配置为根据所述访问模式确定压缩规则,所述压缩规则指定 结构化文档中的至少一个待压缩元素和至少一个非压缩元素;和压缩执行模块,配置为用压缩后元素替换所述至少一个待压缩元素以形成压缩后 的结构化文档,其中所述压缩后元素的标签是特定的压缩标签,所述压缩后元素的内容是 压缩所述至少一个待压缩元素的结果。按照根据本发明实施例的技术方案,结构化文档消费方对结构化文档的访问模式 被用来产生对所述结构化文档进行压缩的压缩规则,该压缩规则指定结构化文档中的一些 元素需要压缩而另外一些元素不需要压缩。一般来说,不需要压缩的元素是消费方以较高4频率使用的元素。由于这些元素没有被压缩,那么消费方在使用这些元素前就不需要进行 解压缩操作,从而大大提高消费方的处理速度。又由于消费方以较低频率使用或者根本不 使用的元素被压缩,从而减少了传输结构化文档所需的网络资源以及保存文档所需的存储 资源。进而,用新构造的元素来替换被压缩的元素,这样处理的好处是能够保证处理后的结 构化文档仍然符合其规范,从而保持了结构化文档简单通用的优势。


图1是根据本发明实施例的用于处理结构化文档的设备的框图。图2是根据本发明实施例的用于处理结构化文档的设备的框图。图3是根据本发明实施例的用于处理结构化文档的设备的框图。图4是根据本发明实施例的用于处理结构化文档的方法的流程图。
具体实施例方式以下参照

本发明提供的处理结构化文档的方法和设备的具体实施方式
。 在以下的描述中,以XML文档作为结构化文档的例子。本领域技术人员容易理解,相同的方 案还可以应用于其他任何结构化文档。为了减少传输结构化文档所消耗的网络资源,可以有两种直接的方案。一种方案 是将结构化文档进行压缩。但是,消费方在访问数据之前,需要进行解压缩操作,这对于消 费方的处理能力提出了更高的要求。尤其是在需要实时处理的场合,解压缩操作会大大增 加处理时间,从而影响数据的实时处理。其次,压缩方必须等接收完一个完整的数据单元后 才能进行解压缩操作。对于随时产生随时消费的持续性流式的应用模式,生产方源源不断 地将数据加入结构化文档中,形成传输给消费方的数据流,这样就需要复杂的控制逻辑将 数据流切分成数据单元再进行相应的压缩,从而大大增加生产方和消费方的复杂度。第二种方案是是只将消费方需要访问的数据传输给消费方。一般来说,生产方会 在结构化文档中记录很多种类的数据,以便进行全面的记录;特定的消费方只访问结构化 文档中的一种数据,或者说以较高的频率访问结构化文档中的一种数据。但是,消费方对数 据的访问模式可能变化;此外,去掉结构化文档中的一部分数据后可能会破坏结构化文档 的结构,使其不再符合原来的规范,从而削弱了结构化文档简单通用的优势。下面首先结合具体的结构化文档来说明根据本发明实施例的方案。参照以下的XML代码段1,其示出了一个XML文档的一部分。其中符号串〈! 一和符号串一> 之间的内容表示注释。<!__代码段ι开始—> <SMSLog><SMS sender="lllllllllll"><sender_phone_type>......</sender_phone_type><sender_cell_id>......</sender_cell_id><sender_time>......</sender_time>〈content〉......〈/content〉</SMS><SMS sender="22222222222"><sender_phone_type>......</sender_phone_type><sender_cell_id>......</sender_cell_id><sender_time>......</sender_time>〈content〉......〈/content〉</SMS><SMS sender="33333333333"><sender_phone_type>......</sender_phone_type><sender_cell_id>......</sender_cell_id><sender_time>......</sender_time>〈content〉......〈/content〉</SMS> </SMSLog><!__代码段1结束-->该XML文档记录了短信的发送情况。XML文档由元素组成,元素包括标签对及其之 间的内容。如代码段1所示,标签对<SMSX/SMS>及其之间的内容是一个结构化文档的一个 元素,其表示一条短信记录,其中sender =11111111111表示短信发送者的手机号码。标签 对<sender_phone_typeX/sender_phone_type>及其之间的内容是结构化文档的一个元 素,表示短信发送手机型号;标签对<sender_cell_idX/sender_cell_id>及其之间的内 容是结构化文档的一个元素,表示收到该短信的基站,<sender_time></sender_time>及其 之间的内容是结构化文档的一个元素,表示短信的发送时间,标签对〈contentX/content〉 及其之间的内容是结构化文档的一个元素,表示短信的内容。为了简单起见,在下文中用 标签对的名字指代元素,例如SMS元素、sender_phone_type元素、sender_cell_id元素、sender_time 元素和 content 元素等。需要说明的是,虽然代码段1示出了 3个SMS元素,实际的XML文档可能包括任意 多个SMS元素,分别对应于一条短信。为了简单起见,除了第一个SMS元素外,省略了其他 两个SMS元素的具体内容。此外,代码段1中sender_phone_type元素、sender_cell_id元 素、sender_time元素和content元素示出为SMS元素的子元素,实际上SMS元素可能还有 其他的子元素。代码段1所示的部分所在的XML文档的消费方可以是垃圾短信检测系统。仅仅 作为一个例子,该垃圾短信分析系统可以先检查短信的发送号码是否在某候选名单上,如 果不在该候选名单上则直接判断为非垃圾短信,否则根据短信的发送时间、内容等进行进 一步的判断。由此可见,对于每一条短信,或者说对于每一个SMS元素,消费方都要访问其 sender数据,但是并不一定会访问sender_cell_id兀素、sender_time兀素禾口 content兀 素中的内容,而很可能根本不会访问Sender_phone_type元素中的内容。根据本发明实施 例的方案,首先根据消费方的这种访问模式,即访问sender数据的频率要远远大于访问 sender—phone_type 兀素、sender_cell_id 兀素、sender_time 兀素禾口 content 兀素中的内 容的步页率,将 sender—phone_type 兀素、sender_cell_id 兀素、sender_time 兀素禾口 content 元素确定为待压缩元素,将sender数据确定为非压缩;然后将sender—phone—type元素、 sender—cell—id 兀素、 sender—time元素和content元素进行压缩;最后构造一个新的元素 来替换 sender—phone_type 兀素、sender_cell_id 兀素、sender_time 兀素禾口 content 兀素 的位置。下面的代码段2示出了代码段1所示的部分在进行所述替换以后的形式。<!__代码段2开始--> <SMSLog><SMS sender-" 11111111111”〉<ZIP-Content>......</ZIP-Content></SMS><SMS sender="22222222222"><ZIP-Content>......</ZIP-Content></SMS><SMS sender="33333333333"><ZIP-Content>......</ZIP-Content></SMS></SMSLog><!--代码段2结束-->所构造的新元素为标签对〈ZIP-ContentX/ZIP-Content〉及其之间的内容。虽然此处以〈ZIP-Content〉作为压缩标签的例子,本领域技术人员可以采用其他任何标签作为 压缩标签,以标识压缩待压缩元素得到的结果。一般来说,所采用的压缩标签与结构化文档 中已经使用的标签不同。由代码段2可见,处理后的XML文档中,SMS元素的sender数据没 有被压缩,消费方不用进行解压缩操作就可以访问sender数据。另一方面,sender_phone_ type元素、sender_cell_id元素、sender_time元素禾口 content元素均被压缩。虽然在某 些情况下,消费方需要访问sender_cell_id元素、sender_time元素和content元素中的 内容时,需要先对〈ZIP-ContentX/ZIP-Content〉之间的内容进行解压缩操作,但是这种 情况占的比例很少,因此所增加的解压缩操作相对于所减少的传输量而言是完全可以接受 的。采用新构造的元素来代替被压缩的元素,可以保证经过处理后结构化文档仍然符合规 范,从而保持结构化文档简单通用的特点。虽然只压缩标签对之间的内容而保留标签同样 可以保证处理后的结构化文档符合规范,但是会降低压缩率(即压缩前的数据量与压缩后 的数据量之比,压缩率越大则压缩越充分),这是因为结构化文档中可能包括大量的标签。代码段3示出了另一个XML文档的一部分。<!__代码段3开始--><publication><book><price>......</price><title>......</title><press>......</press>〈abstract〉......</abstract></book> 〈journal ><price>......</price><title>......</title><press>......</press>〈abstract〉......〈/abstract〉</journal> <book><price>......</price><title>......</title><press>......</press>〈abstract〉......〈/abstract〉</book> </publication><!--代码段3结束-->该XML文档记录了出版物的数据。在代码段3所示的XML文档中,表示出版物的 元素可言旨是book元素,也可言旨是journal元素,而book元素禾口 journal元素都有一个子元 素price。这种情况下,仅仅记录price元素的访问频率,只能对作为book元素的子元素 的price元素和作为journal元素的子元素的price元素进行相同的处理。但是,如果消 费方关注的主要是作为book元素的子元素的price元素,则应该对作为journal元素的子 元素的price元素进行压缩,而对作为book元素的子元素的price元素不进行压缩。此 时除了需要记录单个元素的访问频率之外,该单个元素与其他元素的关系也需要记录并统 计,这样就可以进一步区分一个price元素是作为book元素的子元素还是作为journal元 素的子元素,从而更加有效地对结构化文档进行压缩。下面的代码段4示出了代码段3所示的部分在经过根据本发明实施例的处理后的形式。<!--代码段4开始--><publication><book"><price>......</price><ZIP-Content>......</ZIP-Content></book> <journal><ZIP-Content>......</ZIP-Content></journal> <book><price>......</price><ZIP-Content>......</ZIP-Content></book> </publication><!--代码段4结束-->需要说明的是,这里只根据被频繁访问的元素的父元素是否是特定的元素来进行 进一步的区分。本领域技术人员可以理解,还可以根据被频繁访问的元素的任何祖先元素、 任何子孙元素、任何兄弟元素是否是特定的元素进行进一步的区分,甚至还可以根据被频 繁访问的元素的父元素的兄弟元素是否是特定的元素进行进一步的区分。换句话说,可以 在被频繁访问的元素与特定的元素具有特定关系的情况下,才将该被频繁访问的元素作为 不压缩的元素即非压缩元素。反过来,还可以根据某个元素是否与被频繁访问的元素具有特定的关系来确定其 他的非压缩元素。例如,可以将某个被频繁地访问的元素的父元素、子元素、兄弟元素甚至 父元素的兄弟元素等都作为非压缩元素,即使被频繁地访问的元素的父元素、兄弟元素甚 至父元素的兄弟元素等本身没有被访问或者没有被频繁的访问。本领域技术人员可以理 解,确定待压缩元素和确定非压缩元素是等效的。可以用压缩规则来规定根据消费方的访问模式确定的待压缩元素,则其他的元素 就是非压缩元素。例如,对于代码段1所示的结构化文档,压缩规则可以是sender_ph0ne_ type元素、sender_cell_id元素、sender_time元素禾口 content元素全部被压缩并替换; 对于代码段3所示的结构化文档,压缩规则可以是作为book元素的子元素的price元素 不被压缩,作为Journal元素的子元素的price元素被压缩并替换,并且所有的name元素、 press元素和abstract元素全部被压缩并替换。除了以上以访问频率为标准确定压缩规 则,和以访问频率加元素关系为标准确定压缩规则以外,还可以采用其他标准确定压缩规 则。参考图1,图1是根据本发明实施例的处理结构化文档的设备的框图。如图1所示,根据本发明实施例的处理结构化文档的设备包括访问模式监视器 101、压缩规则决策模块102和压缩执行模块103。访问模式监视器用于获取消费方对结构化文档的访问模式。已经有很多技术可以10用来识别消费方访问了哪些元素中的内容。例如,如果消费方的XML解析器在解析到某个 标签时,调用了特定的函数,而该函数是用来对元素中的内容进行访问的,那么就可以知道 消费方访问了该标签所对应的元素;或者如果消费方的XML解析器在解析到某个标签后, 很长时间没有继续解析下一个标签,那么也可以认为消费方访问了该标签所对应的元素。 本领域技术人员根据结构化文档的规范,很容易实现各种手段来探测消费方访问了哪些元 素,例如,基于org. xml. sax. helpers. DefaultHandler实现SAX探针。进一步,可以统计例 如对各个元素的访问频率,从而得到消费方对结构化文档的访问模式。压缩规则决策模块102根据访问模式监视器101所获取的访问模式,按照预先设 定的标准确定哪些元素需要压缩而哪些元素不需要压缩,也就是确定压缩规则。压缩执行模块103根据压缩决策模块102所确定的压缩规则,对压缩规则指定的 元素进行压缩,并且构造一新的元素来替换压缩规则指定的元素,所构造的新元素包括特 定的压缩标签及压缩得到的内容。按照这样的处理,处理后的文档仍然符合结构化文档的 规范,不会影响消费方对结构化文档的使用。下面结合具体的例子详细说明各模块的工作原理。如前所述,所述预先设定的标 准可以是访问频率和/或元素之间的关系,或者是其他任何标准。在下面的例子中,仅仅以 访问频率为标准确定需要压缩的元素。如前所述,消费方对结构化文档中的元素的访问模式可能是变化的。此外,对消费 方的统计时间越长,越能够得到精确的访问模式。举例说明,在时刻1由生产方产生的L元 素如以下代码段5所示<!--代码段5开始--><L> DataO<L1><L11> Datall </Lll> <L12> Data 12 </L12> <L13> Data 13 </L13></Ll><L2>Data2</L2> <L3><L31>Data31 </L31> <L32> Data32 </L32></L3> </L><!__代码段5结束—>需要指出的是,代码段5中的XML代码段仅仅是为了表述的清晰和明确而给出的示例性的描述,实际的XML结构层次可以更多,每个元素的内容可以更长。而其他的结构化 文档可能具有其他的形式。当系统开始工作时,且假定此时没有默认压缩规则,由于系统没有任何消费方的 访问模式的知识,所以此时的压缩规则集为空,也就是压缩执行模块103不对XML文档进行 压缩。XML文档由生产方直接传输给消费方,由消费方进行访问。Compress_Set = {}-—(1)随着消费方对结构化文档进行的访问,访问模式监视器101通过分析消费方的访 问模式,发现消费方对于L2元素和L3元素的访问频率远远低于对Ll元素的访问频率,或 者根本不访问L2元素和L3元素。据此,压缩压缩规则决策模块102以访问频率为标准,产 生新的压缩规则Compress_Set = {L2, L3} -—(2)这样,由此压缩规则驱动压缩执行模块103,在时刻2产生的L元素就成为如以下 代码段6所示<!--代码段6开始--><L> DataO<L1><L11> Datall </Lll> <L12> Data 12 </L12> <L13> Datal 3 </L13></Ll><ZIP-Content>ZippedData 1 </ZIP-Content></L><! 代码段6结束-->其中,内容ZippedDatal是压缩以下元素的结果<L2>Data2</L2> <L3><L31> Data31 </L31> <L32> Data32 </L32></L3>进一步,随着消费方的继续运行,访问模式监视器101发现对于Lll元素,L12元 素和L13元素的访问频率也有显著差异,对于Lll的访问频率远远高于L12和L13。压缩规 则决策模块102更新压缩规则,使得Compress_Set = {L2, L3, Ll 1,L13} — (3)
在此压缩规则驱动下,压缩执行模块103在时刻3产生的L元素就成为如以下代 码段7所示的形式<!__代码段7开始--〉<L> DataO<L1><L11> Datall </Lll><ZIP-Content> ZippedData2</ZIP-Content></Ll><ZIP-Content> ZippedDatal </ZIP-Content></L><!--代码段7结束-->其中,内容ZippedDatal是压缩以下元素的结果<L12>Datal2</L12><L13>Datal3</L13>由此可见,压缩压缩规则是随着不断观察消费方对结构化文档中元素的访问模式 进行不断地统计而不断更新的。当然,以上仅仅以对单个元素的访问频率为标准进行了说 明。如前所述,如果不同的元素具有名称相同的子元素,那么可以进一步考虑所述单个元素 和其他元素之间的关系。以上针对的是一个消费方的情况。在实际使用中,生产方所产生的结构化文档可 能需要传输给多个消费方,而各消费方的访问模式是不同的。例如,代码段1的消费方甲 需要访问的是content元素,而代码段1的消费方乙需要访问的是sender_phone_type元 素。根据本发明的一个实施例,访问模式监视器201分别获取各消费方的访问模式,压缩规 则决策模块202根据这些访问模式确定不同的压缩规则,然后由压缩执行模块203按照不 同的压缩规则对原始结构化文档进行处理,得到不同的压缩后的结构化文档传输给各消费 方。图2示出了根据该实施例的用于处理结构化文档的设备的框图。根据本发明另一实施例的用于处理结构化文档的设备的框图如图3所示。根据 该实施例的用于处理结构化文档的设备进一步包括压缩规则综合模块304,用于对压缩规 则决策模块生成的多个压缩规则进行综合优化,并且形成一个单独的压缩规则。仍然以上 面所说的情况为例,针对消费方甲的访问模式,压缩规则决策模块302生成一个压缩规则 压缩 sender—phone—type 兀素、sender—cell—id 兀素禾口 sender—time 兀素;针对消费方 乙的访问模式,压缩规则决策模块302生成另一个压缩规则压缩Sender_cell_id元素、 sender_time元素和content元素。压缩规则综合模块304将这两个压缩规则综合优化成 压缩sender_cell_id元素和sender_time元素。本领域技术人员可以采用其他的策略来 对多个压缩规则进行综合优化从而生成综合压缩规则。与图2所示的实施例相比,综合压缩规则对于某些单个的消费方来说并不是最优的压缩规则,但是其可以实现针对具有不同访问模式的多个消费方提供单一的压缩后的结 构化文档。图4是根据本发明实施例的用于处理结构化文档的方法的流程图。该方法包括获取结构化文档的消费方对结构化文档中元素的访问模式,所述元素包括标签和 内容;根据所述访问模式确定压缩规则,所述压缩规则指定结构化文档中的至少一个待 压缩元素和至少一个非压缩元素;和在所述结构化文档中用压缩后元素替换所述至少一个待压缩元素,其中所述压缩 后元素的标签是特定的压缩标签,所述压缩后元素的内容是压缩所述待压缩元素的结果。如上所述,可以采用不同的标准来根据所述访问模式确定压缩规则。参照代码段 1和代码段2,可以根据被所述消费方访问的频率将结构化文档中的元素分为待压缩元素 和非压缩元素。参照代码段3和代码段4,可以进一步区分元素的祖先元素和/或子孙元 素,根据是否具有规定的祖先元素和/或子孙元素将结构化文档中的元素分为待压缩元素 和非压缩元素。此外,如代码段5-7所示,获取更新后的访问模式,并且根据所述更新后的访问模 式重新确定压缩规则。针对存在多个具有不同访问模式的消费方的情况,可以为每个消费方分别生成压 缩策略,然后按照不同的压缩策略对分别对应的多个压缩规则进行综合优化,得到单个的 综合压缩规则。本领域的普通技术人员可以理解上述的方法和系统可以使用计算机可执行指令 和/或包含在处理器控制代码中来实现,例如在诸如磁盘、⑶或DVD-ROM的载体介质、诸如 只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了 这样的代码。本实施例的用于控制移动设备能耗的系统及其组件可以由诸如超大规模集成 电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻 辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实 现,也可以由上述硬件电路和软件的结合例如固件来实现。虽然已经图示和描述了本发明的若干示例性实施例,不过本领域技术人员可以理 解的是,在不偏离本发明原则和精神的前提下,可以对这些实施例进行改变,本发明的范围 由权利要求书及其等价变换所限定。
权利要求
1.一种用于处理结构化文档的方法,包括获取结构化文档的消费方对结构化文档中元素的访问模式,所述元素包括标签和内容;根据所述访问模式确定压缩规则,所述压缩规则指定结构化文档中的至少一个待压缩 元素和至少一个非压缩元素;和用压缩后元素替换所述至少一个待压缩元素以形成压缩后的结构化文档,其中所述压 缩后元素的标签是特定的压缩标签,所述压缩后元素的内容是压缩所述至少一个待压缩元素的结果。
2.根据权利要求1所述的方法,其中根据所述访问模式确定压缩规则包括 根据所述访问模式确定结构化文档中的元素被所述消费方访问的频率;和按照被所述消费方访问的频率将结构化文档中的元素分为待压缩元素和非压缩元素。
3.根据权利要求2所述的方法,其中按照被所述消费方访问的频率将结构化文档中的 元素分为待压缩元素和非压缩元素包括将被消费方频繁访问并且与特定元素具有特定关系的元素作为非压缩元素。
4.根据权利要求2或3所述的方法,其中按照被所述消费方访问的频率将结构化文档 中的元素分为待压缩元素和非压缩元素包括将与被消费方频繁访问的元素具有特定关系的元素作为非压缩元素。
5.根据权利要求1所述的方法,进一步包括获取更新后的访问模式,并且根据所述更新后的访问模式重新确定所述压缩规则。
6.根据权利要求1所述的方法,进一步包括对与多个具有不同访问模式的消费方分别对应的多个压缩规则进行综合优化,得到单 个综合压缩规则。
7.一种用于处理结构化文档的设备,包括访问模式监视器,配置为获取结构化文档的消费方对结构化文档中元素的访问模式, 所述元素包括标签和内容;压缩规则决策模块,配置为根据所述访问模式确定压缩规则,所述压缩规则指定结构 化文档中的至少一个待压缩元素和至少一个非压缩元素;和压缩执行模块,配置为用压缩后元素替换所述至少一个待压缩元素以形成压缩后的结 构化文档,其中所述压缩后元素的标签是特定的压缩标签,所述压缩后元素的内容是压缩 所述至少一个待压缩元素的结果。
8.根据权利要求7所述的设备,其中所述压缩规则决策模块包括配置为根据所述访问模式确定结构化文档中的元素被所述消费方访问的频率的模块;和配置为按照被所述消费方访问的频率将结构化文档中的元素分为待压缩元素和非压 缩元素的模块。
9.根据权利要求8所述的设备,其中所述配置为按照被所述消费方访问的频率将结构 化文档中的元素分为待压缩元素和非压缩元素的模块包括配置为将被消费方频繁访问并且与特定元素具有特定关系的元素作为非压缩元素的 模块。
10.根据权利要求8或9所述的设备,其中所述配置为按照被所述消费方访问的频率将 结构化文档中的元素分为待压缩元素和非压缩元素的模块包括配置为将与被消费方频繁访问的元素具有特定关系的元素作为非压缩元素的模块。
11.根据权利要求7所述的设备,其中所述访问模式监视器获取更新后的访问模式,并 且所述压缩规则决策模块根据所述更新后的访问模式重新确定所述压缩规则。
12.根据权利要求7所述的设备,进一步包括压缩规则综合模块,配置为对与多个具有不同访问模式的消费方分别对应的多个压缩 规则进行综合优化,得到单个综合压缩规则。
全文摘要
本发明提供了用于处理结构化文档的方法和设备。该方法包括获取结构化文档的消费方对结构化文档中元素的访问模式,所述元素包括标签和内容;根据所述访问模式确定压缩规则,所述压缩规则指定结构化文档中的至少一个待压缩元素和至少一个非压缩元素;和用压缩后元素替换所述至少一个待压缩元素以形成压缩后的结构化文档,其中所述压缩后元素的标签是特定的压缩标签,所述压缩后元素的内容是压缩所述至少一个待压缩元素的结果。根据本发明的技术方案,既可以减少传输的数据量,又可以避免处理量的增加,还可以保证结构化文档的规范性。
文档编号G06F17/30GK102053990SQ200910211379
公开日2011年5月11日 申请日期2009年10月30日 优先权日2009年10月30日
发明者向哲, 李立, 王庆波, 赵邑新 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1