结构化文档的处理方法和设备的制作方法

文档序号：6583133阅读：157来源：国知局

专利名称：结构化文档的处理方法和设备的制作方法
技术领域：
本发明涉及信息处理领域，更具体地说，涉及用于处理结构化文档的方法和设备。
背景技术：
结构化文档，例如标准通用标签语言SGML文档或扩展标签语言XML文档，是一种简单的数据存储文档，被广泛用于进行数据存储和交换。特别是XML，其简单性使得很容易在任何应用程序中加载XML文档，并对XML文档中的数据进行分析。在结构化文档中，使用一系列简单的标签标识作为内容的数据，而这些标签可以用方便的方式定义和建立。一个标签和所标识的内容称为结构化文档的一个元素。在用结构化文档进行数据交换时，产生结构化文档的称为生产方，而加载结构化文档以进行数据分析的称为消费方。一般来说，生产方产生的结构化文档包括大量的数据。结构化文档从生产方传输到消费方，必然消耗大量的网络资源。因此需要一种方案来优化结构化文档的生产、传输和消费。

发明内容
有鉴于此，本发明提供了一种用于处理结构化文档的方法和设备，以便在数据传输量、处理量和文档规范性方面提供优化的处理方法。根据本发明实施例的处理结构化文档的方法包括获取结构化文档的消费方对结构化文档中元素的访问模式，所述元素包括标签和内容；根据所述访问模式确定压缩规则，所述压缩规则指定结构化文档中的至少一个待压缩元素和至少一个非压缩元素；和用压缩后元素替换所述至少一个待压缩元素以形成压缩后的结构化文档，其中所述压缩后元素的标签是特定的压缩标签，所述压缩后元素的内容是压缩所述至少一个待压缩元素的结果。本发明还公开了相应的处理结构化文档的设备，该设备包括访问模式监视器，配置为获取结构化文档的消费方对结构化文档中元素的访问模式，所述元素包括标签和内容；压缩规则决策模块，配置为根据所述访问模式确定压缩规则，所述压缩规则指定结构化文档中的至少一个待压缩元素和至少一个非压缩元素；和压缩执行模块，配置为用压缩后元素替换所述至少一个待压缩元素以形成压缩后的结构化文档，其中所述压缩后元素的标签是特定的压缩标签，所述压缩后元素的内容是压缩所述至少一个待压缩元素的结果。按照根据本发明实施例的技术方案，结构化文档消费方对结构化文档的访问模式被用来产生对所述结构化文档进行压缩的压缩规则，该压缩规则指定结构化文档中的一些元素需要压缩而另外一些元素不需要压缩。一般来说，不需要压缩的元素是消费方以较高4频率使用的元素。由于这些元素没有被压缩，那么消费方在使用这些元素前就不需要进行解压缩操作，从而大大提高消费方的处理速度。又由于消费方以较低频率使用或者根本不使用的元素被压缩，从而减少了传输结构化文档所需的网络资源以及保存文档所需的存储资源。进而，用新构造的元素来替换被压缩的元素，这样处理的好处是能够保证处理后的结构化文档仍然符合其规范，从而保持了结构化文档简单通用的优势。

图1是根据本发明实施例的用于处理结构化文档的设备的框图。图2是根据本发明实施例的用于处理结构化文档的设备的框图。图3是根据本发明实施例的用于处理结构化文档的设备的框图。图4是根据本发明实施例的用于处理结构化文档的方法的流程图。
具体实施例方式以下参照

本发明提供的处理结构化文档的方法和设备的具体实施方式
。在以下的描述中，以XML文档作为结构化文档的例子。本领域技术人员容易理解，相同的方案还可以应用于其他任何结构化文档。为了减少传输结构化文档所消耗的网络资源，可以有两种直接的方案。一种方案是将结构化文档进行压缩。但是，消费方在访问数据之前，需要进行解压缩操作，这对于消费方的处理能力提出了更高的要求。尤其是在需要实时处理的场合，解压缩操作会大大增加处理时间，从而影响数据的实时处理。其次，压缩方必须等接收完一个完整的数据单元后才能进行解压缩操作。对于随时产生随时消费的持续性流式的应用模式，生产方源源不断地将数据加入结构化文档中，形成传输给消费方的数据流，这样就需要复杂的控制逻辑将数据流切分成数据单元再进行相应的压缩，从而大大增加生产方和消费方的复杂度。第二种方案是是只将消费方需要访问的数据传输给消费方。一般来说，生产方会在结构化文档中记录很多种类的数据，以便进行全面的记录；特定的消费方只访问结构化文档中的一种数据，或者说以较高的频率访问结构化文档中的一种数据。但是，消费方对数据的访问模式可能变化；此外，去掉结构化文档中的一部分数据后可能会破坏结构化文档的结构，使其不再符合原来的规范，从而削弱了结构化文档简单通用的优势。下面首先结合具体的结构化文档来说明根据本发明实施例的方案。参照以下的XML代码段1，其示出了一个XML文档的一部分。其中符号串〈！一和符号串一> 之间的内容表示注释。<!__代码段ι开始—> <SMSLog><SMS sender="lllllllllll"><sender_phone_type>......</sender_phone_type><sender_cell_id>......</sender_cell_id><sender_time>......</sender_time>〈content〉......〈/content〉</SMS><SMS sender="22222222222"><sender_phone_type>......</sender_phone_type><sender_cell_id>......</sender_cell_id><sender_time>......</sender_time>〈content〉......〈/content〉</SMS><SMS sender="33333333333"><sender_phone_type>......</sender_phone_type><sender_cell_id>......</sender_cell_id><sender_time>......</sender_time>〈content〉......〈/content〉</SMS> </SMSLog><!__代码段1结束-->该XML文档记录了短信的发送情况。XML文档由元素组成，元素包括标签对及其之间的内容。如代码段1所示，标签对<SMSX/SMS>及其之间的内容是一个结构化文档的一个元素，其表示一条短信记录，其中sender =11111111111表示短信发送者的手机号码。标签对<sender_phone_typeX/sender_phone_type>及其之间的内容是结构化文档的一个元素，表示短信发送手机型号；标签对<sender_cell_idX/sender_cell_id>及其之间的内容是结构化文档的一个元素，表示收到该短信的基站，<sender_time></sender_time>及其之间的内容是结构化文档的一个元素，表示短信的发送时间，标签对〈contentX/content〉及其之间的内容是结构化文档的一个元素，表示短信的内容。为了简单起见，在下文中用标签对的名字指代元素，例如SMS元素、sender_phone_type元素、sender_cell_id元素、sender_time 元素和 content 元素等。需要说明的是，虽然代码段1示出了 3个SMS元素，实际的XML文档可能包括任意多个SMS元素，分别对应于一条短信。为了简单起见，除了第一个SMS元素外，省略了其他两个SMS元素的具体内容。此外，代码段1中sender_phone_type元素、sender_cell_id元素、sender_time元素和content元素示出为SMS元素的子元素，实际上SMS元素可能还有其他的子元素。代码段1所示的部分所在的XML文档的消费方可以是垃圾短信检测系统。仅仅作为一个例子，该垃圾短信分析系统可以先检查短信的发送号码是否在某候选名单上，如果不在该候选名单上则直接判断为非垃圾短信，否则根据短信的发送时间、内容等进行进一步的判断。由此可见，对于每一条短信，或者说对于每一个SMS元素，消费方都要访问其 sender数据，但是并不一定会访问sender_cell_id兀素、sender_time兀素禾口 content兀素中的内容，而很可能根本不会访问Sender_phone_type元素中的内容。根据本发明实施例的方案，首先根据消费方的这种访问模式，即访问sender数据的频率要远远大于访问 sender—phone_type 兀素、sender_cell_id 兀素、sender_time 兀素禾口 content 兀素中的内容的步页率，将 sender—phone_type 兀素、sender_cell_id 兀素、sender_time 兀素禾口 content 元素确定为待压缩元素，将sender数据确定为非压缩；然后将sender—phone—type元素、 sender—cell—id 兀素、 sender—time元素和content元素进行压缩；最后构造一个新的元素来替换 sender—phone_type 兀素、sender_cell_id 兀素、sender_time 兀素禾口 content 兀素的位置。下面的代码段2示出了代码段1所示的部分在进行所述替换以后的形式。<!__代码段2开始--> <SMSLog><SMS sender-" 11111111111”〉<ZIP-Content>......</ZIP-Content></SMS><SMS sender="22222222222"><ZIP-Content>......</ZIP-Content></SMS><SMS sender="33333333333"><ZIP-Content>......</ZIP-Content></SMS></SMSLog>所构造的新元素为标签对〈ZIP-ContentX/ZIP-Content〉及其之间的内容。虽然此处以〈ZIP-Content〉作为压缩标签的例子，本领域技术人员可以采用其他任何标签作为压缩标签，以标识压缩待压缩元素得到的结果。一般来说，所采用的压缩标签与结构化文档中已经使用的标签不同。由代码段2可见，处理后的XML文档中，SMS元素的sender数据没有被压缩，消费方不用进行解压缩操作就可以访问sender数据。另一方面，sender_phone_ type元素、sender_cell_id元素、sender_time元素禾口 content元素均被压缩。虽然在某些情况下，消费方需要访问sender_cell_id元素、sender_time元素和content元素中的内容时，需要先对〈ZIP-ContentX/ZIP-Content〉之间的内容进行解压缩操作，但是这种情况占的比例很少，因此所增加的解压缩操作相对于所减少的传输量而言是完全可以接受的。采用新构造的元素来代替被压缩的元素，可以保证经过处理后结构化文档仍然符合规范，从而保持结构化文档简单通用的特点。虽然只压缩标签对之间的内容而保留标签同样可以保证处理后的结构化文档符合规范，但是会降低压缩率(即压缩前的数据量与压缩后的数据量之比，压缩率越大则压缩越充分)，这是因为结构化文档中可能包括大量的标签。代码段3示出了另一个XML文档的一部分。<!__代码段3开始--><publication><book><price>......</price><title>......</title><press>......</press>〈abstract〉......</abstract></book> 〈journal ><price>......</price><title>......</title><press>......</press>〈abstract〉......〈/abstract〉</journal> <book><price>......</price><title>......</title><press>......</press>〈abstract〉......〈/abstract〉</book> </publication>该XML文档记录了出版物的数据。在代码段3所示的XML文档中，表示出版物的元素可言旨是book元素，也可言旨是journal元素，而book元素禾口 journal元素都有一个子元素price。这种情况下，仅仅记录price元素的访问频率，只能对作为book元素的子元素的price元素和作为journal元素的子元素的price元素进行相同的处理。但是，如果消费方关注的主要是作为book元素的子元素的price元素，则应该对作为journal元素的子元素的price元素进行压缩，而对作为book元素的子元素的price元素不进行压缩。此时除了需要记录单个元素的访问频率之外，该单个元素与其他元素的关系也需要记录并统计，这样就可以进一步区分一个price元素是作为book元素的子元素还是作为journal元素的子元素，从而更加有效地对结构化文档进行压缩。下面的代码段4示出了代码段3所示的部分在经过根据本发明实施例的处理后的形式。<publication><book"><price>......</price><ZIP-Content>......</ZIP-Content></book> <journal><ZIP-Content>......</ZIP-Content></journal> <book><price>......</price><ZIP-Content>......</ZIP-Content></book> </publication>需要说明的是，这里只根据被频繁访问的元素的父元素是否是特定的元素来进行进一步的区分。本领域技术人员可以理解，还可以根据被频繁访问的元素的任何祖先元素、任何子孙元素、任何兄弟元素是否是特定的元素进行进一步的区分，甚至还可以根据被频繁访问的元素的父元素的兄弟元素是否是特定的元素进行进一步的区分。换句话说，可以在被频繁访问的元素与特定的元素具有特定关系的情况下，才将该被频繁访问的元素作为不压缩的元素即非压缩元素。反过来，还可以根据某个元素是否与被频繁访问的元素具有特定的关系来确定其他的非压缩元素。例如，可以将某个被频繁地访问的元素的父元素、子元素、兄弟元素甚至父元素的兄弟元素等都作为非压缩元素，即使被频繁地访问的元素的父元素、兄弟元素甚至父元素的兄弟元素等本身没有被访问或者没有被频繁的访问。本领域技术人员可以理解，确定待压缩元素和确定非压缩元素是等效的。可以用压缩规则来规定根据消费方的访问模式确定的待压缩元素，则其他的元素就是非压缩元素。例如，对于代码段1所示的结构化文档，压缩规则可以是sender_ph0ne_ type元素、sender_cell_id元素、sender_time元素禾口 content元素全部被压缩并替换；对于代码段3所示的结构化文档，压缩规则可以是作为book元素的子元素的price元素不被压缩，作为Journal元素的子元素的price元素被压缩并替换，并且所有的name元素、 press元素和abstract元素全部被压缩并替换。除了以上以访问频率为标准确定压缩规则，和以访问频率加元素关系为标准确定压缩规则以外，还可以采用其他标准确定压缩规则。参考图1，图1是根据本发明实施例的处理结构化文档的设备的框图。如图1所示，根据本发明实施例的处理结构化文档的设备包括访问模式监视器 101、压缩规则决策模块102和压缩执行模块103。访问模式监视器用于获取消费方对结构化文档的访问模式。已经有很多技术可以10用来识别消费方访问了哪些元素中的内容。例如，如果消费方的XML解析器在解析到某个标签时，调用了特定的函数，而该函数是用来对元素中的内容进行访问的，那么就可以知道消费方访问了该标签所对应的元素；或者如果消费方的XML解析器在解析到某个标签后，很长时间没有继续解析下一个标签，那么也可以认为消费方访问了该标签所对应的元素。本领域技术人员根据结构化文档的规范，很容易实现各种手段来探测消费方访问了哪些元素，例如，基于org. xml. sax. helpers. DefaultHandler实现SAX探针。进一步，可以统计例如对各个元素的访问频率，从而得到消费方对结构化文档的访问模式。压缩规则决策模块102根据访问模式监视器101所获取的访问模式，按照预先设定的标准确定哪些元素需要压缩而哪些元素不需要压缩，也就是确定压缩规则。压缩执行模块103根据压缩决策模块102所确定的压缩规则，对压缩规则指定的元素进行压缩，并且构造一新的元素来替换压缩规则指定的元素，所构造的新元素包括特定的压缩标签及压缩得到的内容。按照这样的处理，处理后的文档仍然符合结构化文档的规范，不会影响消费方对结构化文档的使用。下面结合具体的例子详细说明各模块的工作原理。如前所述，所述预先设定的标准可以是访问频率和/或元素之间的关系，或者是其他任何标准。在下面的例子中，仅仅以访问频率为标准确定需要压缩的元素。如前所述，消费方对结构化文档中的元素的访问模式可能是变化的。此外，对消费方的统计时间越长，越能够得到精确的访问模式。举例说明，在时刻1由生产方产生的L元素如以下代码段5所示<L> DataO<L1><L11> Datall </Lll> <L12> Data 12 </L12> <L13> Data 13 </L13></Ll><L2>Data2</L2> <L3><L31>Data31 </L31> <L32> Data32 </L32></L3> </L><!__代码段5结束—>需要指出的是，代码段5中的XML代码段仅仅是为了表述的清晰和明确而给出的示例性的描述，实际的XML结构层次可以更多，每个元素的内容可以更长。而其他的结构化文档可能具有其他的形式。当系统开始工作时，且假定此时没有默认压缩规则，由于系统没有任何消费方的访问模式的知识，所以此时的压缩规则集为空，也就是压缩执行模块103不对XML文档进行压缩。XML文档由生产方直接传输给消费方，由消费方进行访问。Compress_Set = {}-—(1)随着消费方对结构化文档进行的访问，访问模式监视器101通过分析消费方的访问模式，发现消费方对于L2元素和L3元素的访问频率远远低于对Ll元素的访问频率，或者根本不访问L2元素和L3元素。据此，压缩压缩规则决策模块102以访问频率为标准，产生新的压缩规则Compress_Set = {L2, L3} -—(2)这样，由此压缩规则驱动压缩执行模块103，在时刻2产生的L元素就成为如以下代码段6所示<L> DataO<L1><L11> Datall </Lll> <L12> Data 12 </L12> <L13> Datal 3 </L13></Ll><ZIP-Content>ZippedData 1 </ZIP-Content></L><! 代码段6结束-->其中，内容ZippedDatal是压缩以下元素的结果<L2>Data2</L2> <L3><L31> Data31 </L31> <L32> Data32 </L32></L3>进一步，随着消费方的继续运行，访问模式监视器101发现对于Lll元素，L12元素和L13元素的访问频率也有显著差异，对于Lll的访问频率远远高于L12和L13。压缩规则决策模块102更新压缩规则，使得Compress_Set = {L2, L3, Ll 1，L13} — (3)
在此压缩规则驱动下，压缩执行模块103在时刻3产生的L元素就成为如以下代码段7所示的形式<!__代码段7开始--〉<L> DataO<L1><L11> Datall </Lll><ZIP-Content> ZippedData2</ZIP-Content></Ll><ZIP-Content> ZippedDatal </ZIP-Content></L>其中，内容ZippedDatal是压缩以下元素的结果<L12>Datal2</L12><L13>Datal3</L13>由此可见，压缩压缩规则是随着不断观察消费方对结构化文档中元素的访问模式进行不断地统计而不断更新的。当然，以上仅仅以对单个元素的访问频率为标准进行了说明。如前所述，如果不同的元素具有名称相同的子元素，那么可以进一步考虑所述单个元素和其他元素之间的关系。以上针对的是一个消费方的情况。在实际使用中，生产方所产生的结构化文档可能需要传输给多个消费方，而各消费方的访问模式是不同的。例如，代码段1的消费方甲需要访问的是content元素，而代码段1的消费方乙需要访问的是sender_phone_type元素。根据本发明的一个实施例，访问模式监视器201分别获取各消费方的访问模式，压缩规则决策模块202根据这些访问模式确定不同的压缩规则，然后由压缩执行模块203按照不同的压缩规则对原始结构化文档进行处理，得到不同的压缩后的结构化文档传输给各消费方。图2示出了根据该实施例的用于处理结构化文档的设备的框图。根据本发明另一实施例的用于处理结构化文档的设备的框图如图3所示。根据该实施例的用于处理结构化文档的设备进一步包括压缩规则综合模块304，用于对压缩规则决策模块生成的多个压缩规则进行综合优化，并且形成一个单独的压缩规则。仍然以上面所说的情况为例，针对消费方甲的访问模式，压缩规则决策模块302生成一个压缩规则压缩 sender—phone—type 兀素、sender—cell—id 兀素禾口 sender—time 兀素；针对消费方乙的访问模式，压缩规则决策模块302生成另一个压缩规则压缩Sender_cell_id元素、 sender_time元素和content元素。压缩规则综合模块304将这两个压缩规则综合优化成压缩sender_cell_id元素和sender_time元素。本领域技术人员可以采用其他的策略来对多个压缩规则进行综合优化从而生成综合压缩规则。与图2所示的实施例相比，综合压缩规则对于某些单个的消费方来说并不是最优的压缩规则，但是其可以实现针对具有不同访问模式的多个消费方提供单一的压缩后的结构化文档。图4是根据本发明实施例的用于处理结构化文档的方法的流程图。该方法包括获取结构化文档的消费方对结构化文档中元素的访问模式，所述元素包括标签和内容；根据所述访问模式确定压缩规则，所述压缩规则指定结构化文档中的至少一个待压缩元素和至少一个非压缩元素；和在所述结构化文档中用压缩后元素替换所述至少一个待压缩元素，其中所述压缩后元素的标签是特定的压缩标签，所述压缩后元素的内容是压缩所述待压缩元素的结果。如上所述，可以采用不同的标准来根据所述访问模式确定压缩规则。参照代码段 1和代码段2，可以根据被所述消费方访问的频率将结构化文档中的元素分为待压缩元素和非压缩元素。参照代码段3和代码段4，可以进一步区分元素的祖先元素和/或子孙元素，根据是否具有规定的祖先元素和/或子孙元素将结构化文档中的元素分为待压缩元素和非压缩元素。此外，如代码段5-7所示，获取更新后的访问模式，并且根据所述更新后的访问模式重新确定压缩规则。针对存在多个具有不同访问模式的消费方的情况，可以为每个消费方分别生成压缩策略，然后按照不同的压缩策略对分别对应的多个压缩规则进行综合优化，得到单个的综合压缩规则。本领域的普通技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、⑶或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的用于控制移动设备能耗的系统及其组件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。虽然已经图示和描述了本发明的若干示例性实施例，不过本领域技术人员可以理解的是，在不偏离本发明原则和精神的前提下，可以对这些实施例进行改变，本发明的范围由权利要求书及其等价变换所限定。
权利要求
1.一种用于处理结构化文档的方法，包括获取结构化文档的消费方对结构化文档中元素的访问模式，所述元素包括标签和内容；根据所述访问模式确定压缩规则，所述压缩规则指定结构化文档中的至少一个待压缩元素和至少一个非压缩元素；和用压缩后元素替换所述至少一个待压缩元素以形成压缩后的结构化文档，其中所述压缩后元素的标签是特定的压缩标签，所述压缩后元素的内容是压缩所述至少一个待压缩元素的结果。
2.根据权利要求1所述的方法，其中根据所述访问模式确定压缩规则包括根据所述访问模式确定结构化文档中的元素被所述消费方访问的频率；和按照被所述消费方访问的频率将结构化文档中的元素分为待压缩元素和非压缩元素。
3.根据权利要求2所述的方法，其中按照被所述消费方访问的频率将结构化文档中的元素分为待压缩元素和非压缩元素包括将被消费方频繁访问并且与特定元素具有特定关系的元素作为非压缩元素。
4.根据权利要求2或3所述的方法，其中按照被所述消费方访问的频率将结构化文档中的元素分为待压缩元素和非压缩元素包括将与被消费方频繁访问的元素具有特定关系的元素作为非压缩元素。
5.根据权利要求1所述的方法，进一步包括获取更新后的访问模式，并且根据所述更新后的访问模式重新确定所述压缩规则。
6.根据权利要求1所述的方法，进一步包括对与多个具有不同访问模式的消费方分别对应的多个压缩规则进行综合优化，得到单个综合压缩规则。
7.一种用于处理结构化文档的设备，包括访问模式监视器，配置为获取结构化文档的消费方对结构化文档中元素的访问模式，所述元素包括标签和内容；压缩规则决策模块，配置为根据所述访问模式确定压缩规则，所述压缩规则指定结构化文档中的至少一个待压缩元素和至少一个非压缩元素；和压缩执行模块，配置为用压缩后元素替换所述至少一个待压缩元素以形成压缩后的结构化文档，其中所述压缩后元素的标签是特定的压缩标签，所述压缩后元素的内容是压缩所述至少一个待压缩元素的结果。
8.根据权利要求7所述的设备，其中所述压缩规则决策模块包括配置为根据所述访问模式确定结构化文档中的元素被所述消费方访问的频率的模块；和配置为按照被所述消费方访问的频率将结构化文档中的元素分为待压缩元素和非压缩元素的模块。
9.根据权利要求8所述的设备，其中所述配置为按照被所述消费方访问的频率将结构化文档中的元素分为待压缩元素和非压缩元素的模块包括配置为将被消费方频繁访问并且与特定元素具有特定关系的元素作为非压缩元素的模块。
10.根据权利要求8或9所述的设备，其中所述配置为按照被所述消费方访问的频率将结构化文档中的元素分为待压缩元素和非压缩元素的模块包括配置为将与被消费方频繁访问的元素具有特定关系的元素作为非压缩元素的模块。
11.根据权利要求7所述的设备，其中所述访问模式监视器获取更新后的访问模式，并且所述压缩规则决策模块根据所述更新后的访问模式重新确定所述压缩规则。
12.根据权利要求7所述的设备，进一步包括压缩规则综合模块，配置为对与多个具有不同访问模式的消费方分别对应的多个压缩规则进行综合优化，得到单个综合压缩规则。
全文摘要
本发明提供了用于处理结构化文档的方法和设备。该方法包括获取结构化文档的消费方对结构化文档中元素的访问模式，所述元素包括标签和内容；根据所述访问模式确定压缩规则，所述压缩规则指定结构化文档中的至少一个待压缩元素和至少一个非压缩元素；和用压缩后元素替换所述至少一个待压缩元素以形成压缩后的结构化文档，其中所述压缩后元素的标签是特定的压缩标签，所述压缩后元素的内容是压缩所述至少一个待压缩元素的结果。根据本发明的技术方案，既可以减少传输的数据量，又可以避免处理量的增加，还可以保证结构化文档的规范性。
文档编号G06F17/30GK102053990SQ200910211379
公开日2011年5月11日申请日期2009年10月30日优先权日2009年10月30日
发明者向哲, 李立, 王庆波, 赵邑新申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵邑新;向哲;李立;王庆波
技术所有人：国际商业机器公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。