版式文件逻辑结构信息的表示方法和系统的制作方法

文档序号:6610423阅读:120来源:国知局

专利名称::版式文件逻辑结构信息的表示方法和系统的制作方法
技术领域
:本发明涉及计算机电子文档的结构信息的表示方法和系统,特别涉及版式文件的结构信息的表示方法和系统。
背景技术
:版式文件技术是将各种格式的文件原版原式的转换成统一冲各式,在转换中真实地保持了原有文件中的文字、图表、公式和色彩等版式和信息,实现在不同终端设备和阅读软件上具有显示结果一致性。版式文件采用的是一种绝对描述方式,在自定义的坐标系中,明确记录了每个图元(如字符、图片、表格等)显示的位置和尺寸等,从而使文档打印出的结果和计算机上浏览的结果一致,而且在任何计算机环境(如windows系统或者PDA、智能手机等终端的操作系统)下具有显示一致性,保证真实地重现文档的原貌。目前的版式文件格式主要有Adobe公司推出的PDF(PortableDocumentFormat),凝:4欠公司推出的XPS(XmlPaperSpecification)和北京方正阿帕比才支术有限公司推出的CEB(Chinesee-PaperBasic),且其它格式的电子文件(如WPS、MicrosoftWord等格式的文件)也可以方便地转换成版式文件。由于版式文件的相对稳定性,非常适合作为电子文档的最终发布和传播形式,广泛用于电子公文、电子图书、电子期刊、电子报纸等领域,但由于版式文件对局部信息的绝对描述(绝对描述是指版式文件中文字的显示位置是相对于版式文件的坐标明确指定的,与文字的逻辑顺序无关),橫_得它不利于编辑,每次修改文档内容后需要对布局重新计算,重写整个文档的布局信息,因此对版式文件内容的检索,结构化存储、修改等编辑操作都会非常麻烦。同时目前客户端种类增多,例如PDA、智能手机等,用户要求在多种客户端都能够方便地阅读版式文件,这要求客户端能够突破版式文件显示固定的局限性,根据显示设备屏幕的大小对版式文件的内容重新进行排版,可以不用拖动水平或者竖直滚动条就能连续阅读文档内容。这些应用都需要版式文件中的文档逻辑结构信息,文档的逻辑结构信息是指按照某种理解方式,文档各部分内容的逻辑含义,以及各部分之间的关系,如能够反映文档的标题、正文、段落、表格等文档内容的层次结构信息。文档的逻辑结构信息包括文档的逻辑单元以及逻辑单元之间的层次关系,其中,每个文档逻辑单元对应文档的某一部分内容,逻辑单元是人类能够理解的抽象概念,逻辑单元之间的关系代表了这些概念的一个合乎逻辑的组合,如图1所示,一篇文章的逻辑单元可能有标题、作者、摘要、正文等,这些逻辑逻辑单元组成一个树状结构,而这些逻辑单元都对应到一个或者多个文字块。目前大量的版式文件中都不包含这类逻辑结构信息。但Adobe公司的TaggedPDF技术对版式文件中文档逻辑结构信息进行了表示,其采用在版式文件的内容描述指令流中加入特殊符号的方法来划分逻辑单元,如图2所示,在内容数据流中加入Tag标记符号,用Tag...和EndTag来表示一个逻辑单元。这种方式在实际应用中存在种种缺陷首先修改,添加,删除文档逻辑结构信息都要求对版式文件的内容指令流进行修改,这一修改过程复杂并且容易出错。其次对指令流划分的粒度(一个粒度可以认为是一个逻辑单元)有限,最小粒度是某一输出指令中的全部内容,可能出现对某一内容片段无法再进行进一步划分的情况。针对目前大量的不包含文档逻辑结构信息的版式文件,应用中却要求向这些版式文件添加文档逻辑结构信息,以及包含文档逻辑结构信息的版式文件对逻辑结构信息处理不灵活、不便于添加和修改版式文件,不能满足用户需求的问题,设计一种版式文件中文档逻辑结构信息的表示方法对于版式文件的实际应用具有重要价值。
发明内容本发明提供一种版式文件逻辑结构信息的表示方法和系统,该方法和系统无需对原有版式文件进行修改,可以对版式文件中任意内容进行逻辑结构描述,使逻辑结构信息表示灵活、满足用户需求。本发明的技术方案如下一种版式文件逻辑结构信息的表示方法,包括如下步骤获取版式文件的逻辑结构信息和内容参考序列;根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;#4居所述逻辑结构信息生成逻辑单元描述文件;将所述内容划分描述文件与逻辑单元描述文件进行关联。其中,所述获取版式文件的逻辑结构信息的步骤包括利用计算机应用程序对版式文件进行标注或者基于文档分析和文档理解处理系统获^U反式文件的逻辑结构信息。上述获取版式文件的内容参考序列的步骤包括读取版式文件内容,按照版式文件内容中的图元在内容数据流中出现的先后顺序或者是文档树的遍历顺序,生成内容参考序列。上述将内容参考序列划分为多个内容参考子序列的步骤包括按照版式文件内容中的图元在所述内容参考序列的偏移位置或者内容参考序列中的图元符号,将所述内容参考序列划分为多个内容参考子序列。且可以为所述多个内容参考子序列分别赋予一个编号。上述将内容划分描述文件与逻辑单元描述文件进行关联的步骤包括通过内容参考子序列的编号将内容划分描述文件与逻辑单元描述文件进行关联。上述内容划分描述文件或者逻辑单元描述文件为存储设备上一个独立的文件或者版式文件中的一个翁:据块。上述内容划分描述文件或者逻辑单元描述文件采用结构化标记语言来描述。本发明还提供一种版式文件逻辑结构信息的表示系统,包括逻辑结构信息获取系统,用于获取版式文件的逻辑结构信息;逻辑结构描述生成冲莫块,用于获取内容参考序列,并根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,生成内容划分描述文件和逻辑单元描述文件;逻辑结构描述解析冲莫块,用于对所述内容划分描述文件和所述逻辑单元描述文件进行解析和关联。其中,上述逻辑结构描述生成模块包括内容参考序列生成模块,用于读取版式文件内容,生成内容参考序列;内容划分描述生成模块,用于根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;逻辑单元描述生成模块,根据所述逻辑结构信息生成逻辑单元描述文件。上述逻辑结构描述生成模块还包括存储设备,用于存储所述内容参考序列生成模块生成的内容参考序列,或者所述内容划分描述生成模块划分的多个内容参考子序列。上述逻辑结构描述解析模块在内容参考序列、内容参考子序列没有保存到上述存储设备中时,还需包括内容参考序列生成模块,用于读取版式文件内容,生成内容参考序列;内容划分描述解析模块,用于将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件。上述逻辑结构描述解析^f莫块还包括逻辑单元描述解析模块,用于读取并解析所述逻辑单元描述文件中的数据;映射模块,用于将所述内容划分描述文件与所述逻辑单元描述文件进行关联。上述技术方案通过将版式文件的内容参考序列划分为多个内容参考子序列,生成相应的内容划分描述文件,并且生成逻辑单元描述文件,然后将所述内容划分描述文件与逻辑单元描述文件关联起来,使得逻辑结构信息与版式文件相互分离,可以对版式文件中的任意内容单独进行逻辑结构描述、提取,并可以根据不同的文档逻辑结构模型进行描述,描述范围更加准确,逻辑结构信息的表示更加灵活,同时还可以对同一个版式文件添加多个文档逻辑结构信息描述,在添加或f务改文档逻辑结构信息时,不需要对版式文件的内容描述进行修改,减小了出错的可能,且版式文件逻辑结构信息的这种灵活表示方式可以对已经存在的大量的版式文件进行描述,而不影响已有的系统,提高了兼容性。图1为现有的版式文件中逻辑结构信息表示结构示意图;表示结构示意图;图3为本发明的版式文件逻辑结构信息的表示方法示意图;图4为本发明的版式文件逻辑结构信息与版式文件的关系示意图;图5为本发明的版式文件与其内容参考序列示意图;图6为图5所示的内容参考序列的偏移位置结构示意图;图7为根据图5所示的版式文件文档内容的内容划分描述文件;图8为根据图5所示的版式文件文档内容的另一内容划分描述文件;图9为冲艮据图6、图7或图8所示版式文件的一种逻辑单元描述文件;图10为根据图6、图7或图8所示版式文件的另一逻辑单元描述文件;图11为根据图6、图7或图8所示版式文件的又一逻辑单元描述文件;图12为本发明的版式文件逻辑结构信息表示系统总体结构示意图;图13为图12中所示的逻辑结构描述生成模块与逻辑结构信息获取系统的具体应用示意图;图14为图12中所示的逻辑结构描述解析^^莫块结构示意图。具体实施方式下面结合具体实施例对本发明的技术方案进行描述如图3所示,版式文件逻辑结构信息的表示方法,包括如下步骤31、获取版式文件的逻辑结构信息和内容参考序列;32、根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;33、#4居所述逻辑结构信息生成逻辑单元描述文件;34、将所述内容划分描述文件与逻辑单元描述文件进行关联。上述实施例通过采用对版式文件的内容参考序列进行划分的方式,生成相应的内容划分描述文件,并且生成逻辑单元描述文件,然后将所述内容划分描述文件与逻辑单元描述文件关联起来,使得逻辑结构信息与版式文件相互分离,可以对版式文件中的任意内容单独进行逻辑结构描述、提取,并可以根据不同的文档逻辑结构模型进行描述,描述范围更加准确,逻辑结构信息的表示更加灵活,同时还可以对同一个版式文件添加多个文档逻辑结构信息描述,在添加或^^改文档逻辑结构信息时,不需要对版式文件的内容描述进行修改,减小了出错的可能,且版式文件逻辑结构信息的这种灵活表示方式可以对已经存在的大量的版式文件进行描述,而不影响已有的系统,提高了兼容性。其中,在上述步骤31中,可以通过分析已经包含逻辑结构信息的电子文档,利用计算机应用程序对版式文件进行标注或者基于文档分析和文档理解处理系统获取版式文件的逻辑结构信息。如,对于与版式文件所对应的,已经包含逻辑结构信息的电子文档,如HTML,MicrosoftWord,可以利用该文档的文档处理系统,对其中的逻辑结构信息进行提取,如对MicrosoftWord文档可以利用Office自动化对象来获得逻辑结构信息。另外,用户可以通过一个带有图形界面的计算机应用程序,对版式文件的逻辑单元进行标注。还可以通过基于文档分析和文档理解的处理系统获取其逻辑结构信息。上述步骤31中,可以首先读取版式文件内容,再按照版式文件内容中的图元(如字符、图片、表格等)在内容数据流中出现的先后顺序或者是文档树的遍历顺序生成内容参考序列。内容参考序列就是指版式文件中多个有序图元信息的集合。如图4所示的版式文件43,这一个CEB文件Sample,ceb,冲艮据上述获取的逻辑结构信息,生成逻辑单元描述文41和内容划分描述文件42,本实施例中以XML语言来描述版式文件43中的逻辑单元以及各逻辑单元之间的关系,如Docu,t_structure.xml;同样以XML语言来描述内容划分,如Piece.xml。这里的逻辑单元描述文件41和内容划分描述文件42也可以采用其它的结构化标记语言来描述,如采用SGML语言等。上述步骤32中,可以按照版式文件内容中的图元在内容参考序列的偏移位置或者内容参考序列中的图元符号,将内容参考序列划分为多个内容参考子序列,并为所述多个内容参考子序列分别赋予一个编号。该编号可以保存在该内容划分描述文件中。如图5、图6、图7、图8所示,一个显示如51的版式文件,其文档内容凝:据流描述为52所示,其中包含文本图元。图6是依照图5中的版式文件51逻辑结构的具体实施例。其中61是版式文件的内容参考序列,该内容参考序列是按照图元在内容描述52中出现的先后顺序来排列的。62表示了图元在内容参考序列中的偏移位置。71或者81是一个内容划分描述文件,该描述文件通过指定内容参考子序列在内容参考序列中的起始偏移位置以及子序列长度来划分。每个划分赋予了一个唯一编号PID,如图7所示,编号8对应"床前明月光,"子序列,编号9对应"疑是地上霜,举头望明月,"子序列。在实际应用中,图7和图8所示的两种内容划分描述文件可以同时存在。图9、图10、图11中的91或者101或者111是采用XML语言的逻辑单元描述文件,逻辑单元可以通过内容参考子序列的PID来与内容参考子序列相关联。图9中的"ine-"9"/〉为一个逻辑单元,<line="8"/〉也为一个逻辑单元,从该图中还可以看出,按照逻辑单元描述文件91的前序遍历的顺序,对应的文档内容顺序将是图5中版式文件51的阅读顺序。尽管图5中所示的内容描述数据流52并没有按照阅读顺序来进行输出。上述步骤33中逻辑单元描述文件包括版式文件的逻辑单元以及各逻辑单元之间的关系。如图9、图10、图11所示。可以采用结构化描述语言来描述逻辑单元及其之间的关系,如采用XML、SGML语言,且逻辑单元之间的关系可以反映版式文件的阅读顺序。件与逻辑单元描述文件进行关联。具体的讲,可以按照内容参考子序列的编号将逻辑单元和其对应的内容参考子序列关联起来。如通过图9中的编号8对应图7中的偏移地址113,该偏移地址113对应图6中的内容参考子序列"床前明月光",即通过编号8将逻辑单元"ine-"8"/>与"床前明月光"内容参考子序列关联起来。上述实施例中的内容划分描述文件或者逻辑单元描述文件可以为存储设备上一个独立的文件,这样使得逻辑结构信息与版式文件相互分离,逻辑结构信息的表示更加灵活。当然,上述实施例中的内容划分描述文件或者逻辑单元描述文件也可以为版式文件中的一个数据块。如图12所示,与上述版式文件逻辑结构信息的表示方法相应的,本发明还提供一种版式文件逻辑结构信息的表示系统,包括逻辑结构信息获取系统,用于获取版式文件的逻辑结构信息;逻辑结构描述生成模块,用于从版式文件解析系统中获取内容参考序列,并根据逻辑结构信息将其获取的内容参考序列划分为多个内容参考子序列,生成内容划分描述文件和逻辑单元描述文件;逻辑结构描述解析才莫块,用于对所述内容划分描述文件和所述逻辑单元描述文件进行解析和关联。如图13所示,上述图12中的逻辑结构描述生成;^莫块包括内容参考序列生成模块,用于读取版式文件内容,按照指定顺序生成内容参考序列;指定顺序可以是版式文件内容中的图元在内容数据流中出现的先后顺序,也可以是文档树的遍历顺序。内容划分描述生成;jt块,用于根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;所述划分方式可以按照版式文件内容中的图元在内容参考序列的偏移位置或者内容参考序列中的图元符号,并为各个内容参考子序列赋予一个编号;该编号可以保存在该内容划分描述文件中。逻辑单元描述生成模块,根据所述逻辑结构信息生成逻辑单元描述文件,这里的逻辑单元描述文件包括多个逻辑单元以及各逻辑单元之间的关系,可以采用结构化描述语言来描述逻辑单元及其之间的关系,如采用XML、SGML语言,且逻辑单元之间的关系可以反映版式文件的阅读顺序。上述逻辑结构描述生成模块还可包括存储设备,用于存储内容参考序列生成模块生成的内容参考序列,或者内容划分描述生成模块划分的多个内容参考子序列,或者逻辑单元描述生成模块生成的逻辑单元描述文件。上述内容参考序列、内容参考子序列,可以保存在该存储设备中,也可以不保存。如图14所示,上述图12中的逻辑结构描述解析模块包括逻辑单元描述解析才莫块,用于读取并解析逻辑单元描述文件中的数据;映射模块,用于将所述内容划分描述文件与所述逻辑单元描述文件进行关联。具体的讲,可以按照内容参考子序列的编号将逻辑单元和其对应的内容参考子序列关联起来。当上述逻辑结构描述生成模块中的内容参考序列生成模块生成的内容参考序列,或者内容划分描述生成模块生成的多个内容参考子序列没有保存在存储设备中时,该逻辑结构描述解析模块还应当包括以下模块内容参考序列生成模块,用于读取版式文件内容,生成内容参考序列;内容划分描述解析模块,用于根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件。当上述逻辑结构描述生成模块中的内容参考序列,或者多个内容参考子序列,已经保存在上述存储设备中,则可以直接读取,不必再次生成。在实际应用中,采用内容参考序列生成模块、内容划分描述解析模块,重新生成内容参考序列、内容划分描述文件的方式,相比于从存储器中读取大量的内容参考序列、内容划分描述文件数据的方式,运算速度快、效率高。下面再结合图13、图14对本发明的版式文件的逻辑结构信息的处理系统的工作过程进行描述如图13所示,逻辑结构描述生成模块的工作过程如下文档逻辑结构信息获取系统获得版式文件的逻辑结构信息。对于与版式文件所对应的,已经包含逻辑结构信息的电子文档,例如HTML,MicrosoftWord,可以利用该文档的文档处理系统,对其中的逻辑结构信息进行提取,例如对MicrosoftWord文档可以利用Office自动化对象来获得逻辑结构信息。另外,用户可以通过一个带有图形界面的计算机应用程序,对版式文件的逻辑单元进行标注。还可以通过基于文档分析和文档理解的处理系统获取其逻辑结构信息。内容参考序列生成模块利用版式文件解析系统将版式文件的内容根据一定的顺序排列为一个有序序列,得到版式文件的内容参考序列。内容划分描述生成模块根据上述文档逻辑结构信息获取系统中得到的文档逻辑结构信息对内容参考序列进行划分,输出内容划分描述文件。逻辑单元描述生成模块根据上述文档逻辑结构信息获取系统中得到的文档逻辑结构信息输出逻辑单元描述文件。内容划分描述文件和逻辑单元描述文件可以嵌入到版式文件之中或者单独保存。如图14所示,逻辑结构描述解析模块的工作过程如下在内容参考序列、内容参考子序列(也可以认为是内容划分描述文件)以及逻辑单元描述文件没有保存的情况下,需要内容参考序列生成模块重新利用版式文件解析系统将版式文件的内斜艮据一定的顺序排列为一个有序序列,得到内容参考序列。内容划分描述解析沖莫块,读取内容划分描述文件,对上述图13中所示的逻辑结构描述生成模块中得到的内容参考序列进行划分。逻辑单元描述解析模块读取上述图13中所示的逻辑结构描述生成才莫块中逻辑单元描述文件,并验证其有效性。映射模块根据内容划分描述文件和逻辑单元描述文件中的内容参考子序列编号,将逻辑单元和内容参考子序列进行关联。作为对于处理版式文件中逻辑结构信息的系统的进一步说明,与该系统交互的外部系统可能有版式文件解析系统、文档逻辑结构信息获取系统及其他文档处理系统。其他文档处理系统可以是格式转换系统、版面重排系统等。这些系统利用文档逻辑结构信息再对版式文件进行处理,例如信息提取、重排页面、转换为其他格式的文件等。另外,上述的内容划分描述文件和逻辑单元描述文件可以保存在版式文档之中,也可以作为单独文件与版式文件分开保存。对于同一版式文件,可以拥有多个文档逻辑结构信息描述。综上所述,本发明的方法和系统通过将版式文件的内容参考序列划分为多个内容参考子序列,生成相应的内容划分描述文件,并且生成逻辑单元描述文件,然后将所述内容划分描述文件与逻辑单元描述文件关联起来,使得逻辑结构信息与版式文件相互分离,可以对版式文件中的任意内容单独进行逻辑结构描述、提取,并可以根据不同的文档逻辑结构模型进行描述,描述范围更加准确,逻辑结构信息的表示更加灵活,同时还可以对同一个版式文件添加多个文档逻辑结构信息描述,即同一个版式文件可以拥有多个内容划分描述文件以及逻辑单元描述文件,在添加或修改文档逻辑结构信息时,不需要对版式文件的内容描述进行修改,减小了出错的可負L且版式文件逻辑结构信息的这种灵活表示方式可以对已经存在的大量的版式文件进行描述,而不影响已有的系统,提高了兼容性。以上结合较佳实施例来描述本发明,但并不用以限制本发明,本
技术领域
的普通技术人员应当知道,凡在本发明思想的应用范围内所作的等效目的的变更与修改,均应在本专利申请的保护范围之内。权利要求1.一种版式文件逻辑结构信息的表示方法,其特征在于,包括如下步骤获取版式文件的逻辑结构信息和内容参考序列;根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;根据所述逻辑结构信息生成逻辑单元描述文件;将所述内容划分描述文件与逻辑单元描述文件进行关联。2、根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,所述获取版式文件的逻辑结构信息的步骤包括利用计算机应用程序对版式文件进行标注或者基于文档分析和文档理解处理系统获取版式文件的逻辑结构信息。3、根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,所述获取版式文件的内容参考序列的步骤包括读取版式文件内容,按照版式文件内容中的图元在内容数据流中出现的先后顺序或者是文档树的遍历顺序,生成内容参考序列。4、根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,所述将内容参考序列划分为多个内容参考子序列的步骤包括按照版式文件内容中的图元在所述内容参考序列的偏移位置或者内容参考序列中的图元符号,将所述内容参考序列划分为多个内容参考子序列。5、根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,为所述多个内容参考子序列分别赋予一个编号。6、根据权利要求5所述的版式文件逻辑结构信息的表示方法,其特征在于,将所述内容划分描述文件与逻辑单元描述文件进行关联的步骤包括通过内容参考子序列的编号将内容划分描述文件与逻辑单元描述文件进行关联。7、根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,所述内容划分描述文件或者逻辑单元描述文件为存储设备上一个独立的文件或者版式文件中的一个数据块。8、根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,所述内容划分描述文件或者逻辑单元描述文件采用结构化标记语言来描述。9、一种版式文件逻辑结构信息的表示系统,其特征在于,包括逻辑结构信息获取系统,用于获取版式文件的逻辑结构信息;逻辑结构描述生成模块,用于获取内容参考序列,并根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,生成内容划分描述文件和逻辑单元描述文件;逻辑结构描述解析模块,用于对所述内容划分描述文件和所述逻辑单元描述文件进行解析和关联。10、根据权利要求9所述的版式文件逻辑结构信息的表示系统,其特征在于,所述逻辑结构描述生成^^莫块包括内容参考序列生成模块,用于读取版式文件内容,生成内容参考序列;内容划分描述生成模块,用于根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;逻辑单元描述生成模块,根据所述逻辑结构信息生成逻辑单元描述文件。11、根据权利要求10所述的版式文件逻辑结构信息的表示系统,其特征在于,所述逻辑结构描述生成模块还包括存储设备,用于存储所述内容参考序列生成模块生成的内容参考序列,或者所述内容划分描述生成模块划分的多个内容参考子序列。12、根据权利要求9所述的版式文件逻辑结构信息的表示系统,其特征在于,所述逻辑结构描述解析^t块包括内容参考序列生成模块,用于读取版式文件内容,生成内容参考序列;内容划分描述解析模块,用于将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件。13、根据权利要求11或12所述的版式文件逻辑结构信息的表示系统,其特征在于,所述逻辑结构描述解析^i块还包括逻辑单元描述解析模块,用于读取并解析所述逻辑单元描述文件中的数据;映射模块,用于将所述内容划分描述文件与所述逻辑单元描述文件进行关联。全文摘要本发明公开一种版式文件逻辑结构信息的表示方法和系统,涉及计算机信息处理技术中版式文件的信息表示方法和系统。为解决现有版式文件的逻辑结构信息表示方法不灵活,不便于添加和修改的问题而发明。本发明通过获取版式文件的逻辑结构信息和内容参考序列;根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;根据所述逻辑结构信息生成逻辑单元描述文件;将所述内容划分描述文件与逻辑单元描述文件进行关联。可以有效、灵活地表示版式文件的逻辑结构信息,不需要对原有版式文件进行修改,且版式文件中的任意内容都能够单独进行逻辑结构信息描述、提取以及在不同文档逻辑结构模型中重复使用。文档编号G06F17/30GK101271463SQ200710123338公开日2008年9月24日申请日期2007年6月22日优先权日2007年6月22日发明者何震生,力张,径曲,毅王申请人:北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1