提取文档结构的方法和装置的制作方法

文档序号:6432340阅读:188来源:国知局
专利名称:提取文档结构的方法和装置的制作方法
技术领域
本发明涉及数字排版领域,具体而言,涉及一种提取文档结构的方法和装置。
背景技术
出版社按照出版物如期刊、试题合编等的要求,对电子文档进行整理,调整每篇文档的版式结构,最后转换为统一版式结构的文档,以便于后续的排版、打印、汇编出版等。在以上的整理过程中采用了文档结构规范化的技术,当前实现文档结构规范化主要采用人工干预的方式。由于来稿格式不一,制作一本试题合集或者期刊需要编辑人员投入大量的精力来整理电子文档的格式,在文档中添加标签,根据标签生成结构化文档,并从这些电子文档中获得相应部分的内容,如标题、正文、辅文等。发明人发现上述人工的整理过程,工作量较大,周期较长,效率较低。

发明内容
本发明旨在提供一种提取文档结构的方法和装置,以解决上述通过标签生成结构化文档,时间较长、效率较低的问题。在本发明的实施例中,提供了一种提取文档结构的方法,包括将文档转换为xml文件;在schema文件中查找与所述xml文件中的元素具有相同名称属性的元素;将所述xml文件中的所述元素的内容属性按照所述同名的元素所映射的版式结构输出。在本发明的实施例中,提供了一种提取文档结构的装置,包括转换模块,用于将文档转换为xml文件;查找模块,用于在schema文件中查找与所述xml文件中的元素具有相同名称属性的元素;输出模块,用于将所述xml文件中的所述元素的内容属性按照所述同名的元素所映射的版式结构输出。本发明上述的实施例通过schema文件、将文档转换后的xml文件,可对文档中的字符数据结构化,从而获得结构化文档。相对于通过标签生成结构化文档的方法,时间短、
效率高。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1示出了实施例一的流程图;图2示出了实施例二的流程图;图3示出了实施例中schema文件的元素之间的结构框图;图4示出了实施例二中的结构化过程的流程图;图5示出了实施例中结构化文档的屏幕截图;图6示出了实施例三中的装置结构框图。
具体实施例方式下面将参考附图并结合实施例,来详细说明本发明。首先说明本发明的实施例一,参见图1,包括以下步骤步骤Sll :将文档转换为xml文件;所述将文档转换为xml文件是指将通过填写文档模板所生成的文档转换为xml格式的文件;所述转换过程包括将所述文档的各个段落转换成所述xml文件的各个元素,所述元素的名称属性记录所述段落由所述文档模板所定义的段落样式的名称,所述元素的内容属性记录所述段落的内容。在本实施例中,文档模板可以采用word模板,该文档模板接收电子内容,形成文·档文件。文档文件可通过xslt文件转换为xml文件。例如采用zip解压方式提取office2007版本的word格式文档中源openxml文档,通过xslt样式表转换openXml文件,获得含有openxml文件中含有段落样式和文本内容的xml文件。xslt样式表文件中定义了需要提取的段落样式和文本内容的元素。步骤S12 :在所述schema文件中查找与所述xml文件中的元素具有相同名称属性的元素;schema文件符合w3c标准,其后缀名为xsd。在schema文件和xml文件中,两个文件存在相同名称的元素,相同名称的元素在schema文件中为一种样式框架元素,在xml文件中为定义段落样式的元素。由于文档模板中的段落样式是由schema文件定义的,因此通过填写文档模板所生成的文档转换成xml文件后,该xml文件的具有与schema文件中样式框架元素同名的元素,元素的名称属性记录所述段落由所述文档模板所规定的段落样式的名称,所述元素的内容属性记录所述段落的内容;步骤S13 :将所述文档中的所述元素的内容按照所述具有相同名称的元素所映射的版式结构输出。将文档的标题名称、正文或前言等内容,按照schema文件中元素定义的版式结构输出,获得结构化文档。通过上述的处理过程,可通过定义了版式结构的标准文件,通过元素的对应关系,将文档直接结构化。相对于在文档中添加标签的形式将文档结构化的方法,具有效率高、周期短、工作量小的优点。在上述的结构化过程中,还可有不同形式的结构化过程,下面通过实施例二详细说明结构化的过程。参见图2,包括以下步骤S21 :定义元素类型。可按照对文档的结构化要求定义Schema的元素的类型,在本实施例中,Schema的基本元素类型定义如下 普通框架元素(ST_NormalFrameElement):指在文档框架中的普通节点,没有任何属性的节点。实现的代码如下
权利要求
1.一种提取文档结构的方法,其特征在于,包括 将文档转换为Xml文件; 在schema文件中查找与所述xml文件中的元素具有相同名称属性的元素; 将所述xml文件中的所述元素的内容属性按照所述同名的元素所映射的版式结构输出。
2.根据权利要求I所述的方法,其特征在于,所述将文档转换为xml文件是指将通过填写文档模板所生成的文档转换为xml格式的文件; 所述转换过程包括将所述文档的各个段落转换成所述xml文件的各个元素,所述元素的名称属性记录所述段落由所述文档模板所定义的段落样式的名称,所述元素的内容属性记录所述段落的内容。
3.根据权利要求I所述的方法,其特征在于,所述schema文件通过以下步骤创建 确定各种所述版式结构; 创建各个元素,设置每个元素的名称属性、类别属性;所述类别属性记录该元素映射所述版式结构的值; 将所述创建的各个元素构建成树形结构,所述树形结构映射所述各个元素在所述版式结构中的级别关系; 将所述元素及其树形结构采用所述schema文件保存。
4.根据权利要求3所述的方法,其特征在于,所述输出的过程包括 创建结构化文档; 确定所述同名的元素在所述树形结构中的所有祖先节点; 创建对应所述祖先节点和所述同名的元素的空元素; 将所述创建的空元素按照所述祖先节点和所述同名的元素的树形结构加入到所述结构化文档中; 将所述祖先节点中所述类别属性记录的值加入到所述结构化文档中对应所述祖先节点的空元素内; 将所述xml文件中的所述元素的内容属性、类别属性记录的值输出到在所述结构化文档中对应所述同名的元素的空元素内。
5.根据权利要求4所述的方法,其特征在于,所述创建各个元素的过程中,还包括 设置每个元素是否复用的复用属性、以及标识该元素是否调用其它元素的调用属性; 获取所述结构化文档中各个元素的类别属性、内容属性的值后进行显示; 在所述显示过程中,如果判断当前所显示元素的调用属性存在调用其它元素的值,则在所述结构化文档的元素中查找其归属最近、复用属性的值为复用的元素,将该元素的类别属性的值与所述当前元素的内容属性、类别属性的值一同显示。
6.根据权利要求3所述的方法,其特征在于,设置所述树形结构中作为兄弟节点的元素的顺序; 所述输出之后,还包括 在所述输出后得到的结构化文档中,判断作为所述兄弟节点的元素所呈现的内容属性的先后顺序是否与所述设置的顺序一致; 如果不一致,则输出该元素的内容属性在所述结构化文档中的位置。
7.一种提取文档结构的装置,其特征在于,包括 转换模块,用于将文档转换为xml文件; 查找模块,用于在schema文件中查找与所述xml文件中的元素具有相同名称属性的元素; 输出模块,用于将所述xml文件中的所述元素的内容属性按照所述同名的元素所映射的版式结构输出。
8.根据权利要求7所述的装置,其特征在于,还包括schema文件生成模块, 版式模块,用于确定各种所述版式结构; 元素创建模块,用于创建各个元素,设置每个元素的名称属性、类别属性;所述类别属性记录该元素映射所述版式结构的值; 组建模块,用于将所述创建的各个元素构建成树形结构,所述树形结构映射所述各个兀素在所述版式结构中的级别关系; 存储模块,用于将所述元素及其树形结构采用所述schema文件保存。
9.根据权利要求7所述的装置,其特征在于,所述输出模块包括结构化文档创建模块,用于创建结构化文档; 遍历模块,用于确定所述同名的元素在所述树形结构中的所有祖先节点; 空元素模块,用于创建对应所述祖先节点和所述同名的元素的空元素; 节点映射模块,用于将所述创建的空元素按照所述祖先节点和所述同名的元素的树形结构加入到所述结构化文档中; 属性映射模块,用于将所述祖先节点中所述类别属性记录的值加入到所述结构化文档中对应所述祖先节点的空元素内;将所述xml文件中的所述元素的内容属性、类别属性记录的值输出到在所述结构化文档中对应所述同名的元素的空元素内。
全文摘要
本发明提供了一种提取文档结构的方法和装置,方法包括将通过填写文档模版所生成的文档转换为xml文件,其中将所述文档的各个段落转换成所述xml文件的各个元素,所述元素的名称属性记录所述段落由所述文档模板所规定的段落样式的名称,所述元素的内容属性记录所述段落的内容;在schema文件中查找与所述xml文件中的元素具有相同名称属性的元素;将所述xml文件中的所述元素的内容属性按照所述同名的元素所映射的版式结构输出。本发明上述的实施例通过schema文件、将文档转换后的xml文件,可对文档中的字符数据结构化,从而获得结构化文档。相对于通过标签生成结构化文档的方法,时间短、效率高。
文档编号G06F17/22GK102982010SQ201110259138
公开日2013年3月20日 申请日期2011年9月2日 优先权日2011年9月2日
发明者杨勇, 闫国龙 申请人:北大方正集团有限公司, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1