用于实现文档结构化的方法和装置的制作方法

文档序号:6445203阅读:804来源:国知局
专利名称:用于实现文档结构化的方法和装置的制作方法
技术领域
本发明涉及出版领域,具体而言,涉及一种用于实现文档结构化的方法和装置。
背景技术
出版社收到大量的来稿,制作一本图书或者期刊需要编辑人员投入大量的精力来整理此类稿件内容对象的结构,其工作量很大。而且这些来稿格式有很多相同之处,导致编辑人员的很多工作是重复手工劳动,造成周期长,错误率较高。

发明内容
本发明旨在提供一种用于实现文档结构化的方法和装置,以解决提取文档结构的问题。在本发明的实施例中,提供了一种用于实现文档结构化的方法,包括:获取开放格式文档;使用实例化规则匹配开放格式文档;以文档结构图呈现匹配结果。在本发明的实施例中,提供了一种用于实现文档结构化的装置,包括:文档获取模块,用于获取开放格式文档;规则匹配模块,用于使用实例化规则匹配开放格式文档;呈现模块,用于以文档结构图呈现匹配结果。本发明上述实施例的用于实现文档结构化的方法和装置因为对文档结构进行自动匹配,所以解决了现有技术中提前文档结构效率较低的问题,提高了数字化管理文稿的效率。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1示出了根据本发明实施例的用于实现文档结构化的方法的流程图;图2示出了根据本发明优选实施例的用于实现文档结构化的方法的流程图;图3示出了根据本发明优选实施例的实例化规则的文档结构图;图4示出了根据本发明优选实施例的匹配结果的文档结构图;图5示出了根据本发明实施例的用于实现文档结构化的装置的示意图。
具体实施例方式下面将参考附图并结合实施例,来详细说明本发明。图1示出了根据本发明实施例的用于实现文档结构化的方法的流程图,包括:获取开放格式文档;使用实例化规则匹配开放格式文档;以文档结构图呈现匹配结果。本方法因为预设了实例化规则,可以对文档结构进行自动匹配,所以解决了现有技术中提前文档结构效率较低的问题,提高了数字化管理文稿的效率。优选地,方法还包括预先创建实例化规则,具体包括:获取规定了样式的schema文件和规定了结构化规则的xml文件;将样式中的节点匹配结构化规则;将各个匹配成功的节点及其匹配的结构化规则组成各个实例化规则。本优选实施例利用Schema文件的样式和xml文件的结构化规则相结合,即可得到实例化规则,简单易行,适用范围广泛。优选地,本方法还包括:对样式中匹配不成功的节点设置结构化规则以生成实例化规则;对匹配成功的节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则。预先创建的规定了结构化规则的xml文件通常是由开发人员开发,不一定满足用户的个性化需求,而本优选实施例允许进一步设置结构化规则,这可以满足用户的个性化需求。图2示出了根据本发明优选实施例的用于实现文档结构化的方法的流程图,包括:
步骤S202,通过用户在自动样式识别面板中输入文件名,获取规定了样式的schema文件和规定了结构化规则的xml文件;步骤S204,将样式中的节点匹配结构化规则,将各个匹配成功的节点及其匹配的结构化规则组成各个实例化规则,对样式中匹配不成功的节点设置结构化规则以生成实例化规则;步骤S206,对匹配成功的节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则;步骤S208,对由开放格式文档模板生成的开放格式文档匹配实例化规则,可以包括格式规则、样式规则、大纲级别规则和自定义通配符规则等;步骤S210,在校对模式下,对匹配得到的内容对象结构化文档进行验证,观察是否为满足用户要求的结构化文档。优选地,所设置的结构化规则包括以下至少之一:格式匹配方式,用于规定文字格式(字体、字号、颜色、下划线、加粗、倾斜等)来匹配结构;样式匹配方式,用于规定段落样式来匹配结构;大纲级别匹配方式,用于规定大纲级别来匹配结构;自定义通配符匹配方式,用于规定通配符来自定义匹配结构。这些匹配方式可以满足各种常用场景下的用户个性化需求。格式匹配方式例如:
<st_match>
<maptoelement="中文单位”/>
〈expression〉
<and>
<fontRulefont="ArialBlack"size="24"underline:::::"wdUnderlineDouble"bold="true"color="0, 51,0'7>
</and>
〈/expression〉
</st_match>样式匹配方式例如:
<st_match>
<maptoelement=” 英文标题"/>
〈expression〉
<and>
〈styleRulestyle=”二级标题"/>
</and>
〈/expression〉
</st_match>大纲级别匹配方式例如:
<st_match>
<maptoelement="中文姓名 ”/>
〈expression〉
<and>
<frameRulelevel="5"/>
〈/and〉
〈/expression〉
</st_match>自定义通配符匹配方式例如:
<st_matchbFirstOn="true">
<maptoelement="中文标题”/>
〈expression〉
<and>
<regexRuletext="
@[..]"/>
</and>
〈/expression〉
</st _match>图3示出了根据本发 明优选实施例的实例化规则的文档结构图,源代码如下: < xmlversion=" 1.0"encoding="utf-8" ><xmatchversion=" 1.0">
<st _matchbFirstOn="true">
<maptoelement="中文标题”/>
〈expression〉
权利要求
1.一种用于实现文档结构化的方法,其特征在于,包括: 获取开放格式文档; 使用实例化规则匹配所述开放格式文档; 以文档结构图呈现所述匹配结果。
2.根据权利要求1所述的方法,其特征在于,还包括预先创建所述实例化规则,具体包括: 获取规定了样式的schema文件和规定了结构化规则的xml文件; 将所述样式中的节点匹配所述结构化规则; 将各个匹配成功的所述节点及其匹配的结构化规则组成各个所述实例化规则。
3.根据权利要求2所述的方法,其特征在于,还包括: 对所述样式中匹配不成功的节点设置结构化规则以生成所述实例化规则; 对匹配成功的所述节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则。
4.根据权利要求3所述的方法,其特征在于,所设置的结构化规则包括以下至少之一: 格式匹配方式,用于规定文字格式来匹配结构; 样式匹配方式,用于规定段落样式来匹配结构; 大纲级别匹配方式,用于规定大纲级别来匹配结构; 自定义通配符匹配方式,用于规定通配符来自定义匹配结构。
5.根据权利要求1所述的方法,其特征在于,只对所述开放格式文档中各段的段首匹配所述实例化规则。
6.根据权利要求1所述的方法,其特征在于,使用实例化规则匹配所述开放格式文档包括: 遍历各个所述实例化规则; 以当前的所述实例化规则在所述开放格式文档中定位到内容对象; 将定位的所述内容对象放入堆栈中; 将所述堆栈中的内容对象的样式设置为所述节点的样式。
7.一种用于实现文档结构化的装置,其特征在于,包括: 文档获取模块,用于获取开放格式文档; 规则匹配模块,用于使用实例化规则匹配所述开放格式文档; 呈现模块,用于以文档结构图呈现所述匹配结果。
8.根据权利要求7所述的装置,其特征在于,还包括创建模块,用于预先创建所述实例化规则,具体包括: 获取模块,用于获取规定了样式的schema文件和规定了结构化规则的xml文件; 匹配模块,用于将所述样式中的节点匹配所述结构化规则; 合并模块,用于将各个匹配成功的所述节点及其匹配的结构化规则组成各个所述实例化规则。
9.根据权利要求8所述的装置,其特征在于,还包括: 个性化模块,用于对所述样式中匹配不成功的节点设置结构化规则以生成所述实例化规则,以及对匹配成功的所述节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则; 其中,所设置的结构化规则包括以下至少之一: 格式匹配方式,用于规定文字格式来匹配结构; 样式匹配方式,用于规定段落样式来匹配结构; 大纲级别匹配方式,用于规定大纲级别来匹配结构; 自定义通配符匹配方式,用于规定通配符来自定义匹配结构。
10.根据权利要求7所述的装置,其特征在于,所述规则匹配模块包括: 遍历模块,用于遍历各个所述实例化规则; 定位模块,用于以当前的所述实例化规则在所述开放格式文档中定位到内容对象; 堆栈模块,用于将定位的所述内容对象放入堆栈中; 结构化模块,用于 将所述堆栈中的内容对象的样式设置为所述节点的样式。
全文摘要
本发明提供了一种用于实现文档结构化的方法,包括获取开放格式文档;使用实例化规则匹配开放格式文档;以文档结构图呈现匹配结果。本发明提供了一种用于实现文档结构化的装置,包括文档获取模块,用于获取开放格式文档;规则匹配模块,用于使用实例化规则匹配开放格式文档;呈现模块,用于以文档结构图呈现匹配结果。本发明提高了数字化管理文稿的效率。
文档编号G06F17/30GK103186514SQ201110461670
公开日2013年7月3日 申请日期2011年12月31日 优先权日2011年12月31日
发明者孙明明 申请人:北大方正集团有限公司, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1