一种电子文档结构化处理的方法和系统的制作方法

文档序号:6425142阅读:332来源:国知局
专利名称:一种电子文档结构化处理的方法和系统的制作方法
技术领域
本发明涉及数字出版领域,特别涉及一种电子文档处理技术,提出了一种电子文档结构化处理的方法和系统。
背景技术
出版企业为实现其多元化、数字化出版的目标,通常需要将电子书稿进行结构化处理,即给文档内容添加结构标签,以xml形式对文档内容进行描述。目前,市面上的一些排版软件(如Microsoft WorcUAdobe hdisign等)提供了为文档内容添加XML标签(Tag) 的功能。但借助这些软件,标签的添加通常是以交互方式进行的,每次只能添加一个标签, 处理效率低下,无法满足海量数据批量处理的需要。hdesign虽然提供了样式和标签匹配的功能,可以实现标签的批量添加,但添加的标签是没有层次关系的,同样无法达到电子文档结构化处理的要求。

发明内容
本发明的目的在于解决上述技术问题,提供一种电子文档结构化处理的方法和系统,以解决电子文档结构化的问题,本发明有效克服了现有技术无法自动为文档添加标签、 不能体现文档的层次关系、处理效率低的问题。为了解决上述技术问题,根据本发明提供的具体实施例,本发明公布了如下技术
方案一种电子文档结构化处理的方法,包括如下步骤步骤Si,制定对所述电子文档进行结构化处理的标签结构;步骤S2,段落样式识别,获取所述电子文档的段落样式信息;步骤S3,将所述段落样式信息与所述结构标签进行匹配;步骤S4,根据所述结构标签构造标签的层次关系。进一步的,上述标签结构制定步骤通过标签编辑器进行。进一步的,上述的标签结构可以存储在文本文件中、xml文件中,也可以存储在数据库中。进一步的,上述的步骤S2段落样式识别通过排版软件提供的二次开发接口获取电子文档中的段落样式信息。进一步的,将段落样式信息与标签进行匹配,创建标签样式对,如果在电子文档中遇到使用相同样式的文档内容都自动添加相应标签。进一步的,上述的样式与标签的匹配步骤还包括遍历书稿,遇到新的排版样式, 即高亮显示此样式对应的文本内容。进一步的,由用户根据文本内容选择与此样式匹配的标签,样式与标签匹配完成以后,由计算机程序根据文档内容的样式自动进行其余文档内容与标签的匹配,在匹配的过程中,记录标签对应的文档内容在文档中的位置,以构造标签的层次关系。
进一步的,上述方法还包括如下步骤,在给所述电子文档的内容加注结构标签以后,通过结构标签的名称来构造标签的层次关系。一种电子文档结构化处理系统,包括标签结构制定单元,用于制定对所述电子文档进行结构化处理的标签结构;段落样式识别单元,用于获取所述电子文档的段落样式信息;样式与标签匹配单元,用于将所述段落样式信息与所述结构标签进行匹配;标签层次构造单元,用于根据所述结构标签构造标签的层次关系。与现有技术相比,本发明具有如下优点本发明能够实现文档结构标签的自动标注,可以高效地实现文档的结构化处理并保持文档本身的逻辑和层次关系,大大提高了图书数据的处理效率,对于一个几十页的 Word文档,使用本发明提供的数据处理方法进行处理,只需几分钟时间,而通过手工方式标注的话,可能需要几十分钟或更长时间。


图1本发明方法示意图。图2本发明方法流程示意图。图3本发明系统示意图。
具体实施例方式为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。本发明专利属于用于外部数据处理的涉及计算机程序的发明专利。本发明专利的实质是利用一个计算机程序在公知计算机上对图书数据进行处理以实现图书数据的结构化。对图书数据进行结构化处理是其要解决的技术问题,获得结构化的图书数据是其技术效果。该数据处理方法包括以下几个步骤步骤Si,制定用来对电子书稿进行结构化处理的标签结构在这一步中,需要确定使用哪些标签来对电子书稿进行结构化处理,可以编制一个标签编辑器辅助进行标签结构的制定,标签列表可以存储在文本文件中、xml文件中,也可以存储在数据库中。步骤S2段落样式识别在这一步中,需要通过排版软件提供的二次开发接口获取电子书稿中各部分内容的样式信息,具体实现可参考排版软件相关的SDK文档。得到文档中各部分内容的样式信息以后,就可以将样式和标签进行匹配,创建标签样式对,然后根据文档内容的样式为文档内容添加标签。步骤S3样式与标签的匹配样式与标签的匹配可通过人机交互进行,从头到尾遍历书稿,遇到新的排版样式, 就高亮显示此样式对应的文本内容,由用户根据文本内容选择与此样式匹配的标签,样式与标签匹配完成以后,由计算机程序根据文档内容的样式自动进行其余文档内容与标签的匹配,在匹配的过程中,应记录下标签对应的文档内容在文档中的位置,以便在后续操作中构造出标签的层次关系。步骤S4构造标签的逻辑关系和层次关系经过第二步、第三步的处理,所有文档内容应该都已经具有相应的结构标签,但这些标签是并列的,没有层次关系。我们可以根据标签名称构造出层次关系,原理是两个相邻的同名标签之间的内容属于同一个物理结构。比如一个小节标题到下一个小节标题之间的内容就是一个节,可以在这部分内容的外面套一个小节标签。本发明还公开了一种电子文档结构化处理系统,包括标签结构制定单元,用于制定对所述电子文档进行结构化处理的标签结构;段落样式识别单元,用于获取所述电子文档的段落样式信息;样式与标签匹配单元,用于将所述段落样式信息与所述结构标签进行匹配;标签层次构造单元,用于根据所述结构标签构造标签的层次关系。本发明涉及数字出版领域,特别涉及一种电子文档处理技术,提出了一种电子文档结构化处理的方法和系统,所述方法包括如下步骤步骤Si,制定对所述电子文档进行结构化处理的标签结构;步骤S2,段落样式识别,获取所述电子文档的段落样式信息;步骤 S3,将所述段落样式信息与所述结构标签进行匹配;步骤S4,根据所述结构标签构造标签的层次关系。本发明有效克服了现有技术无法自动为文档添加标签、不能体现文档的层次关系、处理效率低的问题。
权利要求
1.一种电子文档结构化处理的方法,其特征在于,包括如下步骤步骤Si,制定对所述电子文档进行结构化处理的标签结构;步骤S2,段落样式识别,获取所述电子文档的段落样式信息;步骤S3,将所述段落样式信息与所述结构标签进行匹配;步骤S4,根据所述结构标签构造标签的层次关系。
2.根据权利要求1所述的电子文档结构化处理的方法,其特征在于,所述标签结构制定步骤通过标签编辑器进行。
3.根据权利要求1所述的电子文档结构化处理的方法,其特征在于,所述的标签结构可以存储在文本文件中、xml文件中,也可以存储在数据库中。
4.根据权利要求1所述的电子文档结构化处理的方法,其特征在于,所述的步骤S2段落样式识别通过排版软件提供的二次开发接口获取电子文档中的段落样式信息。
5.根据权利要求1所述的电子文档结构化处理的方法,其特征在于,将所述段落样式信息与标签进行匹配,创建标签样式对,如果在电子文档中遇到使用相同样式的文档内容都自动添加相应标签。
6.根据权利要求1或5所述的电子文档结构化处理的方法,其特征在于,所述的样式与标签的匹配步骤还包括遍历书稿,遇到新的排版样式,即高亮显示此样式对应的文本内容。
7.根据权利要求6所述的电子文档结构化处理的方法,其特征在于所述的样式与标签的匹配由用户根据文本内容选择与此样式匹配的标签,样式与标签匹配完成以后,由计算机程序根据文档内容的样式自动进行其余文档内容与标签的匹配,在匹配的过程中,记录标签对应的文档内容在文档中的位置,以构造标签的层次关系。
8.根据权利要求1所述的电子文档结构化处理的方法,其特征在于,所述方法还包括如下步骤,在给所述电子文档的内容加注结构标签以后,通过结构标签的名称来构造标签的层次关系。
9.一种电子文档结构化处理系统,其特征在于,包括标签结构制定单元,用于制定对所述电子文档进行结构化处理的标签结构;段落样式识别单元,用于获取所述电子文档的段落样式信息;样式与标签匹配单元,用于将所述段落样式信息与所述结构标签进行匹配;标签层次构造单元,用于根据所述结构标签构造标签的层次关系。
全文摘要
本发明涉及数字出版领域,特别涉及一种电子文档处理技术,提出了一种电子文档结构化处理的方法和系统,所述方法包括如下步骤步骤S1,制定对所述电子文档进行结构化处理的标签结构;步骤S2,段落样式识别,获取所述电子文档的段落样式信息;步骤S3,将所述段落样式信息与所述结构标签进行匹配;步骤S4,根据所述结构标签构造标签的层次关系。本发明有效克服了现有技术无法自动为文档添加标签、不能体现文档的层次关系、处理效率低的问题。
文档编号G06F17/24GK102479248SQ201110141420
公开日2012年5月30日 申请日期2011年5月30日 优先权日2011年5月30日
发明者张训军 申请人:北京中科希望软件股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1