文档结构化方法和装置的制造方法

文档序号:8258617阅读:343来源:国知局
文档结构化方法和装置的制造方法
【技术领域】
[0001]本发明涉及计算机技术领域,尤其涉及一种文档结构化方法和装置。
【背景技术】
[0002]现有技术中,在印刷排版行业中,出版社收到大量来稿时,由于来稿的格式不统一,出版社需要采用规则对来稿进行结构化,然后对来稿中不能采用规则进行结构化的无规则内容,例如中英文标题、中英文作者及作者单位的格式进行整理,得到结构化文档,然后根据结构化文档来制作图书或者期刊。
[0003]然而现有技术中,出版社通过投入大量的人力来人工整理无规则内容的格式,导致文档结构化的效率低,出错率高。

【发明内容】

[0004]本发明提供一种文档结构化方法和装置,用于解决现有技术中文档结构化的效率低,出错率高的问题。
[0005]本发明的第一个方面是提供一种文档结构化方法,包括:
[0006]创建Schema文件和结构化规则文件;
[0007]根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;
[0008]获取所述结构化后的文档中预设的标志性标签的位置;
[0009]根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;
[0010]根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档。
[0011]本发明的另一个方面提供一种文档结构化装置,包括:
[0012]创建模块,用于创建Schema文件和结构化规则文件;
[0013]结构化模块,用于根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规贝IJ内容;
[0014]获取模块,用于获取所述结构化后的文档中预设的标志性标签的位置;
[0015]所述获取模块,还用于根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;
[0016]所述结构化模块,还用于根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档。
[0017]本发明中,通过根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容,获取结构化后的文档中预设的标志性标签的位置,根据标志性标签的位置获取结构化后的文档中的无规则内容,根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,而不需要人工整理无规则内容的格式,从而提高了文档结构化的效率,降低了文档结构化的出错率。
【附图说明】
[0018]图1为本发明提供的文档结构化方法一个实施例的流程图;
[0019]图2为本发明提供的文档结构化方法又一个实施例的流程图;
[0020]图3为本发明提供的文档结构化方法另一个实施例的流程图;
[0021]图4为本发明提供的文档结构化装置一个实施例的结构示意图。
【具体实施方式】
[0022]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023]图1为本发明提供的文档结构化方法一个实施例的流程图,如图1所示,包括:
[0024]101、创建Schema文件和结构化规则文件。
[0025]本发明提供的文档结构化方法的执行主体可以为文档结构化装置,文档结构化装置具体可以为保存于计算机中用于对文档进行结构化的软件或系统。
[0026]规则(Schema)是一组为了描述某一类XML文档而定义好的一套规则,用于对一类XML文档进行约束并确定其结构,Schema文件中可以包括文档结构和基本元素类型,Schema文件中的文档结构和基本元素类型为文档结构化装置根据对大量的图书或期刊文档样张进行分析得到的规范进行创建的。Schema文件采用w3c标准,后缀名为XSD。文档结构可以包括多个结构单位,例如文档中的标题、篇、章、节等,文档结构中还可以包括标题、篇、章、节等之间的位置关系或顺序关系。基本元素类型可以包括:普通框架元素,样式框架元素,标题框架元素,复用框架元素和混合元素中的一种或多种。上述各种元素中可以包括字体、字形、字号、是否加粗、字间距、段落对齐方式、行间距等参数。
[0027]结构化规则文件具体可以为可扩展标记语言(Extensible Markup Language,XML)文件,结构化规则文件中可以包括至少一个结构化规则,结构化规则文件中的结构化规则具体可以为格式匹配规则,样式匹配规则,大纲级别匹配规则和自定义通配符匹配规则中的一种或多种。其中,格式匹配规则,用于规定文字格式来匹配文档结构;样式匹配规贝U,用于规定段落样式来匹配文档结构;大纲级别匹配规则,用于规定大纲级别来匹配文档结构;自定义通配符匹配规则,用于规定通配符来自定义匹配文档结构。另外,文档结构与匹配规则之间的对应关系可以为一对多配置,以解决一个结构单位在不同文档中不同的显示方式,例如,格式匹配规则可以为:【内容摘要】or[\[【]摘要[】\]]or摘[]{1,}要or摘要[::]or[\[【]摘[]{1,}要[】\]]。
[0028]102、根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容。
[0029]其中,当文档结构包括多个结构单位,且结构单位与基本元素类型对应时,步骤102具体可以包括:根据结构化规则对文档结构进行匹配,将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则;根据实例化规则对文档进行结构化,得到结构化后的文档。
[0030]103、获取结构化后的文档中预设的标志性标签的位置。
[0031 ] 104、根据标志性标签的位置获取结构化后的文档中的无规则内容。
[0032]105、根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档。
[0033]文档结构化装置根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档之后,文档结构化装置还可以对无规则内容结构化后得到的内容进行验证。
[0034]本实施例中,通过根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容,获取结构化后的文档中预设的标志性标签的位置,根据标志性标签的位置获取结构化后的文档中的无规则内容,根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,而不需要人工整理无规则内容的格式,从而提高了文档结构化的效率,降低了文档结构化的出错率。
[0035]图2为本发明提供的文档结构化方法又一个实施例的流程图,如图2所示,在图1所示实施例的基础上,标志性标签可以包括中文摘要标签和英文摘要标签。
[0036]对应的,步骤104具体可以包括:
[0037]141、从中文摘要标签的位置向前找到结构化后的文档中的开始位置,得到第一块无规则内容。
[0038]1042、从英文摘要标签的位置向前找到第一段中文段落的末尾,得到第二块无规贝IJ内容。
[0039]其中,中文摘要标签和英文摘要标签为文档结构化装置通过对大量文档进行分析得到的文档中有规则文本内容与无规则文本内容的分割节点。
[0040]对应的,在第一种实施场景下,步骤105具体可以包括:
[0041]1051、遍历第一块无规则内容,查找最大字号中文段落。
[0042]1052、若查找到最大字号中文段落,将最大字号中文段落的格式设置为中文标题格式。
[0043]文档结构化装置将最大字号中文段落的格式设置为中文标题格式后,可以将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式,将中间段落中的其他段落设置为中文作者单位格式。
[0044]1053、若未查找到最大字号中文段落,根据段落位置优势对第一块无规则内容进行结构化。
[0045]具体地,若未查找到最大字号中文段落,文档结构化装置可以直接将第一块无规则内容中的第一段设置为中文标题格式,将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式,将中间段落中的其他段落设置为中文作者单位格式。
[0046]1054、遍历第二块无规则内容,查找最大字号英文段落。
[0047]1055、若查找到最大字号英文段落,将最大字号英文段落的格式设置为英文标题格式。
[0048]文档结构化装置将最大字号英文段落的格式设置为英文标题格式后,可以将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式,将中间段落中的其他段落设置为英文作者单位格式。
[0049]1056、若未查找到最大字号英文段落,根据段落位置优势对第二块无规则内容进行结构化。
[0050]具体地,若未查找到最大字号英文段落,文档结构化装置可以直接将第二块无规则内容中的第一段设置为英文标题格式,将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式,将中间段落中的其他段落设置为英文作者单位格式。
[0051]对应的,在第二种实施场景下,如图3所示,步骤105具体可以包括:
[0052]1057、将第一块无规则内容中的第一段设置为中文标题格式。
[0053]具体地,文档结构化装置还可以将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式,将中间段落中的其他段落设置为中文作者单位格式。
[0054]1058、将第二块无规则内容中的第一段设置为英文标题格式。
[0055]具体地,文档结构化装置还可以将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式,将中间段落中的其他段落设置为英文作者单位格式。
[0056]本实施例中,通过根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1