版式文档的处理方法及装置的制造方法_2

文档序号:8223470阅读:来源:国知局
这样,通过获取版式文档的元数据,进而根据所述版式文档的元数据,获得所述版式文档的标题,使得能够根据所述版式文档的标题,获得所述版式文档的目标目录数据,无需人工参与,操作简单,而且正确率高,从而提高了版式文档处理的效率和可靠性。
[0056]可选地,在本实施例的一个可能的实现方式中,在101中,所获取的版式文档的元数据可以包括但不限于所述版本文档的目录页面的元数据和版本文档的正文页面的元数据中的至少一项,本实施例对此不进行特别限定。
[0057]版式文档是指符合版式文档格式规范的文档,它采用一种绝对描述方式,在自定义的坐标系中,明确记录了每个页面元素显示的位置、尺寸和样式等。版式文档的元数据可以包括但不限于版式文档中每个页面元素(如文字、图片或超链接等)的位置、尺寸、颜色和样式等数据。
[0058]本实施例中,版式文档的元数据的存储格式可以为多种格式,例如,JavaScript对象表不法(JavaScript Object Notat1n, JS0N)格式等。
[0059]JS0N,是一种轻量的数据表示方法。JSON格式采用键值(key-value)对的方式记录数据,非常直观,比可扩展标记语言(Extensible Markup Language,XML)简洁。
[0060]所谓的目录页面,是指其上包含结构化的目录信息的页面。例如,包含目录、
Contents等具有目录特征的关键词的页面;或者,再例如,包含“..................XX”、
“------------------XX,,gg “-----------------------------------XX,,
等具有目录特征的字符的页面,其中,XX表示阿拉伯数字、英文数字等页码字符。
[0061]所谓的正文页面,是指其上包含正文信息的页面。
[0062]可选地,在本实施例的一个可能的实现方式中,所述版式文档的元数据包括所述版本文档的目录页面的元数据;相应地,在101中,具体可以获取目录页面的起始部分的元数据、目录页面的结束部分的元数据和目录页面的结构特征的元数据中的至少一项,进而则可以根据所述目录页面的起始部分的元数据、所述目录页面的结束部分的元数据和所述目录页面的结构特征的元数据中的至少一项,获取所述版本文档的目录页面的元数据。
[0063]一般来说,目录页都设置在版式文档的前几页,因此,具体可以将预先设置的前N页,N为大于或等于I的整数,作为目录页面可能存在的区域,只在这些区域获取版本文档的目录页面的元数据即可。
[0064]在一个具体的实现过程中,具体可以获取版式文档的前N页的元数据。
[0065]然后,可以根据起始特征数据,例如,“目录”、“Contents”或“MULU”等数据,在所获取的前N页的元数据中,获取目录页面的起始部分的元数据。
[0066]或者,还可以根据结束特征数据,例如,“附录”或“结束语”等数据,在所获取的前N页的元数据中,获取目录页面的结束部分的元数据。
[0067]或者,还可以根据预先设置的目录页面结构特征数据,在所获取的前N页的元数据中,获取目录页面的结构特征的元数据。
[0068]这样,则可以根据所述目录页面的起始部分的元数据所在的页面、所述目录页面的结束部分的元数据所在的页面和所述目录页面的结构特征的元数据所在的页面中的至少一项,确定若干个连续的候选页面,以作为所述版式文档的目录页面。
[0069]接着,可以在所确定的候选页面中,获取该候选页面的元数据,以作为所述版本文档的目录页面的元数据。
[0070]所获取的所述版式文档的目录页面的元数据,可以包括但不限于版式文档的候选目录数据。所述候选目录数据,是指版式文档中所包含的目录数据。
[0071]可选地,在本实施例的一个可能的实现方式中,在102中,具体可以利用各个等级目录的特征数据,从所述版式文档的元数据中,获得所述版式文档的标题。
[0072]其中,各个等级目录的特征数据,是指每个等级的目录所对应的标题字符的布局特点数据,可以包括但不限于每个等级的目录所对应的标题字符的字体、尺寸、颜色、样式和排版格式中的至少一项,本实施例对此不进行特别限定。
[0073]所述每个等级的目录所对应的标题字符的字体,是指每个等级的目录所对应的标题字符的外在形式特征,就是字符的风格,是字符的外衣,例如,宋体、楷体或隶书等。
[0074]所述每个等级的目录所对应的标题字符的尺寸,是指每个等级的目录所对应的标题字符的大小,例如,四号(14镑)、小四号(12号)或五号(10.5镑)等。
[0075]所述每个等级的目录所对应的标题字符的颜色,是指每个等级的目录所对应的标题字符的颜色,例如,红色或蓝色等。
[0076]所述每个等级的目录所对应的标题字符的样式,是指每个等级的目录所对应的标题字符的风格,例如,加粗或斜体等。
[0077]所述每个等级的目录所对应的标题字符的排版格式,是指每个等级的目录所对应的标题字符的布局形式,例如,居中、每行最多不超过S(s为大于或等于I的整数)个字符或每行的结尾没有标点符号等。
[0078]具体地,具体可以根据版式文档的布局,预先设置各个等级目录的特征数据。
[0079]在一个具体的实现过程中,所述版式文档的元数据包括所述版本文档的目录页面的元数据;相应地,在102中,具体可以获取预先设置的第一目录所对应的标题字符预设字体、第一目录所对应的标题字符预设尺寸、第一目录所对应的标题字符预设颜色、第一目录所对应的标题字符预设样式和第一目录所对应的标题字符预设排版格式中的至少一项,进而则可以根据所述第一目录所对应的标题字符预设字体、所述第一目录所对应的标题字符预设尺寸、所述第一目录所对应的标题字符预设颜色、所述第一目录所对应的标题字符预设样式和所述第一目录所对应的标题字符预设排版格式中的至少一项,从所述版本文档的目录页面的元数据中,获得所述版式文档的标题。
[0080]其中,第一目录所对应的标题字符预设字体、第一目录所对应的标题字符预设尺寸、第一目录所对应的标题字符预设颜色、第一目录所对应的标题字符预设样式和第一目录所对应的标题字符预设排版格式中的至少一项,是指目录页面上,每个等级的目录所对应的标题字符的布局特点数据。
[0081]在另一个具体的实现过程中,所述版式文档的元数据包括所述版本文档的正文页面的元数据;相应地,在102中,具体可以获取预先设置的第二目录所对应的标题字符预设字体、第二目录所对应的标题字符预设尺寸、第二目录所对应的标题字符预设颜色、第二目录所对应的标题字符预设样式和第二目录所对应的标题字符预设排版格式中的至少一项,进而则可以根据所述第二目录所对应的标题字符预设字体、所述第二目录所对应的标题字符预设尺寸、所述第二目录所对应的标题字符预设颜色、所述第二目录所对应的标题字符预设样式和所述第二目录所对应的标题字符预设排版格式中的至少一项,从所述版本文档的正文页面的元数据中,获得所述版式文档的标题。
[0082]其中,第二目录所对应的标题字符预设字体、第二目录所对应的标题字符预设尺寸、第二目录所对应的标题字符预设颜色、第二目录所对应的标题字符预设样式和第二目录所对应的标题字符预设排版格式中的至少一项,是指正文页面上,每个等级的目录所对应的标题字符的布局特点数据。
[0083]在另一个具体的实现过程中,所述版式文档的元数据包括所述版本文档的目录页面的元数据和所述版本文档的正文页面的元数据;相应地,在102中,具体可以获取预先设置的第一目录所对应的标题字符预设字体、第一目录所对应的标题字符预设尺寸、第一目录所对应的标题字符预设颜色、第一目录所对应的标题字符预设样式和第一目录所对应的标题字符预设排版格式中的至少一项,进而则可以根据所述第一目录所对应的标题字符预设字体、所述第一目录所对应的标题字符预设尺寸、所述第一目录所对应的标题字符预设颜色、所述第一目录所对应的标题字符预设样式和所述第一目录所对应的标题字符预设排版格式中的至少一项,从所述版本文档的目录页面的元数据中,获得所述版式文档的第一候选标题。以及,还可以获取预先设置的第二目录所对应的标题字符预设字体、第二目录所对应的标题字符预设尺寸、第二目录所对应的标题字符预设颜色、第二目录所对应的标题字符预设样式和第二目录所对应的标题字符预设排版格式中的至少一项,进而则可以根据所述第二目录所对应的标题字符预设字体、所述第二目录所对应的标题字符预设尺寸、所述第二目录所对应的标题字符预设颜色、所述第二目录所对应的标题字符预设样式和所述第二目录所对应的标题字符预设排版格式中的至少一项,从所述版本文档的正文页面的元数据中,获得所述版式文档的第二候选标题。接着,根据所述第一候选标题和所述第二候选标题,确定所述版式文档的标题。
[0084]具体地,获取所述第一候选标题与所述第二候选标题中对应的第一组标题字符即标题字符A和标题字符B,确定对应的标题字符是否一致,若二者的内容一致,则将对应的标题字符即标题字符A或标题字符B作为版式文档的一个标题;若二者的内容不一致,则进一步确定哪个标题字符是正确的标题,进而将正确的标题字符作为版式文档的一个标题。如果没有正确的标题字符,则放弃对应的标题字符。依次类推,获取所述第一候选标题与所述第二候选标题中对应的下一组标题字符,直到将所述第一候
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1