版式电子文档的页眉页脚识别方法及装置的制造方法

文档序号:9235406阅读:523来源:国知局
版式电子文档的页眉页脚识别方法及装置的制造方法
【技术领域】
[0001]本申请涉及文档识别技术领域,具体涉及版式电子文档的页眉页脚识别方法及装置。
【背景技术】
[0002]随着手持式终端设备的普及,人们对在手持终端设备上进行阅读的需求越来越多,而作为内容载体,目前电子文档大部分都是从排版工具和排版文件转化过来的以TOF格式为主的版式电子文件,这种文件的页面通常较大,不适合在手持终端上或者在小屏幕设备上阅读。而目前较适合在手持设备上阅读的文件格式是以流式为主的文件格式,如epub (Electronic Publicat1n,电子出版)格式文件。在这种文件格式下,阅读时会打乱文档的页数和布局,阅读器还需要自动过滤掉文档的页眉页脚,让读者能够连续的阅读文档获得更好的阅读体验。而为了实现该过滤页眉页脚的操作,如何自动从版式文档文件中识别出页眉页脚程序需要解决的问题。
[0003]目前对于页眉页脚的识别有几种比较常见的方法。如可以利用页面顶部的水平线来发现和识别页眉页脚;另外还有一种方法是根据页面上文字块的布局来发现页眉页脚,例如,若页面顶部和底部各出现一个小块而且中间有一个大块的布局,则认为顶部和底部的块为页眉页脚区域。通过以上这两个方法对文档的页眉页脚进行识别时,对文档的特征值要求非常高,如果文档没有对应的特征值则识别的准确性很难保证。如根据页面顶端的水平线来确定页眉页脚的方法只适合满足这一种特征的文档,根据页面布局识别的方法只能对页眉页脚与正文之间的间距不同,并且只能对页眉页脚出现在文档的上下位置上的文档有用。因此,迫切需要本领域技术人员解决的技术问题就在于,如何更加准确地识别版式电子文档中页眉页脚等内容,以更准确地区分和显示版式电子文档的内容。

【发明内容】

[0004]本申请提供了版式电子文档的页眉页脚识别方法及装置,对于目前文档的覆盖率大大增加,具有很高的识别准确率。
[0005]本申请提供了如下方案:
[0006]一种版式电子文档的页眉页脚识别方法,包括:
[0007]分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容;
[0008]遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的特征;
[0009]根据判断结果确定页眉页脚所在的文本行。
[0010]一种版式电子文档的页眉页脚识别方法,包括:
[0011]分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本列的文本内容;
[0012]遍历各个页内的各个文本列的文本内容,判断各个文本列是否满足页眉页脚的特征;
[0013]根据判断结果确定页眉页脚所在的文本列。
[0014]一种版式电子文档的页眉页脚识别装置,包括:
[0015]文档解析单元,用于分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容;
[0016]文本行特征判断单元,用于遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的特征;
[0017]页眉页脚确定单元,用于根据判断结果确定页眉页脚所在的文本行。
[0018]一种版式电子文档的页眉页脚识别装置,包括:
[0019]文档解析单元,用于分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本列的文本内容;
[0020]文本列特征判断单元,用于遍历各个页内的各个文本列的文本内容,判断各个文本列是否满足页眉页脚的特征;
[0021]页眉页脚确定单元,用于根据判断结果确定页眉页脚所在的文本列。
[0022]根据本申请提供的具体实施例,本申请公开了以下技术效果:
[0023]通过本申请实施例,可以在显示版式电子文档时,分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容;遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的文本特征;根据判断结果确定页眉页脚所在的文本行。利用页眉页脚文本行的文本特征,来对版式电子文档内的页眉页脚进行有效的识别。通过本申请中的方法,可以结合多页内容在某一行上的相似性,和基于这种相似性出来的页面反推识别文档中的某一行是否是页眉页脚内容,这种方法对于页眉页脚的特征值和位置没有单纯的定义,对于目前文档的覆盖率大大增加,具有很高的识别准确率。
[0024]当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
【附图说明】
[0025]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1是本申请实施例提供的方法的流程图;
[0027]图2是本申请实施例中版式电子文档内字符坐标的示意图;
[0028]图3是本申请实施例提供的另一方法的流程图;
[0029]图4是本申请实施例提供的装置的示意图;
[0030]图5是本申请实施例提供的另一装置的示意图。
【具体实施方式】
[0031 ] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
[0032]在本申请实施例中,为了更准确的识别版式电子文档中的页眉页脚,也使得识别方法更具有普适性,可以首先对版式电子文档中的字符进行识别,并以文本行为单位进行判断。由于页眉页脚也是一个具体的文本行,因此,这种方式不会受到文件中特殊格式等的限制,并且即使页内没有添加“水平线”等明显的标识,也能够有效的识别出页眉页脚。下面将进行详细地介绍。
[0033]实施例一:
[0034]参见图1,本申请实施例一提供了一种版式电子文档的页眉页脚识别方法的流程图,如图所示,该方法可以包括以下步骤:
[0035]SlOl:分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容;
[0036]在本申请实施例中,当需要对某个版式电子文档进行显示前的处理时,可以首先对版式电子文档进行解析,获取版式电子文档各页面中包含的各个文本行的文本内容。通常,在版式电子文档页面中包含的内容多为文本内容,例如电子小说等;但也有的文本内容包含在图片中,例如扫描生成的版式电子文档,此时,可以先对图片中的文本内容进行文字识别,提取其中的文本。对于版式电子文档中的不包含文本的图片,多为文档的插图,可以直接作为图片元素进行识别、定位或者过滤。
[0037]在解析和获取版式电子文档中各页面内各文本行的文本内容的过程中,可以对电子文档的文本内容进行逐字的识别。为了提高对电子文档内页眉页脚内容进行识别的效率,以及后续对页眉页脚内容进行确定的准确性,在对电子文档进行解析的过程中,可以对解析得到的字符以行为单位进行归并。具体的,可以首先对电子文档中的文本进行逐字符的解析,识别出每个字符(例如,可能是具体的文字或者标点符号等)以及该字符的位置信息。其中,关于字符的位置信息,由于中文等文字,每个字符在文档中排版时所占的面积一般是相同的,并且可以分别由一个矩形框来表示,例如,如图2所示,文档中的每个字符都位于各自的矩形框中(只不过在实际显示时,并不会将该矩形框直接显示出来),这样每个字符的位置信息就可以通过各自所在的矩形框的位置来表示。具体的,可以将这种位置信息表示为各字符在页面中的二维坐标值,并且对于每个字符而言,都可以分别确定出最小X坐标、最小I坐标、最大X坐标、最大I坐标。例如,图2中所示的矩形框,AD边上各个点的X坐标均相同,并且是该字符的最小X坐标;AB边上各个点的y坐标均相同,并且是该字符的最小I坐标;bc边上各个点的X坐标均相同,并且是该字符的最大
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1