版式电子文档的页眉页脚识别方法及装置的制造方法_3

文档序号:9235406阅读:来源:国知局
确定为页眉页脚。但是,为了进一步提高页面页脚内容识别的准确性,还可以在获得所有页面中所有满足页眉页脚文本特征的文本行后,统计获得各个页面中正文部分的区域范围,进而通过正文部分的区域范围数据,对满足页眉页脚特征的文本行进行再判断。具体的,可以将满足页眉页脚的文本特征的文本行确定为疑似页眉页脚行;分别在版式电子文档的各个页面内,根据页内所有的非疑似页眉页脚行的文本行的位置数据,确定各页的正文内容所在的区域范围;再根据疑似页眉页脚行中的字符所在的位置数据,判断疑似页眉页脚行是否落在其所在页的正文内容所在的区域范围;如果是,则将该疑似页眉页脚行判定为非页眉页脚行,否贝U,将该疑似页眉页脚行判定为页眉页脚行。
[0050]具体的,可以将文档所有页面的不满足页眉页脚特征的文本行作为第一内容,然后遍历第一内容,获取电子文档各页面中第一内容各行的二维坐标;统计二维坐标中最小横坐标,最小纵坐标,最大横坐标,以及最大纵坐标;根据统计得到的最小横坐标,最小纵坐标,最大横坐标,以及最大纵坐标确定电子文档的页面版心位置;页面版心位置,也即正文内容所在的区域范围,利用页面版心位置,可以对满足页眉页脚特征的文本行进行再判断,从而进一步提高了识别版式电子文档页眉页脚的准确性。
[0051]S103:根据判断结果确定页眉页脚所在的文本行。
[0052]在判断出版式电子文档中各个文本行是否满足页眉页脚的文本特征,可以见满足页眉页脚特征的文本行作为页眉页脚来处理,如在显示版式电子文档的过程中,可以将页眉页脚所在的文本行不进行显示,而仅显示出页眉页脚以外的正文内容。
[0053]以上对本申请所提供的版式电子文档的页眉页脚识别方法进行了详细的介绍,通过该方法,可以在显示版式电子文档时,分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容;遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的文本特征;根据判断结果确定页眉页脚所在的文本行。利用页眉页脚文本行的文本特征,来对版式电子文档内的页眉页脚进行有效的识别。通过本申请中的方法,可以根据结合多页内容在某一行上的相似性,和基于这种相似性出来的页面反推识别文档中的某一行是否是页眉页脚,这种方法对于页眉页脚的特征值和位置没有单纯的定义,对于目前文档的覆盖率大大增加,具有很高的识别准确率。
[0054]实施例二
[0055]在上述实施例一中,主要是针对字符横向排列的电子文档,给出了识别页眉页脚的方法。在实际应用中,还可能存在一些字符纵向排列的电子文本,在纵向排列的电子文档中,可以按照每个字符的坐标将同一列的字符归并到一起作为一列文字。整个过程也即根据各个字符在所在页中的位置数据,对各个字符进列的划分,根据划分结果获取各个页内包含的各个文本列的文本内容,进而再判断各个文本列是否符合页眉页脚的特征,下面进行详细的介绍。
[0056]本申请实施例二还提供了一种版式电子文档的页眉页脚识别方法,适用于对文字纵向排列的版式电子文档的页眉页脚识别,如图3所示,该方法可以包括以下步骤:
[0057]S301:分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本列的文本内容;
[0058]S302:遍历各个页内的各个文本列的文本内容,判断各个文本列是否满足页眉页脚的文本特征;
[0059]S303:根据判断结果确定页眉页脚所在的文本列。
[0060]本申请实施例提供的版式电子文档的页眉页脚识别方法,可以利用页眉页脚文本行的文本特征,来对文字纵向排列的版式电子文档内的页眉页脚进行有效的识别。另外需要说明的是,本实施例二所提供的方法中与实施例一所提供的版式电子文档的页眉页脚识别方法可以相互参照,在这里就不再赘述了。
[0061]与本申请实施例一提供的版式电子文档的页眉页脚识别方法相对应,还提供了一种版式电子文档的页眉页脚识别装置,如图4所示,该版式电子文档的页眉页脚识别装置包括:
[0062]文档解析单元401,用于分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容;
[0063]文本行特征判断单元402,用于遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的特征;
[0064]页眉页脚确定单元403,用于根据判断结果确定页眉页脚所在的文本行。
[0065]其中,对于当前页中的当前文本行,文本行特征判断单元402可以包括:
[0066]第一文本特征判断子单元,用于判断其他页中是否含有与当前文本行之间的相似度符合预置条件的文本行,如果是,则判定当前文本行满足页眉页脚的文本特征。
[0067]或者,对于当前页中的当前文本行,文本行特征判断单元402也可以包括:
[0068]第二文本特征判断子单元,用于判断当前文本行中是否包含标点符号,以及其它页中是否含有与当前文本行之间的相似度符合预置条件的文本行,如果是,则判定当前文本行满足页眉页脚的文本特征。
[0069]其中,第二文本特征判断子单元具体可以包括:
[0070]符号判断子单元,用于判断当前文本行中是否包含标点符号;
[0071]目标文本行确定子单元,用于如果当前文本行中不包含标点符号,则在当前页的前/后预置数目的页中,获取不包含标点符号的文本行作为目标文本行;
[0072]对比子单元,用于对比当前文本行与目标文本行,获取当前文本行与目标文本行之间的相似度;
[0073]判定子单元,用于如果相似度符合预置条件,则判定当前文本行满足页眉页脚的文本特征。
[0074]其中,具体在获取当前文本行与其他页中的目标文本行之间的相似度时,可以采用以下单元实现:
[0075]文本内容判断单元,用于判断当前文本行与目标文本行的文本内容是否完全相同;
[0076]第一判定单元,用于如果完全相同,则判定当前文本行与目标文本行在文本内容上的相似度符合预置条件;
[0077]相似度计算单元,用于如果不完全相同,则利用预置算法获取当前文本行与目标文本行在文本内容上的相似度。
[0078]在另一种实现方式下,该装置还可以包括:
[0079]位置数据获取单元,用于如果判定当前文本行与目标文本行的文本内容不完全相同,则获取当前文本行以及目标文本行中包含的字符在各自所在页中出现的位置数据;
[0080]触发单元,用于如果当前文本行与目标文本行的位置数据之间的差距小于预置的阈值,则触发执行利用预置算法获取当前文本行与目标文本行在文本内容上的相似度的步骤;
[0081]第二判定单元,用于否则,如果差距大于阈值,则判定当前文本行与目标文本行之间的相似度不符合预置条件。
[0082]具体实现时,页眉页脚确定单元403具体可以包括:
[0083]疑似页眉页脚确定子单元,用于将满足页眉页脚的文本特征的文本行确定为疑似页眉页脚行;
[0084]正文区域确定子单元,用于分别在各个页内,根据页内所有的非疑似页眉页脚行的文本行所在的位置数据,确定各页的正文内容所在的区域范围;
[0085]判断子单元,用于根据疑似页眉页脚行中的字符所在的位置数据,判断疑似页眉页脚行是否落在其所在页的正文内容所在的区域范围;
[0086]页眉页脚确定子单元,用于如果判断子单元判断结果为是,则将该疑似页眉页脚行判定为非页眉页脚行,否则,将该疑似页眉页脚行判定为页眉页脚行。
[0087]此外,文档解析单元401具体可以包括:
[0088]识别子单元,用于对版式电子文档进行解析,识别版式电子文档中各个字符的内容,以及各个字符在所在页中的位置数据;
[0089]文本行划分子单元,用于根据各个字符在所在页中的位置数据,对各个字符进行划分,根据划分结果获取各个页内包含的各个文本行的文本内容。
[0090]与本申请实施例二提供的版式电子文档的页眉页脚识别方法相对应,本申请实施例还提供了一种版式电子文档的页眉页脚识别装置,参见图5,该装置可以包括
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1