版式电子文档的页眉页脚识别方法及装置的制造方法_4

文档序号:9235406阅读:来源:国知局
:
[0091 ] 文档解析单元501,用于分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本列的文本内容;
[0092]文本列特征判断单元502,用于遍历各个页内的各个文本列的文本内容,判断各个文本列是否满足页眉页脚的特征;
[0093]页眉页脚确定单元503,用于根据判断结果确定页眉页脚所在的文本列。
[0094]以上对本申请实施例提供的版式电子文档的页眉页脚识别装置进行了介绍,通过该装置,可以在显示版式电子文档时,分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容;遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的文本特征;根据判断结果确定页眉页脚所在的文本行。利用页眉页脚文本行的文本特征,来对版式电子文档内的页眉页脚进行有效的识别。从而可以结合多页内容在某一行上的相似性,和基于这种相似性出来的页面反推识别文档中的某一行是否是页眉页脚,对于页眉页脚的特征值和位置没有单纯的定义,具有很高的识别准确率。
[0095]通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
[0096]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0097]以上对本申请所提供的版式电子文档的页眉页脚识别方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在【具体实施方式】及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
【主权项】
1.一种版式电子文档的页眉页脚识别方法,其特征在于,包括: 分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容; 遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的特征; 根据判断结果确定页眉页脚所在的文本行。2.根据权利要求1所述的方法,其特征在于,对于当前页中的当前文本行,通过以下方式判断其是否满足页眉页脚的特征: 判断其他页中是否含有与当前文本行之间的相似度符合预置条件的文本行,如果是,则判定当前文本行满足页眉页脚的特征。3.根据权利要求1所述的方法,其特征在于,对于当前页中的当前文本行,通过以下方式判断其是否满足页眉页脚的特征: 判断当前文本行中是否包含标点符号,以及其他页中是否含有与当前文本行之间的相似度符合预置条件的文本行,如果是,则判定当前文本行满足页眉页脚的特征。4.根据权利要求3所述的方法,其特征在于,所述判断当前文本行中是否包含标点符号,以及其他页中是否含有与当前文本行之间的相似度符合预置条件的文本行,包括: 判断当前文本行中是否包含标点符号; 如果当前文本行中不包含标点符号,则在当前页的前/后预置数目的页中,获取不包含标点符号的文本行作为目标文本行; 对比所述当前文本行与所述目标文本行,获取所述当前文本行与所述目标文本行之间的相似度; 如果所述相似度符合预置条件,则判定当前文本行满足页眉页脚的文本特征。5.根据权利要求2至4任一项所述的方法,其特征在于,通过以下方式获取当前文本行与其他页中的目标文本行之间的相似度: 判断所述当前文本行与所述目标文本行的文本内容是否完全相同; 如果完全相同,则判定当前文本行与所述目标文本行在文本内容上的相似度符合预置条件; 如果不完全相同,则利用预置算法获取所述当前文本行与所述目标文本行在文本内容上的相似度。6.根据权利要求5所述的方法,其特征在于,还包括: 如果判定当前文本行与所述目标文本行的文本内容不完全相同,则获取所述当前文本行以及所述目标文本行中包含的字符在各自所在页中出现的位置数据; 如果所述当前文本行与所述目标文本行的所述位置数据之间的差距小于预置的阈值,则触发执行所述利用预置算法获取所述当前文本行与所述目标文本行在文本内容上的相似度的步骤; 否则,如果所述差距大于所述阈值,则判定当前文本行与所述目标文本行之间的相似度不符合预置条件。7.根据权利要求1至5任一项所述的方法,其特征在于,所述根据判断结果确定页眉页脚所在的文本行,包括: 将满足页眉页脚的文本特征的文本行确定为疑似页眉页脚行; 分别在各个页内,根据页内所有的非疑似页眉页脚行的文本行所在的位置数据,确定各页的正文内容所在的区域范围; 根据所述疑似页眉页脚行中的字符所在的位置数据,判断所述疑似页眉页脚行是否落在其所在页的正文内容所在的区域范围; 如果是,则将该疑似页眉页脚行判定为非页眉页脚行,否则,将该疑似页眉页脚行判定为页眉页脚行。8.根据权利要求1所述的方法,其特征在于,所述分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容,包括: 对版式电子文档进行解析,识别所述版式电子文档中各个字符的内容,以及各个字符在所在页中的位置数据; 根据各个字符在所在页中的位置数据,对所述各个字符进行划分,根据划分结果获取各个页内包含的各个文本行的文本内容。9.一种版式电子文档的页眉页脚识别方法,其特征在于,包括: 分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本列的文本内容; 遍历各个页内的各个文本列的文本内容,判断各个文本列是否满足页眉页脚的特征; 根据判断结果确定页眉页脚所在的文本列。10.一种版式电子文档的页眉页脚识别装置,其特征在于,包括: 文档解析单元,用于分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容; 文本行特征判断单元,用于遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的特征; 页眉页脚确定单元,用于根据判断结果确定页眉页脚所在的文本行。11.一种版式电子文档的页眉页脚识别装置,其特征在于,包括: 文档解析单元,用于分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本列的文本内容; 文本列特征判断单元,用于遍历各个页内的各个文本列的文本内容,判断各个文本列是否满足页眉页脚的特征; 页眉页脚确定单元,用于根据判断结果确定页眉页脚所在的文本列。
【专利摘要】本申请公开了版式电子文档的页眉页脚识别方法及装置,其中所述方法包括:分别对版式电子文档的多个页进行解析,获取各个页内包含的各个文本行的文本内容;遍历各个页内的各个文本行的文本内容,判断各个文本行是否满足页眉页脚的特征;根据判断结果确定页眉页脚所在的文本行。通过本申请,可以结合多页内容在某一行上的相似性,和基于这种相似性出来的页面反推识别文档中的某一行是否是页眉页脚,这种方法对于页眉页脚的特征值和位置没有单纯的定义,对于目前文档的覆盖率大大增加,具有很高的识别准确率。
【IPC分类】G06K9/20, G06F17/27
【公开号】CN104951429
【申请号】CN201410117009
【发明人】吴运俊
【申请人】阿里巴巴集团控股有限公司
【公开日】2015年9月30日
【申请日】2014年3月26日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1