一种文档图像的版式识别方法_2

文档序号：9249450阅读：来源：国知局

的黑点个数，第一个黑点个数大于等于5的列作为文本起始列。最后一个黑点个数大于等于5的列作为文本结束列。将文本起始列和文本起始列之间平均分为5个区域。如果两个区域的黑点个数小于3，标记当前文本行为文本结束行，否则继续扫描下一个文本行。文本起始行和文本结束行之间是文本行分割的结果。
[0038]3.计算每一行的行高，根据文本的对齐方式以及行高等信息，确定出正文所在的行。找出文本行的最小字号，自底向上地扫描文本行。找到满足以下条件的文本行作为正文结束行:字号与最小字号相差两个像素以内；两端对齐或者左对齐；段后距与最小文本行号所在的文本行的段后距相差两个像素以内。自上而下的扫描文本行，找到满足以下条件的文本行作为正文起始行:字号与最小字号相差两个像素以内；两端对齐或者右对齐；段后距与最小文本行号所在的文本行的段后距相差两个像素以内。如果找不到正文起始行或者正文结束行，将正文起始行标记为O，正文结束行标记为文本行的结尾。这样正文以上是我们要进行版式识别的区域。
[0039]4.根据连通信息确定每一个区域，并对每一个区域内进行文本行分割，保存该区域内的文本行高、行数、区域起始位置、区域相对于整个扫描图像的对齐方式等信息。具体步骤如下:
[0040](I)对正文以上区域进行水平投影，形成文本行，区域预划分。
[0041]a)对水平投影进行去噪，删除一些直线以及离散点的影响。(过滤连续行数小于等于7的连续投影行；过滤连续行数大于7小于等于10，并且水平投影结果均值小于等于20的连续投影行)合并投影文本行成为区域。(从上至下的扫描水平投影结果，连续两个投影文本行字号相同(判断标准为差的绝对值小于等于2)，(I)判断行距是否小于等于2倍字号，小于等于2倍字号，合并两个投影行成为一个区域；(2)连续两行字号相近(判断标准为差的绝对值大于2小于等于4)，判断行距是否小于等于I倍字号，如果小于等于I倍字号，合并两个投影行成为一个区域；(3)下面一行比上面一行字号大，差为小于等于10，并且行距小于等于I倍字号，同时第三行与第二行的行距以及第三行和第一行的字号满足前两条规则。)
[0042](2)对每个预划分区域进行划分确定。
[0043]a)对区域进行垂直投影并对投影结果去噪，保存区域列起始位置、结束位置和宽度。
[0044]b)区域文本行划分，文本信息记录。(对区域进行水平投影，并对投影结果进行去噪操作，重新确定文本行信息，记录区域中文本行的详细信息。)
[0045]c)判断垂直投影中是否存在大量空白(大量空白是指连续白点数大于等于10倍区域的行高)。存在跳到d)，不存在跳到e)。
[0046]d)根据大量空白，将区域划分为若干个区域。
[0047]1.确定每个分割后的区域的行、列的起始位置和结束位置，高度，宽度。
[0048]i1.对每个分割后的区域进行水平投影，并对投影结果进行去噪操作，重新确定文本行信息，记录区域中文本行的详细信息。
[0049]e)对区域中的文本行进行判断，判断该区域是否为多个文本行对应一个文本行的情况。
[0050]ii1.将区域预分类为三个子空间(左子空间、中子空间、右子空间)。(子空间划分定义为，左子空间:区域左侧起始位置，到区域长度的1/3处；中子空间:1/3处到2/3处；右子空间:2/3处到区域的结束位置)。
[0051]iv.分别对三个子空间进行水平投影，并对投影结果进行去噪操作。
[0052]V.记录子空间的文本行信息(文本行数，起始位置和结束位置，行高，行距)
[0053]v1.判断3个子空间以及整个区域的文本行的相关性。右子空间存在一个文本行，左子空间或者中子空间至少有一个空间存在两个及更多文本行。并且右子空间的文本行的行高占据整个区域的高度(95%以上)或者文本行存在于区域的水平投影部分的中间。此种情况需要特殊处理转到f)，否则结束。
[0054]f)多个文本行对应一个文本行的情况。
[0055]1.将多个文本行的部分划分为区域，剩余的一个文本行的部分作为该区域的附属子区域。确定当前区域以及附属子区域的。(根据垂直投影)
[0056]i1.检测当前区域与前一区域是否可以合并，合并原则与⑴中b)类似。若能则合并，不能则继续。
[0057]ii1.检测当前区域与后一区域是否可以合并，合并原则与⑴中b)类似。能，合并；不能，继续。
[0058]iv.确定合并或者检测后的区域的行、列的起始位置和结束位置，高度，宽度。
[0059]V.对区域进行水平投影，并对投影结果进行去噪操作，重新确定文本行信息，记录区域中文本行的详细信息。
[0060]确定完毕当前公文的区域，遍历每个区域获得版式信息，提取区域内字号大小，排序，区域的对齐方式作为版式信息。
[0061]5.利用以上保留的信息和版式特征库中的规则进行匹配(包括位置匹配和关键词匹配)，匹配上了则按版式特征库提取版式信息。如果未匹配到版式序列号，则通过设定的标题字集，部门字集，发文代字的字集，将识别出的每个区域与字集匹配，获得版式识别结果?目息O
[0062]实施例1
[0063]一幅安徽省环境保护厅的公文如图2所示，进行版式检测提取的版式信息如图3所示，
[0064]首先对图片进行区域划分，通过划分后得到序列号，以及每一个区域的OCR结果。按照文中所提供的方法去与版式库匹配。匹配后命中了版式中第一个样例图(图3中命中id = O)，按照命中版式规则进行信息提取。
[0065]实施例2
[0066]一幅审计署的公文如图4所示，进行版式检测提取的版式信息如图5所示。
【主权项】
1.一种文档图像的版式识别方法，包括以下步骤: 1)根据不同文档样本的版式图片，生成版式特征库； 2)扫描待识别的文档，得到扫描图像； 3)对扫描图像进行文本行分割，确定待识别文档的正文； 4)对待识别文档正文以上的部分进行区域划分，并获取每个区域的版式信息； 5)将步骤4)得到的版式信息与版式特征库中的版式信息进行匹配，如果匹配上，则从版式特征库中提取对应的版式信息；如果未匹配上，则将每个区域的版式信息与预先设定的版式字集匹配，获得版式识别结果信息。2.如权利要求1所述的文档图像的版式识别方法，其特征在于，所述版式特征库中保存不同文档样本的版式内容及由版式内容相对字高、对齐方式生成的版式序列号。3.如权利要求1所述的文档图像的版式识别方法，其特征在于，步骤2)中，还包括对扫描图像进行预处理。4.如权利要求3所述的文档图像的版式识别方法，其特征在于，所述预处理包括去噪和倾斜矫正。5.如权利要求4所述的文档图像的版式识别方法，其特征在于，所述去噪包括去油墨和去印章。6.如权利要求1所述的文档图像的版式识别方法，其特征在于，步骤3)中根据投影信息对扫描图像进行文本行分割，通过黑白像素点的纹理特征来确定切割位置。7.如权利要求6所述的文档图像的版式识别方法，其特征在于，自底向上找到正文的文本结束行，然后自顶向下寻找能与结束行匹配的文本起始行；如果找不到正文起始行或者正文结束行，将正文起始行标记为O，正文结束行标记为文本行的结尾；文本起始行和文本结束行之间是文本行分割的结果。8.如权利要求1所述的文档图像的版式识别方法，其特征在于，步骤4)中把具有相同的字高、行间距、对齐方式的行放到同一个区域，以及在同一个区域内部如果左侧有多个文本行，右侧只有一个文本行，需要对区域再次划分，把右侧的一个文本行作为该区域的子区域。9.如权利要求1所述的文档图像的版式识别方法，其特征在于，步骤4)中划分好的区域产生一个版式序列号，该版式序列号是由对齐方式，相对字高生成的。10.如权利要求1所述的文档图像的版式识别方法，其特征在于，步骤4)中，所述版式信息包括:区域内字号大小，排序、区域相对于整个扫描图像的对齐方式。
【专利摘要】本发明公开了一种文档图像的版式识别方法，首先设计了一个版式入库功能，库中会保存版式内容，以及由版式内容相对字高、对齐方式生成的版式序列号，如果一张未知图片经过版式分析，得到的版式序列号与库中的某个版式序列号一样，那么将通过库中的提示信息去提取该未知图片的版式信息。本发明通过高效以及准确的版面分析方法来识别文档图片，尤其适用于中文公文文档图像的版式识别。
【IPC分类】G06K9/00
【公开号】CN104966051
【申请号】CN201510297257
【发明人】时金桥, 范晓鹏, 陈小军, 郭莉, 蒲以国, 文新, 邹亚劼, 王洋
【申请人】中国科学院信息工程研究所
【公开日】2015年10月7日
【申请日】2015年6月3日

完整全部详细技术资料下载

当前第2页1 2