一种基于空白背景以及连通域的版面分析方法与流程

文档序号:15158990发布日期:2018-08-14 09:09阅读:285来源:国知局

本发明涉及一种基于空白背景以及连通域的版面分析方法,属于计算机技术领域。



背景技术:

随着计算机以及计算机网络的飞速发展,信息的传播途径从实体转为电子,将实体书籍报刊、研究文稿转换成电子格式的需求日渐增加,同时对于识别精度的要求也日渐增加。

基于以上需求,ocr技术应运而生。ocr即opticalcharacterrecognition,光学字符识别,是指用计算机将书写体或印刷体的汉字,通过光学扫描设备,扫描进电脑;再通过一系列图像处理技术,去除彩色分量,纠正图像倾斜,图像分割等动作,识别成能储存在电脑中的计算机文字。

传统ocr系统一般由输入、处理、输出三个部分组成。如图1所示,得益于便携式输入输出设别(诸如手机)的发展,目前局限ocr系统的部分主要是处理这一环节。而在处理这一环节中,版面分析与版面理解两个部分在系统中的作用是极其核心的,在整个系统中,版面分析与版面理解所进行的工作主要就是利用计算机自动的对图像进行区域的划分,识别出区域的属性,以及区域之间的关系。版面分析的主要工作,是对图像空间上进行区域的划分。版面理解的功能主要是对区域之间逻辑上的先后顺序,进行判断。

传统的基于连通域的版面分割方法有以下两种,第一,基于组成元素的版面分割算法,该算法本质上是一种自底向上的版面分割算法。该分割算法从底层出发,将整个图片划分成一个个的字,从图像底层进行分割,然后合并成行、段、列、图片等。最终得到完整的文本块,并且在合并的过程中,可以得到一些属性。该算法的优点是对各种不同的版面都有很强的适应性,缺点是运算量大,并且消耗的时间比较长。第二,基于连通域的版面分割算法,该算法从图像的整体出发,通过对图像像素进行的投影操作,获得一些基本的参数,比如说字间距,连通阈值等,通过连通阈值将图像进行联通操作得到整个文本块,进行分割。该算法优点是对各种不同的版面都有很强的适应性,同时算法的时间复杂度也比较好。缺点是对于一些连通阈值特征不明显的版面,分割的效果较差。

传统的基于连通域的版面分割方法,由于直接对图像进行投影操作,由于字体内部的空白像素对整体的影响,造成误差较大。因此,传统版面分析方法中版面识别不具有普适性,并且精度较低。



技术实现要素:

针对现有技术的不足,本发明提供了一种基于空白背景以及连通域的版面分析方法;

基于空白背景以及连通域,本发明版面分析方法综合了空白背景方法以及连通域方法,在基于空白背景的方法中,将图片中前景区域的各个模块分割出来,该方法过程简单,适用于空白区域较大的版面类型。

术语解释:

1、霍夫变换,houghtransform,是图像处理中从图像中识别几何形状的基本方法之一,应用很广泛,也有很多改进算法。主要用来从图像中分离出具有某种相同特征的几何形状(如,直线,圆等)。

2、横向、纵向投影,是指将图像的以横轴、纵轴为坐标,统计某个坐标上黑色像素点的数量。

本发明的技术方案为:

一种基于空白背景以及连通域的版面分析方法,包括:

(1)初步划分图像

先利用先验规律对图像进行划分,得到若干图块;

再采用霍夫变换方法检测出每个图块的空白直线,通过检测出的空白直线对每个图块进行划分,减少每个图块的空白区域;

(2)拓展图像字区域

判断通过步骤(1)获取的图像的每个像素点是否为外部点,如果判断该像素点i为外部点,不进行操作;如果判断为内部点,将其8-邻域全部填充为黑色,再次进行外部点检测,直到获取的图像中,所有的内部点其8邻域都已经被填充为黑色;

(3)拓展图像连通域

经过步骤(1)、步骤(2)操作之后,已经初步得到水平紧凑,内部充满的图块,需要进一步切分图像的文字区域。因此进行图像连通操作,即对字填充之后的图块进行模板操作。

a、输入经过步骤(2)处理后的任一图像p,对图像p进行横向投影、纵向投影,分别得到px和py两幅投影图;

b、确定先验阈值a和b,对px中任一行i、py中任一列j,若满足:pixelx(i)<a×p.width||pixely(j)<b×p.length,则认为i行或j列为空白行或空白列,并将空白行数或空白列数计入sr或sc,sr为某一空白行所占像素行数,sc为某一空白列所占像素列数;若是新出现的空白行或列,则同时计入wr或wc,wr为图像中空白的行的数量,wc为图像中空白的列的数量;新出现的行或列指与上一个空白像素行或列之间存在一非空白行或列;pixelx(i)为横向投影,pixely(j)为纵向投影,p.width为图像的像素宽度,p.length为图像的像素长度;

c、求取sr和wr的比值,即平均连通阈值;

d、确认连通阈值之后,即通过高斯模糊拓展操作,对文本进行文本块连通操作;

(4)切分图像区块

对图像进行连通域填充之后,得到的图片中,存在文字的区域,都已经用黑色像素块连通了起来,此时可通过canny算子进行边缘提取,得到区块的边界。

e、将经过步骤(4)处理后的图片中所有像素值为黑色的点归为一个点集,从这个点集中选取任意一个点t,将点t加入一个新的子集s中,同时从原点集中删除点t;

f、搜索点t的8-邻域,从点t的8-邻域中的8个像素点中找到所有像素值为黑色的点加入到子集s中,并从子集s中删除点t,重复操作步骤f,直到子集s不再发生变化,此时子集s为某一区域的曲线边界的点集;

g、重复e操作,得到的每一个新子集都是一个区域的曲线边界的点集,直到某一次操作子集s中不存在任何的像素点,则切分图像区块结束,提取出来构成所有区块的曲线由子集的形式;

h、浏览所有曲线边界子集,找到子集中的点的左上角和右下角,根据这个值,进行区域的切割,左上角和右下角是界定将该区域完全包括的一个最小长方形区域,通过遍历子集中的点的横纵坐标进行比较获得所述区域。

进一步优选的,a=b=10%。

先验阈值a,b决定空白行列的判断依据,且由图像清晰程度进行决定,一般设为百分之十,以取得较好的效果,针对不同的采集设备,可通过实验,取得更好的先验阈值,以取得最佳效果。

进一步优选的,判断通过步骤(1)获取的图像的每个像素点是否为外部点,包括:扫描整幅图像,对于任意一个像素点i,取其8-邻域像素区域,标号为i1、i2、i3、i4、i5、i6、i7、i8,判断该像素点i是否为外部点,即α=(i1&&i2&&i3)||(i3&&i5&&i8)||(i6&&i7&&i8)是否为真,若为真,则判断该像素点i为外部点;若为假,则判断为内部点。

本发明的有益效果为:

1、基于空白背景以及连通域,本发明版面分析方法综合了空白背景方法以及连通域方法,在基于空白背景的方法中,将图片中前景区域的各个模块分割出来,该方法过程简单;

2、本发明采用一种改良过的连通域分割方法,即先将图像进行初步的基于空白背景的分割以减少计算量,再将字体内部的空白区域进行黑色像素填充,以减少字体内部白色像素对划分的影响。这样对确定连通间域阈值的确定,有很大的帮助。

附图说明

图1为现有技术中文字识别的流程框图;

图2为本发明基于空白背景以及连通域的版面分析方法的流程示意图;

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。

实施例1

一种基于空白背景以及连通域的版面分析方法,如图2所示,包括:

(1)初步划分图像

先利用先验规律对图像进行划分,得到若干图块;

一般来讲,版面有一些普遍适用的先验规律,比如页脚页眉,右下角的页码数,不同板块之间常用空白区域隔开。

再采用霍夫变换方法检测出每个图块的空白直线,通过检测出的空白直线对每个图块进行划分,减少每个图块的空白区域;

例如:在传统的报刊、杂志中,存在垂直或水平的空白对文字进行分栏,可检测此种易检测的空白区域,根据即为横向投影数占图像宽度小于百分之十,可视为水平空白分割区域;

(2)拓展图像字区域

由于本发明采用的图像划分方法,需要通过投影得到阈值,进而进行模板操作,最终得到图像的文本区块。因此文字内部的空白像素,会对投影确定阈值造成影响。因此,很有必要通过一定的操作,消除字内部的空白像素。

判断通过步骤(1)获取的图像的每个像素点是否为外部点,如果判断该像素点i为外部点,不进行操作;如果判断为内部点,将其8-邻域全部填充为黑色,再次进行外部点检测,直到获取的图像中,所有的内部点其8邻域都已经被填充为黑色;

(3)拓展图像连通域

经过步骤(1)、步骤(2)操作之后,已经初步得到水平紧凑,内部充满的图块,需要进一步切分图像的文字区域。因此进行图像连通操作,即对字填充之后的图块进行模板操作。

a、输入经过步骤(2)处理后的任一图像p,对图像p进行横向投影、纵向投影,分别得到px和py两幅投影图;

b、确定先验阈值a和b,对px中任一行i、py中任一列j,若满足:pixelx(i)<a×p.width||pixely(j)<b×p.length,则认为i行或j列为空白行或空白列,并将空白行数或空白列数计入sr或sc,sr为某一空白行所占像素行数,sc为某一空白列所占像素列数;若是新出现的空白行或列,则同时计入wr或wc,wr为图像中空白的行的数量,wc为图像中空白的列的数量;新出现的行或列指与上一个空白像素行或列之间存在一非空白行或列;pixelx(i)为横向投影,pixely(j)为纵向投影,p.width为图像的像素宽度,p.length为图像的像素长度;a=b=10%。先验阈值a,b决定空白行列的判断依据,且由图像清晰程度进行决定,一般设为百分之十,以取得较好的效果,针对不同的采集设备,可通过实验,取得更好的先验阈值,以取得最佳效果。

c、求取sr和wr的比值,即平均连通阈值;

d、确认连通阈值之后,即通过高斯模糊拓展操作,对文本进行文本块连通操作;

(4)切分图像区块

对图像进行连通域填充之后,得到的图片中,存在文字的区域,都已经用黑色像素块连通了起来,此时可通过canny算子进行边缘提取,得到区块的边界。

e、将经过步骤(4)处理后的图片中所有像素值为黑色的点归为一个点集,从这个点集中选取任意一个点t,将点t加入一个新的子集s中,同时从原点集中删除点t;

f、搜索点t的8-邻域,从点t的8-邻域中的8个像素点中找到所有像素值为黑色的点加入到子集s中,并从子集s中删除点t,重复操作步骤f,直到子集s不再发生变化,此时子集s为某一区域的曲线边界的点集;

g、重复e操作,得到的每一个新子集都是一个区域的曲线边界的点集,直到某一次操作子集s中不存在任何的像素点,则切分图像区块结束,提取出来构成所有区块的曲线由子集的形式;

h、浏览所有曲线边界子集,找到子集中的点的左上角和右下角,根据这个值,进行区域的切割,左上角和右下角是界定将该区域完全包括的一个最小长方形区域,通过遍历子集中的点的横纵坐标进行比较获得所述区域。

本实施例采用一种改良过的连通域分割方法,即先将图像进行初步的基于空白背景的分割以减少计算量,再将字体内部的空白区域进行黑色像素填充,以减少字体内部白色像素对划分的影响。这样对确定连通间域阈值的确定,有很大的帮助。

实施例2

根据实施例1所述的一种基于空白背景以及连通域的版面分析方法,其区别在于,包括:

判断通过步骤(1)获取的图像的每个像素点是否为外部点,包括:扫描整幅图像,对于任意一个像素点i,取其8-邻域像素区域,标号为i1、i2、i3、i4、i5、i6、i7、i8,判断该像素点i是否为外部点,即α=(i1&&i2&&i3)||(i3&&i5&&i8)||(i6&&i7&&i8)是否为真,若为真,则判断该像素点i为外部点;若为假,则判断为内部点。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1