文字区域检测方法及装置与流程

文档序号:14872012发布日期:2018-07-07 00:45阅读:206来源:国知局

本申请涉及印刷或书写字符识别领域,尤其涉及文字区域检测方法及装置。



背景技术:

随着计算机技术的发展,图像中信息越来越引起人们的关注,文字识别技术应运而生,图像中的文字识别技术得到广泛的应用。

在文字识别中,文字包含丰富的边缘信息,并且文字区域通常具有相似笔画宽度,笔画之间的宽度也不会差别很多。这些都是区分文字区域和非文字区域的重要特征。

目前图像文字检测方法主要分为:基于文本边缘的方法、基于连通区域的方法、基于纹理的方法、和基于人工智能的方法。

基于边缘的文本定位方法,利用字符具有丰富的边缘信息进行检测,可以有效地检测到字符的边缘,具有计算量小、速度快的优点。但是复杂背景的边缘影响文本的准确定位。

基于连通域的文本定位方法认为文本区域具有一致的颜色,利用字符颜色与背景有一定的对比度这一特征分割图像,然后对分割后的图像进行连通域分析。适用于文本和背景比较单一、字符颜色一致、光照均匀的图像,但对复杂、分辨率低、噪声高的图像效果很差。

基于纹理的文本定位方法稳定性高,能检测复杂背景、对比度小、噪声大的文本,但是计算量大、算法复杂性高,比较耗时,对文本的风格、大小比较敏感。

基于人工智能的文本定位方法,其检测的效果严重依赖于特征值的提取和分类器的训练样本,很难训练出一个通用的适合所有图像的分类器。

swt(strokewidthtransforms)图像文本定位算法,通过边缘检测,提取图像的边缘及边缘的梯度方向。遍历边缘图像的每一个像素,根据边缘像素的梯度方向,查找其梯度方向相反、角度大致一样的像素,形成像素对。像素对间的宽度即为当前像素的笔画宽度。然后将相邻的、笔画宽度相近的像素点合并,形成连通域。swt算法有以下缺点:1)由于该算法是针对拉丁文设计的,而汉字与拉丁文有很大的区别,因此对中文的检测效果不理想;2)计算量大,对较大的图像检测时间长;3)该算法中笔画宽度只使用边缘像素对之间的欧氏距离作为当前笔画宽度,而没有考虑边缘像素点的灰度对笔画宽度的影响,精度低。



技术实现要素:

为了克服现有技术中存在的不足,本发明要解决的技术问题是提供一种计算量较小但准确率和效率较高的文字区域检测方法及装置。

为解决上述技术问题,本发明的文字区域检测方法,包括:

构建一组半径连续的局部二值模式lbp算子r表示lbp算子以被检测点为圆心所覆盖的圆形区域的半径,n表示分布在所述圆形区域的圆周上的采样点个数;

使用所述lbp算子检测所述图像中的稳定特征点,所述特征点包括端点、角点和边缘;

基于所述特征点形成候选文字区域。

作为本发明所述方法的改进,所述使用所述lbp算子检测所述图像中稳定的特征点包括:遍历图像点p,依次使用所述lbp算子中的每一lbp算子计算得到一组lbp特征值;根据所述lbp特征值确定图像点p是否为特征点。

作为本发明所述方法的另一种改进,所述方法还包括:基于边缘特征点对所述候选文字区域进行笔画宽度检测;根据笔画宽度确定所述候选文字区域是否是文字图像区域。

作为本发明所述方法的又一种改进,所述方法还包括:根据文字图像区域的端点和角点对所述文字图像区域进行分割,得到单个文字矩形区域。

作为本发明所述方法的进一步改进,所述半径r∈{1…4}像素,所述采样点数n=8、16、16、32。

为解决上述技术问题,本发明的文字区域检测装置,包括:

构建模块,用于构建一组半径连续的局部二值模式lbp算子r表示lbp算子以被检测点为圆心所覆盖的圆形区域的半径,n表示分布在所述圆形区域的圆周上的采样点个数;

特征点检测模块,用于使用所述lbp算子检测所述图像中的稳定特征点,所述特征点包括端点、角点和边缘;

形成模块,用于基于所述特征点形成候选文字区域。

作为本发明所述装置的改进,所述检测模块包括:计算子模块,用于遍历图像点p,依次使用所述lbp算子中的每一lbp算子计算得到一组lbp特征值;特征点确定子模块,用于根据所述lbp特征值确定图像点p是否为特征点。

作为本发明所述装置的另一种改进,所述装置还包括:笔画宽度检测模块,用于基于边缘特征点对所述候选文字区域进行笔画宽度检测;文字区域确定模块,用于根据笔画宽度确定所述候选文字区域是否是文字图像区域。

作为本发明所述装置的又一种改进,所述装置还包括分割模块,用于根据文字图像区域的端点和角点对所述文字图像区域进行分割,得到单个文字矩形区域。

为解决上述技术问题,本发明的有形计算机可读介质,包括用于执行本发明的文字区域检测方法的计算机程序代码。

为解决上述技术问题,本发明提供一种装置,包括至少一个处理器;及至少一个存储器,含有计算机程序代码,所述至少一个存储器和所述计算机程序代码被配置为利用所述至少一个处理器使得所述装置执行本发明的文字区域检测方法的至少部分步骤。

本发明针对基于边缘特征提取到的文字虚警过多以及基于联通区域检测文字效率低下而不利于对大量图像数据进行文字区域的快速准确定位的问题,提出基于lbp算子检测特征点的文字检测方法。

lbp算子最重要的属性是对诸如光照变化等造成的灰度变化的鲁棒性,另外一个重要特性是它的计算简单。所以,本发明没有基于边缘检测那样需要大量的计算,也不会因为图像的质量而产生大量假边缘的问题。通过一组半径连续的lbp算子可以求得连续不同尺度(半径)下的特征值,通过分析得到在不同尺度下都稳定的特征点,解决了单一尺度下lbp特征不稳定的问题。此外,基于稳定的特征点实现文字区域定位,没有基于边缘定位的计算量大、虚警多的问题,提高了准确率和效率。

结合附图阅读本发明实施方式的详细描述后,本发明的其它特点和优点将变得更加清楚。

附图说明

图1为根据本发明方法的一实施例的流程图。

图2示出了采样点排列方式。

图3示出了特征点的特征模式。

图4示出了笔画横的角点的采样点分布图。

图5示出了笔画横的端点的采样点分布图。

图6和图7示出了笔画横的边缘的采样点分布图。

图8为根据本发明装置的一实施例的结构示意图。

为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。

具体实施方式

下面参照附图对本发明的实施方式和实施例进行详细说明。

通过下面给出的详细描述,本发明的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。

局部二值模式(localbinarypatterns,lbp)是一种用来描述图像局部特征的算子,它具有旋转不变性和灰度不变性的显著特点,已经广泛应用于纹理分类、纹理分割、人脸图像分析等领域。局部二值模式(lbp)首先是用来做图像局部特征比较的。传统的lbp方法通过阈值来标记中心点像素与其邻域像素之间的差别。

图1示出了根据本发明的文字区域检测方法的一实施例的流程图。

在步骤s102,对获取的待识别图像进行预处理,例如进行图像倾斜校正以校正图像、使用高斯滤波去图像的噪声等。目前倾斜校正的算法比较成熟,这里可以采用基于hough变换的方法,求解出图像的仿射矩阵,对图像进行仿射变换。

在步骤s104,将彩色图像转换为灰度图像,得到图像的亮度信息。目前彩色转灰度的算法比较成熟,这里可以采用公式:亮度值(灰度)l=0.30×r值+0.59×g值+0.11×b值进行转换。

在步骤s106,构建算子序列。分别构建半径r为1、2、3、4像素,采样点数n为8、16、16、32的lbp算子采样点排列方式如图2中所示。中文文字具有丰富的边缘、角点信息,针对中文文字横、竖、撇、捺等笔画的特点,采样点的排列位置使得lbp算子对笔画中重要的横和竖笔画比较敏感。通过一组半径连续的算子可以在不同尺度上对图像进行检测,基于连续不同尺度(半径)下的lbp特征值,得到在不同尺度(半径)下都具有相同特征的特征点(端点、角点和边缘)。

lbp算子根据采样点方位,将圆周360°均分成n个方向区间,lbp算子的精度ε=360°/n,lbp特征值是长度为n位的无符号整数。

图像点p基于算子,有x∈{1…n}个采样点均匀分布在以p为圆心、以r为半径的圆周上。中心点p的亮度值ip,采样点x的亮度值ix,m为点p相似点的灰度变换范围。每个采样点标记为l(p,x)

依次将采样点的l(p,x)链接成二进制数,将循环二进制数转换为无符号整数,得到点p基于算子的特征值。

采样点根据灰度ix划分为前景点、背景点和相似点,本质上是根据图像当前点p的灰度ip和阈值m,对算子采样点集合进行二值化分割。将采样点分为前景(前景点和相似点)区域和背景(背景点)区域,其中相似点是前景(点)向背景(点)的边缘过渡部分。

lbp特征值的循环二进制数,设由0→1或1→0跳变次数为k。在跳变过程中,标记为1的采样点为边缘采样点。根据跳变次数k,二进制数0、1排列方式选取三种特征模式:端点、角点和边缘模式,如图3中所示。

lbp算子采样点的排列分布方式(参见图2),使得算子对中文的最重要的笔画即横和竖比较敏感,得到的特征值也比较准确。例如典型笔画横的角点(见图4),lbp特征值的无符号二进制数,0000,0111;0000,0000,0001,1111;0000,0000,0000,0000,0000,0001,1111,1111。类似地,横的端点,参见图5;横的边缘,参见图6、图7)。

采样点灰度可以通过相邻像素灰度进行二次插值计算得到。为了提高速度可以通过提前根据参数,计算出灰度0~255对应值的列表。这样计算采样点灰度进行插值运算时,就只要通过查表和位运算近似得到。

在步骤s108,遍历图像点p,依次使用算子计算lbp特征值,判断点p是否为特征点,即是否为端点、角点或边缘中的一种。

点p的lbp特征是边缘模式(详见图6、图7)需满足以下条件:

a1)位于前景区域内的连续分布采样点所覆盖的角度区域为a,其夹角约为180°。

a2)lbp算子间前景区域所覆盖的角度区域分布稳定,且δa<ε。

a3)根据点p处的笔画宽度w和lbp算子的半径r,分为两种情况:当r<w,其跳变次数k=2(分别只有一个连续分布的前景和背景区域);否则当r≥w,其跳变次数k≥4。

点p的lbp特征是端点或角点模式(详见图4、图5)需满足条件:

b1)lbp算子的跳变次数k=2(分别只有一个连续分布的前景和背景区域)。

b2)lbp循环二进制数连续标记为0、1的长度分别为len0和len1,有len0>len1,即连续标记为1的采样点所覆盖的角度区域(前景区域)a的夹角<180°。

b3)当特征为角点模式时,算子间标记为1的采样点(即位于前景区域的采样点),所覆盖的角度区域a分布稳定,且δa<ε(详见图4)。

b4)当特征为端点模式时,点p处笔画宽度为w。算子间连续标记为1的采样点所覆盖的角度区域a分布不连续,在半径r=w-1,w间,δa会出现最小值,有δa>ε。当lbp算子的半径r<w时,算子间标记为1的采样点,所覆盖的角度区域a0分布稳定,有δa0<ε;否则当lbp算子的半径r≥w时,算子间标记为1的采样点,所覆盖的角度区域a1稳定,有δa0<ε;且|a1|<|a0|(详见图5)。

求角点的特征向量v(见图4)。根据起点p对各个lbp算子的两侧边缘采样点进行拟合,得到向量v1、v2。角点的特征向量v=v1+v2,代表着此处笔画的运笔的反方向,由角点指向笔画的起笔方向。

求端点的特征向量v(见图5)。找到lbp算子连续分布最长的一组最外侧采样点,根据起点p和得到的采样点进行拟合得到向量v1。端点的特征向量v=v1,代表着此处笔画的运笔的反方向,由端点指向笔画的起笔方向。

当相邻角点和端点特征点,满足间距d<2且特征向量夹角delta<15°,对相邻特征点进行合并。首先判断待合并特征点特征值是否含有符合典型笔画横和竖的特征点,是则直接采用此特征点(特征向量)作为合并后特征点(特征向量);否则为了简化算法,直接对待合并特征点(特征向量)取均值作为合并后的特征点和特征向量。

在该步骤中,通过一组lbp算子检测图像中稳定的特征点。遍历图像点p,依次使用该组lbp算子,得到一组lbp特征值,在不同尺度(半径)下lbp特征保持稳定,则点p是稳定特征点。根据lbp特征值无符号二进制数的0,1的排列方式来选取三种特征模式:端点、角点和边缘模式。通过一组lbp算子提取lbp特征,相当于在不同尺度下对点p提取lbp特征,当该组提取所有lbp特征稳定,则点p是稳定的特征点。这解决了单纯使用lbp算子,只能覆盖固定半径的小区域,不稳定的缺点。

在步骤s110,对特征点(角点、端点和边缘)进行膨胀链接处理得到候选文字区域。根据稳定的特征点来初始定位文字区域,避免了基于边缘文本定位中边缘信息复杂,虚警多的缺点。

根据本发明方法的一种实施方式,所述方法还可包括根据文字的几何特征(如长宽比)和纹理特征(颜色)对候选文字区域进行筛选,以去除明显不是文字区域的候选文字区域。

根据本发明方法的一种实施方式,所述方法还可包括基于边缘特征点对候选文字区域进行笔画宽度检测,以确定文字图像区域。

1.如果边缘特征点p,存在最小半径r的lbp算子,其由0→1或1→0的跳变次数k≥4,则点p处笔画宽度w=r(当w≤4时,可以根据lbp特征值直接得出)。遍历该区域得到特征点p的集合ap。

2.集合ap,占所有边缘特征点比例为则直接采用ap代表该区域所有边缘特征点,进行第5步笔画宽度检测。

3.如果不满足第2步,则对该区域按照比例1:2进行等比例下采样,缩小到原尺寸的一半,得到新图像区域。如果新图像区域的长、宽<sizemin,(sizemin=30,可根据实际情况设定)则终止本次笔画宽度检测,该区域不是文字图像区域。

4.对新图像区域进行边缘特征点检测,然后重复以上检测步骤。

5.计算该区域所有笔画宽度w的方差σ,如果方差σ<t(阈值t取值范围50~80,可根据实际情况设定),则该区域为文字图像区域,否则为非文字区域,笔画宽度检测结束。

基于lbp边缘特征点的笔画宽度检测,当笔画宽度w<lbp算子的半径r时,可以根据lbp特征值,直接求得边缘特征点处的笔画宽度。lbp特征值求笔画宽度结合对检测区域进行降采样处理,可以很好地对检测区域进行笔画宽度检测。解决了一般笔画宽度检测算法需要对图像进行边缘检测、边缘点需要进行匹配成像素对的搜索过程,这些都需要大量的计算和图像遍历。

根据本发明方法的一种实施方式,所述方法还可包括对文字图像区域进行文字分割,得到具有相似宽度和高度的单个文字矩形区域。具体地,

遍历该区域端点或角点,其特征向量v,始终由外(边缘)侧指向文字的内侧。特征向量v在水平方向的投影为vx,在竖直方向的投影为vy。

对文字图像区域进行水平分割时,左右相邻两文字中间待分割区域内,分别属于两个文字的特征点的特征向量的vx,方向相反。左侧文字特征向量vx指向左侧,右侧文字特征向量vx指向右侧,根据这个特征进行水平分割。

同理,对文字图像区域进行竖直分割时,上下相邻两文字中间待分割区域内,分别属于两个文字的特征点的特征向量的vy方向是相反的。上面文字的特征向量vy指向上方,下面文字特征向量vy指向下方,根据这个特征进行竖直分割。

根据同一区域内文字矩形区域具有相似的长度、宽度的特点,对前面得到的备选分割位置进行筛选(分割线间距离大致相等),最终实现对文字区域进行精确的分割。

文字间区域有大量的端点和角点,并且文字间相邻角点和端点特征向量方向相反。根据端点和角点的特征向量对文字区域可以进行准确分割。

图8示出了根据本发明的文字区域检测装置的一实施例的结构示意图。该实施例的装置包括:构建模块802,用于构建一组半径连续的局部二值模式lbp算子r表示lbp算子以被检测点为圆心所覆盖的圆形区域的半径,n表示分布在所述圆形区域的圆周上的采样点个数;特征点检测模块804,用于使用所述lbp算子检测所述图像中的稳定特征点,所述特征点包括端点、角点和边缘;形成模块806,用于基于所述特征点形成候选文字区域;笔画宽度检测模块808,用于基于边缘特征点对所述候选文字区域进行笔画宽度检测;文字区域确定模块810,用于根据笔画宽度确定所述候选文字区域是否是文字图像区域;分割模块812,用于根据文字图像区域的端点和角点对所述文字图像区域进行分割,得到单个文字矩形区域。

根据本发明装置的一种实施方式,所述检测模块包括:计算子模块,用于遍历图像点p,依次使用所述lbp算子中的每一lbp算子计算得到一组lbp特征值;特征点确定子模块,用于根据所述lbp特征值确定图像点p是否为特征点。

在此所述的多个不同实施例或者其特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。另外,在某些情形下,只要适当,流程图中和/或流水处理描述的步骤顺序可修改,并不必须精确按照所描述的顺序执行。另外,本发明的多个不同方面可使用软件、硬件、固件或者其组合和/或执行所述功能的其它计算机实施的模块或装置进行实施。本发明的软件实施可包括保存在计算机可读介质中并由一个或多个处理器执行的可执行代码。计算机可读介质可包括计算机硬盘驱动器、rom、ram、闪存、便携计算机存储介质如cd-rom、dvd-rom、闪盘驱动器和/或例如具有通用串行总线(usb)接口的其它装置,和/或任何其它适当的有形或非短暂计算机可读介质或可执行代码可保存于其上并由处理器执行的计算机存储器。本发明可结合任何适当的操作系统使用。

除非明确指出,在此所用的单数形式“一”、“该”均包括复数含义(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。

前面说明了本发明的一些优选实施例,但是应当强调的是,本发明不局限于这些实施例,而是可以本发明主题范围内的其它方式实现。本领域技术人员可以在本发明技术构思的启发和不脱离本发明内容的基础上对本发明作出各种变形和修改,这些变形或修改仍落入本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1