一种复杂背景图像文字分割方法

文档序号:6384908阅读:1054来源:国知局
专利名称:一种复杂背景图像文字分割方法
技术领域
本发明涉及图像处理领域中的图像分割技术,尤其涉及一种复杂背景图像文字分割方法。
背景技术
随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用,图像中信息越来越引起人们的关注,然而计算机理解图像的内容,目前还很困难。嵌入在图像中的文字,是图像语义内容的一种重要表达方式。如果能够自动提取和识别这些文字,就可以让机器自动理解图片内容并对图片进行分类,进而借助已经成熟的文本检索技术采用这些文字对图片进行标注和检索,从而为基于内容的图像和视频检索提供一种途径。然而,嵌入在图像中的文字通常都带有复杂背景,即使文本内容在图像中能被准确检测到,在没有去除背景 之前,现有的OCR系统难以识别出字符,因而在提交给OCR系统之前还需要一个文字分割过程。因此,如何从复杂背景图像中分割文本信息,成为以文字为线索来理解和检索图像内容的一个关键任务。现有的图像文字分割技术主要分为以下三类基于阈值的方法、基于聚类的方法和基于统计模型的方法。基于阈值的方法一般根据文字块中前景和背景的亮度分布自适应地选取一个全局阈值或自适应局部阈值。在图像背景比较单一时该类方法能取得较好的效果;当文字具有较复杂的背景,例如文字的灰度可能介于背景的多个灰度之间时,阈值法不再适用。基于聚类的方法一般首先假定文字块中所有像素根据颜色可以分为K类,文字像素对应于其中一类,其余各类均为背景;然后采用经典的无监督聚类算法对所有像素进行聚类。这类方法可用于复杂背景的情况。但当背景中含有与文字颜色相同或相近的成分时,这些成分会被误分入文字类,从而产生大量的残余背景,影响OCR识别。基于统计模型的方法首先为文字块内所有像素或者文字像素建立概率模型,一般根据颜色建立高斯混合模型(Gaussian Mixture Model, GMM),所有同色区域用一个Gaussian核函数表示。然后使用EM算法估计模型参数,最后根据最大似然准则确定每个区域的类别。由于单纯地利用了颜色信息,GMM模型存在着与聚类方法同样的问题,而且GMM核函数的个数难以确定。上述各种文字分割方法,只利用了图像底层局部的灰度或彩色信息,没有考虑到文字的空间或全局上下文信息。因而,对复杂背景中的文字分割效果不好。

发明内容
本发明的目的就是为了解决上述问题,提供一种复杂背景图像文字分割方法,根据复杂背景图像中文字信息的特点,融合图像底层的局部颜色、纹理特征和标签层全局特征,并采用由粗到精两级分割的方法,从而提高复杂背景图像文字分割的准确率。该方法对背景简单图像和背景复杂图像均具有较好的分割效果,具有一定的通用性和实用性。
为了实现上述目的,本发明采用如下技术方案一种复杂背景图像文字分割方法,主要包括以下步骤进行图像读取;对读取的图像进行文字区域读取;对读取的文字区域进行底层颜色特征抽取;对抽取过底层颜色特征的文字区域进行底层纹理特征抽取;对抽取出来的文字区域的底层颜色特征和底层纹理特征进行融合得到文字区域的底层局部特征;对文字区域的底层局部特征进行粗分类,然后在粗分类的结果上抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量进行训练得到第一级文字分割的分类器;用训练好的分类器对图像的特征分类,实现第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征,利用文字连通元与背景连通元的特征差异,进行连通元筛选,去除背景连通元,实现第二级文字分割;输出文字分割结果。一种复杂背景图像文字分割方法,具体步骤如下 步骤(I):开始,读取图像;步骤(2):将图像中的文字区域块提取出来,并将文字区域块保存到相应位置;步骤(3):判断是否所有的文字区域块提取完成,如果提取完成则进入步骤(4);如果未提取完成返回步骤(2);步骤(4):在RGB颜色空间抽取文字区域块中每个像素点的颜色特征,得到6维底层局部颜色特征;如果所有像素点的颜色特征抽取完毕就进入步骤(5);步骤(5):抽取文字区域块中每个像素点的纹理特征首先将文字区域块转换为灰度图像,然后在灰度图像上抽取Gabor纹理特征,每个像素点得到6维底层局部纹理特征;步骤(6):将6维颜色特征和6维纹理特征进行特征融合,得到12维图像底层局部特征;步骤(7):提取文字区域块的标签层全局特征。将步骤(6)得到的12维图像底层局部特征送入分类器训练,用训练好的分类器分别对文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3X3邻域属于文字类和背景类的概率密度作为标签层全局特征,每个像素点共得到18维标签层全局特征,如果所有的像素点标签层全局特征抽取完毕就进入步骤(8);步骤(8):判断是否所有像素点特征计算是否完成,如果完成则进入步骤(9);如果未完成则返回步骤(4);步骤(9):将12维图像底层局部特征和18维标签层全局特征进行融合,每个像素点得到一个30维特征向量;步骤(10):利用条件随机场模型对文字块中每个像素点30维特征向量进行训练,得到进行第一级文字分割的分类器;步骤(11):采用步骤(10)得到的分类器对文字区域中的像素进行分类,将文字区域块中的像素分为文字类和背景类,得到二值化的分割图像,实现文字区域的第一级粗分割;步骤(12):对二值化的粗分割图像进行连通元标定,采用4连通标定法;步骤(13):对步骤(12)标定好的每个连通元,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割。本发明主要利用文字连通元与背景连通元在尺度、颜色方面的特性差异去除背景连通元,得到最终的文字分割结果;步骤(14):输出文字分割结果。所述步骤(4)的颜色特征抽取方法为首先将彩色图像分解为R、G、B (红、绿、蓝)三个颜色通道,对每个像素点抽取相应的R、G、B颜色分量和8邻域像素R、G、B三个分量的均值。所述步骤(5)的Gabor纹理特征的抽取方法是
在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波,然后将滤波后的图像按照公式=max'j妒/W^1i进行合并,其中,i表示
J
尺度,j表示方向,gabor1表示尺度i的合并Gabor滤波图像,讲表示尺度i方向j上
的Gabor滤波图像,然后在滤波后的合并图像上抽取相应的纹理特征,抽取每个像素点的3X3邻域Gabor系数的均值和方差作为每个像素点的纹理特征。本发明采用3个尺度,在每个尺度上抽取2维Gabor特征,所以在3个尺度上共抽取6维Gabor特征。所述步骤(7)中,标签层全局特征的抽取方法为采用神经网络对训练文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3X3邻域属于文字类和背景类的概率密度作为标签层全局特征;因此,对于每个像素点可得到2X3X3=18维标签层全局特征。所述步骤(10)中,第一级文字分割中分类器采用的是条件随机场模型;所述条件随机场模型描述的图像的类条件概率密度为
P(FIX5X) = Iexp Σ^(^Χ) + ΣΣ^(^^ηΧ)
Z\_ieSteS jeN)ieS JeNi_其中,Vi(YilX)为图像底层一元势函数,Vij (yi)yj, X)为图像底层二元势函数,Gij(Yi, Yj, L)为标签层二元势函数。i, j为图像的像素点位置,y” Yj分别为图像像素点位置i,j处的类别标签,X为图像低层的特征向量,L为标签层的特征向量,Y为图像的类别标签,S为图像中所用像素点集合,Ni为像素点i的邻域像素集合,P (Y |X,L)为图像的类条件概率密度。分类器训练采用极大似然估计方法,对模型中的参数进行估计⑩=argniax<log
θ I V A-=IJj
ο其中Xk是第k个训练样本的底层特征,yk是Xk的类别标签,Ik为第k个训练样本的标签层特征,N是训练样本的数量,k e (I, 2,……N)。所述步骤(11)中,利用分类器的对文本进行第一级粗分割步骤是将步骤(9)训练出的模型参数带入第一级分割的分类器中,根据式K = a^Pix. 7Iv; I x^l),求每个像
IiG(U5I)
素点的最大边缘后验概率,式中式中Yi表示像素点位置i处的类别标签,Yi e (0,I),0表示背景类,I表示文字类,X为图像底层特征,L为图像标签层全局特征,然后根据最大边缘后验概率判断每个像素点的属于文字类还是背景类,最后得到文字区域块图像的第一级粗分割结果。所述步骤(13)中,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割,所用到的文字连通元与背景连通元在尺度、颜色方面的特性差异特征包括连通元的尺寸、连通元投影、连通元边界颜色渐变情况。本发明的有益效果本发明根据复杂背景图像中文字信息的特点,融合图像底层的局部颜色、纹理特征和标签层全局特征,采用由粗到精两级分割的方法,能够提高复杂背景图像中的文字分割的准确率。该方法对背景简单图像和背景复杂图像均具有较好的分割效果,具有一定的通用性和实用性。该发明的成果可直接应用于基于内容的图像检索,图像分类等领域,具有广阔的应用前景。


图I是本发明一种复杂背景图像文字分割方法方案流程图。
具体实施例方式下面结合附图与实施例对本发明作进一步说明。实现本发明的系统结构所需的基本的硬件条件为一台主频为2. 4GHZ,内存为IG的计算机,所需软件条件为编程环境为Visual C++6. O。一种复杂背景图像文字分割方法,具体步骤如下步骤(I):开始,读取图像;步骤(2):将图像中的文字区域块提取出来,并将文字块保存到相应位置;步骤(3):判断是否所有的文字区域块提取完成,如果提取完成则进入步骤(4);如果未提取完成返回步骤(2);步骤(4):在RGB颜色空间抽取文字区域块中每个像素点的颜色特征,得到6维底层局部颜色特征;如果所有像素点的颜色特征抽取完毕就进入步骤(5);步骤(5):抽取文字区域块中每个像素点的纹理特征,首先将文字区域块转换为灰度图像,然后在灰度图像上抽取Gabor纹理特征,每个像素点得到6维底层局部纹理特征;步骤(6):将6维颜色特征和6维纹理特征进行融合,得到12维图像底层局部特征;步骤(7):提取文字区域块的标签层全局特征,将12维图像底层局部特征送入分类器训练,用训练好的分类器分别对文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算该像素点属于文字类和背景类的概率密度,然后抽取每个像素点3X3邻域属于文字类和背景类的概率密度作为标签层全局特征,每个像素点共得到18维标签层全局特征,然后抽取标签层全局特征,每个像素点共得到18维标签层全局特征,所有的像素点标签层全局特征抽取完毕后进入步骤(8);步骤(8):判断是否所有像素点特征计算是否完成,如果完成则进入步骤(9);如果未完成则返回步骤(4);步骤(9):将12维图像底层局部特征和18维标签层全局特征进行融合,每个像素点得到一个30的维特征向量;步骤(10):利用条件随机场模型对文字块中每个像素点30维特征向量进行训练,得到用于第一级文字分割的分类器;步骤(11):采用步骤(10)得到的分类器对文字区域中的像素进行分类,将文字区域块中的像素分为文字类和背景类,得到二值化的分割图像,实现文字区域的第一级粗分割;步骤(12):对粗分割的二值化图像进行连通元标定,采用4连通标定法;步骤(13):对步骤(12)标定好的每个连通元,抽取连通元特征,然后采用阈值分类 器删除背景连通元,实现文字区域的第二级分割。本发明主要利用文字连通元与背景连通元在尺度、颜色方面的特性差异去除背景连通元,得到最终的文字分割结果;步骤(14):输出文子分表I]结果。所述步骤(4)的颜色特征抽取方法为首先将图像分解为R、G、B三个颜色通道,对每个像素点抽取相应的R、G、B颜色分量和8邻域像素R、G、B三个分量的均值。所述步骤(5)的Gabor纹理特征的抽取方法是在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波,然后将滤波后的图像按照公式gabof =进行合并其中i表示尺
度,j表示方向,gabor1表示尺度i的合并Gabor滤波图像,表示尺度i方向j上
的Gabor滤波图像,然后在滤波后的合并图像上抽取相应的纹理特征,抽取每个像素点的3X3邻域Gabor系数的均值和方差作为每个像素点的纹理特征。本发明采用3个尺度,在每个尺度上可抽取2维Gabor特征,所以在3各尺度上共抽取6维Gabor特征。步骤(5-1):首先将彩色图像转换为灰色图像;步骤(5-2):在灰度图像上用同一频率Gabor滤波器分别在8个方向(O。、30°、45°、60°、90°、120°、135°、150° )和3个尺度上进行滤波(滤波尺度分别为6X6,8X8,10X10);步骤(5-3):对每个尺度Gabor滤波后的输出图像,采用如下公式获得合并滤波图像gabor'' = max | gabor]},其中i表示尺度,j表示方向,gabor1表示尺度i的合并Gabor滤波图像表示尺度i方向j上的Gabor滤波图像。步骤(5-4):对于每幅图像,在每个尺度上可获得一幅合并Gabor滤波图像。在合并的Gabor滤波图像上对每个像素点的3X3邻域抽取相应的纹理特征。步骤(5-5):在每个像素点的3X3邻域抽取Gabor系数均值和方差作为每个像素点的纹理特征。在每个尺度上可抽取2维Gabor特征,所以在3各尺度上共抽取6维Gabor特征。所述步骤(7)中,标签层全局特征的抽取方法为采用神经网络对训练文字区域块中的每个像素点进行分类,得到文字区域的整体粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3X3邻域对于文字类和背景类的概率密度作为标签层全局特征。因此,对于每个像素点可得到2X3X3=18维标签层全局特征。步骤(7-1):首先初始化神经网络,神经网络的输入节点数目为图像底层颜色、纹理特征的数目,共12维;输出结点数目为该像素属于文本和非文本的条件概率密度,为2维;隐层节点数为15 ;初始化权值采用-I和+1之间的随机数。步骤(7-2):用训练样本训练神经网络,求出神经网络的参数。步骤(7-3):用训练好的神经网络对样本中的每个像素点进行分类,得到像素点属 于文字类和背景类的概率密度。步骤(7-4):对于每个像素点,统计其3X3邻域对于文字类和背景类的概率密度作为标签层全局特征。因此,对于每个像素点可得到2X3X3=18维标签层全局特征。所述步骤(10)中,第一级文字分割中所用的分类器的训练步骤是将30维特征作为输入的学习样本,则用于第一级分类的条件随机场模型可表示为
权利要求
1.一种复杂背景图像文字分割方法,其特征是,主要包括以下步骤进行图像读取;对读取的图像进行文字区域读取;对读取的文字区域进行底层颜色特征抽取;对抽取过底层颜色特征的文字区域进行底层纹理特征抽取;对抽取出来的文字区域的底层颜色特征和底层纹理特征进行融合得到文字区域的底层局部特征;对文字区域的底层局部特征进行粗分类,然后在粗分类的结果上抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量进行训练得到用于第一级文字分割的分类器;用训练好的分类器对图像的特征分类,实现第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征,利用文字连通元与背景连通元的特征差异,进行连通元筛选,去除背景连通元,实现第二级文字分割;输出文字分割结果。
2.如权利要求I所述的一种复杂背景图像文字分割方法,其特征是,具体步骤如下 步骤(I):开始,读取图像; 步骤(2):将图像中的文字区域块提取出来,并将文字块保存到相应位置; 步骤(3):判断是否所有的文字区域块提取完成,如果提取完成则进入步骤(4);如果未提取完成返回步骤(2); 步骤(4):在RGB颜色空间抽取文字区域块中每个像素点的颜色特征,得到6维局部颜色特征;如果所有像素点的颜色特征抽取完毕就进入步骤(5); 步骤(5):抽取文字区域块中每个像素点的纹理特征首先将文字块转换为灰度图像,然后在灰度图像上抽取Gabor纹理特征,每个像素点得到6维纹理特征; 步骤(6):将6维颜色特征和6维纹理特征进行特征融合,得到12维图像底层局部特征; 步骤(7):提取文字区域块的标签层全局特征将步骤(6)得到的12维图像底层局部特征送入分类器训练,用训练好的分类器分别对文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取每个像素点3X3邻域属于文字类和背景类的概率密度作为标签层全局特征,每个像素点共得到18维标签层全局特征,如果所有的像素点标签层全局特征抽取完毕就进入步骤(8); 步骤(8):判断是否所有像素点特征计算是否完成,如果完成则进入步骤(9);如果未完成则返回步骤(4); 步骤(9):将12维图像底层局部特征和18维标签层全局特征进行融合,每个像素点得到一个30维的特征向量; 步骤(10):利用条件随机场模型对文字块中每个像素点30维特征进行训练,得到用于第一级分割的分类器; 步骤(11):采用步骤(10)得到的分类器对文字区域中的像素进行分类,将文字区域块中的像素分为文字类和背景类,得到二值化的分割图像,实现文字区域的第一级粗分割;步骤(12):对二值化的粗分割图像进行连通元标定,采用4连通标定法; 步骤(13):对步骤(12)标定好的每个连通元,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割; 步骤(14):输出文字分割结果。
3.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(4)的颜色特征抽取方法为 首先将图像分解为R、G、B三个颜色通道,对每个像素点抽取相应的R、G、B颜色分量和8邻域像素R、G、B三个分量的均值。
4.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(5)的Gabor纹理特征的抽取方法是 在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波,然后将滤波后的图像按照公式
5.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(7)中,标签层全局特征的抽取方法为采用神经网络对训练文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3X3邻域属于文字类和背景类的概率密度作为标签层全局特征。
6.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(10)中,第一级文字分割的分类器采用的是条件随机场模型;所述分类器训练采用极大似然估计方法,对模型中的参数进行估计。
7.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(11)中,利用第一级文字分割分类器对文本进行粗分割步骤是将步骤(10)训练出的模型参数带入第一级文字分割的分类器中,根据式
8.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(13)中,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割,所用到的文字连通元与背景连通元在尺度、颜色方面的特性差异特征包括连通元的尺寸、连通元投影、连通元边界颜色渐变情况。
全文摘要
本发明公开了一种复杂背景图像文字分割方法,主要包括以下步骤进行图像读取;对读取的图像进行文字区域读取;对文字区域抽取底层颜色特征和底层纹理特征;对抽取出来的底层颜色特征和底层纹理特征进行融合得到底层局部特征;抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量训练得到第一级分割的分类器;用训练好的分类器进行第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征进行第文字分割;输出文字分割结果。本发明提高复杂背景图像中文字分割的准确率;具有一定的通用性和实用性。
文档编号G06K9/62GK102968637SQ201210560199
公开日2013年3月13日 申请日期2012年12月20日 优先权日2012年12月20日
发明者柏猛, 李敏花, 吕英俊 申请人:山东科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1