基于直方图和超像素的场景图像文字检测方法及系统的制作方法

文档序号:6544733阅读:156来源:国知局
基于直方图和超像素的场景图像文字检测方法及系统的制作方法
【专利摘要】本发明涉及基于直方图和超像素的场景图像文字检测方法,包括:步骤1:对目标图片中可能存在的文字的笔画宽度值进行估计,基于笔画宽度值生成一个笔画直方图;步骤2:对目标图片进行边缘检测,进行比对和修正,得到边缘检测质量最高的连通域;步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素估算高精度笔画宽度;步骤4:根据高精度笔画宽度过滤字符与非字符;步骤5:通过连通域的空间分布利用几何约束进一步过滤字符与非字符,过滤文本行和非文本行;步骤6:完成对目标图片中对字符和文本行的检测。本发明提出一种高速和高精度的笔画宽度计算方法,以提高文字与非文字连通域过滤的精度和效率。
【专利说明】基于直方图和超像素的场景图像文字检测方法及系统
【技术领域】
[0001]本发明涉及基于直方图和超像素的场景图像文字检测方法及系统,属于信息安全和计算机视觉领域。
【背景技术】
[0002]近年来,随着内置相机的移动设备的增加,各类在自然场景中拍摄的照片数量成爆炸性增长。很多非常有价值的应用,例如:基于文字信息的图片查询、智能驾驶辅助、视力障碍人员的阅读辅助和场景的理解等,都依赖于从图片中获取文字信息的方法。因此,自然场景中的文字提取与识别作为处理这种新数据来源的核心问题,成为近年来计算机视觉研究的热点话题。
[0003]文字检测方法包括基于连通域分析的方法和基于滑动窗口的方法。基于连通域分析的方法通过对图片中的连通域进行分析,并通过对文字空间分布约束及几何特性来过滤字符和非字符。Epshtein等[I]提出使用边缘检测算法提取出图片中的边缘,并利用梯度信息等来计算这些边缘组成区域的“笔画”宽度来做为分类依据;在Epshtein工作的基础上,黄鞾林等[2]提出在计算“笔画”宽度时需要保持“笔画”的颜色一致性,以及使用协方差描述符来对检测到的文本行和字符进行过滤。另一类文字检测的算法主要是通过滑动窗口实现的,例如Cunzhao Shi等[3]提出的使用梯度直方图来构造基于部件的树结构文字检测算法Jung等[4]提出的使用笔画滤波器来进行多尺度的文字检测。与基于滑动窗口的方法相比,基于连通域的方法计算复杂度低,但是比较依赖于边缘检测的质量,在光照复杂和图片质量较低的环境中效果略差。由于场景图像中的文字颜色和字体等的种类、变化较多,并且基于滑动窗口的方法需要在多个尺度对图像基于分析,因此,该方法计算复杂度较高,而且常常需要一个大的训练集对分类器进行训练。在基于连通域分析的方法中,基于“笔画”宽度的算法由于其简单性和有效性获得了很多关注,并且出现了一些对该算法的改进算法。然而,在文字受到部分遮挡或噪音较多的情况下,受边缘检测和梯度估算的精确度的影响,这些算法的性能依然不是十分理想。

【发明内容】

[0004]本发明所要解决的技术问题是,针对现有技术使用超像素修正在复杂环境中边缘检测失效的不足,提供一种提高检测算法的召回率和准确率的基于笔画宽度直方图和超像素的场景图像文字检测方法。
[0005]本发明解决上述技术问题的技术方案如下:基于直方图和超像素的场景图像文字检测方法,具体包括以下步骤:
[0006]步骤1:对目标图片中可能存在的文字宽度值进行估计得到笔画宽度值,基于笔画宽度值生成一个笔画直方图;
[0007]步骤2:将笔画直方图中的笔画宽度值设置为超像素的步长参数;对目标图片进行边缘检测,将上述设定了步长参数的超像素与边缘检测的结果进行比对和修正,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域;
[0008]步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度;
[0009]步骤4:根据高精度笔画宽度对目标图片进行过滤,区分字符与非字符,得到字符;
[0010]步骤5:通过连通域的空间分布利用几何约束进一步对得到的字符进行过滤,得到精准字符,并基于精准字符区分目标图片中文本行和非文本行,得到文本行;
[0011]步骤6:完成对目标图片中对精准子符和文本彳丁的检测。
[0012]本发明的有益效果是:本发明针对文字检测问题中的文字的边缘特性提高边缘检测质量;提出一种高速和高精度的笔画宽度计算方法,以提高文字与非文字连通域过滤的精度和效率。
[0013]在上述技术方案的基础上,本发明还可以做如下改进。
[0014]进一步,还包括步骤7:统计文本行中各个精准字符之间的距离值,设定词内的字符距离阈值和词间距离阈值;
[0015]步骤8:根据字符距离阈值和词间距离阈值对文本行分割为精准字符。
[0016]采用上述进一步方案的有益效果是,根据字符距离阈值和词间距离阈值对文本行分割为字符后,可以为后续的字符识别提供便利。
[0017]进一步,所述步骤5中所述的几何约束包括笔画宽度一致性、宽高比、连通域之间
的重叠性等。
[0018]进一步,步骤I具体包括以下步骤:
[0019]步骤1.1:使用Canny边缘检测算子计算得到目标图片中的多个边缘像素;使用Sobel算子计算得到目标图片的梯度值;得到目标图片中所有边缘像素的梯度值;
[0020]步骤1.2:以一个边缘像素为基准边缘像素,向基准边缘像素的梯度方向进行搜索所有存在的边缘像素;判断是否存在与基准边缘像素成对的映射边缘像素,如果存在,执行步骤1.3 ;否则,删除此作为基准边缘像素的边缘像素,返回执行步骤1.2 ;
[0021]步骤1.3:判断映射边缘像素的梯度值与基准边缘像素梯度值差值是否在150度到210度之间,如果是,执行步骤1.4 ;否则,删除此作为基准边缘像素的边缘像素,返回执行步骤1.2 ;
[0022]步骤1.4:计算映射边缘像素与基准边缘像素之间的距离得到笔画宽度值;
[0023]步骤1.5:判断是否还存在边缘像素,如果存在,返回执行步骤1.2 ;否则,执行步骤 1.6 ;
[0024]步骤1.6:基于步骤1.4得到的笔画宽度值生成笔画直方图。
[0025]进一步,步骤2具体包括以下步骤:
[0026]步骤2.1:选择笔画直方图中频率较大的几个笔画宽度值作为超像素的搜索步长值;
[0027]步骤2.2:查找得到间隔大小为搜索步长值的格点,选择该格点附近梯度最小的位置作为超像素的初始质心;
[0028]步骤2.3:迭代执行步骤2.1和2.2,更新并计算出各个超像素在图片上的实际质心和边界;[0029]步骤2.4:降低Canny边缘检测算子的阈值,检测图片的新的大范围边缘;
[0030]步骤2.5:将大范围边缘与超像素的边界进行比对和修正,对修正后的大范围边缘去除与当前笔画宽度不同的干扰,得到满足笔画宽度规律的图片的大范围边缘;
[0031]步骤2.6:对图片的大范围边缘进行连通域分析,计算大范围边缘的欧式距离变换图(采用现有技术中的距离变换为图像的常用算法进行计算),得到在此笔画宽度值的情况下,边缘检测质量最高的连通域。
[0032]进一步,所述步骤3具体为:使用Sobel算子计算欧式距离变换图的梯度,将其中梯度接近零的像素设为骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度。
[0033]本发明所要解决的技术问题是,针对现有技术使用超像素修正在复杂环境中边缘检测失效的不足,提供一种提高检测算法的召回率和准确率的基于笔画宽度直方图和超像素的场景图像文字检测系统。
[0034]本发明解决上述技术问题的技术方案如下:基于直方图和超像素的场景图像文字检测系统,包括:估计模块、边缘检测模块、骨架化模块、过滤模块和二次过滤模块;
[0035]所述估计模块对目标图片中可能存在的文字宽度值进行估计得到笔画宽度值,基于笔画宽度值生成一个笔画直方图,并将笔画直方图发送到边缘检测模块;
[0036]所述边缘检测模块将笔画直方图中的笔画宽度值设置为超像素的步长参数;对目标图片进行边缘检测,将上述设定了步长参数的超像素与边缘检测的结果进行比对和修正,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域;并将得到的连通域发送到骨架化模块;
[0037]所述骨架化模块对连通域进行骨架化,得到骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度,并将高精度笔画宽度发送到过滤模块;
[0038]所述过滤模块根据高精度笔画宽度对目标图片进行过滤,区分字符与非字符,得到字符;
[0039]所述二次过滤模块通过连通域的空间分布利用几何约束进一步对得到的字符进行过滤,得到精准字符,并基于精准字符区分目标图片中文本行和非文本行,得到文本行。
[0040]本发明的有益效果是:本发明针对文字检测问题中的文字的边缘特性提高边缘检测质量;提出一种高速和高精度的笔画宽度计算方法,以提高文字与非文字连通域过滤的精度和效率。
[0041]在上述技术方案的基础上,本发明还可以做如下改进。
[0042]进一步,还包括统计模块和分割模块;
[0043]所述统计模块用于统计文本行中各个精准字符之间的距离值,设定词内的字符距离阈值和词间距离阈值;
[0044]所述分割模块根据字符距离阈值和词间距离阈值对文本行分割为精准字符。
[0045]进一步,所述二次过滤模块中所述的几何约束包括笔画宽度一致性、宽高比、连通域之间的重叠性等。
[0046]进一步,所述估计模块包括:梯度模块、搜索成对模块、搜索映射模块和计算模块;
[0047]所述梯度模块使用Canny边缘检测算子计算得到目标图片中的多个边缘像素;使用Sobel算子计算得到目标图片的梯度值;得到目标图片中所有边缘像素的梯度值;
[0048]所述搜索成对模块以一个边缘像素为基准边缘像素,向基准边缘像素的梯度方向进行搜索所有存在的边缘像素;搜索与基准边缘像素成对的映射边缘像素;
[0049]所述搜索映射模块搜索梯度值与基准边缘像素梯度值差值在150度到210度之间的映射边缘像素,并将得到的所述映射边缘像素发送到计算模块;
[0050]所述计算模块用于计算映射边缘像素与基准边缘像素之间的距离得到笔画宽度值。
[0051]进一步,所述边缘检测模块包括:步长选择模块、质心选择模块、迭代更新模块、大范围检测模块、修正模块和连通域分析模块;
[0052]所述步长选择模块选择笔画直方图中频率较大的几个笔画宽度值作为超像素的搜索步长值;
[0053]所述质心选择模块查找得到间隔大小为搜索步长值的格点,选择该格点附近梯度最小的位置作为超像素的初始质心;
[0054]所述迭代更新模块用于迭代更新并计算出各个超像素在图片上的实际质心和边界;
[0055]所述大范围检测模块降低Canny边缘检测算子的阈值,检测图片的新的大范围边缘;
[0056]所述修正模块将大范围边缘与超像素的边界进行比对和修正,对修正后的大范围边缘去除与当前笔画宽度不同的干扰,得到满足笔画宽度规律的图片的大范围边缘;
[0057]所述连通域分析模块用于对图片的大范围边缘进行连通域分析,计算大范围边缘的欧式距离变换图(采用现有技术中的距离变换为图像的常用算法进行计算)。
[0058]进一步,所述骨架化模块具体用于使用Sobel算子计算欧式距离变换图的梯度,将其中梯度接近零的像素设为骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度。
【专利附图】

【附图说明】
[0059]图1为本发明所述的基于直方图和超像素的场景图像文字检测方法流程图;
[0060]图2为本发明所述的基于直方图和超像素的场景图像文字检测方法中步骤I的具体流程图;
[0061]图3为本发明所述的基于直方图和超像素的场景图像文字检测方法中步骤2的具体流程图;
[0062]图4为本发明所述的基于直方图和超像素的场景图像文字检测系统结构框图。
[0063]附图中,各标号所代表的部件列表如下:
[0064]1、估计模块,2、边缘检测模块,3、骨架化模块,4、过滤模块,5、二次过滤模块,6、统计模块,7、分割模块,11、梯度模块,12、搜索成对模块,13、搜索映射模块,14、计算模块,21、步长选择模块,22、质心选择模块,23、迭代更新模块,24、大范围检测模块,25、修正模块,26、连通域分析模块。
【具体实施方式】[0065]以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0066]如图1所示,为本发明所述的基于直方图和超像素的场景图像文字检测方法,具体包括以下步骤:
[0067]步骤1:对目标图片中可能存在的文字宽度值进行估计得到笔画宽度值,基于笔画宽度值生成一个笔画直方图;
[0068]步骤2:将笔画直方图中的笔画宽度值设置为超像素的步长参数;对目标图片进行边缘检测,将上述设定了步长参数的超像素与边缘检测的结果进行比对和修正,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域;
[0069]步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度;
[0070]步骤4:根据高精度笔画宽度对目标图片进行过滤,区分字符与非字符,得到字符;
[0071]步骤5:通过连通域的空间分布利用几何约束进一步对得到的字符进行过滤,得到精准字符,并基于精准字符区分目标图片中文本行和非文本行,得到文本行;
[0072]步骤6:完成对目标图片中对精准子符和文本彳丁的检测;
[0073]步骤7:统计文本行中各个精准字符之间的距离值,设定词内的字符距离阈值和词间距离阈值;
[0074]步骤8:根据字符距离阈值和词间距离阈值对文本行分割为精准字符。
[0075]所述步骤5中所述的几何约束包括笔画宽度一致性、宽高比、连通域之间的重叠性等。
[0076]如图2所示,步骤I具体包括以下步骤:
[0077]步骤1.1:使用Canny边缘检测算子计算得到目标图片中的多个边缘像素;使用Sobel算子计算得到目标图片的梯度值;得到目标图片中所有边缘像素的梯度值;
[0078]步骤1.2:以一个边缘像素为基准边缘像素,向基准边缘像素的梯度方向进行搜索所有存在的边缘像素;判断是否存在与基准边缘像素成对的映射边缘像素,如果存在,执行步骤1.3 ;否则,删除此作为基准边缘像素的边缘像素,返回执行步骤1.2 ;
[0079]步骤1.3:判断映射边缘像素的梯度值与基准边缘像素梯度值差值是否在150度到210度之间,如果是,执行步骤1.4 ;否则,删除此作为基准边缘像素的边缘像素,返回执行步骤1.2 ;
[0080]步骤1.4:计算映射边缘像素与基准边缘像素之间的距离得到笔画宽度值;
[0081]步骤1.5:判断是否还存在边缘像素,如果存在,返回执行步骤1.2 ;否则,执行步骤 1.6 ;
[0082]步骤1.6:基于步骤1.4得到的笔画宽度值生成笔画直方图。
[0083]如图3所示,步骤2具体包括以下步骤:
[0084]步骤2.1:选择笔画直方图中频率较大的几个笔画宽度值作为超像素的搜索步长值;
[0085]步骤2.2:查找得到间隔大小为搜索步长值的格点,选择该格点附近梯度最小的位置作为超像素的初始质心;[0086]步骤2.3:迭代执行步骤2.1和2.2,更新并计算出各个超像素在图片上的实际质心和边界;
[0087]步骤2.4:降低Canny边缘检测算子的阈值,检测图片的新的大范围边缘;
[0088]步骤2.5:将大范围边缘与超像素的边界进行比对和修正,对修正后的大范围边缘去除与当前笔画宽度不同的干扰,得到满足笔画宽度规律的图片的大范围边缘;
[0089]步骤2.6:对图片的大范围边缘进行连通域分析,计算大范围边缘的欧式距离变换图(采用现有技术中的距离变换为图像的常用算法进行计算)。
[0090]所述步骤3具体为:使用Sobel算子计算欧式距离变换图的梯度,将其中梯度接近零的像素设为骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度。
[0091]如图4所示,为本发明所述的基于直方图和超像素的场景图像文字检测系统,包括:估计模块1、边缘检测模块2、骨架化模块3、过滤模块4和二次过滤模块5 ;
[0092]所述估计模块I对目标图片中可能存在的文字宽度值进行估计得到笔画宽度值,基于笔画宽度值生成一个笔画直方图,并将笔画直方图发送到边缘检测模块2 ;
[0093]所述边缘检测模块2将笔画直方图中的笔画宽度值设置为超像素的步长参数;对目标图片进行边缘检测,将上述设定了步长参数的超像素与边缘检测的结果进行比对和修正,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域;并将得到的连通域发送到骨架化模块3 ;
[0094]所述骨架化模块3对连通域进行骨架化,得到骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度,并将高精度笔画宽度发送到过滤模块4 ;
[0095]所述过滤模块4根据高精度笔画宽度对目标图片进行过滤,区分字符与非字符,得到字符;
[0096]所述二次过滤模块5通过连通域的空间分布利用几何约束进一步对得到的字符进行过滤,得到精准字符,并基于精准字符区分目标图片中文本行和非文本行,得到文本行。
[0097]还包括统计模块6和分割模块7 ;
[0098]所述统计模块6用于统计文本行中各个精准字符之间的距离值,设定词内的字符距离阈值和词间距离阈值;
[0099]所述分割模块7根据字符距离阈值和词间距离阈值对文本行分割为精准字符。
[0100]所述二次过滤模块5中所述的几何约束包括笔画宽度一致性、宽高比、连通域之
间的重叠性等。
[0101]所述估计模块I包括:梯度模块11、搜索成对模块12、搜索映射模块13和计算模块14 ;
[0102]所述梯度模块11使用Canny边缘检测算子计算得到目标图片中的多个边缘像素;使用Sobel算子计算得到目标图片的梯度值;得到目标图片中所有边缘像素的梯度值;
[0103]所述搜索成对模块12以一个边缘像素为基准边缘像素,向基准边缘像素的梯度方向进行搜索所有存在的边缘像素;搜索与基准边缘像素成对的映射边缘像素;
[0104]所述搜索映射模块13搜索梯度值与基准边缘像素梯度值差值在150度到210度之间的映射边缘像素,并将得到的所述映射边缘像素发送到计算模块;
[0105]所述计算模块14用于计算映射边缘像素与基准边缘像素之间的距离得到笔画宽度值。
[0106]所述边缘检测模块2包括:步长选择模块21、质心选择模块22、迭代更新模块23、大范围检测模块24、修正模块25和连通域分析模块26 ;
[0107]所述步长选择模块21选择笔画直方图中频率较大的几个笔画宽度值作为超像素的搜索步长值;
[0108]所述质心选择模块22查找得到间隔大小为搜索步长值的格点,选择该格点附近梯度最小的位置作为超像素的初始质心;
[0109]所述迭代更新模块23用于迭代更新并计算出各个超像素在图片上的实际质心和边界;
[0110]所述大范围检测模块24降低Canny边缘检测算子的阈值,检测图片的新的大范围边缘;
[0111]所述修正模块25将大范围边缘与超像素的边界进行比对和修正,对修正后的大范围边缘去除与当前笔画宽度不同的干扰,得到满足笔画宽度规律的图片的大范围边缘;
[0112]所述连通域分析模块26用于对图片的大范围边缘进行连通域分析,计算大范围边缘的欧式距离变换图(采用现有技术中的距离变换为图像的常用算法进行计算)。
[0113]所述骨架化模块3具体用于使用Sobel算子计算欧式距离变换图的梯度,将其中梯度接近零的像素设为骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度。
[0114]本发明主要包含两个方面:(1)针对文字检测问题中的文字的边缘特性提高边缘检测质量;(2)提出一种高速和高精度的笔画宽度计算方法,以提高文字与非文字连通域过滤的精度和效率。
[0115]基于笔画宽度的文字检测方法属于连通域分析方法,这种方法假设统一文本行中的文字的笔画宽度大致相同。该类方法的优势在于简单,且不需要针对特定语言作出调整。但是,该类方法与其他同属于连通域分析的方法一样,比较依赖于高质量的边缘检测。在图片噪音较多、光照条件不理想或文字被栏杆等遮挡造成的边缘检测失效的情况下,该种方法文字检测效果较差。此外,该方法还存在精度较低和速度较慢的问题。
[0116]针对这些问题,本发明旨在使用超像素修正在复杂环境中边缘检测失效的问题,并且提出一种快速高精度的笔画宽度计算方法以提高过滤连通域的精确度以及效率。该发明包括以下内容:
[0117]首先利用Stroke width transform(SWT)算法对目标图片中可能存在的文字的笔画宽度进行估计,然后利用这一信息建立一个笔画宽度直方图;
[0118]根据笔画直方图中的笔画宽度设置超像素的步长参数,实验发现在笔画宽度值与超像素步长值相近时,可有效提升边缘检测效果并能去除局部遮挡与类文本区域;之后,将超像素之间的界限与Canny边缘检测的结果进行比对与修正,以达到在某个笔画宽度下边缘检测质量最高的效果;
[0119]利用距离变换和梯度算子将检测出的连通域骨架化,利用骨架化后得到的骨架像素重新估算高精度的笔画宽度,以作为过滤字符与非字符的依据;
[0120]通过连通域的空间分布利用笔画宽度一致性、宽高比、连通域之间的重叠性一些几何约束来进一步过滤字符与非字符、文本行与非文本行;[0121]基于大规模公开数据集上的实验结果,证明了提出的笔画宽度直方图、超像素算法和连通域快速骨架化的笔画宽度计算方法的有效性。
[0122]本发明的基于笔画宽度直方图的超像素初始化方法和基于连通域快速骨架化的笔画宽度计算方法包括以下四个步骤:
[0123](一 )使用Canny边缘检测算子计算出图片中存在的边缘。使用Sobel算子计算出整张图片的梯度。然后根据边缘像素的梯度方向搜索该方向上是否有成对的边缘像素。如过能找到成对的边缘像素且该像素的梯度与初始边缘点梯度方向差值在150度与210之间,则计算他们之间的距离并将笔画宽度设置为他们之间的距离;
[0124](二)利用步骤(一)中得到的笔画宽度生成笔画宽度直方图。为了降低计算复杂度,令和V分别为不同直方图区间对应像素点数目的均值和标准差,直方图的区间长度h通过计算最小化的L2风险,即使得最小化来确定;
[0125](三)使用Simple linear iterative clustering(SLIC)算法作为超像素算法。选取笔画宽度直方图中频 率较大较为主要的几个笔画宽度作为超像素的搜索步长大小,并对应地选择间隔为步长大小的格点处局部梯度最小的位置作为超像素的初始质心。迭代地更新并计算出各个超像素在图片上的实际质心和边界。降低Canny边缘检测算子的阈值以更全面检测出图片中的边缘,然后通过和超像素的边界比对来修正这些边缘,以去除与当前笔画宽度不同的干扰,使边缘检测结果尽量满足笔画宽度规律,提高边缘检测效果。
[0126](四)对新的边缘检测结果进行连通域分析,并计算边缘的欧式距离变换图。再次使用Sobel算子计算距离变换图的梯度。由于连通域的笔画中心的距离变换值改变的都比较缓慢,所以将其中梯度近似为零的像素视为骨架像素。至此,可以通过这些骨架像素的距离变换值得到连通域的笔画宽度。
[0127]经过以上步骤后便得到了高精度的连通域笔画宽度。至此我们可以根据每个连通域的笔画宽度是否一致对连通域进行初步的过滤。由于场景图像中字符很少单独出现,因此利用文本行的相应特性来对这些连通域进一步过滤,例如在同一文本行中的字符大小、宽高比、笔画宽度和颜色应该相近等,不满足这些约束的连通域将会被过滤掉。最后根据文本行中各个字符之间的距离的统计值,设定词内字符距离阈值和词间距离阈值,进而将文本行分割为字符,可供后续字符识别模块使用。
[0128]为验证本发明的有效性,选取了公共数据集ICDAR2005以及ICDAR2011来进行试验。ICDAR2005数据集包含509张彩色图片,分辨率在307X93到1280X960之间,其中训练集和测试集中分别有258和251张图片,图片中共有1114个字符。ICDAR2011数据集包含484张图片,包括229张训练图片和255张测试图片,共有1189个字符。所有实验结果全部基于文本行进行。在ICDAR2005和ICDAR2011上本发明与近年来其他主流检测算法的对比结果如表1和表2所示,实验结果表明本发明可获得最佳的检测效果。
[0129]
【权利要求】
1.基于直方图和超像素的场景图像文字检测方法,其特征在于,具体包括以下步骤: 步骤1:对目标图片中可能存在的文字宽度值进行估计得到笔画宽度值,基于笔画宽度值生成一个笔画直方图; 步骤2:将笔画直方图中的笔画宽度值设置为超像素的步长参数;对目标图片进行边缘检测,将上述设定了步长参数的超像素与边缘检测的结果进行比对和修正,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域; 步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度; 步骤4:根据高精度笔画宽度对目标图片进行过滤,区分字符与非字符,得到字符;步骤5:通过连通域的空间分布利用几何约束进一步对得到的字符进行过滤,得到精准字符,并基于精准字符区分目标图片中文本行和非文本行,得到文本行; 步骤6:完成对目标图片中对精准字符和文本行的检测。
2.根据权利要求1所述的基于直方图和超像素的场景图像文字检测方法,其特征在于,还包括步骤7:统计文本行中各个精准字符之间的距离值,设定词内的字符距离阈值和词间距离阈值; 步骤8:根据字符距离阈值和词间距离阈值对文本行分割为精准字符。
3.根据权利要求2所述的基于直方图和超像素的场景图像文字检测方法,其特征在于,所述步骤3具体为:使用Sobel算子计算欧式距离变换图的梯度,将其中梯度接近零的像素设为骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度; 所述步骤5中所述的几何约束包括笔画宽度一致性、宽高比、连通域之间的重叠性。
4.根据权利要求3所述的基于直方图和超像素的场景图像文字检测方法,其特征在于,步骤I具体包括以下步骤: 步骤1.1:使用Canny边缘检测算子计算得到目标图片中的多个边缘像素;使用Sobel算子计算得到目标图片的梯度值;得到目标图片中所有边缘像素的梯度值; 步骤1.2:以一个边缘像素为基准边缘像素,向基准边缘像素的梯度方向进行搜索所有存在的边缘像素;判断是否存在与基准边缘像素成对的映射边缘像素,如果存在,执行步骤1.3 ;否则,删除此作为基准边缘像素的边缘像素,返回执行步骤1.2 ; 步骤1.3:判断映射边缘像素的梯度值与基准边缘像素梯度值差值是否在150度到210度之间,如果是,执行步骤1.4 ;否则,删除此作为基准边缘像素的边缘像素,返回执行步骤1.2 ; 步骤1.4:计算映射边缘像素与基准边缘像素之间的距离得到笔画宽度值; 步骤1.5:判断是否还存在边缘像素,如果存在,返回执行步骤1.2 ;否则,执行步骤1.6 ; 步骤1.6:基于步骤1.4得到的笔画宽度值生成笔画直方图。
5.根据权利要求1-4中任一项所述的基于直方图和超像素的场景图像文字检测方法,其特征在于,步骤2具体包括以下步骤: 步骤2.1:选择笔画直方图中频率较大的几个笔画宽度值作为超像素的搜索步长值;步骤2.2:查找得到间隔大小为搜索步长值的格点,选择该格点附近梯度最小的位置作为超像素的初始质心;步骤2.3:迭代执行步骤2.1和2.2,更新并计算出各个超像素在图片上的实际质心和边界; 步骤2.4:降低Canny边缘检测算子的阈值,检测图片的新的大范围边缘; 步骤2.5:将大范围边缘与超像素的边界进行比对和修正,对修正后的大范围边缘去除与当前笔画宽度不同的干扰,得到满足笔画宽度规律的图片的大范围边缘; 步骤2.6:对图片的大范围边缘进行连通域分析,计算大范围边缘的欧式距离变换图,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域。
6.基于直方图和超像素的场景图像文字检测系统,其特征在于,包括:估计模块、边缘检测模块、骨架化模块、过滤模块和二次过滤模块; 所述估计模块对目标图片中可能存在的文字宽度值进行估计得到笔画宽度值,基于笔画宽度值生成一个笔画直方图,并将笔画直方图发送到边缘检测模块; 所述边缘检测模块将笔画直方图中的笔画宽度值设置为超像素的步长参数;对目标图片进行边缘检测,将上述设定了步长参数的超像素与边缘检测的结果进行比对和修正,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域;并将得到的连通域发送到骨架化模块; 所述骨架化模块对连通域进行骨架化,得到骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度,并将高精度笔画宽度发送到过滤模块; 所述过滤模块根据高 精度笔画宽度对目标图片进行过滤,区分字符与非字符,得到字符; 所述二次过滤模块通过连通域的空间分布利用几何约束进一步对得到的字符进行过滤,得到精准字符,并基于精准字符区分目标图片中文本行和非文本行,得到文本行。
7.根据权利要求6所述的基于直方图和超像素的场景图像文字检测系统,其特征在于,还包括统计模块和分割模块; 所述统计模块用于统计文本行中各个精准字符之间的距离值,设定词内的字符距离阈值和词间距离阈值; 所述分割模块根据字符距离阈值和词间距离阈值对文本行分割为精准字符。
8.根据权利要求7所述的基于直方图和超像素的场景图像文字检测系统,其特征在于,所述骨架化模块具体用于使用Sobel算子计算欧式距离变换图的梯度,将其中梯度接近零的像素设为骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度;所述二次过滤模块中所述的几何约束包括笔画宽度一致性、宽高比、连通域之间的重叠性。
9.根据权利要求8所述的基于直方图和超像素的场景图像文字检测系统,其特征在于,所述估计模块包括:梯度模块、搜索成对模块、搜索映射模块和计算模块; 所述梯度模块使用Canny边缘检测算子计算得到目标图片中的多个边缘像素;使用Sobel算子计算得到目标图片的梯度值;得到目标图片中所有边缘像素的梯度值; 所述搜索成对模块以一个边缘像素为基准边缘像素,向基准边缘像素的梯度方向进行搜索所有存在的边缘像素;搜索与基准边缘像素成对的映射边缘像素; 所述搜索映射模块搜索梯度值与基准边缘像素梯度值差值在150度到210度之间的映射边缘像素,并将得到的所述映射边缘像素发送到计算模块; 所述计算模块用于计算映射边缘像素与基准边缘像素之间的距离得到笔画宽度值。
10.根据权利要求6-9中任一项所述的基于直方图和超像素的场景图像文字检测系统,其特征在于,所述边缘检测模块包括:步长选择模块、质心选择模块、迭代更新模块、大范围检测模块、修正模块和连通域分析模块; 所述步长选择模块选择笔画直方图中频率较大的几个笔画宽度值作为超像素的搜索步长值; 所述质心选择模块查找得到间隔大小为搜索步长值的格点,选择该格点附近梯度最小的位置作为超像素的初始质心; 所述迭代更新模块用于迭代更新并计算出各个超像素在图片上的实际质心和边界;所述大范围检测模块降低Canny边缘检测算子的阈值,检测图片的新的大范围边缘;所述修正模块将大范围边缘与超像素的边界进行比对和修正,对修正后的大范围边缘去除与当前笔画宽度不同的干扰,得到满足笔画宽度规律的图片的大范围边缘; 所述连通域分 析模块用于对图片的大范围边缘进行连通域分析,计算大范围边缘的欧式距离变换图。
【文档编号】G06T7/00GK103942797SQ201410168244
【公开日】2014年7月23日 申请日期:2014年4月24日 优先权日:2014年4月24日
【发明者】张永铮, 周宇 申请人:中国科学院信息工程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1