一种基于MSER快速在自然场景中定位倾斜文本的方法与流程

文档序号:14951095发布日期:2018-07-17 22:34阅读:179来源:国知局
本发明一种基于mser快速在自然场景中定位倾斜文本的方法,属于文本定位识别的
技术领域
:。
背景技术
::mser算法(maximallystableextremalregions,最大稳定极值区域)是一种仿射特征区域提取算法。其采用的拟合椭圆文本区域能够较为快速准确的提取图像中的文本信息,然而在处理倾斜文本时的效果不佳,准确度也不高,而且需要大量样本训练导致定位速度慢。技术实现要素:针对上述问题,本发明的目的在于提供一种基于mser快速在自然场景中定位倾斜文本的方法。本发明的目的是这样实现的:一种基于mser快速在自然场景中定位倾斜文本的方法,包括以下步骤:步骤a、对原始图像进行灰度化处理;步骤b、利用mser算法对灰度图像上的疑似文本区域进行快速提取,并通过椭圆拟合处理疑似文本区域;步骤c、根据拟合椭圆的长短轴比值和拟合椭圆在文本区域居中的特点,进行非文本区域的粗过滤;当不符合拟合椭圆长短轴之比时,进行删除;当符合拟合椭圆长短轴之比时,进行判断拟合椭圆是否位于图像边缘;若是,进行删除;若否,进行步骤d;步骤d、根据mser不规则的实际提取区域和拟合椭圆区域的比值进行进一步的细过滤,判断拟合椭圆是否在面积误差之内;若否,进行删除;若是,则判断拟合椭圆文本区域是否存在重复嵌套的现象;若否,进行删除;若是,进行步骤e;步骤e、运用层次聚类的思想进行文本融合,通过字符间距粗分类、字符链条件过滤、相似度字符链合并、rgb均值单字符与字符链筛选将分散的文本区域合并成单词区域;步骤f、获得文本区域。所述基于mser快速在自然场景中定位倾斜文本的方法,步骤b中通过椭圆拟合处理疑似文本区域,方法是利用结构仿射不变的特性将不规则的mser区域拟合成规则的椭圆度量区域,每一个代替不规则mser区域的拟合椭圆都会有各自的编号记录在matlab工作区的mserregions中,其中包括拟合椭圆长轴与短轴的长度、中心点坐标、拟合椭圆的方向以及被拟合椭圆包围的mser区域中所有像素点的坐标信息。所述基于mser快速在自然场景中定位倾斜文本的方法,步骤c中进行非文本区域的粗过滤的方法,包括以下步骤:步骤c1、通过对大量文本区域与非文本区域拟合椭圆的特征进行观察和比较,得出英文文本区域拟合椭圆的长轴与短轴的比值通常在一定的范围之内,计算公式为:α=axesi(1)/axesi(2)axesi(1)表示第i个mser区域拟合椭圆的长轴长度,axesi(2)表示第i个mser区域拟合椭圆的短轴长度,α为拟合椭圆的长轴与短轴的比值,当α的阈值设为7时过滤效果比较理想,当疑似文本区域的α值小于7时,这个区域就被视为非文本区域,从mserregions中删除;步骤c2、文本区域位于图像的内部,很少位于图像的边缘,拟合椭圆内所包含的mser像素信息中含有图像边界像素点时,就能够判断这个区域为非文本区域,从而在mserregions中删除。所述基于mser快速在自然场景中定位倾斜文本的方法,步骤d中细过滤的方法,包括以下步骤:步骤d1、利用文本区域的拟合椭圆面积与mser像素面积的比值会比非文本区域更高的特点,设置比值阈值滤除非文本区域,公式如下:β=areaellipsei/areapixellistiareaellipsei与areapixellisti分别表示第i个mser区域中对应拟合椭圆的面积与mser区域的实际面积,将β的阈值设置为2.5比较理想,当疑似文本区域的β小于2.5时,认为此区域为非文本区域;步骤d2、对步骤c中可能存在错滤的字符,进行补偿判断,再设置一个阈值,若被删除的区域中α值大于4且小于7,则不会被删除,继续保留在mserrrgions中;步骤d3、针对图像会存在部分许多与文本区域拟合椭圆特征相似、重合嵌套的非文本区域从而影响处理速度的情况进行处理,判断拟合椭圆内像素信息大致相同的两个文本区域,选择较大的拟合椭圆代表该区域,设置一个重叠误差,将重叠误差记为oe,公式如下:areaellipsei与areaellipsek分别代表第i个与第k个拟合椭圆的面积。所述基于mser快速在自然场景中定位倾斜文本的方法,步骤e中运用层次聚类的思想进行文本融合的方法,包括以下步骤:步骤e1、计算每个文本区域之间的欧式距离,即每个拟合椭圆中心点之间的欧式距离,通过一个字符间距的阈值来进行初步的分类,计算公式如下:dis表示每个文本到其他文本的欧式距离中最小的2个值的均值,avgdis为计算得出的判断阈值;步骤e2、判断并筛选符合要求的字符链,计算字符个数大于3的字符组中第一个字符与其他字符连线的角度;表示第i个字符组中第1个字符和第n个字符的连线角度,n的大小由这个字符组中的字符个数决定,根据公式(m),在同一个字符链中只要有一个角度之差的绝对值大于π/8,这个字符链就会被滤除;步骤e3、对初步分类的字符链进行进一步的聚合,如果两条字符链至少共享一个相同字符的话,通过计算这2条字符链之间的相似程度来判断这两条字符链是否需要合并,c1和c2表示的是两条字符链,表示c1和c2之间的夹角,和表示c1和c2两条字符链的字符个数,so(c1,c2)为c1和c2的方向相似度,sp(c1,c2)为c1和c2的字符数目的相似度,c1和c2之间的总的相似度的定义为下:s(c1,c2)=ω·so(c1,c2)+(1-ω)·sp(c1,c2)ω为一个加权参数,它的取值范围为[0,1],ω被设为0.7,在总的相似度中,方向相似度的贡献更高,字符个数相似度的贡献较低;设置一个阈值,当s(c1,c2)大于这个阈值时这两条字符链合并;当阈值设为0.8时效果较为理想,不停迭代上述过程,直至没有其他任何的字符链可以合并到一起;步骤e4、在文本区域合并的第一步中通过字符间距阈值分类后除了字符组之外还存在着未被分组的单个文本区域和在第三步中未被合并的单个字符链,单个的文本区域可能包含着1个字母或是数字,而单个的字符链可能是与整体文本距离较远的文本区域,因此不能直接删除;在一张图片中,文本区域的字符颜色通常都较为相近,因此这些文本区域的rgb均值也较为相近;通过计算比较这些区域的rgb均值来判断这些区域是否需要删除;rgb均值的定义为:在每个mser区域所对应的彩色图像中包含着n个像素点,avgrgb即为每个像素点r、g、b三个数值的平均值,rgb均值即为这个区域中所有像素点avgrgb的平均值;计算每个未被分组的单个文本区域与未被合并的单个字符链区域的avgcolori,i表示未被分组的单个文本区域与未被合并的单个字符链区域的总个数,与所有已被确定为文本的字符链区域的avgcolorall进行比较,根据上述公式,将不符合条件的区域删除;计算并画出每个字符链区域的最大外接矩形,就能完成对文本区域的选取;就此完成了非文本区域的过滤与文本区域的合并,最终得到需要的单词区域。有益效果:本发明提供了一种基于mser快速在自然场景中定位倾斜文本的方法,针对自然场景下的倾斜文本定位算法运行速度慢且倾斜定位难的原因,采用mser椭圆拟合算法进行快速提取过滤文本区域,再结合运用层次聚类的思想,先将文本区域中的字符通过距离阈值分类并连接成字符链,再通过计算字符链之间的相似度,将相似程度较高的字符链进行合并,对于未被分类的单个字符或是未被合并的单个字符链,通过与已被合并的字符区域的rgb均值进行比较,保留符合条件的单个字符和字符链,避免了单个字符和字符链的误删除,进一步保证了文本的完整性,因此基于层次聚类的文本区域合并不仅仅是一个文本区域合并的过程,也是一个进一步对非文本区域过滤的过程。这种自底向上的方法使文本合并更为准确,保证了合并时单词的完整性,从而达到理想的文本定位识别效果。本发明具有最快的算法处理运行时间(快于次高megvii-image++算法10.79s)、最小的方差(高于次高megvii-image++算法2.16)和召回率达到50.21%。本发明在综合定位效果和运行时间的情况下,降低了文本定位时间,同时也不损失定位精度,实现了高效的倾斜场景文本定位。附图说明图1是一种基于mser快速在自然场景中定位倾斜文本的方法总体流程图。图2是原始图像灰度效果图。图3是mser拟合椭圆效果图。图4是长短轴过滤后效果图。图5是面积误差过滤后效果图。图6是存在重复拟合椭圆区域的效果图。图7是过滤重复区域后的效果图。图8是字符间距粗分类后效果图。图9是字符链条件过滤后效果图。图10是字符链相似度合并效果图。图11是为rgb均值单字符的处理效果图。图12是计算最大外接矩形后的效果图。图13是mser结合双向投影对icdar2015图像定位效果图。图14是本发明对icdar2015图像定位效果图。具体实施方式下面结合附图对本发明具体实施方式作进一步详细描述。具体实施方式一一种基于mser快速在自然场景中定位倾斜文本的方法,如图1所示,包括以下步骤:步骤a、对原始图像进行灰度化处理,效果如图2所示;步骤b、利用mser算法对灰度图像上的疑似文本区域进行快速提取,并通过椭圆拟合处理疑似文本区域,处理效果如图3所示;步骤c、根据拟合椭圆的长短轴比值和拟合椭圆在文本区域居中的特点,进行非文本区域的粗过滤;当不符合拟合椭圆长短轴之比时,进行删除;当符合拟合椭圆长短轴之比时,进行判断拟合椭圆是否位于图像边缘;若是,进行删除;若否,进行步骤d;步骤d、根据mser不规则的实际提取区域和拟合椭圆区域的比值进行进一步的细过滤,判断拟合椭圆是否在面积误差之内;若否,进行删除;若是,则判断拟合椭圆文本区域是否存在重复嵌套的现象;如图5所示为面积误差过滤后效果图,当拟合椭圆文本区域不存在重复嵌套时,进行删除;若存在,如图6所示为存在重复嵌套效果图,进行步骤e;如图7所示为过滤重复嵌套后效果图;步骤e、运用层次聚类的思想进行文本融合,进行字符间距粗分类,处理效果如图8所示,字符链条件过滤,处理效果如图9所示,相似度字符链合并,处理效果如图10所示,rgb均值单字符,处理效果如图11所示,通过字符间距粗分类、字符链条件过滤、相似度字符链合并、rgb均值单字符与字符链筛选将分散的文本区域合并成单词区域;步骤f、获得文本区域。所述基于mser快速在自然场景中定位倾斜文本的方法,步骤b中通过椭圆拟合处理疑似文本区域,方法是利用结构仿射不变的特性将不规则的mser区域拟合成规则的椭圆度量区域,每一个代替不规则mser区域的拟合椭圆都会有各自的编号记录在matlab工作区workspace的mserregions中,其中包括拟合椭圆长轴与短轴的长度axes、中心点坐标location、拟合椭圆的方向o-rientation以及被拟合椭圆包围的mser区域中所有像素点的坐标信息pixellist。在mser椭圆拟合算法中,每一个代替不规则mser区域的拟合椭圆都会有各自的编号记录在matlab工作区(workspace)的mserregions中,mserregio-ns{region1,region2,region3,…},在每一个region中记录着对应的mser区域拟合椭圆的丰富信息。所述基于mser快速在自然场景中定位倾斜文本的方法,步骤c中进行非文本区域的粗过滤的方法,包括以下步骤:步骤c1、通过对大量文本区域与非文本区域拟合椭圆的特征进行观察和比较,得出英文文本区域拟合椭圆的长轴与短轴的比值通常在一定的范围之内,计算公式为:α=axesi(1)/axesi(2)axesi(1)表示第i个mser区域拟合椭圆的长轴长度,axesi(2)表示第i个mser区域拟合椭圆的短轴长度,α为拟合椭圆的长轴与短轴的比值,当α的阈值设为7时过滤效果比较理想,当疑似文本区域的α值小于7时,这个区域就被视为非文本区域,从mserregions中删除,效果如图4所示;步骤c2、文本区域位于图像的内部,很少位于图像的边缘,拟合椭圆内所包含的mser像素信息中含有图像边界像素点时,就能够判断这个区域为非文本区域,从而在mserregions中删除。所述基于mser快速在自然场景中定位倾斜文本的方法,步骤d中细过滤的方法,包括以下步骤:步骤d1、利用文本区域的拟合椭圆面积与mser像素面积的比值会比非文本区域更高的特点,设置比值阈值滤除非文本区域,公式如下:β=areaellipsei/areapixellistiareaellipsei与areapixellisti分别表示第i个mser区域中对应拟合椭圆的面积与mser区域的实际面积,将β的阈值设置为2.5比较理想,当疑似文本区域的β小于2.5时,认为此区域为非文本区域;步骤d2、对步骤c中可能存在错滤的字符,进行补偿判断,再设置一个阈值,若被删除的区域中α值大于4且小于7,则不会被删除,继续保留在mserrrgions中;步骤d3、针对图像会存在部分许多与文本区域拟合椭圆特征相似、重合嵌套的非文本区域从而影响处理速度的情况进行处理,判断拟合椭圆内像素信息大致相同的两个文本区域,选择较大的拟合椭圆代表该区域,设置一个重叠误差,将重叠误差记为oe,公式如下:areaellipsei与areaellipsek分别代表第i个与第k个拟合椭圆的面积。所述基于mser快速在自然场景中定位倾斜文本的方法,步骤e中运用层次聚类的思想进行文本融合的方法,包括以下步骤:步骤e1、计算每个文本区域之间的欧式距离,即每个拟合椭圆中心点之间的欧式距离,通过一个字符间距的阈值来进行初步的分类,计算公式如下:dis表示每个文本到其他文本的欧式距离中最小的2个值的均值,avgdis为计算得出的判断阈值;步骤e2、判断并筛选符合要求的字符链,计算字符个数大于3的字符组中第一个字符与其他字符连线的角度;表示第i个字符组中第1个字符和第n个字符的连线角度,n的大小由这个字符组中的字符个数决定,根据公式(m),在同一个字符链中只要有一个角度之差的绝对值大于π/8,这个字符链就会被滤除;步骤e3、对初步分类的字符链进行进一步的聚合,如果两条字符链至少共享一个相同字符的话,通过计算这2条字符链之间的相似程度来判断这两条字符链是否需要合并,c1和c2表示的是两条字符链,表示c1和c2之间的夹角,和表示c1和c2两条字符链的字符个数,so(c1,c2)为c1和c2的方向相似度,sp(c1,c2)为c1和c2的字符数目的相似度,c1和c2之间的总的相似度的定义为下:s(c1,c2)=ω·so(c1,c2)+(1-ω)·sp(c1,c2)ω为一个加权参数,它的取值范围为[0,1],ω被设为0.7,在总的相似度中,方向相似度的贡献更高,字符个数相似度的贡献较低;设置一个阈值,当s(c1,c2)大于这个阈值时这两条字符链合并;当阈值设为0.8时效果较为理想,不停迭代上述过程,直至没有其他任何的字符链可以合并到一起;步骤e4、在文本区域合并的第一步中通过字符间距阈值分类后除了字符组之外还存在着未被分组的单个文本区域和在第三步中未被合并的单个字符链,单个的文本区域可能包含着1个字母或是数字,而单个的字符链可能是与整体文本距离较远的文本区域,因此不能直接删除;在一张图片中,文本区域的字符颜色通常都较为相近,因此这些文本区域的rgb均值也较为相近;通过计算比较这些区域的rgb均值来判断这些区域是否需要删除;rgb均值的定义为:在每个mser区域所对应的彩色图像中包含着n个像素点,avgrgb即为每个像素点r、g、b三个数值的平均值,rgb均值即为这个区域中所有像素点avgrgb的平均值;计算每个未被分组的单个文本区域与未被合并的单个字符链区域的avgcolori,i表示未被分组的单个文本区域与未被合并的单个字符链区域的总个数,与所有已被确定为文本的字符链区域的avgcolorall进行比较,根据上述公式,将不符合条件的区域删除;计算并画出每个字符链区域的最大外接矩形,就能完成对文本区域的选取;就此完成了非文本区域的过滤与文本区域的合并,最终得到需要的单词区域,效果如图12所示。具体实施方式二本发明在cpu为i5、主频为3.30ghz、内存为8g的64位win10计算机上进行运行,运行的平台为icdar大赛所提供的公共测试平台,所用的测试数据集为icdar2015文本定位数据集中的500幅测试图片。本发明与icdar2015届的多个优秀算法以及mser结合双向投影的算法进行比较,比较的内容包括2个方面,一是用f值的大小来衡量算法的定位精度,二是用算法处理数据集中图像的平均时间来衡量算法的运算速度。表1多个算法定位参数对比表2多个算法运行时间对比由表1可以看出,本发明因为使用对文本区域较为敏感的mser算法,在召回率方面有一定的优势,但是相较与使用样本特征训练的算法,例如baidudl和src-b-textprocessinglab,在准确率方面有所欠缺,但还是在最终取得了不错的f值。从表2中可以非常清楚地看出本发明在运算时间上有巨大的优势。综合定位效果和运算时间这两个衡量标准,本发明在运算时间较短的情况下也能取得不错的定位效果。再对比mser结合双向投影法中的定位算法,如图13与图14所示,在左侧第一幅图像的对比中,由于本发明在文本融合最后对单独的文本区域和单独的字符链区域做了rgb均值筛选,因此可以进一步的删除非文本区域,而mser结合双向投影的算法没有对此做出相应的处理,因此还有可能存在未被删除的非文本区域。在右侧第二幅图像的对比中,由于mser结合双向投影法中的双向投影算法使用到了水平穿越线,而水平穿越线的插入位置为此文本区域横向投影向量最大值的中点处。倾斜的文本区域与水平穿越线产生了一定的夹角,使得水平穿越线未能穿过文本区域中k字母的中心点,导致k字母无法被定位到。而本发明使用的是从部分到整体的文本融合方法,相较与整体融合方法,效果有明显的提升。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1