一种基于稀疏编码特征的场景文本识别方法

文档序号:6545515阅读:594来源:国知局
一种基于稀疏编码特征的场景文本识别方法
【专利摘要】一种基于稀疏编码特征的场景文本识别方法,涉及计算机视觉和模式识别。输入待识别的自然场景文本图像;采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,这样找出图像中包含的候选字符区域,再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,除去重复冗余的候选字符区域,得到字符检测结果;将检测到的字符合并成一个词或文本行;输出场景文本识别结果。能够更加有效地表示和提取字符的结构特征,从而提高场景文本的识别率。
【专利说明】一种基于稀疏编码特征的场景文本识别方法【技术领域】
[0001]本发明涉及计算机视觉和模式识别,尤其是涉及一种基于稀疏编码特征的场景文本识别方法。
【背景技术】
[0002]随着智能手机和数码相机等产品越来越流行,获取图片和视频已经变得轻而易举,图像和视频的分析和理解成为具有广阔应用前景的研究方向之一。在图像和视频中,文本信息包含了重要的语义信息,对图像和视频的理解有重要价值,比如书本的封页、道路旁的广告牌、路标信息、视频中的字幕等都包含了大量信息,这些信息更加便于人类和计算机理解和存储。所以在计算机视觉领域,场景图像文本识别吸引了越来越多的关注。由于场景图像背景复杂,场景文字的 大小、字体、颜色各异,且易受光照变化和图像退化的影响,这使场景文本的识别具有较大的挑战性。
[0003]传统的OCR(光学字符识别)技术能很好的识别背景比较简单的扫描文本文档,但是用来识别场景文本上时,识别率非常低。场景文本与扫描的文本文档不同,在场景文本中,由于背景比较复杂,在识别文本时必须要先检测到文本区域后才能进行识别。而在文本文档中,进行简单的二值化处理就能得到清晰的文本区域,采用OCR进行识别就能得到比较好的效果。所以场景文本的识别不仅仅要识别文本,还包含了对文本的检测。
[0004]当前对场景文本的识别主要采用计算机视觉中的目标检测的思想,同时进行文本检测和识别。其基本思想是,把每一类字符当作一个视觉目标,然后再从场景文本图像中检测字符区域,同时也给出了候选字符区域的识别类别和识别分数。在字符检测和识别的基础上,再将候选字符区域和相应的字符类别连接起来,得到场景文本的识别结果。这种同时进行检测和识别的方法在国际顶级会议ICCV2011提出来,表现出了优于传统OCR的识别性能。之后的几年有很多研究也进行了这方面的研究,提高了场景文本识别的性能。但是,在这些基于目标检测的场景文本识别方法中,字符分类器(由于字符检测和识别用的是同一个分类器,下面统一用字符分类器)采用的是目标检测中常用的梯度方向直方图特征(即HOG,Histogram of Gradients)。HOG特征能较好的表达目标的局部表观特征和形状特征,且对光照不敏感,所以HOG特征广泛应用于人脸检测、行人检测等计算机视觉任务中。在当前提出的场景文本识别算法中,HOG特征提取方法也被用来作为字符分类器的特征提取算法。
[0005]虽然HOG特征能表示局部特征(比如边缘等),但是HOG特征不能有效表达结构信息。尤其是对字符识别,字符的结构信息是非常重要的信息,能够有效区分字符之间的结构差异,从而提高字符识别率。基于稀疏编码特征的场景文本识别方法,还没有相关专利或文献的报道。

【发明内容】

[0006]本发明的目的在于针对当前场景文本识别中字符分类器的特征提取不能有效表达字符结构信息等问题,提供一种基于稀疏编码特征的场景文本识别方法。
[0007]本发明包括如下步骤:
[0008]步骤S1:输入待识别的自然场景文本图像;
[0009]步骤S2:采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,这样找出图像中包含的候选字符区域,再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,除去重复冗余的候选字符区域,得到字符检测结果;
[0010]在步骤S2中,所述字符分类器的特征提取可采用基于稀疏编码的特征,分类器训练采用训练较为简单且识别速度较快的Random Fern分类器或SVM分类器,所述稀疏编码的特征提取过程包括如下步骤:
[0011]步骤S201:用大量的自然场景图片数据,用K-SVD算法学习得到一个具有普遍适用性的稀疏编码字典;
[0012]在步骤S201中,所述K-SVD算法在学习字典(用D表示)时,字典D的每个元素设计为9X9的图片,代表了学习得到的共有的结构特征,字典D共包含100个元素(即字典的大小为100),这使字典具有较高的表示能力,同时使计算量控制在可接受的范围。
[0013]步骤S202:将学习得到的稀疏编码字典保存,其中,字典中每个元素描述的是一些重要的结构信息;
[0014]步骤S203:利用步骤S202中所保存的字典,提取图像的稀疏编码特征;
[0015]在步骤S203中,所述提取图像的稀疏编码特征的具体方法可为:对图像的每一个像素,通过Orthogonal Matching Pursuit (OMP)算法进行解码得到像素的稀疏编码,再将得到的稀疏编码进行统计得到稀疏编码的直方图(即Histogram of Sparse Codes7HSC),从而得到图像的稀疏编码特征,即HSC特征;
[0016]所述将得到的稀疏编码进行统计得到稀疏编码的直方图,从而得到图像的稀疏编码特征的方法可为:将稀疏编码进行统计得到稀疏编码的直方图时,采用了类似于梯度直方图特征(即HOG特征,Histogram of Oriented Gradients)的方法,具体步骤包括:
[0017]首先,将输入的图片分成8X8的小单元块,统计每一个小单元块的稀疏编码;
[0018]然后,使用双线性插值法利用每个小单元块的相邻块计算每个小单元块的稀疏编码特征,也即在每个小单元块上的特征是在一个16X16的邻域上求插值得到的;
[0019]最后,将所有的小单元块的特征向量连起来得到整个图像的稀疏编码特征,即HSC特征。
[0020]步骤S3:将检测到的字符合并成一个词或文本行;
[0021]在步骤S3中,所述将检测到的字符合并成一个词或文本行,由于对每一个字符类别都保留了大量的候选字符区域,将字符合并成词时有大量的组合方式,因此可采用动态规划算法搜索得到识别分数最大的字符组合方式,得到最终的文本识别结果;
[0022]所述采用动态规划算法搜索得到识别分数最大的字符组合方式,需要一个目标函数来评价每一种组合的得分;所述目标函数的设计可采用以下方法:
[0023]用w = (C1, C2,…,cn)表示一个候选词,其中Ci (i = I, 2,…,η)表示候选词中包含的字符类别,η为字 符个数(即文本长度),Xi表示Ci的候选字符区域,目标函数设计为:ηη-1
[0024]O = Sici,.y, ) + α^g(X1, χ, ,Λ) + βη,
ζ-1f-1
[0025]其中S(Ci,X1)是字符分类器将候选字符Xi识别为Ci的得分,g(Xi, xi+1)为几何模型的输出,描述了候选字符Xi和\+1在几何关系上的兼容性,α和β是两个调节参数。
[0026]所述目标函数中,几何模型g(Xi,xi+1)描述的是两个相邻字符之间的几何特征是否是字符间特征,是一个两类分类问题,用一个SVM分类器对几何特征进行建模,建模时提取的几何特征包括尺度相似性、相邻字符的重叠率、上下边界的距离等。
[0027]所述目标函数中,考虑了文本长度的影响,因此能够克服字符长度对识别结果的影响(其他方法没有考虑字符的个数,字符个数越大,目标函数会越大,导致识别其他方法的识别结果倾向于字符数更多的文本),从而提高文本识别率。
[0028]所述目标函数中,调节参数α和β采用最小分类错误率训练方法(MinimumClassification Error Training)在场景文本数据库上学习得到。
[0029]步骤S4:输出场景文本识别结果。
[0030]本发明提出一种基于稀疏编码特征的场景文本识别方法,本发明的字符分类器采用了基于稀疏编码的特征提取方法,能够更加有效地表示和提取字符的结构特征,从而提高场景文本的识别率。
[0031]本发明中采用的稀疏编码特征,即Histogram of Sparse Codes (HSC)特征,能够自动学习和表示字符的结构信息,从而能够更好地描述字符的特征,提高文本识别率。同时,本发明的文本识别方法还集成了字符分类器的输出、几何模型的输出,并考虑了文本长度(文本中包含的字符个数)对识别结果的影响。文本识别中的参数通过最小分类错误率训练方法自动学习得到,这比经验设定的参数获得更高的性能。本发明可广泛应用于场景文本识别等场合。
[0032]本发明提供的基于稀疏编码特征的场景文本识别方法,与其他方法相比,具有的优点和有益效果如下:
[0033]1、本发明的字符分类器采用了基于稀疏编码的特征提取算法(即HSC),该特征提取算法能够更好地表示丰富的结构信息,提高了特征的判别能力,从而能更好地检测和识别字符。
[0034]2、本发明的基于稀疏编码的特征提取算法在提取特征时,特征由稀疏解码过程直接学习得到,因此不需要手工设定。
[0035]3、本发明的方法在搜索得到最优字符组合方式时,还考虑了候选字符之间的几何兼容性(即几何模型),这有效利用了字符之间的几何特征等有效信息,因此提高了文本识别率。
[0036]4、本发明的方法中,目标函数考虑了文本长度的影响,因此能够克服文本长度对识别结果的影响,从而提高了场景文本识别率。
[0037]5、本发明的方法中,目标函数中的参数由MCE自动学习得到,因此能获得更优越的识别效果。
[0038]6、本发明的方法可适用于中文或者英文等语言的场景文本识别方法,在训练字符分类器时,采用相应的字符数据库进行训练即可。【专利附图】

【附图说明】
[0039]图1是本发明的方法流程框图。
[0040]图2是用K-SVD算法学习得到的稀疏编码字典。其中,(a)为5X5,(b)为7X7,(c)为 9X9。
[0041]图3是HSC和HOG特征提取结果的对比示例。其中,⑴为原始字符图像,⑵为HSC特征表示图,(3)为HOG特征表示图。
[0042]图4是实施本发明得到的识别过程和结果示例。
【具体实施方式】
[0043]为使本发明的技术方法和优点得到进一步的阐释,以下结合附图和具体实施例对本发明做进一步的说明。
[0044]如图1中的方法流程图所示,本发明包括以下步骤:
[0045]步骤S1:输入待识别的自然场景文本图像;
[0046]步骤S2:采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,这样找出图像中包含的候选字符区域。再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,这样除去大量重复冗余的候选字符区域,得到字符检测结果;
[0047]在该步骤中,要使用一个事先训练好的字符分类器。本发明的字符分类器采用基于稀疏编码的特征提取方法,分类器采用常用的Random Fern或者SVM分类器,其他的机器学习算法比如Boosting、神经网络等,均可以用来学习字符分类器。训练时采用的数据库为单字数据库,可以根据需要选择英文数据数(针对英文词识别)或者中文数据库(中文句子识别)进行训练。
[0048]其中,上面所述基于稀疏编码的特征提取算法的提取过程如下:
[0049]步骤S201:用大量的自然场景图片数据,用K-SVD算法学习得到一个具有普遍适用性的稀疏编码字典。
[0050]其中,所述K-SVD算法在学习字典(用D表示)时,字典D的每个元素设计为9X9的图片,代表了学习得到的共有的结构特征,字典D共包含100个元素(即字典的大小为100),这使字典具有较高的表示能力,同时使计算量控制在可接受的范围。如图2所示,是用K-SVD算法学习得到的字典示例,其中字典包含100个元素,每个元素可以使5X5、7X7或9X9大小的图像,元素的像素越多,能表达的结构信息越丰富,但相应的计算量也越大。本发明的【具体实施方式】中,选择图像大小为9X9。
[0051]步骤S202:将学习得到的稀疏编码字典保存起来,其中,字典中每个元素描述的是一些重要的结构信息。
[0052]步骤S203:利用步骤S202中所得到的字典,提取图像的稀疏编码特征,提取特征时,对图像的每一个像素,通过Orthogonal Matching Pursuit (OMP)算法进行解码得到像素的稀疏编码,再将得到的稀疏编码进行统计得到稀疏编码的直方图(即Histogram ofSparse Codes, HSC),从而得到图像的稀疏编码特征,即HSC特征。
[0053]其中,将稀疏编码统计得到HSC特征的过程如下:将稀疏编码进行统计得到稀疏编码的直方图时,采用了类似于梯度直方图特征(即HOG特征,Histogram of OrientedGradients)的方法,具体步骤包括:
[0054]首先,将输入的图片分成8X8的小单元块,统计每一个小单元块的稀疏编码;
[0055]然后,使用双线性插值法利用每个小单元块的相邻块计算每个小单元块的稀疏编码特征,也即在每个小单元块上的特征是在一个16X16的邻域上求插值得到的;
[0056]最后,将所有的小单元块的特征向量连起来得到整个图像的稀疏编码特征,即HSC特征。
[0057]如图3所示,是用HSC和HOG特征提取算法对几个字符样本和非字符样本提取的特征的可视化结果对比,可以看出HSC特征表示了更丰富的结构信息,比如纹理、边缘、角点等信息,而HOG特征表示的信息则以边缘为主,没有HSC所提供的结构信息丰富。
[0058]步骤S3,将检测到的字符合并成一个词(或者叫文本行),由于对每一个字符类别都保留了大量的候选字符区域,将字符合并成词时有大量的组合方式,因此本步骤采用动态规划算法,根据下面所述目标函数搜索得到识别分数最大的字符组合方式,得到最终的文本识别结果。目标函数为:
【权利要求】
1.一种基于稀疏编码特征的场景文本识别方法,其特征在于包括如下步骤: 步骤S1:输入待识别的自然场景文本图像; 步骤S2:采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,这样找出图像中包含的候选字符区域,再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,除去重复冗余的候选字符区域,得到字符检测结果; 步骤S3:将检测到的字符合并成一个词或文本行; 步骤S4:输出场景文本识别结果。
2.如权利要求1所述一种基于稀疏编码特征的场景文本识别方法,其特征在于在步骤S2中,所述字符分类器的特征提取是采用基于稀疏编码的特征,分类器训练采用训练较为简单且识别速度较快的Random Fern分类器或SVM分类器。
3.如权利要求2所述一种基于稀疏编码特征的场景文本识别方法,其特征在于所述稀疏编码的特征提取过程包括如下步骤: 步骤S201:用大量的自然场景图片数据,用K-SVD算法学习得到一个具有普遍适用性的稀疏编码字典; 步骤S202:将学习得到的稀疏编码字典保存,其中,字典中每个元素描述的是一些重要的结构信息; 步骤S203:利用步骤S202中所保存的字典,提取图像的稀疏编码特征。
4.如权利要求3所述一种基于稀疏编码特征的场景文本识别方法,其特征在于在步骤S201中,所述K-SVD算法在学习字典时,字典的每个元素设计为9X9的图片,代表了学习得到的共有的结构特征,字典共包含100个元素,即字典的大小为100,这使字典具有较高的表示能力,同时使计算量控制在可接受的范围。
5.如权利要求3所述一种基于稀疏编码特征的场景文本识别方法,其特征在于在步骤S203中,所述提取图像的稀疏编码特征的具体方法为:对图像的每一个像素,通过Orthogonal Matching Pursuit算法进行解码得到像素的稀疏编码,再将得到的稀疏编码进行统计得到稀疏编码的直方图,从而得到图像的稀疏编码特征,即HSC特征。
6.如权利要求5所述一种基于稀疏编码特征的场景文本识别方法,其特征在于所述将得到的稀疏编码进行统计得到稀疏编码的直方图,从而得到图像的稀疏编码特征的方法为:将稀疏编码进行统计得到稀疏编码的直方图时,采用了类似于梯度直方图特征的方法,具体步骤包括: 首先,将输入的图片分成8X8的小单元块,统计每一个小单元块的稀疏编码; 然后,使用双线性插值法利用每个小单元块的相邻块计算每个小单元块的稀疏编码特征,也即在每个小单元块上的特征是在一个16X16的邻域上求插值得到的; 最后,将所有的小单元块的特征向量连起来得到整个图像的稀疏编码特征,即HSC特征。
7.如权利要求1所述一种基于稀疏编码特征的场景文本识别方法,其特征在于在步骤S3中,所述将检测到的字符合并成一个词或文本行,由于对每一个字符类别都保留了大量的候选字符区域,将字符合并成词时有大量的组合方式,因此采用动态规划算法搜索得到识别分数最大的字符组合方式,得到最终的文本识别结果。
8.如权利要求7所述一种基于稀疏编码特征的场景文本识别方法,其特征在于所述采用动态规划算法搜索得到识别分数最大的字符组合方式,需要一个目标函数来评价每一种组合的得分;所述目标函数的设计采用以下方法: 用W = (C1, C2,…,Cn)表示一个候选词,其中CiQ = I, 2,..., η)表示候选词中包含的字符类别,η为字符个数(即文本长度),Xi表示Ci的候选字符区域,目标函数设计为:
9.如权利要求8所述一种基于稀疏编码特征的场景文本识别方法,其特征在于所述目标函数中,几何模型g(Xi,xi+1)描述的是两个相邻字符之间的几何特征是否是字符间特征,是一个两类分类问题,用一个SVM分类器对几何特征进行建模,建模时提取的几何特征包括尺度相似性、相邻字符的重叠率、上下边界的距离。
10.如权利要求8所述一种基于稀疏编码特征的场景文本识别方法,其特征在于所述目标函数中,考虑了文本长度的影响,因此能够克服字符长度对识别结果的影响,从而提高文本识别率;调节参数α和β可采用最小分类错误率训练方法在场景文本数据库上学习得到。
【文档编号】G06K9/20GK103942550SQ201410184072
【公开日】2014年7月23日 申请日期:2014年5月4日 优先权日:2014年5月4日
【发明者】王菡子, 王大寒, 章冬 申请人:厦门大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1