基于图像局部特征检索的文字识别方法

文档序号：6332525阅读：144来源：国知局

专利名称：基于图像局部特征检索的文字识别方法
技术领域：
本发明涉及的是一种图像处理技术领域的方法，具体是一种基于图像局部特征检索的文字识别方法。
背景技术：
图像文字识别在许多领域有着广泛的需求，例如书本/CD封面识别、车牌识别、图像和视频搜索引擎和网络数据挖掘等。而针对复杂背景和自然拍摄的图像文字的识别，由于该类图像背景复杂，包括多样的语种、字体、字符大小、位置、排列、字形，加之自然拍摄图像中存在的光度不均、视角变换、几何变形、噪声干扰等，使得文本分析和识别面临着极大的困难。传统的方法一般包括了文本定位、预处理(一般包括归一化、增强、二值化)和OCR 文字识别这些步骤。其中的每一步都涉及了许多其它的复杂方法，每一步方法都将影响了最终识别结果的准确性。Chen 的论文《Automatic detection and recognition of signs from naturalscenes(自然场景信号的自动检测和识别)》提出了一种从自然场景的图像中检测和识别信号的方法。其中利用L0G(LaplaCian of Gaussian，高斯拉普拉斯)边缘检测、颜色建模、版面分析和仿射校来检测文本，然后对文本进行归一化处理，最后用基于灰度的 OCR 进行文本识别。Koga 的论文《Camera-based Kanji OCR for mobile-phones practical issues (用于手机实际使用的基于相机的汉字OCR)》针对手机提出了一种基于相机的汉字识别方法。该方法的第一部分包括了四个步骤预二值化、粗略的版面分析、行方向检测、行分割。而后一部分也包括了四个步骤精细二值化、预分割、汉字识别和后处理。由于这类基于OCR方法，其识别的准确率与文本定位、以及增强后的图像质量有着密切的关系。由于对噪声、复杂背景和许多种几何变形、光度变换的鲁棒性，局部特征被成功运用到了计算机视觉的诸多领域之中，诸如图像匹配、物体识别、图像检索、建筑全景图和视频数据挖掘等。因此局部特征也可以被运用到文字识别中来。经过对现有技术的检索发现，Campos的论文《Character recognition in natural images (自然图像中的文字识别)》利用局部特征和BoW(bag ofvisual words，视觉字)的模型来识别英语和印度单个字母。在陈凯的《基于SIFT特征与灰度差值直方图特征的文字识别方法》专利中，提出了新的局部特征来识别文字。该方法利用SIFT特征和灰度差值直方图特征来对图片中分割的文字进行描述，然后和模板库中的特征进行匹配，选择最接近的作为识别结果。这些方法都是针对分割之后的单字进行识别，需要文字定位和分割，无法直接运用到复杂背景和自然拍摄的图像中。

发明内容
本发明针对现有技术存在的上述不足，提供一种基于图像局部特征检索的文字识别方法，利用文字关键区域的局部特征来描述文字，并利用检索技术来实现复杂背景和自
3然拍摄的图片文字的识别。本发明是通过以下技术方案实现的，本发明包括以下步骤第一步、建立汉字模板图库并提取其中每个汉字所对应图片的特征值作为特征匹配库；所述的提取是指采用尺度不变特征变换算法提取特征值。所述的特征值包括特征点的位置信息、临域尺度信息、主方向信息，以及SIFT特征点的128维向量。第二步、计算待识别汉字所对应图片的特征值，与特征匹配库进行特征点匹配，得到局部特征点坐标。所述的特征点匹配是指采用MPLSH(Multi-Probe Local Sensitive Hashing)多指针区域敏感哈希算法来进行快速的特征匹配。第三步、对待识别汉字所对应图片进行单字子窗口提取；所述的单字子窗口是指图片中的一个正方形的区域，区域中包括了匹配所用的局部特征点；所述的单字子窗口提取是指统计待识别汉字所对应图片的局部特征点的位置的范围和临域尺度的范围，并根据临域尺度的范围计算出单字子窗口尺寸的范围。第四步、构建识别最大堆并进行单字子窗口识别和合并处理，实现文字识别。所述的构建识别最大堆是指统计所有单字子窗口中匹配的特征点的个数，将个数小于阈值的单字子窗口删除，将剩余的单字子窗口组成一个识别最大堆，每次从堆中选择点数最多的单字子窗口进行识别，当该单字子窗口中识别出了文字则删除该文字上匹配的特征点并重新统计相关单字子窗口中特征点的个数，同时删除点数小于阈值的单字子窗口；否则直接删除该单字子窗口并重新进行构建，直至识别最大堆中不存在单字子窗口为止。所述的单字子窗口识别是指统计单字子窗口中与每个模板字匹配上点的个数，然后通过几何校验筛选掉不符合几何约束的特征点匹配对，最终得到一个特征点一一对应的匹配关系，当单字子窗口识别出了汉字，根据几何校验后匹配的点对，得到单字子窗口文字和模板图片的映射变换关系，从而得到单字子窗口文字的实际区域；所述的合并是指基于单字子窗口识别处理后得到的同一区域会提取出许多不同的单字子窗口，对于两个重叠面积大于较小文字面积一半的两个文字进行合并。与现有技术相比，本发明的有益效果在于利用了局部特征来提取图像信息的鲁棒性，从而解决了光度不均、视角变换、几何变形、噪声干扰等文字图像识别上的问题。同时，本发明也改进了图像检索技术，利用全新的单字子窗口提取和筛选方法以及投票方法，解决了复杂背景和多语种、字体、字符大小、位置、排列不同的场景下图像文字识别的问题。同时本方法也省去了传统基于OCR方法的所需要的大量的文本定位和预处理的工作，也无需做离线的文字特征的机器学习的工作，提高了识别的效率和精度。

图1是本发明的流程图。图2是模板图片的例图。
图3是投票和几何校验的例图。图4是复杂背景图片的识别例图。
具体实施例方式下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。如图1所示，本实施例包括以下步骤1.建立汉字模板图库。模板图库有多种字体组成，每个字体的每种文字包括了黑底白字和白底黑字两个模板字。每个字都是一张单独的图片。模板图片都是不包括任何光度变换和几何变换、噪声的机器生成图片。图2(a)是模板图片的样例。黑底白字的模板是用来识别文字颜色浅于背景颜色的文字图片，白底黑字则用来识别文字颜色深于背景颜色的文字图片。没有背景、光度变换和几何变换可以保证在下一步的局部特征中，不会在非文字区域产生误匹配。2.提取模板图片局部特征，建立模板特征数据库。在计算机视觉中，局部特征以其良好的几何不变性和光度不变性被广泛运用在图像特征提取和匹配上。本实施例在实现中采用了 SIFT(Scale Invariant Feature Transform，尺度不变特征变换)提取特征。3.提取待识别图片的局部特征，局部特征的选择与步骤2中相同。4.局部特征匹配。由于模板特征库数据量巨大，本实施例在实现中采用 MPLSH(Multi-Probe Local Sensitive Hashing)来进行快速的特征匹配。图 2 (b)是待匹配图片与模板图片的匹配效果。每条连线代表了一对匹配的点对。因为文字的局部相似性，该步仍然会产生许多误匹配的发生，图3(a)就是误匹配的例图。5.对待识别图片进行单字子窗口的提取。单字子窗口是一个正方形的区域，区域中包括了匹配所用的局部特征点。可以用哈希表的形式来保存图片中的局部特征，这样可以方便地根据单字子窗口的位置来检索其中的局部特征。图4b是图4(a)中提取的单字子窗口，黄色的箭头表示其中的特征点。提取单字识别窗口的步骤包括5. 1统计待匹配图片上匹配上的特征点的位置的范围和临域尺度的范围，包括最大横坐标Xmax、最小横坐标Xmin、最大纵坐标Ymax、最小纵坐标Ymin、最大尺度Smax和最小尺度
Smin °5. 2根据临域尺度的范围计算出单字子窗口尺寸的范围，单字子窗口是正方形，最大单字子窗口边长Wmax = Smaxk，最小单字子窗口边长Wmin = Smink。单字子窗口的尺寸从Wmin 开始，以系数Δ 1为倍数增加。对于每个尺寸，在特征点位置范围之内，沿着X和y方向上每隔WΔ d取一个单字子窗口。对于边长是W的单字子窗口，只保留其窗口内临域尺度在 (ff/k,WAs/k)范围之内的特征点。单字子窗口的大小最大不能超过Wmax。k是单字子窗口系数，Δ 1是增长系数，Ad是移动系数，Δ s是尺度范围系数。6.统计所有单字子窗口中匹配的特征点的个数。个数小于阈值t的单字子窗口被删除。剩余的单字子窗口组成一个最大堆。每次从堆中选择点数最多的单字子窗口，识别该单字子窗口。如果该单字子窗口中识别出了文字，删除该文字上匹配的特征点，重新统计相关单字子窗口中特征点的个数，删除那些点数小于阈值t的单字子窗口。否则，直接删除该单字子窗口。这样反复识别，直到堆中不存在单字子窗口为止。以下是单字子窗口识别方法的步骤6. 1投票统计单字子窗口中与每个模板字匹配上点的个数。假设字C匹配上的点数是ca。统计每个模板字与单字子窗口匹配上点的个数。假设字C匹配上的点数是cb。对于模板字，最终的投票结果是Ca和Cb的最小值Cn。对Cn进行从大到小的排序，取前N个字为候选字。图4(b)是投票之后的匹配结果，可以看到仍然有误匹配的存在。6. 2几何校验通过几何校验可以筛选掉那些不符合几何约束的特征点匹配对，最终得到一个特征点一一对应的匹配关系。假设此时字C匹配上的点数是cg。对。进行从大到小的排序，排在最前面的字就是最终识别的字。如果识别出的字的(8小于阈值t(同权利要求1)，则认为该识别无效，该单字子窗口没有识别出汉字。图4(C)是几何校验之后的匹配结果，可以看到对于字形不同的字，已经不存在误匹配了。6. 3如果单字子窗口识别出了汉字，根据几何校验后匹配的点对，得到单字子窗口文字和模板图片的映射变换关系，从而得到单字子窗口文字的实际区域，这个区域可以是一个矩形。7.后处理，合并重叠的文字。由于在同一区域会提取出许多不同的单字子窗口，因此也会存在在同一区域识别出许多文字的情况。对于两个重叠面积大于较小文字面积一半的两个文字，进行合并。比较两个文字匹配的特征点的个数，保留特征点个数较多的文字，删除另一个文字。本实施实例利用了局部特征检索的方法识别复杂背景和自然拍摄的图片中的文字，并加上了我们提出的投票和单字子窗口提取和筛选方法，实验结果表明大大提高了识别的效率和精度。
权利要求
一种基于图像局部特征检索的文字识别方法，其特征在于，包括以下步骤第一步、建立汉字模板图库并提取其中每个汉字所对应图片的特征值作为特征匹配库；第二步、计算待识别汉字所对应图片的特征值，与特征匹配库进行特征点匹配，得到局部特征点坐标；第三步、对待识别汉字所对应图片进行单字子窗口提取；第四步、构建识别最大堆并进行单字子窗口识别和合并处理，实现文字识别。
2.根据权利要求1所述的基于图像局部特征检索的文字识别方法，其特征是，所述的提取是指采用尺度不变特征变换算法提取特征值。
3.根据权利要求1所述的基于图像局部特征检索的文字识别方法，其特征是，所述的特征值包括特征点的位置信息、临域尺度信息、主方向信息，以及SIFT特征点的128维向量。
4.根据权利要求1所述的基于图像局部特征检索的文字识别方法，其特征是，所述的特征点匹配是指采用多指针区域敏感哈希算法来进行快速的特征匹配。
5.根据权利要求1所述的基于图像局部特征检索的文字识别方法，其特征是，所述的单字子窗口是指图片中的一个正方形的区域，区域中包括了匹配所用的局部特征点。
6.根据权利要求1所述的基于图像局部特征检索的文字识别方法，其特征是，所述的单字子窗口提取是指统计待识别汉字所对应图片的局部特征点的位置的范围和临域尺度的范围，并根据临域尺度的范围计算出单字子窗口尺寸的范围。
7.根据权利要求1所述的基于图像局部特征检索的文字识别方法，其特征是，所述的构建识别最大堆是指统计所有单字子窗口中匹配的特征点的个数，将个数小于阈值的单字子窗口删除，将剩余的单字子窗口组成一个识别最大堆，每次从堆中选择点数最多的单字子窗口进行识别，当该单字子窗口中识别出了文字则删除该文字上匹配的特征点并重新统计相关单字子窗口中特征点的个数，同时删除点数小于阈值的单字子窗口；否则直接删除该单字子窗口并重新进行构建，直至识别最大堆中不存在单字子窗口为止。
8.根据权利要求1所述的基于图像局部特征检索的文字识别方法，其特征是，所述的单字子窗口识别是指统计单字子窗口中与每个模板字匹配上点的个数，然后通过几何校验筛选掉不符合几何约束的特征点匹配对，最终得到一个特征点一一对应的匹配关系，当单字子窗口识别出了汉字，根据几何校验后匹配的点对，得到单字子窗口文字和模板图片的映射变换关系，从而得到单字子窗口文字的实际区域。
9.根据权利要求1所述的基于图像局部特征检索的文字识别方法，其特征是，所述的合并是指基于单字子窗口识别处理后得到的同一区域会提取出许多不同的单字子窗口，对于两个重叠面积大于较小文字面积一半的两个文字进行合并。
全文摘要
一种图像处理技术领域的基于图像局部特征检索的文字识别方法，首先建立汉字模板图库并提取其中每个汉字所对应图片的特征值作为特征匹配库；然后计算待识别汉字所对应图片的特征值，与特征匹配库进行特征点匹配，得到局部特征点坐标；再对待识别汉字所对应图片进行单字子窗口提取；最后构建识别最大堆并进行单字子窗口识别和合并处理，实现文字识别。本发明利用文字关键区域的局部特征来描述文字，并利用检索技术来实现复杂背景和自然拍摄的图片文字的识别。
文档编号G06K9/00GK101957919SQ20101028954
公开日2011年1月26日申请日期2010年9月22日优先权日2010年9月22日
发明者周异, 郑琪, 陈凯申请人:上海交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈凯;郑琪;周异
技术所有人：上海交通大学
我是此专利的发明人

上一篇：基于元数据驱动的动态表单方法
上一篇：反编译过程中的寄存器传播方法、装置及反编译器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。