基于图像局部特征检索的文字识别方法

文档序号:6332525阅读:144来源:国知局
专利名称:基于图像局部特征检索的文字识别方法
技术领域
本发明涉及的是一种图像处理技术领域的方法,具体是一种基于图像局部特征检 索的文字识别方法。
背景技术
图像文字识别在许多领域有着广泛的需求,例如书本/CD封面识别、车牌识别、图 像和视频搜索引擎和网络数据挖掘等。而针对复杂背景和自然拍摄的图像文字的识别,由 于该类图像背景复杂,包括多样的语种、字体、字符大小、位置、排列、字形,加之自然拍摄图 像中存在的光度不均、视角变换、几何变形、噪声干扰等,使得文本分析和识别面临着极大 的困难。传统的方法一般包括了文本定位、预处理(一般包括归一化、增强、二值化)和OCR 文字识别这些步骤。其中的每一步都涉及了许多其它的复杂方法,每一步方法都将影响了 最终识别结果的准确性。Chen 的论文《Automatic detection and recognition of signs from naturalscenes(自然场景信号的自动检测和识别)》提出了一种从自然场景的图像 中检测和识别信号的方法。其中利用L0G(LaplaCian of Gaussian,高斯拉普拉斯)边缘 检测、颜色建模、版面分析和仿射校来检测文本,然后对文本进行归一化处理,最后用基于 灰度的 OCR 进行文本识别。Koga 的论文《Camera-based Kanji OCR for mobile-phones practical issues (用于手机实际使用的基于相机的汉字OCR)》针对手机提出了一种基于 相机的汉字识别方法。该方法的第一部分包括了四个步骤预二值化、粗略的版面分析、行 方向检测、行分割。而后一部分也包括了四个步骤精细二值化、预分割、汉字识别和后处 理。由于这类基于OCR方法,其识别的准确率与文本定位、以及增强后的图像质量有着密切 的关系。由于对噪声、复杂背景和许多种几何变形、光度变换的鲁棒性,局部特征被成功运 用到了计算机视觉的诸多领域之中,诸如图像匹配、物体识别、图像检索、建筑全景图和视 频数据挖掘等。因此局部特征也可以被运用到文字识别中来。经过对现有技术的检索发现,Campos的论文《Character recognition in natural images (自然图像中的文字识别)》利用局部特征和BoW(bag ofvisual words,视 觉字)的模型来识别英语和印度单个字母。在陈凯的《基于SIFT特征与灰度差值直方图特 征的文字识别方法》专利中,提出了新的局部特征来识别文字。该方法利用SIFT特征和灰 度差值直方图特征来对图片中分割的文字进行描述,然后和模板库中的特征进行匹配,选 择最接近的作为识别结果。这些方法都是针对分割之后的单字进行识别,需要文字定位和 分割,无法直接运用到复杂背景和自然拍摄的图像中。

发明内容
本发明针对现有技术存在的上述不足,提供一种基于图像局部特征检索的文字识 别方法,利用文字关键区域的局部特征来描述文字,并利用检索技术来实现复杂背景和自
3然拍摄的图片文字的识别。本发明是通过以下技术方案实现的,本发明包括以下步骤第一步、建立汉字模板图库并提取其中每个汉字所对应图片的特征值作为特征匹 配库;所述的提取是指采用尺度不变特征变换算法提取特征值。所述的特征值包括特征点的位置信息、临域尺度信息、主方向信息,以及SIFT特 征点的128维向量。第二步、计算待识别汉字所对应图片的特征值,与特征匹配库进行特征点匹配,得 到局部特征点坐标。所述的特征点匹配是指采用MPLSH(Multi-Probe Local Sensitive Hashing)多 指针区域敏感哈希算法来进行快速的特征匹配。第三步、对待识别汉字所对应图片进行单字子窗口提取;所述的单字子窗口是指图片中的一个正方形的区域,区域中包括了匹配所用的 局部特征点;所述的单字子窗口提取是指统计待识别汉字所对应图片的局部特征点的位置的 范围和临域尺度的范围,并根据临域尺度的范围计算出单字子窗口尺寸的范围。第四步、构建识别最大堆并进行单字子窗口识别和合并处理,实现文字识别。所述的构建识别最大堆是指统计所有单字子窗口中匹配的特征点的个数,将个 数小于阈值的单字子窗口删除,将剩余的单字子窗口组成一个识别最大堆,每次从堆中选 择点数最多的单字子窗口进行识别,当该单字子窗口中识别出了文字则删除该文字上匹配 的特征点并重新统计相关单字子窗口中特征点的个数,同时删除点数小于阈值的单字子窗 口 ;否则直接删除该单字子窗口并重新进行构建,直至识别最大堆中不存在单字子窗口为 止。所述的单字子窗口识别是指统计单字子窗口中与每个模板字匹配上点的个数, 然后通过几何校验筛选掉不符合几何约束的特征点匹配对,最终得到一个特征点一一对应 的匹配关系,当单字子窗口识别出了汉字,根据几何校验后匹配的点对,得到单字子窗口文 字和模板图片的映射变换关系,从而得到单字子窗口文字的实际区域;所述的合并是指基于单字子窗口识别处理后得到的同一区域会提取出许多不同 的单字子窗口,对于两个重叠面积大于较小文字面积一半的两个文字进行合并。与现有技术相比,本发明的有益效果在于利用了局部特征来提取图像信息的鲁 棒性,从而解决了光度不均、视角变换、几何变形、噪声干扰等文字图像识别上的问题。同 时,本发明也改进了图像检索技术,利用全新的单字子窗口提取和筛选方法以及投票方法, 解决了复杂背景和多语种、字体、字符大小、位置、排列不同的场景下图像文字识别的问题。 同时本方法也省去了传统基于OCR方法的所需要的大量的文本定位和预处理的工作,也无 需做离线的文字特征的机器学习的工作,提高了识别的效率和精度。


图1是本发明的流程图。图2是模板图片的例图。
图3是投票和几何校验的例图。图4是复杂背景图片的识别例图。
具体实施例方式下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行 实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施 例。如图1所示,本实施例包括以下步骤1.建立汉字模板图库。模板图库有多种字体组成,每个字体的每种文字包括了黑 底白字和白底黑字两个模板字。每个字都是一张单独的图片。模板图片都是不包括任何光 度变换和几何变换、噪声的机器生成图片。图2(a)是模板图片的样例。黑底白字的模板是 用来识别文字颜色浅于背景颜色的文字图片,白底黑字则用来识别文字颜色深于背景颜色 的文字图片。没有背景、光度变换和几何变换可以保证在下一步的局部特征中,不会在非文 字区域产生误匹配。2.提取模板图片局部特征,建立模板特征数据库。在计算机视觉中,局部特征以其 良好的几何不变性和光度不变性被广泛运用在图像特征提取和匹配上。本实施例在实现中 采用了 SIFT(Scale Invariant Feature Transform,尺度不变特征变换)提取特征。3.提取待识别图片的局部特征,局部特征的选择与步骤2中相同。4.局部特征匹配。由于模板特征库数据量巨大,本实施例在实现中采用 MPLSH(Multi-Probe Local Sensitive Hashing)来进行快速的特征匹配。图 2 (b)是待匹 配图片与模板图片的匹配效果。每条连线代表了一对匹配的点对。因为文字的局部相似性, 该步仍然会产生许多误匹配的发生,图3(a)就是误匹配的例图。5.对待识别图片进行单字子窗口的提取。单字子窗口是一个正方形的区域,区域 中包括了匹配所用的局部特征点。可以用哈希表的形式来保存图片中的局部特征,这样可 以方便地根据单字子窗口的位置来检索其中的局部特征。图4b是图4(a)中提取的单字子 窗口,黄色的箭头表示其中的特征点。提取单字识别窗口的步骤包括5. 1统计待匹配图片上匹配上的特征点的位置的范围和临域尺度的范围,包括最 大横坐标Xmax、最小横坐标Xmin、最大纵坐标Ymax、最小纵坐标Ymin、最大尺度Smax和最小尺度
Smin °5. 2根据临域尺度的范围计算出单字子窗口尺寸的范围,单字子窗口是正方形,最 大单字子窗口边长Wmax = Smaxk,最小单字子窗口边长Wmin = Smink。单字子窗口的尺寸从Wmin 开始,以系数Δ 1为倍数增加。对于每个尺寸,在特征点位置范围之内,沿着X和y方向上 每隔WΔ d取一个单字子窗口。对于边长是W的单字子窗口,只保留其窗口内临域尺度在 (ff/k,WAs/k)范围之内的特征点。单字子窗口的大小最大不能超过Wmax。k是单字子窗口 系数,Δ 1是增长系数,Ad是移动系数,Δ s是尺度范围系数。6.统计所有单字子窗口中匹配的特征点的个数。个数小于阈值t的单字子窗口被 删除。剩余的单字子窗口组成一个最大堆。每次从堆中选择点数最多的单字子窗口,识别 该单字子窗口。如果该单字子窗口中识别出了文字,删除该文字上匹配的特征点,重新统计 相关单字子窗口中特征点的个数,删除那些点数小于阈值t的单字子窗口。否则,直接删除该单字子窗口。这样反复识别,直到堆中不存在单字子窗口为止。以下是单字子窗口识别 方法的步骤6. 1投票统计单字子窗口中与每个模板字匹配上点的个数。假设字C匹配上的 点数是ca。统计每个模板字与单字子窗口匹配上点的个数。假设字C匹配上的点数是cb。 对于模板字,最终的投票结果是Ca和Cb的最小值Cn。对Cn进行从大到小的排序,取前N个 字为候选字。图4(b)是投票之后的匹配结果,可以看到仍然有误匹配的存在。6. 2几何校验通过几何校验可以筛选掉那些不符合几何约束的特征点匹配对, 最终得到一个特征点一一对应的匹配关系。假设此时字C匹配上的点数是cg。对。进行 从大到小的排序,排在最前面的字就是最终识别的字。如果识别出的字的(8小于阈值t(同 权利要求1),则认为该识别无效,该单字子窗口没有识别出汉字。图4(C)是几何校验之后 的匹配结果,可以看到对于字形不同的字,已经不存在误匹配了。6. 3如果单字子窗口识别出了汉字,根据几何校验后匹配的点对,得到单字子窗口 文字和模板图片的映射变换关系,从而得到单字子窗口文字的实际区域,这个区域可以是 一个矩形。7.后处理,合并重叠的文字。由于在同一区域会提取出许多不同的单字子窗口,因 此也会存在在同一区域识别出许多文字的情况。对于两个重叠面积大于较小文字面积一半 的两个文字,进行合并。比较两个文字匹配的特征点的个数,保留特征点个数较多的文字, 删除另一个文字。本实施实例利用了局部特征检索的方法识别复杂背景和自然拍摄的图片中的文 字,并加上了我们提出的投票和单字子窗口提取和筛选方法,实验结果表明大大提高了识 别的效率和精度。
权利要求
一种基于图像局部特征检索的文字识别方法,其特征在于,包括以下步骤第一步、建立汉字模板图库并提取其中每个汉字所对应图片的特征值作为特征匹配库;第二步、计算待识别汉字所对应图片的特征值,与特征匹配库进行特征点匹配,得到局部特征点坐标;第三步、对待识别汉字所对应图片进行单字子窗口提取;第四步、构建识别最大堆并进行单字子窗口识别和合并处理,实现文字识别。
2.根据权利要求1所述的基于图像局部特征检索的文字识别方法,其特征是,所述的 提取是指采用尺度不变特征变换算法提取特征值。
3.根据权利要求1所述的基于图像局部特征检索的文字识别方法,其特征是,所述的 特征值包括特征点的位置信息、临域尺度信息、主方向信息,以及SIFT特征点的128维向 量。
4.根据权利要求1所述的基于图像局部特征检索的文字识别方法,其特征是,所述的 特征点匹配是指采用多指针区域敏感哈希算法来进行快速的特征匹配。
5.根据权利要求1所述的基于图像局部特征检索的文字识别方法,其特征是,所述的 单字子窗口是指图片中的一个正方形的区域,区域中包括了匹配所用的局部特征点。
6.根据权利要求1所述的基于图像局部特征检索的文字识别方法,其特征是,所述的 单字子窗口提取是指统计待识别汉字所对应图片的局部特征点的位置的范围和临域尺度 的范围,并根据临域尺度的范围计算出单字子窗口尺寸的范围。
7.根据权利要求1所述的基于图像局部特征检索的文字识别方法,其特征是,所述的 构建识别最大堆是指统计所有单字子窗口中匹配的特征点的个数,将个数小于阈值的单 字子窗口删除,将剩余的单字子窗口组成一个识别最大堆,每次从堆中选择点数最多的单 字子窗口进行识别,当该单字子窗口中识别出了文字则删除该文字上匹配的特征点并重新 统计相关单字子窗口中特征点的个数,同时删除点数小于阈值的单字子窗口 ;否则直接删 除该单字子窗口并重新进行构建,直至识别最大堆中不存在单字子窗口为止。
8.根据权利要求1所述的基于图像局部特征检索的文字识别方法,其特征是,所述的 单字子窗口识别是指统计单字子窗口中与每个模板字匹配上点的个数,然后通过几何校 验筛选掉不符合几何约束的特征点匹配对,最终得到一个特征点一一对应的匹配关系,当 单字子窗口识别出了汉字,根据几何校验后匹配的点对,得到单字子窗口文字和模板图片 的映射变换关系,从而得到单字子窗口文字的实际区域。
9.根据权利要求1所述的基于图像局部特征检索的文字识别方法,其特征是,所述的 合并是指基于单字子窗口识别处理后得到的同一区域会提取出许多不同的单字子窗口, 对于两个重叠面积大于较小文字面积一半的两个文字进行合并。
全文摘要
一种图像处理技术领域的基于图像局部特征检索的文字识别方法,首先建立汉字模板图库并提取其中每个汉字所对应图片的特征值作为特征匹配库;然后计算待识别汉字所对应图片的特征值,与特征匹配库进行特征点匹配,得到局部特征点坐标;再对待识别汉字所对应图片进行单字子窗口提取;最后构建识别最大堆并进行单字子窗口识别和合并处理,实现文字识别。本发明利用文字关键区域的局部特征来描述文字,并利用检索技术来实现复杂背景和自然拍摄的图片文字的识别。
文档编号G06K9/00GK101957919SQ20101028954
公开日2011年1月26日 申请日期2010年9月22日 优先权日2010年9月22日
发明者周异, 郑琪, 陈凯 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1