基于sift特征与灰度差值直方图特征的文字识别方法

文档序号:6482645阅读:310来源:国知局
专利名称:基于sift特征与灰度差值直方图特征的文字识别方法
技术领域
本发明涉及的是一种图像文字识别技术领域的方法,具体是一种基于SIFT
特征与灰度差值直方图特征的文字识别方法。
背景技术
目前,图像文字识别技术的应用十分广泛,该技术就是从一幅图像中识别 出所包含的文字信息。其实,西方国家在文本识别技术领域已取得了不少研究 成果,但是他们的研究对象大多局限于英文字母。由于中文具有复杂的笔画结 构、庞大的汉字库、各种不同类型的字体,使得汉字识别技术成为一个研究难 点。
传统的文本识别技术一般包括文本定位、文本增强以及成熟的OCR技术。 对于基于OCR技术的文本识别方法而言,其识别性能与文本定位的准确率和文 本增强后的图像质量有很大关系。而文本定位的准确率又取决于所选文字特征 的描述能力。传统的文字特征描绘子大致可以概括为基于结构信息与基于统计 信息两大类。基于结构信息的方法来描述汉字字形在理论上比较恰当,但是, 在实际应用中,面临的主要问题是抗干扰能力差,例如图像中文字的倾斜、扭 曲、断裂、粘连、对比度差等等,而这些因素直接影响到结构基元的提取。基 于统计信息的描述方法,主要是提取待识别模式的一组统计特征,然后按照一 定准则确定决策。例如,几何矩(geometricmoment)特征m. k. hu提出利用 矩不变量作为特征的想法,所涉及到的几何矩均在线性变换下保持不变。但在 实际环境中,很难保证线性变换这一前提条件;傅立叶描绘子利用傅立叶函 数模拟封闭的轮廓线,将傅立叶函数的各个系数作为特征的,对于轮廓线不封 闭的字符图像不适用,因此很难用于笔划断裂的字符的识别。
经对现有技术文献的检索发现《基于笔划的手写体汉字方向分解特征提取 方法》(载华南理工大学学报自然科学版),提出了一种利用笔划密度特征识 别文字的方法,文字以固定扫描次数沿水平、垂直或对角线方向扫描时的穿透
4次数。这种特征描述了汉字的各部分笔划的疏密程度,提供了比较完整的信息。 在图像质量可以保证的情况下,这种特征相当稳定,但是在字符内部笔划粘连 时误差较大。在实际运用中,上述特征的描述能力受背景复杂度、光照强度、 文字字体、文字倾斜程度、文字尺寸等情况的影响。

发明内容
本发明的目的在于克服现有技术中的不足,提出一种基于SIFT特征与灰度
差值直方图特征的文字识别方法,本发明利用文字关键区域的局部特征及灰度
对比度统计特征来描述文字,并利用该信息来识别复杂背景下的文字。 本发明是通过以下技术方案实现的,本发明包括以下步骤.-
(1) 建立汉字模板图库,每张模板图片只含单个汉字。每个模板汉字涵盖
不同字形的一号字体;
(2) 提取待识别汉字图片的特征点,记录每个特征点的相关信息,即位置 信息、邻域尺度信息、主方向,并计算出SIFT特征点的128维向量;其中,这 些待识别图片上汉字的字体、字号、旋转度、拉伸度、在图片中所处的位置、 所处背景的复杂程度都可以有所不同;
(3) 利用步骤(2)中得到的每个特征点的相关信息,计算两倍邻域尺度 范围内灰度差值统计直方图,得到特征点的120维向量;
(4) 将步骤(2)和步骤(3)中计算得到的特征点的128维向量和120维 向量合并在一起,归并成总的特征向量,得到待识别汉字图片的特征向量;
(5) 计算模板图库中模板文字进行特征向量的计算,并存于汉字模板图库
中;
(6) 将待识别汉字图片的特征向量与模板图库中模板文字图片的特征向量 相匹配从得到的模板图库中模板文字图片的特征向量集合中,寻找与待识别 汉字图片的特征向量相匹配的特征点;
(7) 对识别到的汉字图片进行相似度排序,检测识别效果根据正确匹配
点对数的结果以及特征向量间的相似度,将步骤6得到的匹配结果通过加权排
序的方法,最终得到模板库中与待识别汉字较匹配的汉字。
与现有技术相比,本发明具有以下有益效果
本发明利用文字关键区域的局部特征及灰度对比度统计特征来识别复杂背景下的文字,解决了复杂背景、倾斜、形变、光线变换等不同质量的图像上的 文字识别问题,无需定位图像中的文字区域,即无需离线地做大量文字统计特 征的机器学习工作;无需对文字进行前期增强处理;无需对图像中的汉字进行 倾斜矫正、尺度縮放、位置平移等处理;可以部分匹配不同字体的汉字,大大 提高了文字识别率。


图l是本发明的流程。
图2是同种字体的文字匹配效果。
图3是同种文字不同字体的匹配效果。
具体实施例方式
下面结合附图对本发明的实施例作详细说明本实施例在以本发明技术方 案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的 保护范围不限于下述的实施例。
如图1所示,本实施例包括以下步骤
(1) 输入待识别的汉字图片,待检测图片上的汉字的字形、字号、文字在 图像中所处位置、旋转度、拉伸度、背景复杂度都可以有所不同。
(2) 进行SIFT特征点检测运用SIFT算法进行SIFT特征点向量描述, 提取待识别汉字图片的特征点,记录每个特征点的相关信息,即位置信息、邻 域尺度信息、主方向,并计算出SIFT特征点的128维向量。
(3) 灰度差值直方图描述利用步骤(2)中得到的关于每个特征点的相 关信息,计算两倍邻域尺度范围内灰度差值统计直方图,得到120维向量
3. 1)以步骤(2)检测到的特征点为中心,以步骤(2)得到的尺度(scale) 的两倍为半径确定统计灰度差值的邻域范围;
3.2) 将该邻域旋转一个角度,使得步骤(2)得到的主方向与坐标系X轴 正方向的夹角为0;
3.3) 将半径量化为5级,将360度等分成12级,建立对数极坐标,从而 将邻域划分成60个子区域;3.4) 计算中心特征点与各个子邻域内其他像素点的差值,若得到的差值大 于0,则将正差值的像素个数累加l,若得到的差值小于0,则将负差值的像素
个数累加1,最终每个区域会形成2维的统计直方3.5) 循环步骤3.4),直至计算完所有的子区域,得到60个子区域对应的 120维向量。
(4) 将步骤(2)和步骤(3)中计算得到的两种向量合并在一起,归并成 总的特征向量,得到待识别汉字图片的特征向量。
(5) 计算模板图库中模板文字图片的特征向量,并存于数据库中。
(6) 将待识别汉字图片的特征向量与模板图库中模板文字图片的特征向量 进行匹配,寻找与待识别汉字图片的特征向量相匹配的特征点。其中,每张模 板图片只含有单个汉字,且涵盖了不同字形的一号字体。
针对两幅图片的特征点对集,遍历模板图库中模板文字图片的每个特征点, 计算每个特征点对应的特征向量与待识别汉字图片所有特征向量的欧式距离,
若最近邻距离与次近邻距离之比在阈值范围之内,则认为该特征点与最近邻向 量所对应的特征点是匹配点对。
(7) 对检测到的汉字图片进行相似度排序,检测识别效果根据正确匹配 点对数的统计结果以及特征向量间的相似度,将步骤(6)得到的结果通过一个 加权排序的方法,最终得到模板库中与待识别汉字较匹配的汉字。所示图2是 同种字体的文字匹配效果,分别为黑体常规的"舟"和黑体加粗的"舟"。图3 是同种文字不同字体的匹配效果,分别是隶书倾斜字体的"名"与黑体常规字 体的"名"。第一列图是本专利提出的算法得到的效果图,第二列图是SIFT算 法得到的效果图。连线表示正确匹配上的点对。
本实施例利用文字关键区域的局部特征及灰度对比度统计特征来识别复杂 背景下的文字,解决了复杂背景、倾斜、形变、光线变换等不同质量的图像上 的文字识别问题,减少了大量文字统计特征的机器学习工作;可以部分匹配不 同字体的汉字,大大提高了文字识别率。
权利要求
1、一种基于SIFT特征与灰度差值直方图特征的文字识别方法,其特征在于,包括以下步骤(1)建立汉字模板图库;(2)提取待识别汉字图片的特征点,记录每个特征点的位置信息、邻域尺度信息、主方向信息,并计算出SIFT特征点的128维向量;(3)利用步骤(2)中得到的每个特征点的位置信息、邻域尺度信息、主方向信息,计算两倍邻域尺度范围内灰度差值统计直方图,得到120维向量;(4)将特征点的128维向量和120维向量合并在一起,归并成总的特征向量,得到待识别汉字图片的特征向量;(5)计算模板图库中模板文字进行特征向量的计算,并存于数据库中;(6)待识别汉字图片的特征向量与模板图库中模板文字图片的特征向量进行匹配,寻找与待识别汉字图片的特征向量相匹配的特征点;(7)对识别到的汉字图像进行相似度排序,检测识别效果。
2、根据权利要求1所述的文字识别方法,其特征是,所述计算两倍邻域尺度范围内灰度差值统计直方图,是指1) 以步骤(2)检测到的特征点为中心特征点,以邻域尺度的两倍大小为半径确定统计灰度差值的邻域范围;2) 将邻域范围旋转一个角度,使主方向与坐标系X轴正方向的夹角为O;3) 将半径量化为5级,将360度等分成12级,从而将邻域划分成60个子区域;4) 计算中心特征点与各个子邻域内其他像素点的差值,若得到的差值大于 0,则将正差值的像素个数累加1,若得到的差值小于O,则将负差值的像素个 数累加1,形成2维的统计直方图;5) 循环步骤4),直至计算完所有的子区域,得到60个子区域对应的120 维向量。
3、 根据权利要求1所述的基于SIFT特征与灰度差值直方图特征的文字识 别方法,其特征是,所述的待识别汉字图片的特征向量与模板图库中模板文字 图片的特征向量进行匹配,是指,遍历模板图库中模板文字图片的每个特征点, 计算每个特征点对应的特征向量与待识别汉字图片所有特征向量的欧式距离,若最近邻距离与次近邻距离之比在阈值范围之内,则认为该特征点与最近邻向 量所对应的特征点是匹配点对。
4、 根据权利要求1所述的基于SIFT特征与灰度差值直方图特征的文字识 别方法,其特征是,步骤(7)所述检测,是指,根据正确匹配点对数的统计结 果以及特征向量间的相似度,将步骤(6)得到的结果通过加权排序的方法,得 到模板图中与待识别汉字相匹配的汉字。
全文摘要
本发明涉及的是一种图像文字识别技术领域的基于SIFT特征与灰度差值直方图特征的文字识别方法。本发明包括以下步骤1.构建汉字模板图库,其中存储了各种复杂背景下字体类别、文字大小、方向均不相同的图片。2.对模板图库中的图片进行特征提取。3.计算待识别汉字的特征向量。4.寻找模板库中与待识别汉字最相近的汉字。本发明提出的识别方法无需对图片做任何预处理,无需对海量的文字特征做大规模的机器学习,创新性地借助局部特征的优势,巧妙地结合区域内的灰度统计信息来描述、匹配文字,实验结果表明文字识别效果较好,并对同一个字的不同类型字体也能做出很好地辨识。
文档编号G06K9/46GK101561866SQ20091005214
公开日2009年10月21日 申请日期2009年5月27日 优先权日2009年5月27日
发明者桐 武, 管海兵, 琪 郑, 贞 金, 凯 陈 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1