基于sift特征与灰度差值直方图特征的文字识别方法

文档序号：6482645阅读：310来源：国知局

专利名称：基于sift特征与灰度差值直方图特征的文字识别方法
技术领域：
本发明涉及的是一种图像文字识别技术领域的方法，具体是一种基于SIFT
特征与灰度差值直方图特征的文字识别方法。
背景技术：
目前，图像文字识别技术的应用十分广泛，该技术就是从一幅图像中识别出所包含的文字信息。其实，西方国家在文本识别技术领域已取得了不少研究成果，但是他们的研究对象大多局限于英文字母。由于中文具有复杂的笔画结构、庞大的汉字库、各种不同类型的字体，使得汉字识别技术成为一个研究难点。
传统的文本识别技术一般包括文本定位、文本增强以及成熟的OCR技术。对于基于OCR技术的文本识别方法而言，其识别性能与文本定位的准确率和文本增强后的图像质量有很大关系。而文本定位的准确率又取决于所选文字特征的描述能力。传统的文字特征描绘子大致可以概括为基于结构信息与基于统计信息两大类。基于结构信息的方法来描述汉字字形在理论上比较恰当，但是，在实际应用中，面临的主要问题是抗干扰能力差，例如图像中文字的倾斜、扭曲、断裂、粘连、对比度差等等，而这些因素直接影响到结构基元的提取。基于统计信息的描述方法，主要是提取待识别模式的一组统计特征，然后按照一定准则确定决策。例如，几何矩(geometricmoment)特征m. k. hu提出利用矩不变量作为特征的想法，所涉及到的几何矩均在线性变换下保持不变。但在实际环境中，很难保证线性变换这一前提条件；傅立叶描绘子利用傅立叶函数模拟封闭的轮廓线，将傅立叶函数的各个系数作为特征的，对于轮廓线不封闭的字符图像不适用，因此很难用于笔划断裂的字符的识别。
经对现有技术文献的检索发现《基于笔划的手写体汉字方向分解特征提取方法》(载华南理工大学学报自然科学版)，提出了一种利用笔划密度特征识别文字的方法，文字以固定扫描次数沿水平、垂直或对角线方向扫描时的穿透
4次数。这种特征描述了汉字的各部分笔划的疏密程度，提供了比较完整的信息。在图像质量可以保证的情况下，这种特征相当稳定，但是在字符内部笔划粘连时误差较大。在实际运用中，上述特征的描述能力受背景复杂度、光照强度、文字字体、文字倾斜程度、文字尺寸等情况的影响。

发明内容
本发明的目的在于克服现有技术中的不足，提出一种基于SIFT特征与灰度
差值直方图特征的文字识别方法，本发明利用文字关键区域的局部特征及灰度
对比度统计特征来描述文字，并利用该信息来识别复杂背景下的文字。本发明是通过以下技术方案实现的，本发明包括以下步骤.-
(1) 建立汉字模板图库，每张模板图片只含单个汉字。每个模板汉字涵盖
不同字形的一号字体；
(2) 提取待识别汉字图片的特征点，记录每个特征点的相关信息，即位置信息、邻域尺度信息、主方向，并计算出SIFT特征点的128维向量；其中，这些待识别图片上汉字的字体、字号、旋转度、拉伸度、在图片中所处的位置、所处背景的复杂程度都可以有所不同；
(3) 利用步骤(2)中得到的每个特征点的相关信息，计算两倍邻域尺度范围内灰度差值统计直方图，得到特征点的120维向量；
(4) 将步骤(2)和步骤(3)中计算得到的特征点的128维向量和120维向量合并在一起，归并成总的特征向量，得到待识别汉字图片的特征向量；
(5) 计算模板图库中模板文字进行特征向量的计算，并存于汉字模板图库
中；
(6) 将待识别汉字图片的特征向量与模板图库中模板文字图片的特征向量相匹配从得到的模板图库中模板文字图片的特征向量集合中，寻找与待识别汉字图片的特征向量相匹配的特征点；
(7) 对识别到的汉字图片进行相似度排序，检测识别效果根据正确匹配
点对数的结果以及特征向量间的相似度，将步骤6得到的匹配结果通过加权排
序的方法，最终得到模板库中与待识别汉字较匹配的汉字。
与现有技术相比，本发明具有以下有益效果
本发明利用文字关键区域的局部特征及灰度对比度统计特征来识别复杂背景下的文字，解决了复杂背景、倾斜、形变、光线变换等不同质量的图像上的文字识别问题，无需定位图像中的文字区域，即无需离线地做大量文字统计特征的机器学习工作；无需对文字进行前期增强处理；无需对图像中的汉字进行倾斜矫正、尺度縮放、位置平移等处理；可以部分匹配不同字体的汉字，大大提高了文字识别率。

图l是本发明的流程。
图2是同种字体的文字匹配效果。
图3是同种文字不同字体的匹配效果。
具体实施例方式
下面结合附图对本发明的实施例作详细说明本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。
如图1所示，本实施例包括以下步骤
(1) 输入待识别的汉字图片，待检测图片上的汉字的字形、字号、文字在图像中所处位置、旋转度、拉伸度、背景复杂度都可以有所不同。
(2) 进行SIFT特征点检测运用SIFT算法进行SIFT特征点向量描述，提取待识别汉字图片的特征点，记录每个特征点的相关信息，即位置信息、邻域尺度信息、主方向，并计算出SIFT特征点的128维向量。
(3) 灰度差值直方图描述利用步骤(2)中得到的关于每个特征点的相关信息，计算两倍邻域尺度范围内灰度差值统计直方图，得到120维向量
3. 1)以步骤(2)检测到的特征点为中心，以步骤(2)得到的尺度(scale) 的两倍为半径确定统计灰度差值的邻域范围；
3.2) 将该邻域旋转一个角度，使得步骤(2)得到的主方向与坐标系X轴正方向的夹角为0;
3.3) 将半径量化为5级，将360度等分成12级，建立对数极坐标，从而将邻域划分成60个子区域；3.4) 计算中心特征点与各个子邻域内其他像素点的差值，若得到的差值大于0，则将正差值的像素个数累加l，若得到的差值小于0，则将负差值的像素
个数累加1，最终每个区域会形成2维的统计直方3.5) 循环步骤3.4)，直至计算完所有的子区域，得到60个子区域对应的 120维向量。
(4) 将步骤(2)和步骤(3)中计算得到的两种向量合并在一起，归并成总的特征向量，得到待识别汉字图片的特征向量。
(5) 计算模板图库中模板文字图片的特征向量，并存于数据库中。
(6) 将待识别汉字图片的特征向量与模板图库中模板文字图片的特征向量进行匹配，寻找与待识别汉字图片的特征向量相匹配的特征点。其中，每张模板图片只含有单个汉字，且涵盖了不同字形的一号字体。
针对两幅图片的特征点对集，遍历模板图库中模板文字图片的每个特征点，计算每个特征点对应的特征向量与待识别汉字图片所有特征向量的欧式距离，
若最近邻距离与次近邻距离之比在阈值范围之内，则认为该特征点与最近邻向量所对应的特征点是匹配点对。
(7) 对检测到的汉字图片进行相似度排序，检测识别效果根据正确匹配点对数的统计结果以及特征向量间的相似度，将步骤(6)得到的结果通过一个加权排序的方法，最终得到模板库中与待识别汉字较匹配的汉字。所示图2是同种字体的文字匹配效果，分别为黑体常规的"舟"和黑体加粗的"舟"。图3 是同种文字不同字体的匹配效果，分别是隶书倾斜字体的"名"与黑体常规字体的"名"。第一列图是本专利提出的算法得到的效果图，第二列图是SIFT算法得到的效果图。连线表示正确匹配上的点对。
本实施例利用文字关键区域的局部特征及灰度对比度统计特征来识别复杂背景下的文字，解决了复杂背景、倾斜、形变、光线变换等不同质量的图像上的文字识别问题，减少了大量文字统计特征的机器学习工作；可以部分匹配不同字体的汉字，大大提高了文字识别率。
权利要求
1、一种基于SIFT特征与灰度差值直方图特征的文字识别方法，其特征在于，包括以下步骤(1)建立汉字模板图库；(2)提取待识别汉字图片的特征点，记录每个特征点的位置信息、邻域尺度信息、主方向信息，并计算出SIFT特征点的128维向量；(3)利用步骤(2)中得到的每个特征点的位置信息、邻域尺度信息、主方向信息，计算两倍邻域尺度范围内灰度差值统计直方图，得到120维向量；(4)将特征点的128维向量和120维向量合并在一起，归并成总的特征向量，得到待识别汉字图片的特征向量；(5)计算模板图库中模板文字进行特征向量的计算，并存于数据库中；(6)待识别汉字图片的特征向量与模板图库中模板文字图片的特征向量进行匹配，寻找与待识别汉字图片的特征向量相匹配的特征点；(7)对识别到的汉字图像进行相似度排序，检测识别效果。
2、根据权利要求1所述的文字识别方法，其特征是，所述计算两倍邻域尺度范围内灰度差值统计直方图，是指1) 以步骤(2)检测到的特征点为中心特征点，以邻域尺度的两倍大小为半径确定统计灰度差值的邻域范围；2) 将邻域范围旋转一个角度，使主方向与坐标系X轴正方向的夹角为O;3) 将半径量化为5级，将360度等分成12级，从而将邻域划分成60个子区域；4) 计算中心特征点与各个子邻域内其他像素点的差值，若得到的差值大于 0，则将正差值的像素个数累加1，若得到的差值小于O，则将负差值的像素个数累加1，形成2维的统计直方图；5) 循环步骤4)，直至计算完所有的子区域，得到60个子区域对应的120 维向量。
3、根据权利要求1所述的基于SIFT特征与灰度差值直方图特征的文字识别方法，其特征是，所述的待识别汉字图片的特征向量与模板图库中模板文字图片的特征向量进行匹配，是指，遍历模板图库中模板文字图片的每个特征点，计算每个特征点对应的特征向量与待识别汉字图片所有特征向量的欧式距离，若最近邻距离与次近邻距离之比在阈值范围之内，则认为该特征点与最近邻向量所对应的特征点是匹配点对。
4、根据权利要求1所述的基于SIFT特征与灰度差值直方图特征的文字识别方法，其特征是，步骤(7)所述检测，是指，根据正确匹配点对数的统计结果以及特征向量间的相似度，将步骤(6)得到的结果通过加权排序的方法，得到模板图中与待识别汉字相匹配的汉字。
全文摘要
本发明涉及的是一种图像文字识别技术领域的基于SIFT特征与灰度差值直方图特征的文字识别方法。本发明包括以下步骤1.构建汉字模板图库，其中存储了各种复杂背景下字体类别、文字大小、方向均不相同的图片。2.对模板图库中的图片进行特征提取。3.计算待识别汉字的特征向量。4.寻找模板库中与待识别汉字最相近的汉字。本发明提出的识别方法无需对图片做任何预处理，无需对海量的文字特征做大规模的机器学习，创新性地借助局部特征的优势，巧妙地结合区域内的灰度统计信息来描述、匹配文字，实验结果表明文字识别效果较好，并对同一个字的不同类型字体也能做出很好地辨识。
文档编号G06K9/46GK101561866SQ20091005214
公开日2009年10月21日申请日期2009年5月27日优先权日2009年5月27日
发明者桐武, 管海兵, 琪郑, 贞金, 凯陈申请人:上海交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈凯;管海兵;金贞;武桐;郑琪
技术所有人：上海交通大学
我是此专利的发明人

上一篇：三维财经分析软件的制作方法
上一篇：Ccea-云计算平台的开发及其在教育领域的应用的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。