一种基于模板和特征匹配相结合的小字符数字识别方法

文档序号:8381351阅读:447来源:国知局
一种基于模板和特征匹配相结合的小字符数字识别方法
【技术领域】
[0001]本发明涉及计算机视觉中的图像处理和模式识别领域,特别是一种采用动态模板匹配和特征提取对图像中的小字符图像进行识别的方法。
【背景技术】
[0002]光学字符识别是指采用如扫描仪、相机、摄影机等电子设备获取现实社会中的字符信息,通过检测暗、亮显示模式确定字符的表现形式,再通过字符识别算法将这种形式变换成计算机能够识别的代码的过程。
[0003]光学字符识别的方法根据其采用的分类手段和特征提取的方法的不同一般可分为基于统计特征的识别方法、基于结构特征的识别方法、人工神经网络识别方法以及上述方法的结合方法。
[0004]模板匹配算法的实质是将测试样本和模板库中的各个模板进行相似性比较,找出相似性程度最大的模板作为测试样本所属的类别。模板匹配算法具有样本分类执行效率快、运用灵活、易于实现等优点,然而正是模板库的构建很灵活,因此针对不同的字符特征其识别准确度差别较大,因此针对识别字符的特点选取合适的特征十分重要。
[0005]由于模板匹配对小字符数字识别特征选取和单字符识别的局限性,需要了解特定字符的结构特点加入特殊的识别手段,达到准确的识别效果。本发明所采取的识别方法正是应用了此种技术手段,弥补模板匹配的这一缺陷。

【发明内容】

[0006]为了解决现有技术存在的问题,本发明提供一种基于模板和特征匹配相结合的小字符数字识别方法,图像预处理技术综合使用了图像归一化、Otsu算法、灰度增强、形态学操作、掩膜的融合手段使得数字字符图像的提取更有针对性和有效性。
[0007]一种基于模板和特征匹配相结合的小字符数字识别方法,包括以下几个步骤:
[0008]读入待识别的小数字字符图像;
[0009]图像预处理:首先对小字符数字图像进行二值化,然后定位出各个小字符数字所在的区域,再去除小字符数字周围的边框部分,最后再进行形态学处理;
[0010]分割出小字符图像:去除各小字符数字之间的间隙部分以及各小字符数字周围的干扰的小区域目标,利用生成的掩膜得到所需识别的小字符数字;
[0011]字符判别:对获取的小字符数字进行识别,根据获取的小字符区域标记数目的不同分别采取相适应的判别方法进行识别。
[0012]根据上述识别方法,小字符数字图像预处理包括以下步骤:
[0013]步骤1,首先对读入的二维灰度小字符数字图像进行归一化处理,在将图像的灰度值转化为均值d为128,方差σ为900的8位无符号型整数;
[0014]步骤2,图像二值化,采用Otsu算法进行灰度值二值化,删除小字符数字图像的上下边框并采用线基元进行形态学闭操作处理,获取字符间隔像素;
[0015]步骤3,生成掩膜并定位出小字符数字:根据小字符数字左右两边的边框部分以及形态学后的字符间隔并结合小字符数字的宽度信息生成字符分割掩膜,小字符数字所在位置的掩膜值设置为1,否则为O。
[0016]根据上述识别方法,分割出小数字字符根据步骤3得到的掩膜分割出小字符数字的边界,再进一步删除其周围冗余的小的干扰目标。
[0017]根据上述识别方法,对获取的各个二值化后的小字符数字进行区域标记,根据分割后的各小字符数字标记区域的数目采取相适应的识别方法,包括以下模式:
[0018]模式一:如果只有一个标记区域时,如果小字符数字宽度很小(小于12),将单独考虑其匹配特征,对小字符数字的部分区域提取出一阶、二阶外围特征和此区域模板相关性系数,和静态特征模板中各个小字符数字所对应的区域的特征进行匹配,采用欧氏距离进行度量,归一化求和后,输出最小值时对应的数字字符。否则将此待识别字符数字的特征和静态特征模板库中的所有特征进行匹配;
[0019]模式二:如果存在二个标记区域,进一步判断是否是有二个小字符数字构成还是由一个小字符数字断裂而成的两部分,如果是有二个小字符数字构成,因为由二个小字符数字构成二部分其高度要大于一个小字符数字断裂而成的二部分的高度,因此可以设置出合适的高度值H(20)区分出来,如果判断出是有二个小字符数字组成的,进行动态模板的匹配,如果是有一个小字符断裂而成,首先将二个区域合并,然后对提取出区域的模板相关性系数,再进行静态模板对应特征的匹配;
[0020]模式三:如果存在三个标记区域,则需判断出哪二个标记区域属于一个数字字符,这里根据中间部分和上下二部分的垂直距离的大小判断出中间部分属于上部分还是下部分,对垂直距离小的两部分进行区域合并操作,这样再对二个数字字符所在区域提取出所在区域的一阶、二阶外围特征、中心穿线特征、模板相关性系数、分别和双字符对应区域的动态模板的特征进行匹配,采用欧氏距离进行度量,归一化求和后,输出最小值时对应的二个字符中高度占优的数字字符。
[0021]本发明与现有技术相比,具有以下优点:(I)本发明采用在提取所需字符之前,采用归一化、Otsu算法、灰度增强、删除小区与干扰目标、上下边框等方法,可以增强字符现实效果并消除干扰项对字符识别的影响;(2)利用形态学生成掩膜模板,将相邻的字符隔开,可以准确提取所需字符;(3)采用静态和动态模板匹配和特征提取方法,对三种不同情形的字符划分区域并提取,并采用相应的三种不同模式进行字符提取,提取更有针对性和有效性,且速度快、准确率高。
【附图说明】
[0022]图1为本发明方法流程示意图;
[0023]图2为本发明静态特征模板匹配的示意图;
[0024]图3为本发明动态特征模板匹配的示意图;
[0025]图4为本发明一个标记区域字符识别的示意图;
[0026]图5为本发明两个标记区域中双数字字符识别的示意图;
[0027]图6为本发明两个标记区域中单字符断裂为两部分字符识别的示意图;
[0028]图7为本发明三个标记区域字符识别的示意图;
[0029]图8为区域标记不意图。
【具体实施方式】
[0030]结合图1,一种基于模板和特征匹配相结合的小字符数字识别方法,包括:
[0031]生成静态特征模板库;
[0032]读入待识别的数字字符图像;
[0033]对读取的图像进行归一化操作;
[0034]对归一化后的图像进行二值化操作;
[0035]删除字符图像的上下边框;
[0036]修复待识别数字字符图像的垂直方向间隙;
[0037]确定待识别数字字符的左右边框;
[0038]对小字符数字所在区域生成一个掩膜模板并定位出小字符数字;
[0039]分割出小字符数字图像;
[0040]对各个数字字符所在区域进行区域标记操作;
[0041]根据小字符区域标记数目的不同和静态特征模板库识别字符。
[0042]结合图2,静态特征模板库生成方法为:采集一批已知类别的O到9尺寸相同(12X16)的小字符数字图像,将其二值化后提取出这些数字字符区域的一阶、二阶外围特征,模板相关系数、中心穿线特征、具有相同标准二阶中心矩的椭圆的离心率以及椭圆长轴与X轴的交角、图像的水平方向和垂直方向上像素值的偏度以及峰度值,分别将所有的数字字符图像对各类的一阶外围特征、二阶外围特征、模板相关系数、中心穿线特征进行求平均值,在对各类的后六个特征当做一个整体特征行向量进行归一化后在求平均值操作,统计得到了 O到9这十类小字符数字的静态特征模板库。
[0043]数字字符图像归一化后得到均值d为128,方差σ为900的灰度值像素。
[0044]采用Otsu算法进行二值化操作。
[0045]根据待识别数字字符图像各行像素值和的大小删除字符图像的上下边框。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1