一种中文字符验证码的识别方法与流程

文档序号：13767384阅读：561来源：国知局

本发明涉及一种字符识别方法，尤其是涉及一种中文字符验证码的识别方法。
背景技术：
：2003年，XuewenWang等的工作表明，基于Gabor滤波核的特征提取，能有效解决字符识别问题。他们针对样本中字符的宽度、主方向等人工设计了Gabor滤波核，在手写体中文字符识别方面取得了非常好的效果。不过他们的方法需要人工依据样本设计滤波核，对样本集依赖较大，泛化能力不强，所提出的方法不能很好地移植到别的模式的字符识别任务中。2010年，牛洁利用中值滤波、二值化以及连通域分析等方法对图像预处理，去除噪点，继而通过投影法定位字符，再通过模板匹配的方法识别字符，字符限制在26个英文字母和10个阿拉伯数字之间。该研究最后还开发了一个系统，可通过人工交互选择一些基本的预处理、字符定位方法。2013年，郑晓飞主要关注验证码识别中，单个字符的识别部分，采用了“伪二维隐马尔科夫模型”对图像进行分类。他指出，模板匹配法需要针对某一种验证码来建立较标准的模板库，这样才会对该类验证码识别率较高，因而适应性不够好，此外其抗形变性能较差；以结构特征为基础的字符结构分析法提前不需要相关的参数知识，只要验证码的结构比较固定；而使用人工智能领域的相关方法，重新训练一定的样本即可对不同的验证码达到较高的识别正确率，具有较强的稳定性和适应性。当前较复杂的验证码字符都具有粘连、形变甚至空心等阻止分割的特点，这一类验证码其破解的关键不是识别，而在于能否准确分割字符。本文针对的验证码字符倾斜、扭曲的程度较大，字体也不是标准字体，这样导致使用传统的模板匹配法和结构分析法很难正确识别出，而隐马尔可夫模型既能描述局部特征，又能表示整体结构，具有一定的抗噪性。2014年，李凯胜针对不同模式的验证码选择并使用相适合的背景干扰过滤方法、字符分割方法、字符归一化处理方法，之后借助成熟的OCR软件对归一化后的字符进行识别。他的方法需要对不同模式的验证码分别应用不同的方法，且识别效果强烈依赖于预处理之后的效果和所使用的OCR方法，因为如果预处理后的字符图像仍带有杂线，则OCR方法将给出错误结果。技术实现要素：本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种字符定位准确、适用范围广、识别精度高的中文字符验证码的识别方法。本发明的目的可以通过以下技术方案来实现：一种中文字符验证码的识别方法，包括以下步骤：1)对将待识别图像中的前景像素坐标进行聚类，获取待识别图像中中文字符的位置；2)对获取中文字符位置后的待识别图像进行切分，获取待识别图像中中文字符的区域，并采用多尺度Gabor滤波核提取区域内中文字符的图像特征；3)按照步骤1)和2)的方法提取已标注字符标签的训练集图像的图像特征；4)根据训练集图像的图像特征训练多项式Logistic回归分类器，并采用多项式Logistic回归分类器对中文字符的图像特征进行预测，预测得到的结果即为待识别图像中的中文字符。所述的步骤1)具体包括以下步骤：将待识别图像中所有前景像素点的坐标点按待识别图像中中文字符的数量建模为多个二维高斯混合模型，采用最大化似然概率K-means算法对前景像素点坐标进行聚类，得到各个二维高斯混合模型的均值点坐标，这些均值点即为待识别图像中中文字符的位置。所述的步骤2)中，所述的多尺度Gabor滤波核包括频率、尺度和方向三个参数。所述的步骤2)中，所述的频率参数f的取值为0.05或0.25，尺度参数sigma的取值为1或3，方向参数的取值为0、或所述的多尺度Gabor滤波核包括16个滤波核。所述的步骤2)中的图像特征包括16个滤波核分别对图像进行卷积后得到二维矩阵对应的均值和方差。所述的步骤4)具体包括以下步骤：41)将提取到的已标注字符标签的训练集图像的图像特征输入多项式Logistic回归分类器中进行训练；42)采用训练后的多项式Logistic回归分类器对待识别图像区域内中文字符的图像特征进行预测；43)从预测结果中选择概率最高的向量作为识别结果。与现有技术相比，本发明具有以下优点：一、字符定位准确：通过K-means聚类方法对图像上前景点聚类，从而定位字符位置，相较于垂直投影方法更适合解决有相邻字符有少量粘连时的字符定位问题。二、适用范围广：Gabor滤波核组(Gaborfilterbanks)”就是采用多个参数的Gabor核来提取特征。本方法中用16个不同参数的Gabor核对图像进行滤波，最后求16个滤波结果的均值与方差作为图像特征，相较于单一Gabor核的滤波，提取的特征能适应不同大小、不同线宽、不同旋转角度的字符图像。三、识别精度高：采用多项式形式的Logistic回归作为分类器，以每个位置上可能出现的字符作为样本集，训练出分类器后，对各个位置的字符进行分类预测，使得分类预测能达到比较高的精度。附图说明图1为待识别的验证码图像。图2为预处理后的验证码图像。图3为获得定位后的验证码图像。图4为切分后的含有5个字符的图像。具体实施方式下面结合附图和具体实施例对本发明进行详细说明。实施例：一种中文字符验证码的识别方法，包括以下步骤：1)将待识别图像中所有前景像素点的坐标点按待识别图像中中文字符的数量建模为多个二维高斯混合模型，采用最大化似然概率K-means算法对前景像素点坐标进行聚类，得到各个二维高斯混合模型的均值点坐标，这些均值点即为待识别图像中中文字符的位置；2)对获取中文字符位置后的待识别图像进行切分，获取待识别图像中中文字符的区域，并采用多尺度Gabor滤波核提取区域内中文字符的图像特征，本方法中多尺度Gabor滤波核(Gaborfilterbanks)采用16个Gabor滤波核，每个Gabor滤波核有三个参数：频率、尺度(即高斯核的尺度sigma)、方向(theta)，本方法中的16个Gabor滤波核是通过三个参数的不同取值组合得到的(频率f＝0.05或0.25、方向theta＝0、或尺度sigma＝1或3，组合出2*4*2＝16种不同参数的Gabor滤波核)；3)按照步骤1)和2)的方法提取已标注字符标签的训练集图像的图像特征；4)根据训练集图像的图像特征训练多项式Logistic回归分类器，并采用多项式Logistic回归分类器对中文字符的图像特征进行预测，预测得到的结果即为待识别图像中的中文字符具体包括以下步骤：41)将提取到的已标注字符标签的训练集图像的图像特征输入多项式Logistic回归分类器中进行训练；42)采用训练后的多项式Logistic回归分类器对待识别图像区域内中文字符的图像特征进行预测；43)从预测结果中选择概率最高的向量作为识别结果。要识别的验证码图像如图1所示，对其识别的过程如下：(1)对目标图像进行预处理，包括中值滤波，形态学开、闭运算，连通区域分析等，得到预处理后的图像，如图2所示；(2)通过步骤1)对预处理后的图像进行字符定位，得到验证码中，5个字符的位置坐标，如图3所示；(3)以一定长度作为字符窗口半径(如13像素)，以字符位置周围半径长度的窗口作为字符区域，切分出字符，如图3中的红框所示；(4)切分出字符后，得到5个字符图像，每个图像长宽均为为两倍的字符窗口半径(26像素)，如图4所示。将各个字符图像输入至训练好的多项式Logistic回归分类器对其进行预测，该分类器是通过已标注类别的、与预测图像同样大小的字符图像训练得到的。用16个Gabor滤波核分别和图像卷积得到16个滤波结果，对于每个滤波结果(二维矩阵)，取其均值和方差(如16x16的矩阵，则对这256个数值求均值和方差)。16个滤波结果共得到32个数，这32个数值组合为32维的向量，作为该图像的特征。Logistic回归分类器的工作原理是：输入一系列已标注好类别的样本特征，Logistic分类器将根据一定的损失评价准则得到标注类别与其所分的类别的差异，并对损失较大的特征所对应的分类器参数进行惩罚，不断迭代这一过程，最终使得分类器分类与标注类别较为接近。如此得到的Logistic分类器可针对未知样本特征(未标注类别)进行分类。多项式Logistic回归是普通Logistic回归在多类问题上的泛化，本方法使用多项式Logistic回归分类器输入从训练集图像提取到的特征(每个训练图像按上面的方法提取出32维的特征向量，整个训练集的图像提取得到一系列特征向量)进行训练，再对未知类别的图像提取的32维特征向量进行预测，得到该图像属于各个类别的概率(如要判断的类别有10类，则预测结果为一个10维向量)预测结果向量中概率最高的那一维，所对应的类别就作为分类器对该图像预测的结果。当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨炜祖;李从恺;
技术所有人：上海源庐加佳信息科技有限公司;
我是此专利的发明人

上一篇：CaHV-TNFR特异基因及应用的制作方法
上一篇：一种智能恒温电热水器控制系统及其控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。