基于卷积神经网络的无固定多字符验证码识别方法与流程

文档序号:19377206发布日期:2019-12-10 23:59阅读:551来源:国知局
基于卷积神经网络的无固定多字符验证码识别方法与流程

本发明涉及到字符验证码识别方法技术领域。



背景技术:

传统的字符验证码识别方法都是对图像机型分步处理,具体处理流程是:待识别的字符验证码图像输入到识别系统中,首先要进行字符的定位,即要根据算法得到图中字符的位置;然后根据位置信息将所有字符分割成单独字符的形式;最后将单独的字符再送入最后的分类器中进行分类识别得到被分割的单独字符图像代表的字符信息进行组合才能得到最后的识别结。

传统的字符验证码识别方法的缺点:

(1)需要对图像进行分步处理,处理效率和速度较慢;

(2)对于一些相连或者重叠的字符,难以对字符进行准确定位;

(3)对于不定字符数量的图片难以处理甚至无法处理。



技术实现要素:

综上所述,本发明的目的在于解决传统的字符验证码识别方法存在效率低,无法对相连或重叠字符定位识别,及不定字符数量的图片难处理或无法处理等的技术不足,而提出一种基于卷积神经网络的无固定多字符验证码识别方法。

为解决本发明所提出的技术问题,采用的技术方案为:

基于卷积神经网络的无固定多字符验证码识别方法,其特征在于所述方法采用如下步骤:

(1)图像预处理;对输入图像的大小进行统一处理和减噪处理;

(2)特征提取;使用卷积神经网络进行处理;其中,卷积神经网络的卷积层提取图片中的局部特征信息;卷积神经网络的池化层减少网络优化参数的数量;卷积神经网络的归一化层防止网络优化过程中发生梯度消失;卷积神经网络的输出层作为特征输入的下一步的字符识别任务中;

(3)字符识别;将提取得到的特征分别作为不同全连接网络的输入,其中一个全连接网络用于判断图片中字符的长度,其余全连接网络分别表示对应位置的字符;最后,将所有概率进行累乘,取概率最大的字符长度和字符组合作为最终的输出。

在(3)字符识别过程中,在给定一张图片的条件下,训练一个序列概率模型;令s表示表示输出的结果序列,x表示输入的图片;目标是训练模型p(s|x),使得在训练集上logp(s|x)的值最大化;

定义s作为一个包含n个随机变量s1,s2,…,sn的集合表示输出序列的元素,定义随机变量l表示输出序列的长度,假设输出序列中各个字符出现的概率都是独立的,因此,模型的概率可以表示为:

为了使得模型能够识别不定长度的字符,加入了额外的变量l来限制输出序列的长度;

由于概率模型不能直接用图像作为输入,因此,用卷积神经网络所提取的特征作为概率模型的输入,用随机变量h表示所提取的特征;在这个模型中:

p(s|x)=p(s|h)

模型训练阶段,为了使得logp(s|x)在训练集上最大化,使用随机梯度下降法进行优化,每个softmax模型可以使用完全相同的反向传播学习规则;

在测试阶段,预测:

argmax阶段可以在线性的时间复杂度下被计算出来,而且每个字符都可以被独立的计算。

本发明的有益效果为:本发明的方法运用多层卷积神经网络对图片进行预处理,提取图片特征信息;再运用概率模型作为优化目标,改模型能够处理图片中无固定长度字符的识别问题,能够处理不定字符数量的图片,提高识别准确率,实现端到端的字符识别,避免了传统方法定位、分割、识别的分步操作,加快了处理效率和速度。

附图说明

图1为本发明的工作流程示意图;

图2为本发明的具体实施例的工作流程示意图。

具体实施方式

以下结合附图和本发明优选的具体实施例对本发明的方法作进一步地说明。参照图1和图2中所示,本发明基于卷积神经网络的无固定多字符验证码识别方法,其特征在于所述方法采用如下步骤:

(1)图像预处理;对输入图像的大小进行统一处理和减噪处理;对于大量原始的输入图像,难免会存在尺寸不统一的问题,由于本发明所提出的方法只能接受相同大小的输入图像,因此,要对图像的大小进行统一,可以使用缩放、剪裁等方式。此外,由于验证码图片存在大量的噪声,可以提高图片对比度来减小噪声的影响。

(2)特征提取;使用卷积神经网络进行处理;其中,卷积神经网络的卷积层的使用能够最大程度地提取图片中的局部特征信息;卷积神经网络的池化层能够减少网络优化参数的数量;卷积神经网络的归一化层防止网络优化过程中发生梯度消失;卷积神经网络的输出层作为特征输入的下一步的字符识别任务中;

(3)字符识别;将提取得到的特征分别作为不同全连接网络的输入,其中一个全连接网络用于判断图片中字符的长度,其余全连接网络分别表示对应位置的字符;最后,将所有概率进行累乘,取概率最大的字符长度和字符组合作为最终的输出。

本发明的方法是在给定一张图片的条件下,训练一个序列概率模型。令s表示表示输出的结果序列,x表示输入的图片。本发明的目标是训练模型p(s|x),使得在训练集上logp(s|x)的值最大化。

本发明定义s作为一个包含n个随机变量s1,s2,…,sn的集合表示输出序列的元素,定义随机变量l表示输出序列的长度,本发明假设输出序列中各个字符出现的概率都是独立的,因此,模型的概率可以表示为:

为了使得模型能够识别不定长度的字符,本发明所做的是加入了额外的变量l来限制输出序列的长度。

由于概率模型不能直接用图像作为输入,因此,本发明用卷积神经网络所提取的特征作为概率模型的输入,用随机变量h表示所提取的特征。在这个模型中:

p(s|x)=p(s|h)

模型训练阶段,为了使得logp(s|x)在训练集上最大化,本发明可以使用随机梯度下降法进行优化,每个softmax模型可以使用完全相同的反向传播学习规则。在测试阶段,本发明预测:

argmax阶段可以在线性的时间复杂度下被计算出来,而且每个字符都可以被独立的计算。

也即是本发明对输入图像首先由卷积神经网络层进行卷积计算,经过多层的卷积、池化、归一化操作最终可以提取到图像的特征信息,将特征信息传递给概率输出层。概率输出层是由多个单层的神经网络构成的,可以将图像特征映射到每个字符的概率上,最终得到概率最大的字符组合就是该图像的识别结果输出。

本发明技术方案:(1)实现端到端的字符识别,避免了传统方法定位、分割、识别的分步操作,加快了处理效率和速度。(2)没有预先设定图像包含字符的个数,通过概率组合得到概率最大字符组合便是识别结果的输出,能够处理不定长字符的图像识别问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1