基于图像局部特征的数字识别方法

文档序号:30990176发布日期:2022-08-03 02:10阅读:97来源:国知局
基于图像局部特征的数字识别方法

1.本发明属于图像处理领域,涉及一种图像数字识别方法,特别涉及一种基于图像局部特征的数字识别方法。可用于门牌识别、手写数字识别、快递收拣等领域。


背景技术:

2.随着电子信息的飞速发展,计算机输入变得越来越普遍,但手写或印刷的字符仍是人们传递信息不可替代的方式。数字识别作为手写或印刷数字和计算机输入的一个环节,广泛应用在金融、教育、邮政等领域,其实用性越来越受到人们的重视。
3.传统的数字识别是光学字符识别界感兴趣的一个问题,即先采用光学技术把将纸质文件中的字符转换成黑白点阵的图像形式,再通过计算机识别软件进行多次转换,成为一种人可以理解的格式。目前,数字识别中的在线识别技术相对成熟,而离线识别技术还需要进一步提升,尤其识别真实场景中的数字仍是一个比较困难的问题,不像识别文字那样容易区分前景和背景。环境因素(如阴影、噪声和遮挡)以及图像采集因素(如分辨率、运动和焦点模糊)使街景图像中数字字符识别问题进一步复杂化,大大降低了数字识别的准确性。
4.深度学习技术的发展为改善以上问题提供了新思路,并在过去几年取得了突破性的进展,随着识别数据量的飞速增长,处理数据的能力及识别准确率的要求变高,离线状态的数字识别值得进一步研究。例如,申请公布号为cn112906829a,名称为“一种基于mnist数据集的数字识别模型构建方法及装置”的专利申请,公开了一种基于mnist数据集的数字识别模型构建方法,该方法首先根据mnist数据集对lenet卷积神经网络模型进行训练,在lenet预训练模型的最后卷积层引入空间金字塔池化层结构,通过自适应调整池化参数,得到固定输出特征的lenet模型,将其各个卷积层引入批归一化,得到输出适合目标任务分类的lenet模型。该方法通过在已有lenet模型中引用空间金字塔池化,以试图解决不同输入尺寸的图像对识别精度的影响。但是该方法仍存在不足:该方法使用的图像特征及背景单一,对复杂场景下的图像数字识别容易引起失真,识别模型在不同场景中的泛化性还有待提升。
5.申请公布号为cn110674822a,名称为“一种基于特征降维的手写数字识别方法”的专利申请,公开了一种基于特征降维的数字识别方法,该方法对获取的手写数字图像进行灰度化、二值化预处理并提取特征,将提取的特征进行降维处理获得低维数的数字特征,再通过四层卷积-池化层搭建的卷积神经网络进行特征识别处理,获得手写数字的识别结果。该方法主要通过核主成分分析模型进行特征降维处理,以降低手写数字特征的特征维数,使得手写数字计算识别的过程中多余变量减少,从而减少特征识别的难度和复杂性,使得对手写数字识别的效率有所提升。但是该方法对特征维数的减少过程繁琐,特征提取过程中会带来信息损失,网络模型训练参数多且识别的应用场景少。


技术实现要素:

6.本发明的目的在于克服上述现有技术存在的缺陷,提出了一种基于图像局部特征的数字识别方法。旨在提高数字识别的准确率,同时减少网络训练的参数。
7.为实现上述目的,本发明采取的技术方案包括如下步骤:
8.(1)获取训练样本集和测试样本集:
9.获取包含a数字类别的s幅rgb图像,对每幅rgb图像进行预处理,然后将预处理后的图像中的数字类别进行独热编码,并将s1幅rgb图像及其对应的标签作为训练样本集,将s2幅rgb图像及其对应的标签作为测试样本集,其中,2≤a≤10,s≥90000,s1≥s/2,s1+s2=s;
10.(2)搭建数字识别网络模型h:
11.搭建包括依次连接的输入层、k个特征提取网络、全连接层和softmax输出层的数字识别网络模型;特征提取网络包括依次连接的卷积层、局部特征提取网络及1
×
1卷积层;局部特征提取网络由相互交替的第一局部特征提取子网络和第二局部特征提取子网络并行排布而成,第一局部特征提取子网络包括依次连接的最小层和最大层,第二局部特征提取子网络包括依次连接的最大层和最小层,第一局部特征提取子网络和第二局部特征提取子网络的个数均为n,其中,k≥2,n≥2;
12.(3)对数字识别网络模型h进行迭代训练:
13.(3a)初始化迭代次数为t,最大迭代次数为t,t≥100,当前数字识别网络模型为h
t
,并令t=0,h=h
t

14.(3b)将从训练样本集中随机选取的q个训练样本作为当前数字识别网络模型h
t
的输入,k个特征提取网络对每个训练样本进行特征提取,得到特征图集合f={f1,f2,...,fq,...,fq};全连接层将每个特征图fq的j个像素值映射为a个像素值;softmax输出层通过softmax函数将a个像素值映射为每个训练样本分别属于a个类别的预测概率,其中fq表示第q个训练样本对应的大小为a
×b×
c的特征图,q∈q,q≥64,j≥64;
15.(3c)利用交叉熵损失函数,并通过每个训练样本属于类别的预测概率和样本类别标签计算当前数字识别网络h
t
的损失值l
t
;采用自适应矩估计法adam优化算法,通过损失值l
t
对数字识别网络h
t
中卷积层、全连接层的权重ω
t
和偏差θ
t
、局部特征提取网络中最大层滤波矩阵wd、最小层滤波矩阵we进行更新,得到本次迭代后的数字识别网络;
16.(3d)判断t≥t是否成立,若是,得到训练好的数字识别网络模型h',否则,令t=t+1,并执行步骤(3b);
17.(4)获取数字识别结果:
18.将测试样本集作为训练好的数字识别网络模型h'的输入,得到每个测试样本属于a个类别的预测概率,并将其中概率最大的类别作为每个测试样本的数字识别结果。
19.本发明与现有技术相比,具有以下优点:
20.(1)本发明搭建的数字识别网络模型中的局部特征提取网络包括多个局部特征提取子网络,局部特征提取子网络利用滤波矩阵自动减少图像特征维数,降低特征识别的难度和复杂性,从而有效提取图像特征,克服了现有技术减少特征维数过程繁琐的问题,使得本发明减少特征维数过程简单,有效提高了数字识别的准确率。
21.(2)本发明局部特征提取网络在提取每个样本特征的过程中,利用滤波矩阵作为“探针”收集图像信息,以增强提取图像局部特征的能力,克服了现有技术中采用卷积层和池化层的形式带来信息损失的问题,避免了有用信息损失过多对提取特征能力的影响,从而有效提升了数字识别的准确率。
22.(3)本发明搭建的数字识别网络在训练时采用背景信息复杂的样本集,克服了现有技术中图像特征及背景单一的问题,使用的模型能自动处理复杂场景下的图像,数字识别的泛化能力高,使得本发明具有更广泛的应用场景。
附图说明
23.图1是本发明的实现流程图;
24.图2是本发明数字识别网络的结构示意图。
具体实施方式
25.以下结合附图和具体实施例,对本发明进一步详细描述。
26.参照图1,本发明包括以下步骤:
27.步骤1)获取训练样本集和测试样本集:
28.获取包含a数字类别的s幅大小为32
×
32rgb图像,对每幅rgb图像进行预处理,为了便于识别,将预处理后的样本集中数字0对应的原始标签10改为0,并将所有数字类别进行独热编码:将每个标签的长度转换为一个长度为类别数的向量,该向量除了所属的类别位置为1之外,其他位置为0;并将s1幅rgb图像及其对应的标签作为训练样本集,将s2幅rgb图像及其对应的标签作为测试样本集,其中,2≤a≤10,s≥90000,s1≥s/2,s1+s2=s;本实施例中从svhn数据集的10个类别中选取73257幅图像及其对应的标签作为训练样本集,26032幅图像及其对应的标签作为测试样本集;
29.对每幅rgb图像进行预处理的具体思路为:先对每幅rgb图像进行灰度化处理,并对灰度化处理的每幅灰度图像i(x,y)中的每个像素点做其本身和邻域内的其他像素值的加权平均,即通过高斯滤波有效去除噪声;然后对高斯滤波后的灰度图像u(x,y)进行归一化,将0到255的整数值变为0到1范围内的小数值,得到预处理后的图像:
30.i(x,y)=0.3*r(x,y)+0.59*g(x,y)+0.11*b(x,y)
[0031][0032]
其中,r(x,y)、g(x,y)、b(x,y)分别为图像点坐标(x,y)处的r、g、b通道分量,σ为标准差;
[0033]
步骤2)搭建数字识别网络模型h:
[0034]
搭建包括依次连接的输入层、k个特征提取网络、全连接层和softmax输出层的数字识别网络模型;特征提取网络包括依次连接的卷积层、局部特征提取网络及1
×
1卷积层;局部特征提取网络由相互交替的第一局部特征提取子网络和第二局部特征提取子网络并行排布而成,第一局部特征提取子网络包括依次连接的最小层和最大层,实现将特征图先通过最小层运算再通过最大层运算,通过滤波矩阵对特征图中的边界进行平滑,消除小的噪声,降低特征维数;第二局部特征提取子网络包括依次连接的最大层和最小层,实现将特征图先通过最大层运算再通过最小层运算,通过滤波矩阵填充特征图的空洞,连接近邻,两
种局部特征提取子网络可以保留图像细节,对图像的细节处理效果大大增强,并能自动减少图像的特征维数,降低噪声和其他不重要特征对特征提取的影响;第一局部特征提取子网络和第二局部特征提取子网络通过交替构造图像处理中的交替顺序滤波器,消除干扰噪声的同时增强提取局部特征的能力,第一局部特征提取子网络和第二局部特征提取子网络的个数均为n,其中,k≥2,n≥2;
[0035]
参照图2,本实施例中数字识别网络模型h包含的特征提取网络的个数k=2,第一局部特征提取子网络和第二局部特征提取子网络的个数n=4,该数字识别网络模型h各组成部分的参数为:
[0036]
第一特征提取网络中卷积层的卷积核大小为5
×
5,数量为8,第二特征提取网络中卷积层的卷积核大小为3
×
3,数量为32,其中,所有特征提取网络中卷积层的卷积核步长均设置为1,采用valid填充方式,激活函数均为relu函数;relu函数公式如下:
[0037]
v(x)=max(0,x)
[0038]
其中,x表示输入数据经过网络的当前层运算后的输出数据,v(x)为激活后的数据;
[0039]
第一局部特征提取子网络和第二局部特征提取子网络中最小层和最大层的滤波矩阵个数均为8,大小为3
×
3,步长均设置为1,均采用same填充方式,由于局部特征提取网络中最小层和最大层本身为非线性运算,因此不需选取激活函数,对每个并行局部特征提取子网络的输出进行线性连接,增加特征的多样性,1
×
1卷积层的卷积核大小均为1
×
1,数量均为32,步长均设置为1,均采用same填充方式,激活函数均为relu函数;为了防止过拟合,全连接层连接的节点个数为256,使用随机失活dropout,以0.5的概率丢弃全连接层的像素值;softmax输出层像素值的个数设置为10,采用softmax函数处理得到归一化的a个类别。softmax函数公式如下:
[0040][0041]
其中,a表示数字类别总数,d为其中任一类别,为对该类别输入的指数,g(x)d为该类别的输出结果,softmax函数通过指数运算归一化将分布较为接近的输入数值的分布差距拉大,使得输出的类别标签不容易出现误判情况;
[0042]
步骤3)对数字识别网络模型进行训练:
[0043]
(3a)初始化迭代次数为t,最大迭代次数为t,t≥100,当前数字识别网络模型为h
t
,并令t=0,h=h
t

[0044]
(3b)将从训练样本集中随机选取的q个训练样本作为当前数字识别网络模型h
t
的输入,以加快权值的更新速率,有效减少网络训练时间和网络运行所占内存;k个特征提取网络对每个训练样本进行特征提取,得到特征图集合f={f1,f2,...,fq,...,fq};全连接层将每个特征图fq的j个像素值映射为a个像素值;softmax输出层通过softmax函数将a个像素值映射为每个训练样本分别属于a个类别的预测概率,其中fq表示第q个训练样本对应的大小为a
×b×
c的特征图,q∈q,q≥64,j≥64;本实施例中选取q为64个训练样本作为当前数字识别网络模型h
t
的输入,全连接层的像素值个数j为256,数字类别a为10;
[0045]
每个特征提取网络中,局部特征提取网络包含的最小层及最大层中的运算思路
为:最小层运算是将图像点坐标点处的像素值和滤波矩阵的值对应相减,再取其中最小的结果作为输出结果,即将卷积层运算中的相乘用相减代替,相加用取像素最小值替代;最大层运算是将图像点坐标点处的像素值和滤波矩阵的值对应相加,再取其中最大的结果作为输出结果,即将卷积层运算中的相乘用相加代替,相加用取像素最大值替代,滤波矩阵可看作卷积层运算中的卷积核;
[0046]
(3c)利用交叉熵损失函数,并通过每个训练样本属于类别的预测概率和样本类别标签计算当前数字识别网络h
t
的损失值l
t
;采用自适应矩估计法adam优化算法,学习率设置为0.001,通过损失值l
t
对数字识别网络h
t
中卷积层、全连接层的权重ω
t
和偏差θ
t
、局部特征提取网络中最大层滤波矩阵wd、最小层滤波矩阵we进行更新,得到本次迭代后的数字识别网络;
[0047]
当前数字识别网络h
t
的损失值l
t
,计算公式为:
[0048][0049]
其中a表示数字类别总数,p'(d)表示样本类别标签,p(d)表示每个训练样本属于类别的预测概率;
[0050]
(3d)判断t≥t是否成立,若是,得到训练好的数字识别网络模型h',否则,令t=t+1,并执行步骤(3b);
[0051]
(4)获取数字识别结果:
[0052]
将测试样本集作为训练好的数字识别网络模型h'的输入,得到每个测试样本分别属于a个类别的预测概率,并将其中概率最大的类别作为每个测试样本的数字识别结果。本实施例中,把预处理后的26032个测试样本集输入到训练好的数字识别网络模型h'中,通过特征提取网络将提取到的数字特征经过全连接层输入到softmax输出层中,得到数字的标签概率,判别最大概率的类别则作为数字的识别结果。
[0053]
以下结合仿真实验对本发明的技术效果进行说明。
[0054]
1.仿真实验条件:
[0055]
仿真实验的硬件测试平台为:cpu为intel core i7-9700,主频为3.00ghz,内存8gb,gpu为nvidia geforce gtx 1050ti;软件平台为:windows 10 64位操作系统,python 3.7。
[0056]
仿真实验选取复杂的自然场景下的街景拍摄数字svhn数据集,训练集包括73257个数字,测试集包括26032个数字,另有531131个附加数字,均为32
×
32的彩色图像。本发明对svhn数据集中的73257个训练样本集通过网络进行训练,使用训练好的网络对26032个测试样本集进行测试输出,得到数字识别准确率和训练的网络参数,其结果如表1所示。
[0057]
2.仿真结果分析:
[0058]
表1
[0059] 数字识别准确率网络参数个数本发明98.5%263114
[0060]
仿真结果表明,本发明在简单的图像预处理之后,通过网络训练将数字识别的准确率提高到了98.5%,网络训练参数仅有263114个,减少一个数量级后极大降低了计算成本,自动减少特征维数,增强了网络提取局部特征的能力,有效提高数字识别的准确率。这
是在本发明采用复杂的自然场景下的街景数据集上获得的结果,因此本发明网络模型也可适用于其他场景下的数字识别,比如手写数字识别任务。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1