一种手写体识别方法及系统的制作方法

文档序号:6648851阅读:489来源:国知局
一种手写体识别方法及系统的制作方法
【专利摘要】本申请公开了一种手写体识别方法及系统,方法为:利用带平滑范数L1的自编码器对训练样本集中的各个训练样本进行处理,得到对应的目标训练样本,所述目标训练样本与所述训练样本集中的样本标签组成目标训练样本集,所述带平滑范数L1的自编码器的目标函数中设有稀疏惩罚项,该稀疏惩罚项为平滑L1范数,然后利用目标训练样本训练分类器,得到目标分类器,利用带平滑范数L1的自编码器对待预测样本进行处理,得到目标待预测样本,最后将所述目标待预测样本输入至所述目标分类器,以确定待预测样本的类别。本申请的方案将平滑范数L1引入自编码器中,代替常用的KL散度,作为新的稀疏惩罚项,能够得到更具判别性的特征,使得最终的手写体识别率更高。
【专利说明】一种手写体识别方法及系统

【技术领域】
[0001] 本申请涉及模式识别【技术领域】,更具体地说,涉及一种手写体识别方法及系统。

【背景技术】
[0002] 手写体数字的识别在实际生活中(如邮政、银行和电子商务等领域)有着较为深 远的应用需求。其一直都是模式识别领域的研宄热点。近年来,随着计算机技术和图像处 理技术的飞速发展,已经提出了很多用于实现手写体数字识别的方法,例如基于笔画特征 的算法、基于K近邻的算法、基于支持向量机的算法和基于神经网络的算法等等。但是,由 于手写数字因人而异且变化很多,导致各类算法的识别效果仍然不够理想。因此,研宄高效 的手写体数字识别依然是一个重要的方向。
[0003] 人工神经网络的方法对于逼近实数值、离散值或向量值的目标函数提供了一种健 壮性很强的方法。自编码器是一个三层神经网络,包括输入层、隐藏层和输出层。自编码器 通过最小化输入数据的重构误差来习得输入数据内部的统计结构,从而得到更具判别能力 的特征。斯坦福大学的AndrewNg教授通过在自编码器的目标函数中添加KL散度正则化 项来惩罚较大的特征而成功地实现了对数据的稀疏编码,并学习到了良好的特征。但是KL 散度对数据稀疏编码的能力有限,因此最终得到的特征对于手写体数字的识别仍存在一定 的局限。


【发明内容】

[0004] 有鉴于此,本申请提供了一种手写体识别方法及系统,用于解决现有手写体识别 方法识别效果低下的问题。
[0005] 为了实现上述目的,现提出的方案如下:
[0006] 一种手写体识别方法,包括:
[0007] 利用带平滑范数L1的自编码器对训练样本集中的各个训练样本进行处理,得到对 应的目标训练样本,所述目标训练样本与所述训练样本集中的样本标签组成目标训练样本 集,所述带平滑范数L1的自编码器的目标函数中设有稀疏惩罚项,该稀疏惩罚项为平滑L1 范数;
[0008] 利用所述目标训练样本集训练分类器,得到目标分类器;
[0009] 利用带平滑范数L1的自编码器对待预测样本进行处理,得到目标待预测样本; [0010] 将所述目标待预测样本输入至所述目标分类器,以确定待预测样本的类别。
[0011] 优选地,所述利用带平滑范数L1的自编码器对训练样本集中的各个训练样本进行 处理,得到对应的目标训练样本,包括:
[0012] 定义训练样本集为:
[0013]

【权利要求】
1. 一种手写体识别方法,其特征在于,包括: 利用带平滑范数1^的自编码器对训练样本集中的各个训练样本进行处理,得到对应的 目标训练样本,所述目标训练样本与所述训练样本集中的样本标签组成目标训练样本集, 所述带平滑范数U的自编码器的目标函数中设有稀疏惩罚项,该稀疏惩罚项为平滑L:范 数; 利用所述目标训练样本集训练分类器,得到目标分类器; 利用带平滑范数U的自编码器对待预测样本进行处理,得到目标待预测样本; 将所述目标待预测样本输入至所述目标分类器,以确定待预测样本的类别。
2. 根据权利要求1所述的方法,其特征在于,所述利用带平滑范数L:的自编码器对训 练样本集中的各个训练样本进行处理,得到对应的目标训练样本,包括: 定义训练样本集为:
其中,y(i)是与训练样本x(i)对应的样本标签,m是训练样本的个数,d是训练样本维度; 定义自编码器的假设函数为:
其中,W和b分别表示自编码器的权重和偏置; 定义第i个训练样本的第j个隐单元的输出表示为,且隐单元的个数为n; 确定带平滑范数U的自编码器的目标函数为:
其中,第一项为重构项,第二项为权重衰减项,X为权重衰减系数,第三项为稀疏惩罚 项,0为系数惩罚因子的权重,S(_)表示平滑U范数,具体如下:
其中,y>〇为预设参数; 求解使得所述目标函数最小的参数评_和b 将UPb_带入自编码器的假设函数中,得到目标假设函数; 将训练样本集中的训练样本x(i)带入所述目标假设函数,得到目标训练样本a(i)。
3. 根据权利要求2所述的方法,其特征在于,在求解使得所述目标函数最小的参数W_ 和13_时,使用反向传播算法进行计算。
4. 根据权利要求2所述的方法,其特征在于,所述利用带平滑范数L:的自编码器对待 预测样本进行处理,得到目标待预测样本,包括: 将所述待预测样本带入所述目标假设函数,得到目标待预测样本。
5. 根据权利要求1所述的方法,其特征在于,所述分类器为Softmax分类器。
6. -种手写体识别系统,其特征在于,包括: 训练样本处理单元,用于利用带平滑范数U的自编码器对训练样本集中的各个训练样 本进行处理,得到对应的目标训练样本,所述目标训练样本与所述训练样本集中的样本标 签组成目标训练样本集,所述带平滑范数U的自编码器的目标函数中设有稀疏惩罚项,该 稀疏惩罚项为平滑U范数; 分类器训练单元,用于利用所述目标训练样本集训练分类器,得到目标分类器; 待测样本处理单元,用于利用带平滑范数1^的自编码器对待预测样本进行处理,得到 目标待预测样本; 类别确定单元,用于将所述目标待预测样本输入至所述目标分类器,以确定待预测样 本的类别。
7. 根据权利要求6所述的系统,其特征在于,所述训练样本处理单元包括: 参数定义单元,用于定义训练样本集为:
其中,y(i)是与训练样本x(i)对应的样本标签,m是训练样本的个数,d是训练样本维度; 定义自编码器的假设函数为:
其中,W和b分别表示自编码器的权重和偏置; 定义第i个训练样本的第j个隐单元的输出表示为,且隐单元的个数为n; 目标函数确定单元,用于确定带平滑范数U的自编码器的目标函数为:
其中,第一项为重构项,第二项为权重衰减项,X为权重衰减系数,第三项为稀疏惩罚 项,0为系数惩罚因子的权重,S(_)表示平滑U范数,具体如下:
其中,y>〇为预设参数; 目标函数求解单元,用于求解使得所述目标函数最小的参数1_和b 假设函数确定单元,用于将UPb_带入自编码器的假设函数中,得到目标假设函 数; 目标训练样本获取单元,用于将训练样本集中的训练样本x(i)带入所述目标假设函数, 得到目标训练样本a(i)。
8. 根据权利要求7所述的系统,其特征在于,在求解使得所述目标函数最小的参数W_ 和13_时,使用反向传播算法进行计算。
9. 根据权利要求7所述的系统,其特征在于,所述待测样本处理单元包括: 第一待测样本处理子单元,用于将所述待预测样本带入所述目标假设函数,得到目标 待预测样本。
【文档编号】G06K9/66GK104484684SQ201510001954
【公开日】2015年4月1日 申请日期:2015年1月5日 优先权日:2015年1月5日
【发明者】张莉, 鲁亚平, 王邦军, 杨季文, 张召, 李凡长 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1