一种手写体识别方法及系统的制作方法

文档序号：6648851阅读：489来源：国知局

一种手写体识别方法及系统的制作方法
【专利摘要】本申请公开了一种手写体识别方法及系统，方法为：利用带平滑范数L1的自编码器对训练样本集中的各个训练样本进行处理，得到对应的目标训练样本，所述目标训练样本与所述训练样本集中的样本标签组成目标训练样本集，所述带平滑范数L1的自编码器的目标函数中设有稀疏惩罚项，该稀疏惩罚项为平滑L1范数，然后利用目标训练样本训练分类器，得到目标分类器，利用带平滑范数L1的自编码器对待预测样本进行处理，得到目标待预测样本，最后将所述目标待预测样本输入至所述目标分类器，以确定待预测样本的类别。本申请的方案将平滑范数L1引入自编码器中，代替常用的KL散度，作为新的稀疏惩罚项，能够得到更具判别性的特征，使得最终的手写体识别率更高。
【专利说明】一种手写体识别方法及系统

【技术领域】
[0001] 本申请涉及模式识别【技术领域】，更具体地说，涉及一种手写体识别方法及系统。

【背景技术】
[0002] 手写体数字的识别在实际生活中（如邮政、银行和电子商务等领域）有着较为深远的应用需求。其一直都是模式识别领域的研宄热点。近年来，随着计算机技术和图像处理技术的飞速发展，已经提出了很多用于实现手写体数字识别的方法，例如基于笔画特征的算法、基于K近邻的算法、基于支持向量机的算法和基于神经网络的算法等等。但是，由于手写数字因人而异且变化很多，导致各类算法的识别效果仍然不够理想。因此，研宄高效的手写体数字识别依然是一个重要的方向。
[0003] 人工神经网络的方法对于逼近实数值、离散值或向量值的目标函数提供了一种健壮性很强的方法。自编码器是一个三层神经网络，包括输入层、隐藏层和输出层。自编码器通过最小化输入数据的重构误差来习得输入数据内部的统计结构，从而得到更具判别能力的特征。斯坦福大学的AndrewNg教授通过在自编码器的目标函数中添加KL散度正则化项来惩罚较大的特征而成功地实现了对数据的稀疏编码，并学习到了良好的特征。但是KL 散度对数据稀疏编码的能力有限，因此最终得到的特征对于手写体数字的识别仍存在一定的局限。

【发明内容】

[0004] 有鉴于此，本申请提供了一种手写体识别方法及系统，用于解决现有手写体识别方法识别效果低下的问题。
[0005] 为了实现上述目的，现提出的方案如下：
[0006] 一种手写体识别方法，包括：
[0007] 利用带平滑范数L1的自编码器对训练样本集中的各个训练样本进行处理，得到对应的目标训练样本，所述目标训练样本与所述训练样本集中的样本标签组成目标训练样本集，所述带平滑范数L1的自编码器的目标函数中设有稀疏惩罚项，该稀疏惩罚项为平滑L1 范数；
[0008] 利用所述目标训练样本集训练分类器，得到目标分类器；
[0009] 利用带平滑范数L1的自编码器对待预测样本进行处理，得到目标待预测样本； [0010] 将所述目标待预测样本输入至所述目标分类器，以确定待预测样本的类别。
[0011] 优选地，所述利用带平滑范数L1的自编码器对训练样本集中的各个训练样本进行处理，得到对应的目标训练样本，包括：
[0012] 定义训练样本集为：
[0013]

【权利要求】
1. 一种手写体识别方法，其特征在于，包括：利用带平滑范数1^的自编码器对训练样本集中的各个训练样本进行处理，得到对应的目标训练样本，所述目标训练样本与所述训练样本集中的样本标签组成目标训练样本集，所述带平滑范数U的自编码器的目标函数中设有稀疏惩罚项，该稀疏惩罚项为平滑L:范数；利用所述目标训练样本集训练分类器，得到目标分类器；利用带平滑范数U的自编码器对待预测样本进行处理，得到目标待预测样本；将所述目标待预测样本输入至所述目标分类器，以确定待预测样本的类别。
2. 根据权利要求1所述的方法，其特征在于，所述利用带平滑范数L:的自编码器对训练样本集中的各个训练样本进行处理，得到对应的目标训练样本，包括：定义训练样本集为：
其中，y(i)是与训练样本x(i)对应的样本标签，m是训练样本的个数，d是训练样本维度；定义自编码器的假设函数为：
其中，W和b分别表示自编码器的权重和偏置；定义第i个训练样本的第j个隐单元的输出表示为，且隐单元的个数为n; 确定带平滑范数U的自编码器的目标函数为：
其中，第一项为重构项，第二项为权重衰减项，X为权重衰减系数，第三项为稀疏惩罚项，0为系数惩罚因子的权重，S(_)表示平滑U范数，具体如下：
其中，y>〇为预设参数；求解使得所述目标函数最小的参数评_和b 将UPb_带入自编码器的假设函数中，得到目标假设函数；将训练样本集中的训练样本x(i)带入所述目标假设函数，得到目标训练样本a(i)。
3. 根据权利要求2所述的方法，其特征在于，在求解使得所述目标函数最小的参数W_ 和13_时，使用反向传播算法进行计算。
4. 根据权利要求2所述的方法，其特征在于，所述利用带平滑范数L:的自编码器对待预测样本进行处理，得到目标待预测样本，包括：将所述待预测样本带入所述目标假设函数，得到目标待预测样本。
5. 根据权利要求1所述的方法，其特征在于，所述分类器为Softmax分类器。
6. -种手写体识别系统，其特征在于，包括：训练样本处理单元，用于利用带平滑范数U的自编码器对训练样本集中的各个训练样本进行处理，得到对应的目标训练样本，所述目标训练样本与所述训练样本集中的样本标签组成目标训练样本集，所述带平滑范数U的自编码器的目标函数中设有稀疏惩罚项，该稀疏惩罚项为平滑U范数；分类器训练单元，用于利用所述目标训练样本集训练分类器，得到目标分类器；待测样本处理单元，用于利用带平滑范数1^的自编码器对待预测样本进行处理，得到目标待预测样本；类别确定单元，用于将所述目标待预测样本输入至所述目标分类器，以确定待预测样本的类别。
7. 根据权利要求6所述的系统，其特征在于，所述训练样本处理单元包括：参数定义单元，用于定义训练样本集为：
其中，y(i)是与训练样本x(i)对应的样本标签，m是训练样本的个数，d是训练样本维度；定义自编码器的假设函数为：
其中，W和b分别表示自编码器的权重和偏置；定义第i个训练样本的第j个隐单元的输出表示为，且隐单元的个数为n; 目标函数确定单元，用于确定带平滑范数U的自编码器的目标函数为：
其中，第一项为重构项，第二项为权重衰减项，X为权重衰减系数，第三项为稀疏惩罚项，0为系数惩罚因子的权重，S(_)表示平滑U范数，具体如下：
其中，y>〇为预设参数；目标函数求解单元，用于求解使得所述目标函数最小的参数1_和b 假设函数确定单元，用于将UPb_带入自编码器的假设函数中，得到目标假设函数；目标训练样本获取单元，用于将训练样本集中的训练样本x(i)带入所述目标假设函数，得到目标训练样本a(i)。
8. 根据权利要求7所述的系统，其特征在于，在求解使得所述目标函数最小的参数W_ 和13_时，使用反向传播算法进行计算。
9. 根据权利要求7所述的系统，其特征在于，所述待测样本处理单元包括：第一待测样本处理子单元，用于将所述待预测样本带入所述目标假设函数，得到目标待预测样本。
【文档编号】G06K9/66GK104484684SQ201510001954
【公开日】2015年4月1日申请日期:2015年1月5日优先权日:2015年1月5日
【发明者】张莉, 鲁亚平, 王邦军, 杨季文, 张召, 李凡长申请人:苏州大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张莉;鲁亚平;王邦军;杨季文;张召;李凡长;
技术所有人：苏州大学;
我是此专利的发明人

上一篇：一种基于MapReduce的最优本地化任务调度方法
上一篇：一种综合量化配电网风险评估方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。