一种基于深度学习的复杂文字识别方法_3

文档序号:9249495阅读:来源:国知局
30°之间,该样根据该些噪声模型和扭曲 特征的复杂度可W在已选择字体库中的标准字的基础上,比如说针对汉字"文",在已选 择宋体字符"文"的基础上可随机生成的"文"的图片样本包括背景噪声灰度值为1〇、21、 22......... 90 ;线条噪声为长度为;0、1、2、3............100,宽度为1、2、3 ;旋转度在-3 0°、-29°、-28° ......0° ......28。、29°、30°等特征的组合;假定产生随机样本的尺 寸为50*50像素大小,那么针对"文"可产生的随机样本个数为;8〇ww°*i〇〇*3*60个(事实 上旋转度用浮点数表示,可W选择步长值可W为浮点数,该样所可W产生的样本个数巨大, 可满足各种复杂神经网络的训练需要);其他字符的随机样本生成与"文"类似;通过上述 的随机样本生成器产生了大量可供神经网络训练的不需要进行人工标注的样本,相比于现 有技术中通过大量人工标注训练样本的方式,本发明中的随机样本生成器通过机器自动生 成的方法在极短的时间内生成了数量巨大的可供使用的样本,样本的标注效率极高,可靠 性高,显著的节约了人工标注的成本;并且随机生成的样本可W包含各种不同幅度的噪声 和扭曲特征,满足各种复杂文字识别的需要。
[0化引作为一种优选,实际工作中为了避免因构造点状背景噪声产生数量过大的随机样 本;点状背景噪声产生方式为;通过计算待处理图片中点状噪声的平均灰度W及方差值, 在构造点状噪声时,通过使用高斯采样的方式随机设置噪声的灰度值。
[0化9] 进一步的,待识别图片的表面具有污染物的时候,比如车牌上的泥浆点,泥浆点的 表现为字体的表面具有类似楠圆状或者放射状的斑点,可W选择楠圆或者放射状形状的像 素块,通过设置该些像素块的灰度值从而实现表面污染物噪声的构建。
[0060] 进一步的,图片的扭曲特征如:平移、压缩、拉伸、旋转和扭曲都可W根据仿射变换 来构建,仿射变换一般可用下列公式来进行表示
为为原像素点的 位置向量,X为横坐标,y为纵坐标,
为系数矩阵,T为仿射变换后的对应像 素点的位置向量:
为常数向量;上述公式还可W写成;T= 1,片,7,1]了,1仿射变 化系数矩阵
。具体的,平移变化的情况;在系数矩阵为单位矩阵的情 况下,加上常数向量就可实现;缩放变化的系数矩阵为对角矩阵分别调整X和y坐标的缩放 倍数;而旋转变换的系数矩阵
其中C是旋转的中屯、点(C.X为中屯、的横坐标值,c.y为中屯、的纵坐标值),0是旋转的角 度;而且通过步骤(1-3)中对待处理图片中扭曲程度和模式统计分析,也可W计算出对应 系数矩阵的取值范围,该样在进行扭曲样本构建时,通过在所述取值范围内,随机选取相关 参数来设置系数矩阵,将该系数矩阵乘W标准字符的位置向量,就可W得到不同扭曲程度 的随机样本。
[0061] 进一步的,可W根据待处理样本的特点,仅仅选取字符的某一部分进行仿射变换, 该样所产生的对应随机样本仅仅在字符中的对应区域具有扭曲特征。
[0062] 进一步的,生成随机样本时,诸如背景噪声、线条噪声、污染物噪声等为可加噪声, 即可W通过将字符与噪声进行叠加形成完整的样本图片。扭曲特征可对具有噪声的字符图 片进行整体处理;也可W仅对字符进行扭曲处理,然后将扭曲的字符与其他噪声进行叠加 形成样本图片。
[0063] 进一步的,各类噪声和扭曲特征都可W组合出现。该样可W产生出数量庞大的各 类随机样本。
[0064] 本发明提供一种基于深度学习的复杂文字识别方法;本发明在随机样本生成器的 基础上,仅仅人工标注少量样本(第一训练样本),将所述人工标注的少量第一训练样本和 上述随机样本生成器所产生的大量随机样本(第二训练样本)混合成为第=训练样本集; 并将所述第=训练样本集输入到深度神经网络中,通过深度神经网络的学习来识别各种噪 声和扭曲特征。
[00化]将待识别的目标图片中的字符串按照经过上述"复杂文字图片的随机样本生成 器"中所述步骤(1-1)的切分方式切分成仅包含单个字符的待识别子图片,并将切分后的待 识别字符图片按照对应的顺序输入到已经训练好的深度神经网络中,经过深度神经网络的 识别在输出层输出相应的识别结果。
[0066] 本发明方法使用随机样本生成器自动产生大量可供深度神经网络使用的训练样 本,相比于现有技术中人工标注的方法,大幅度节省了人工成本;同时本基于深度学习的复 杂文字识别方法,在保留了原图片的噪声、扭曲等复杂性的前提下,使用最先进的深度神经 网络进行分类自动化学习,解决了去噪可能导致的信息丢失的问题。
[0067] 具体的实现方法包含如图7所示的W下步骤:
[0068] (2-1)选取一定数量的目标测试样本,进行人工标注(一般来讲,选取的样本的数 量根据待测试样本集所包含噪声的复杂度和W及所选取深度神经网络的规模而定,考虑到 噪音与信号(文字)是相互独立的,人工标注的样本数可W定为500个或者(字符集中所 包含的字符个数值的20倍)中的较小值)。并将标注好的样本集划分为开发样本集和第一 训练样本集(比如说将标注样本集中30%的样本作为开发样本,70%的样本作为第一训练 样本)。
[0069] (2-2)根据上述步骤(1-1)至(1-4)的随机样本生成方法生成大量的包含各种噪 声和扭曲特征的第二训练样本(一般说来,第二训练样本数量S与第一训练样本数量F的 比值S/F满足下列关系;100 < (S/巧< 10000 ;第二训练样本具体的数量根据深度神经网 络的模型规模而定,比如说10000张,20000张,或者1000000张)。
[0070] (2-3)将第一训练样本集和第二训练样本集混合成为第=训练样本集,并将上所 述第=训练样本集输入到待训练的深度神经网络中,训练所述深度神经网络。将第一训练 样本集和第二训练样本集混合成第=训练样本集的好处在于可W防止神经网络根据第一 训练样本集和第二训练样本集分别训练而出现过拟合问题,使得训练的结果朝着更加合理 的方向进行。
[0071] (2-4)将待识别的目标图片中的字符串图片切分出来,并将字符串图片中的字符 切分成仅包含单个字符的待识别子图片,并将切分后的待识别字符图片按照对应的顺序输 入到已经训练好的所述深度神经网络中。
[0072] (2-5)经过所述深度神经网络的识别,在输出层输出与待识别目标图片对应的识 别结果。
[0073] 进一步的,所述步骤(2-3)中,对第S训练样本集中的图片数据进行归一化处理。 实际使用中待处理字符图片中字符的像素和图片尺寸大小等参数往往具有一定差异,比方 说手写字体,由于个人书写习惯的不同在书写时每个字符的大小存在一定差异;而很多验 证码为了安全性考虑,人为将各个字符的尺寸做得差异较大,该样切分出来的对应图片的 尺寸大小存在差别,如果该些训练样本在输入到深度神经网络的时候不经过归一化处理, 将会增加样本的复杂度,进而增加神经网络的训练难度,不利于深度神经网络的高效训练。 对第=训练样本集中的图片数据进行归一化处理可W使得第=训练样本在图片尺寸和像 素大小等参数方面保持均一性,该样神经网络在训练的时候排除了其他无关特征,仅仅对 我们关切的关键特征进行训练,提高了训练的效率和可靠性。
[0074] 进行归一化处理的原因还在于;通常在选择神经网络模型时会相应选择输入图片 的格式(比如说是尺寸大小,像素值分布等)。在输入神经网络前对所述第=样本集中各个 图片的格式进行对应归一化处理,W满足神经网络输入格式要求,避免在神经网络中来处 理该些格式上的无关特征,增加训练复杂度。
[0075] 作为一种优选,所述步骤(2-4)中采用与所述步骤(1-1)相同的图片切分方法。待 识别图片采用与所述深度神经网络的训练样本相同的切分和处理方法能够使得待识别图 片在基本样式上与所述深度神经网络采用的训练样本保持一致,降低无关特征而引起的复 杂度,有利于所述深度神经网络在最快速的时间内得到更加正确的识别结果。
[0076] 进一步的,所述步骤(2-4)中,采用与所述步骤(2-3)中相同的归一化处理。待识 别图片采用与所述深度神经网络的训练样本相同的归一化处理,可W使得经过切分的待识 别图片在像素大小和图片尺寸大小等参数方面与训练好的深度神经网络所使用的训练样 本保持一致便于深度神经网络输出更加准确的识别结果。
[0077] 进一步的,所述步骤(2-3)中将归一化处理后的字符串类型的标注离散化,并保 留该标注映射。将字符串类型标注离散化是指将字符串中每个字符用离散的数字(一般为 整数)标注号对应起来,比方说:将"文字识另ij"中的"文"标注为0,"字"标注为1,"识"标 注为2,"别"标注为3,该样在使用神经网络进行训练时,该些整数可W更加方便的转换成 只包括0和1的向量,比如0-3会分别翻译成[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0, 1],通过计算该些向量与神经网络的预测之差用于错误反馈,可进行模型的训练。
[007引作为一种优选,所述步骤(2-3)和(2-4)中的所使用的深度神经网络为卷积神经 网络,比如LeNet;LeNet及其变种目前在语音识别和图像识别领域已经广泛的应用;而且 LeNet具有可扩展性,通过增加全连接层的层数,可W进行深度学习,提高识别的准确度。
[0079] 进一步的,所述步骤(2-3)和(2-4)中的所使用的深度神经网络包括;二次采样层 和至少两层全连接层,本发明中所采用的神经网络为深度神经网络,在LeNe
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1