一种基于深度学习的复杂文字识别方法

文档序号:9249495阅读:496来源:国知局
一种基于深度学习的复杂文字识别方法
【技术领域】
[0001] 本发明设及图像识别领域,特别设及一种基于深度学习的复杂文字识别方法。
【背景技术】
[0002] 图片识别在智能识别领域具有十分重要的意义,随着科技的进步和社会的发展, 对图片中文字的自动识别的需求量也急速增加。传统的光学文字识别(OCR)系统常常用于 识别使用光学设备扫描生成的文档,比如数字化古籍,识别名片、发票、表单等。通常该类 扫描文档有着比较高的分辨率和对比度,而且打印字体一般都比较单一规整,提取用于识 别的单个文字变得比较简单。所W该类文档识别的核屯、是消除噪声,噪声的消除方法比较 多;比如使用高斯进行平滑化处理,然后使用阔值化对图片进行二值化,最后提取工程化设 计好的特征向量进行模版匹配或者交付给分类器进行识别。
[0003] 随着互联网的发展和移动设备的普及,产生了大量含有复杂噪声或者各种变形的 文字图片,比如验证码图片、随手拍照片、车辆车牌等。复杂噪声产生的原因既包括了客观 因素,比如拍照状况的复杂性、拍照设备的质量偏低;也包括了主观因素,比如为了网站安 全,将验证码的噪声和扭曲都人为设计得很复杂。为了从大量公开的多媒体数据中挖掘出 有价值的信息,识别该些复杂文字图片开始变得很有意义。
[0004] 传统的OCR方法假定文字没有噪声或者噪声模式比较简单,该样的假设可W设计 生成出高性能的特征向量,然后使用模版匹配、支持向量机或者浅层神经网络等便可W得 到很高的识别准确率。但是传统的OCR方法当用于大量噪声或者扭曲的文字识别时,如果 不去噪,特征向量将会包含大量噪声;如果去噪,必然会导致有用信息的丢失,两者都会最 终导致识别结果的不准确。
[0005] 随着人工神经网络的出现,使得图像和语音识别变得简单高效;而深度神经网络 在图像和语音识别领域都得到了突破性的进展,但是使用神经网络来进行文字或者语音识 别之前,需要输入大量的标注数据来完成神经网络的训练;而深度神经网络所需要的标注 数据量更加巨大,比如谷歌的语音识别系统使用了上万小时的带标注的语音训练数据,该 就需要消耗大量的人力成本。

【发明内容】

[0006] 本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于深度学习的 复杂文字识别方法。通过分析文字复杂性的原因,设计随机样本生成器,自动生成大量的可 供深度神经网络使用的包含各种噪声和扭曲特征幅度的训练样本,解决了现有技术中使用 深度神经网络识别文字时需要大量的人力标注的问题,显著的节约了人力成本;本发明并 且在训练集保留了原图片的噪声、扭曲等复杂性的前提下,使用最先进的深度神经网络分 类器对待识别图片进行自动化学习,解决了现有技术中图片文字识别需要去噪而导致的信 息丢失的问题,并提高了识别的准确率。
[0007] 为了实现上述发明目的,本发明提供了W下技术方案:
[000引一种复杂文字图片的随机样本生成器,包括w下实现步骤:
[0009] (1-1)选取一定数量的待处理样本(比如说500个;其中所述待处理样本在待识 别样本集中选择)。将目标样本图片中所包含的字符切分出来,将待处理图片中的字符串切 分成仅包含单个字符的待处理子图片。
[0010] (1-2)对上述待处理子图片进行分析,选取与目标图片字符最相似的字体库;分 析待识别图片字符的字符集(比如说待识别图片中仅仅包含数字,那么只需要对应研究数 字集"0、1、2、3、4、5、6、7、8、9"而不需要研究汉字集;当待识别图片中既包括字母又包括数 字还包括汉字,比如说常见的车牌号识别,就需要对汉字、字母W及数字都进行研究)。
[0011] (1-3)分析待处理子图片的噪声情况和扭曲特征,在已选择字体库的标准字符的 基础上构建噪声模型和扭曲模型。复杂文字识别可能遇到的噪声种类很多,比如说背景噪 声、线条噪声、污染物噪声等;待处理目标图片的其他扭曲特征包括由仿射变换引起的平 移、压缩、拉伸、旋转和,或扭曲。
[0012] (1-4)根据噪声模型和扭曲的复杂程度,选择一定的变化步长在已选择字体库标 准字符的基础上生成大量的随机样本(当该些随机样本用于神经网络训练时成为第二训 练样本)。比如说步骤(3)中已分析出的噪声模型包括点状背景噪声、线条噪声;扭曲特征 包括旋转、平移、缩放,其中点状噪声的灰度值分布在10-90之间,线条噪声的长度和宽度 分布在0-100和1-3 (该里指像素点的个数)之间,旋转度在-30°到30°之间,该样根据 该些噪声模型和扭曲特征的复杂度可W在已选择字体库中的标准字的基础上,生成包括背 景噪声像素灰度值为1〇、11、12.........90 ;线条噪声长度为0、1、2、3............100, 宽度为 1、2、3 ;旋转度在-30°、-29°、-28° ......0° ......28。、29°、30° 等特征的 组合的样本;假定产生随机样本的尺寸为50*50像素大小,那么针对单个字符可产生的随 机样本个数为805°w°*i〇〇*3*60数量巨大(事实上旋转度用浮点数表示,可W选择步长值可 W为浮点数,该样所可W产生的样本个数可W非常巨大,可满足各种复杂神经网络的训练 需要);通过上述的随机样本生成器产生了大量可供神经网络训练的样本,相比于现有技 术中通过大量人工标注训练样本的方式,本发明中的随机样本生成器通过机器自动生成的 方法在极短的时间内生成了数量巨大的可供使用的样本,样本的标注效率极高,显著的节 约了人工标注成本。
[0013] 本发明提供一种基于深度学习的复杂文字识别方法;本发明在随机样本生成器的 基础上,仅仅人工标注少量样本(第一训练样本),将所述人工标注的少量第一训练样本集 和上述随机样本生成器所产生的大量随机样本(第二训练样本集)混合成为第=训练样本 集;并将所述第=训练样本集输入到深度神经网络中,通过深度神经网络的学习来识别各 种噪声和扭曲特征;将待识别的目标图片中的字符串按照经过上述"复杂文字图片的随机 样本生成器"中所述步骤(1-1)相同的方式切分成仅包含单个字符的待识别子图片,并将切 分后的待识别字符图片按照对应的顺序输入到已经训练好的深度神经网络中,并经过深度 神经网络输出相应的识别结果。本发明方法使用随机样本生成器自动产生大量可供深度神 经网络使用的训练样本,相比于现有技术中人工标注的方法,大幅度节省了人工成本;同时 本发明基于深度学习的复杂文字识别方法,在保留了原图片的噪声、扭曲等复杂性的前提 下,使用最先进的深度神经网络进行自动化分类学习,解决了去噪可能导致的信息丢失的 问题。
[0014] 具体的实现过程包含W下步骤:
[001引 (2-1)选取一定数量的目标测试样本(比方说1000张图片);进行人工标注。并 将标注好的样本集划分为开发样本和第一训练样本(比如说将标注样本集中30%的样本 作为为开发样本,70 %的样本作为第一训练样本)。
[0016] (2-2)根据上述步骤(1-1)至(1-4)的随机样本生成方法生成大量(具体的数量 根据深度神经网络的模型大小而定,比如说100000张,200000张,或者10000000张)的第 二训练样本。
[0017] (2-3)将第一训练样本集和第二训练样本集混合成为第=训练样本集,并将上所 述第=训练样本集输入到待训练的深度神经网络中,训练所述深度神经网络。将第一训练 样本集和第二训练样本集混合成第=训练样本集来训练神经网络可W减少神经网络根据 第一训练样本集和第二训练样本集分别训练而出现过拟合情况,使得训练模型朝着更加准 确的方向进行学习。
[0018] (2-4)将待识别的目标图片切分成仅包含单个字符的待识别子图片,并将切分后 的待识别字符图片按照对应的顺序输入到已经训练好的所述深度神经网络中。
[0019] (2-5)经过所述深度神经网络的识别,在输出层输出与待识别目标图片对应的识 别结果。
[0020] 进一步的,所述步骤(2-3)中,对第S训练样本集中的图片数据进行归一化处理。 实际使用中待处理字符图片中字符的像素和图片尺寸大小等参数往往具有一定差异,比方 说手写字体,由于个人书写习惯的不同在书写时每个字符的大小存在一定差异;而很多验 证码为了安全性考虑,人为将各个字符的尺寸做得差异较大,该样切分出来的对应图片的 尺寸大小存在差别,如果该些训练样本在输入到深度神经网络的时候不经过归一化处理, 将会增加样本的复杂度,进而增加神经网络的训练难度,不利于深度神经网络的高效训练。 对第=训练样本集中的图片数据进行归一化处理可W使得第=训练样本集在图片尺寸和 像素大小等参数方面保持均一性,该样神经网络在训练的时候排除了其他无关特征,仅仅 对我们关切的关键特征进行训练,提高了训练的效率和可靠性。
[0021] 作为一种优选,所述步骤(2-4)中采用与所述步骤(1-1)相同的图片切分方法。待 识别图片采用与所述深度神经网络的训练样本相同的切分和处理方法能够使得待识别图 片在基本格式上与所述深度神经网络采用的训练样本保持一致,有利于提高识别的速度和 准确性。
[0022] 进一步的,所述步骤(2-4),采用与所述步骤(2-3)中相同的归一化处理方法。待 识别图片采用与所述深度神经网络的训练样本相同的归一化处理,可W使得经过切分的待 识别图片在像素大小和图片尺寸大小等参数方面与训练好的深度神经网络所使用的训练 样本保持一致便于深度神经网络输出更加准确的识别结果。
[0023] 进一步的,所述步骤(2-3)中将归一化处理后的字符串类型的
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1