一种基于深度学习的复杂文字识别方法_2

文档序号:9249495阅读:来源:国知局
标注离散化,并保 留该标注映射。将字符串类型标注离散化是指将字符串中每个字符用离散的数字(一般为 整数)标注号对应起来,比方说:将"文字识另ij"中的"文"标注为0,"字"标注为1,"识"标 注为2,"别"标注为3,该样在使用神经网络进行训练时,该些整数可W更加方便的转换成 只包括0和1的向量,比如0-3会分别翻译成[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0, 1],通过计算该些向量与神经网络的预测之差用于错误反馈可进行模型的训练。
[0024] 作为一种优选,所述步骤(2-3)和(2-4)中的所使用的深度神经网络为LeNet。 LeNet是一种经典的神经网络结构,目前在语音识别和图像识别领域已经广泛的应用, LeNet的网络结构具有可扩展性,通过增加全连接层的层数,可W进行深度学习,提高识别 的准确度。
[0025] 进一步的,所述步骤(2-3)和(2-4)中所使用的深度神经网络包括;二次采样层和 至少两层全连接层,相比于现有的神经网络,具有本发明中所采用的神经网络为深度神经 网络,具有至少两层全连接层,能够从更加复杂的噪声中和扭曲特征中正确识别有用的文 字信息。
[0026]进一步的,所述步骤(2-3)中使用RestrictedBoltzmannMachine(RBM)进行无 监督的学习方式对所述深度神经网络进行预训练,初始化神经网络的参数。所述无监督学 习可W有效利用现实中大量未标注的数据,提升模型的普适度。
[0027] 进一步的,所述步骤(2-3)中所述深度神经网络使用中定义损失函数,比如常用 的有最小负似然值,最小交叉滴。所述损失函数一般具有易于求导(或者偏导)的特征。
[0028]进一步的,所述步骤(2-3)中使用StochasticGradientDecent(SGD)算法和 Error-backpropagation(邸巧误差反向传播算法。SGD使用基于随机少量样本(比如200 张图片)的梯度来估计整个损失函数的梯度,W便实现更加快捷的学习过程。而通过误差 反向传播算法可W逐层快速的计算出各层参数的梯度,进而完成参数的调整,来达到最小 化损失函数的目的。
[0029] 进一步的,所述深度神经网络的训练结果,只保留一个在开发集上实现识别准确 率最高的模型。该样保证了所述深度神经网络的训练模型朝着最接近人工识别结果的方向 进行,保证深度学习的准确性。
[0030] 进一步的,为了使经过所述深度神经网络的识别结果更加准确,所述步骤(2-5) 中通过对测试目标语言特点的分析,选择相应的语言模型或者语言模板来对识别的结果进 行优化,并最终输出经过优化后的识别结果。
[0031] 与现有技术相比,本发明的有益效果;本发明提供一种基于深度学习的复杂文字 识别方法,仅仅只需要少量人工标注的第一训练样本,通过分析待识别图片可能出现的噪 声模型和扭曲特征设计随机样本生成器,在已选择字体的标准字的基础上,自动生成可供 神经网络训练使用的大量第二训练样本,自动生成的第二训练样本集中包含各种复杂的噪 声和扭曲变形,可W满足各种复杂文字识别的需要,将所述第一训练样本集和第二训练样 本集混合后输入所述深度神经网络中,通过深度神经网络的学习来识别各种噪声和扭曲特 征;解决了通过深度神经网络来识别文字时需要大量人工标注的问题;并且本基于深度学 习的复杂文字识别方法在保留了原图片的噪声、扭曲等复杂性的前提下,使用最先进的深 度神经网络进行分类自动化的深度学习,解决了现有技术的通过OCR方法来识别文字时需 要去噪可能导致的信息丢失的问题。
[0032] 总之本发明仅需少量的人工标注,在保持了待识别图片的复杂度的前提下,使用 深度神经网络分类器对各种复杂文字进行自动识别,提高了识别的效率和准确度;在车牌 识别、签名识别,验证码图片识别W及图片文字抓取和识别等复杂文字识别领域具有广阔 的应用前景。
【附图说明】:
[0033] 图1为随机样本生成器的实现步骤示意图。
[0034] 图2为包含点状背景噪声的图片示例。
[0035] 图3为包含点状背景噪声且字符倾斜的图片示例1。
[0036] 图4为包含点状背景噪声且字符倾斜的图片示例2。
[0037] 图5为包含点状背景噪声且字符具有仿射变化的图片示例。
[003引图6为包含点状背景噪声且具有线条噪声的图片示例。
[0039] 图7为基于深度学习的复杂文字识别方法的实现步骤示意图。
[0040] 图8为基于深度学习的复杂文字识别方法的实现过程示意图。
[0041] 图9为实施例1的待识别图片示意图。
[0042] 图10为实施例1切分子图片示意图。
[0043] 图11为基于深度学习的复杂文字识别方法的优化实现过程示意。
[0044] 图12为实施例2的待识别图片示意图。
[0045] 图13为实施例3的待识别图片示意图。
【具体实施方式】
[0046] 下面结合试验例及【具体实施方式】对本发明作进一步的详细描述。但不应将此理解 为本发明上述主题的范围仅限于W下的实施例,凡基于本
【发明内容】
所实现的技术均属于本 发明的范围。
[0047] 本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于深度学习的 复杂文字识别方法。通过分析文字复杂性的原因,设计随机样本生成器,自动生成大量的可 供深度神经网络使用的包含各种噪声和扭曲特征幅度的训练样本,解决了现有技术中使用 深度神经网络识别文字时需要大量的人力标注的问题,显著的节约了人力成本;并且在训 练集保留了原图片的噪声、扭曲等复杂性的前提下,使用最先进的深度神经网络分类器对 待识别图片进行自动化学习,解决了现有技术中需要去噪而导致的信息丢失的问题,并提 高了识别的准确率。
[0048] 为了实现上述发明目的,本发明提供了W下技术方案:
[0049] 一种复杂文字图片的随机样本生成器,包括如图1所示的W下实现步骤:
[0050] (1-1)选取一定数量的待处理样本(具体的数量根据待处理图片所包含噪声的复 杂度而定,比如说500个);其中所述待处理样本图片从待识别图片集中选取,包含待识别 样本图片的一般噪声特征和、或扭曲特征。本发明随机样本生成方法的目的是用于复杂文 字识别;因此在进行样本分析时,选取的待处理图片也应该是具有待识别图片的一般特征, 比如说待识别样本中包含点状背景噪声和线条噪声,那么选取的待处理图片中也应该包含 该些特征,W便于在接下来步骤中来构建相应的模型。
[0化1] 进一步的,将目标样本图片中所包含的字符切分出来(在图片中切分字符的方法 很多比如说可W采用投影法),将待处理图片中的字符串切分成仅包含单个字符的待处理 子图片;便于在单个字符的基础上分析噪声模型和扭曲特征。
[0052] (1-2)对上述待处理子图片进行分析,选取与目标图片字符最相似的字体库(根 据目标字符最接近的字体来选择字体库,字体库的选择可W依经验进行人工选择,也可W 通过机器自动对比,通过机器自动对比时;通过分析各个字体库与目标图片中对应字符的 特征,计算字体的相似度,选择相似度最高的字体,比如宋体);分析目标字符的字符集(字 符集是指待识别目标所包含字符的类别;根据待识别图片中所包含字符的情况而定,比如 说待处理图片中仅仅包含数字,那么只需要对应研究数字集"0、1、2、3、4、5、6、7、8、9"而不 需要研究汉字集;当待识别图片中既包括字母又包括数字还包括汉字,比如说常见的车牌 号识别,就需要对汉字、字母W及数字都进行研究;而且本发明所说的字符集是指待识别图 片集中所包含的所有字符构成的集合,比如说待识别图片集中包含1000个汉字,那么只需 要选择该1000个汉字作为进行处理的字符集)。
[0化3] (1-3)分析待处理子图片的噪声情况和扭曲特征(如图2、图3、图4、图5及图6 所示),在已选择字体库的标准字符的基础上构建噪声模型和扭曲模型。
[0化4]所谓构建噪声模型是指将待处理子图片中所包含的各类噪声进行相应的归类,在 归类的基础上对每类噪声分布情况和复杂程度进统计和计算,让该些参数模型化;复杂文 学识别可能遇到的噪声种类很多,比如说背景噪声(背景噪声包括背景颜色、背景图案等, 如图2至图6所示的图片中均包含点状背景噪声),线条噪声(比如说目前的很多网站登录 使用的验证,为了防止机器识别而人为在验证码的汉字、数字或者字母图片上添加一些干 扰识别的杂乱线条,如图6所示),污染物噪声,比如在车牌识别时字符表面上可能出现的 被灰尘或者泥浆污染的情况。
[0055] 所谓构建扭曲模型是指将待处理子图片中所包含的扭曲特性进行相应的归类,在 分类的基础上对扭曲的程度和扭曲范围进行统计和计算,让扭曲参数模型化;待处理目标 图片的其他扭曲特征包括旋转(如图3所示)、倾斜(如图4所示)、仿射变换(如图5所 示)等。
[0056] (1-4)根据噪声模型和扭曲的复杂程度,选择一定的变化步长在已选择字体库标 准字符的基础上生成大量的随机样本(随机样本生成的具体数量根据待处理图片的噪声 和扭曲特征的复杂度W及所选神经网络的模型规模而定;当该些随机样本用于神经网络训 练时成为第二训练样本)。
[0化7]具体的,比如说步骤(3)中已分析出的噪声模型包括背景中的点状噪声、线条噪 声;扭曲特征包括旋转,其中点状噪声的灰度值分布在10-90之间,线条噪声的长度分布 在0-100,宽度在1-3之间,旋转度在-30°到
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1