一种基于递归神经网络的复杂图像文字序列识别系统的制作方法

文档序号：9888733阅读：1329来源：国知局

一种基于递归神经网络的复杂图像文字序列识别系统的制作方法
【技术领域】
[0001] 本发明涉及图像文字识别领域，特别涉及一种基于递归神经网络的复杂图像文字序列识别系统。
【背景技术】
[0002] 随着社会的发展，产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求，这里的数字化不仅仅限于使用扫描仪或者相机进行"照片化"，更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储，实现这一过程需要对扫描出的图片进行图像文字识别，而传统的图像文字识别为光学文字识别(OCR)。
[0003] 常规的OCR方法包括了图片的切分，特征提取，单字符识别等处理过程，其中图片的切分包含了大量的图像预处理过程，比如倾斜矫正，背景去噪，单字符的提取;这些处理过程不仅繁琐耗时，而且可能使得图片损失很多可用信息；而且当待识别图片中包含多个文字的字符串时，传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行分别识别，而进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影找到两个文字之间的分界线，根据分界线将文字切分开来，该方法主要存在两大问题:一、当待识别图像文字序列中包含背景噪音、字符扭曲、字符粘合等情况下，造成文字的切分困难。特别是当待识别图像文字序列中混合了左右偏旁的汉子、字母、数字、符号时，或者在待识别图像文字序列中混合有半角和全角格式的字符，由于格式的差异造成字符大小和间隙存在区别，通过简单的投影法不能准确的将待识别图像文字序列中的单字符切分出来。而一旦切分出现了问题，就很难得到准确的识别结果。二、将字符串切分成包含单个字符的子图片进行分别识别的方法，没有充分利用自然语言中字、词之间的依赖关系，虽然可以使用额外的语言模型对识别结果进行优化补充，但是考虑到语言模型和识别器的构建过程是相互独立的，这种方式的优化补充是局部有限的。
[0004] 急需一种能够实现快速高效识别混合有汉字、数字、字母或者混合有全角半角格式的复杂图像文字序列的识别系统来满足巨大的图像文字识别需要。

【发明内容】

[0005] 本发明的目的在于克服现有技术中所存在的上述不足，提供一种基于递归神经网络的复杂图像文字序列识别系统。本发明系统通过一个滑动采样框，通过滑动采样的方式提取待识别图像文字序列中的字符信息，并将滑动采样框每次采样获取到的信息输入到卷积神经网络(CNN)中，通过卷积神经网络提取对应采样框的特征数据输入到递归神经网络分类器(RNN)中，通过递归神经网络分类器实现连续预测多个字符的目的。
[0006] 为了实现上述发明目的，本发明提供了以下技术方案:一种基于递归神经网络的复杂图像文字序列识别系统：
[0007] 包含图像文字输入模块、滑动采样模块、卷积神经网络以及递归神经网络分类器，
[0008] 其中所述滑动采样模块中包含滑动采样框，所述滑动采样框对图像文字输入模块所输入的待识别图像文字序列进行滑动采样，并将采样所获得的子图片输入到卷积神经网络中；
[0009] 所述卷积神经网络提取所述子图片的特征，并将提取到的特征输入到所述递归神经网络分类器中；
[0010] 所述递归神经网络分类器根据卷积神经网络提取的特征数据、上一时刻递归神经网络分类器的输出数据以及上一时刻递归神经网络分类器识别结果转化成的向量数据，计算出该时刻图像文字序列识别结果；
[0011 ]依次迭代，将每个时刻所述递归神经网络分类器的识别结果记录合并，得到待处理图像文字序列的识别结果。
[0012] 具体的，本发明系统实现复杂图像文字序列识别的过程包含以下步骤：
[0013] (1)构建卷积神经网络和递归神经网络分类器模型，所述递归神经网络分类器各个时刻输入信号包括:所述卷积神经网络提取的样本特征数据，上一时刻递归神经网络分类器的输出数据以及上一时刻递归神经网络分类器识别结果转化成的向量数据；
[0014] (2)使用训练样本集来训练所述卷积神经网络和递归神经网络分类器模型；
[0015] (3)由滑动采样框对待识别图像文字序列进行滑动采样，并将采样结果输入训练好的所述卷积神经网络中，由所述卷积神经网络提取待识别图片的特征数据，输入到所述递归神经网络分类器中，经过所述递归神经网络分类器的依次迭代，输出待识别图像文字序列的完整识别结果。
[0016] 具体的，本发明系统中所使用的递归神经网络分类器向前算法的计算公式如下：
[0017]
[0018]
[0019]
[0020]
[0021]其中I是输入向量的维度，V是向量化的字符或字符部分的维度，Η是隐层的神经元个数，Κ是输出层的神经元个数，X为卷积神经网络提取出来的特征数据，V为RNN的识别结果表转化成的向量数据，4为当前时刻递归神经网络分类器中隐含层神经元的输入，?为当前时刻递归神经网络分类器隐含层神经元的输出;《111，^1，挪11，为^,1^ 1，|^1对应的权重参数。为当前时刻递归神经网络分类器输出层神经元的输入;whk为输出层各神经元对应的权重；为当前时刻递归神经网络分类器输出层神经元的输出，为一个概率值，表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。
[0022]从上述公式可以看出本发明系统中所使用的递归神经网络分类器中隐含层神经元的输入数据包括CNN提取出来的训练样本特征，上一时刻递归神经网络分类器隐含层的输出数据，以及上一时刻递归神经网络分类器预测结果（识别出来的"汉字前部分"、"汉字后部分"、数字、字母或者标点符号)经过词典映射表进行向量化的数据。因此本发明使用的递归神经网络分类器在预测当前时刻的"汉字前部分"、"汉字后部分"、数字、字母或者标点符号的时候，既依赖了采样框提取的图像特征，也依赖了上一时刻输出的特征(语言模型）。 [0023]进一步的，本发明系统中，信号正向传递时用到的参数^^&^^都是跨时序共享的，这样避免了模型复杂度的线性增长，导致可能的过拟合。
[0024] 进一步的，本发明采用上述向前算法在卷积神经网络和递归神经网络分类器中来逐级传输运算数据，在输出层获取到识别(预测)数据，当预测结果与训练样本的标注结果具有偏差时，通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重。
[0025] 进一步的，在神经网络训练过程中，通过开发集来检验神经网络的训练结果，及时调整神经网络的训练方向，防止过拟合情况的发生，在模型训练过程中，仅仅保留在开发集上识别准确率最高的训练模型。
[0026]作为一种优选，所述滑动采样框满足以下条件:a 1.5a，0.5b 1.5b，其中 L为矩形滑动采样框的长，W为矩形滑动采样框的宽，a为待识别字符图片的长，b为待识别字符图片的宽。
[0027]

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘世林;何宏靖;陈炳章;吴雨浓;姚佳;
技术所有人：成都数联铭品科技有限公司;
我是此专利的发明人