一种基于递归神经网络的图像文字序列识别系统的制作方法

文档序号：9888738阅读：33881来源：国知局

一种基于递归神经网络的图像文字序列识别系统的制作方法
【技术领域】
[0001] 本发明涉及图像文字识别领域，特别涉及一种基于递归神经网络的图像文字序列识别系统。
【背景技术】
[0002] 随着社会的发展，产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求，这里的数字化不仅仅限于使用扫描仪或者相机进行"照片化"，更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储，实现这一过程需要对扫描出的图片进行图像文字识别，而传统的图像文字识别为光学文字识别(0CR)，光学文字识别在将待识别纸质文件扫描成电子图像的基础上进行识别。但是考虑到扫描效果的好坏、纸质文件本身的品质(别如印刷质量、字体清晰度，字体规范度等）、内容布局（文字的排列情况，比普通文本与表格文本和票据）的差异，OCR的实际效果不总是让人满意。而针对不同的纸质文档的识别准确率的要求有差异，比如票据的识别，对准确率的要求是非常高的，因为如果一个数字识别错误就可能导致致命的后果，传统的OCR识别不能满足这样高精度的识别要求。
[0003] 常规的OCR方法包括了图片的切分，特征提取，单字符识别等处理过程，其中图片的切分包含了大量的图像预处理过程，比如倾斜矫正，背景去噪，单字符的提取;这些处理过程不仅繁琐耗时，而且可能使得图片损失很多可用信息；而且当待识别图片中包含多个文字的字符串时，传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行分别识别，该方法主要存在两大问题:一、单字符图片的切分困难，特别是字符串中混合了左右偏旁的汉字、字母、数字、符号，字符具有倾斜、扭曲、粘合，或者图像具有背景噪音等情况下，切分更加困难。而一旦切分出现了问题，就很难得到准确的识别结果。二、将字符串切分成包含单个字符的子图片进行识别的分别识别方法，没有充分利用自然语言中字、词之间的依赖关系，虽然可以使用额外的语言模型对识别结果进行优化补充，但是考虑到语言模型和识别器的构建过程是相互独立的，这种方式的优化补充是局部有限的。
[0004] 面对巨大的识别需要急需一种能够快速高效的图像文字识别工具。

【发明内容】

[0005] 本发明的目的在于克服现有技术中所存在的上述不足，提供一种基于递归神经网络的图像文字序列识别系统。包含卷积神经网络(CNN)和递归神经网络分类器分类(RNN)，通过CNN对包含多个字符的整个图片进行特征提取，然后将同样的特征送入RNN进行递归重复使用，以实现连续预测多个字符的目的。本发明系统实现的图像文字序列识别，系统的克服了 OCR识别前先要进行图片切分的弊端，极大的提高了图像文字的识别效率，同时在进行模型训练过程中，各个时刻递归神经网络分类器的输入信息包含上一时刻的输出数据和识别结果，递归神经网络分类器的输出在依赖当前信息的同时也依赖了文字序列的先前识别结果，在识别当前字或者词的基础上，将字、词之间依赖关系的语言模型也一并学习得到了，不再需要构建额外的语言模型来对识别的结果进行优化，在提升字、词序列的识别准确率的同时进一步提高了图像文字的识别效率。
[0006] 为了实现上述发明目的，本发明提供了以下技术方案：
[0007] -种基于递归神经网络的图像文字序列识别系统，包含图像文字输入模块、特征提取模块以及递归神经网络分类器，其中所述图像文字输入模块将待识别图像文字序列输入到所述特征提取模块中；所述特征提取模块将整个待识别图像文字序列的特征数据提取出来，输入到所述递归神经网络分类器中；所述递归神经网络分类器根据样本特征数据，上一时刻递归神经网络分类器的输出数据以及上一时刻递归神经网络分类器识别出的字词转化成的向量数据，依次输出待识别图像文字序列的识别结果。
[0008] 进一步的，所述特征提取模块为卷积神经网络。本发明系统中所使用的递归神经网络分类器的向前算法计算公式如下：
[0009]
[0010]
[0011]
[0012]
[0013 ]其中I是输入向量的维度，V是字或词向量化的向量维度，Η是隐层的神经元个数，K 是输出层的神经元个数，X为卷积神经网络提取出来的特征数据，ν为RNN识别出的字或者词经过转化成的向量数据，<为当前时刻递归神经网络分类器中隐含层神经元的输入，￥为当前时刻递归神经网络分类器隐含层神经元的输出的权重参数。4为当前时刻递归神经网络分类器输出层神经元的输入;whk为输出层各神经元对应的权重；>4为当前时刻递归神经网络分类器输出层神经元的输出，为一个概率值，表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。
[0014]从上述公式可以看出本发明系统的递归神经网络分类器中隐含层神经元的输入数据包括3个方面，CNN提取出来的训练样本特征，上一时刻递归神经网络分类器隐含层的输出数据，以及上一时刻递归神经网络分类器预测结果(识别出来的字词)经过词典映射表进行向量化的数据。因此本发明使用的递归神经网络分类器在预测当前时刻的字(词）的时候，既依赖了图像的特征，也依赖了上一时刻输出的特征(语言模型）。
[0015]进一步的，本发明系统中，信号正向传递时用到的参数Wlh，wlh， Wh'h都是跨时序共享的，这样避免了模型复杂度的线性增长，导致可能的过拟合。
[0016]进一步的，本发明采用上述向前算法在卷积神经网络和递归神经网络分类器中来逐级传输运算数据，在输出层获取到识别(预测)数据，当预测结果与训练样本的标注结果具有偏差时，通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重。
[0017] 进一步的，在神经网络训练过程中，通过开发集来检验神经网络的训练结果，及时调整神经网络的训练方向，防止过拟合情况的发生，在模型训练过程中，仅仅保留在开发集上识别准确率最高的训练模型。
[0018] 进一步的，本基于递归神经网络的图像文字序列识别系统，其中神经网络训练过程包含以下实现步骤：
[0019] (2-1)将人工标注的训练样本输入到卷积神经网络中；
[0020] (2-2)通过所述卷积网络对输入训练样本进行特征提取；
[0021] (2-3)将所述卷积神经网络提取出来的特征数据作为第一数据输入第一时刻递归神经网络分类器中；
[0022] (2-4)经过第一时刻递归神经网络分类器的计算输出第一预测数据;根据第一预测数据得到该时刻递归神经网络分类器的字词识别结果，将该结果定义为:第一识别结果；
[0023] (2-5)并将第一识别结果转化成对应的向量数据；
[0024] (2-6)将第一数据，第一预测数据以及向量化的第一识别结果作为第二时刻递归神经网络分类器的输入数据，经过递归神经网络分类器的计算输出第二预测数据，并得到由第二预测数据对应的第二识别结果；
[0025] (2-7)并将第二识别结果转化为对应的向量数据；
[0026] (2-8)将第一数据，第二预测数据以及向量化的第二识别结果作为第三时刻递归神经网络分类器的输入数据；
[0027] 依次递归，直到达到设定的递归次数时，终止识别;将每个时刻RNN预测出得字(或者词)依次记录下来就最终获得完整的字符串内容。
[0028] 进一步的，所述过程(2-5)和(2-7)中，通过词典映射表进行向量化，所述词典映射表为一个二维矩阵，行数为词典的大小，列数(行向量的维度)根据词典的大小和数据的规模来设定，词典映射表的目的为将字(或词)特征化，向量化。
[0029]进一步的，所述图像文字输入模块为扫描仪、摄像仪、图像存储模块或者图像存储设备。
[0030] 进一步的，本发明提供一种基于递归神经网络的图像文字序列识别设备，所述设备为计算机、服务器或者其他智能处理设备，在该计算机中载有上述卷积神经网络和递归神经网络分类器程序模块。
[0031] 与现有技术相比，本发明的有益效果:本发明提供一种基于递归神经网络的图像文字序列识别系统，本发明采用卷积神经网络对待识别文字序列图片进行整体征提取，并将提取到的特征数据作为第一数据输入到各个时刻的递归神经网络分类器中，本发明系统实现的图像文字序列识别，通过卷积神经网络提取图片整体特征，在不需要进行单个字符切分和噪声过滤的基础上实现了整个文字序列的识别，使用本发明系统所实现的图像文字序列识别，相对于传统的OCR

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘世林;何宏靖;陈炳章;吴雨浓;姚佳;
技术所有人：成都数联铭品科技有限公司;
我是此专利的发明人