基于卷积及递归神经网络的复杂光学文字序列识别系统的制作方法_2

文档序号：9911657阅读：来源：国知局

时刻递归神经网络分类器的输出数据。本发明系统克服了 OCR识别前先要进行图片切分的弊端，解决了混合有汉字(包括左右结构的汉字）、数字、字母、符号等复杂文字序列的识别问题，提高了复杂文字序列的识别的准确率。
[0034]本发明系统中采用的递归神经网络分类器在模型训练和应用的过程中递归使用了上一轮的输出数据，这样这每次输出识别结果在依赖本次采样数据的同时也依赖了先前的输出特征;在提升字、词序列的识别准确率的同时进一步提高了图像文字的识别效率。 [0035]总之本发明系统显著提高了混合有汉字、数字、字母以及标点符号的复杂图像文字序列的识别效率;在图像文字识别领域，具有广阔的应用前景。
【附图说明】：
[0036] 图1为本发明系统的模块连接关系示意图。
[0037] 图2为本发明系统文字序列识别过程信号流向示意图。
[0038] 图3为本发明系统的实现过程示意图。
[0039]图4为本系统中卷积神经网络工作原理示意图。
[0040]图5为局有相同偏旁的汉字字符标注示例图。
[0041]图6为本系统识别结果示例。
【具体实施方式】
[0042]下面结合试验例及【具体实施方式】对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本
【发明内容】
所实现的技术均属于本发明的范围。
[0043] 本发明提供如图1所示的技术方案:基于卷积及递归神经网络的复杂光学文字序列识别系统，包含图像文字输入模块、滑动采样模块、卷积神经网络以及递归神经网络分类器，
[0044] 其中所述滑动采样模块中包含滑动采样框，所述滑动采样框对图像文字输入模块 (扫描仪、数码相机或者具有输出能力的图像文字存储模块)所输入的待识别图像文字序列进行滑动采样，并将采样所获得的子图片输入到卷积神经网络中；
[0045] 所述卷积神经网络提取所述子图片的特征，并将提取到的特征输入到所述递归神经网络分类器中；
[0046] 所述递归神经网络分类器根据卷积神经网络提取的特征数据、上一时刻递归神经网络分类器的输出数据，计算出该时刻图像文字序列识别结果；
[0047] 依次迭代，将每个时刻所述递归神经网络分类器的识别结果记录合并，得到待处理图像文字序列的识别结果。本发明系统的信号流向如图2所示。
[0048] 具体的，本发明系统实现图像文字序列识别，包含如图3所示的以下步骤：
[0049] (1)构建卷积神经网络和递归神经网络分类器模型，所述递归神经网络分类器各个时刻输入信号包括:所述卷积神经网络提取的样本特征数据，上一时刻递归神经网络分类器的输出数据。本发明采用的卷积神经网络主要是用于子图片特征的自动学习，图4所示，卷积神经网络的工作原理如下：卷积神经网络的每一个特征图（feature map，图中的竖排长方形所示）的产生都是通过自有的一个卷积核（即如图4中的小矩形框，在指定的特征图里是共享的)进行初步的特征抽取，二次采样层对卷积层所提取的特征进行采样，以主要解决卷积层所抽取特征的冗余性。简言之，所述卷积神经网络通过卷积层提取图片的不同特征，通过二次采样层对提取到的特征进行采样，以去除冗余信息(在一个卷积神经网络中可以包含多个卷积层，二次采样层和全连接层），最后通过全连接层将不同的特征图串联起来构成最终完整的子图片特征，本发明系统使用卷积神经网络，依次对滑动采样框所提取的子图片进行特征提取，避免了传统OCR识别方法中所采取的图片切分步骤，避免了单字符切分错误可能导致的不可逆转的识别错误。
[0050] (2)使用训练样本集来训练所述卷积神经网络和递归神经网络分类器模型；
[0051] (3)由滑动采样框对待识别图像文字序列进行滑动采样，并将采样结果输入训练好的所述卷积神经网络中，由所述卷积神经网络提取待识别图片的特征数据，输入到所述递归神经网络分类器中，经过所述递归神经网络分类器的依次迭代，输出待识别图像文字序列的完整识别结果。
[0052] 具体的，本发明系统中所使用的递归神经网络分类器向前算法的计算公式如下：
[0057]其中I是输入向量的维度，除卷积神经网络Η是隐层的神经元个数，K是输出层的神经元个数，X为卷积神经网络提取出来的特征数据，除卷积神经网络为当前时刻递归神经
[0053]
[0054]
[0055]
[0056] 网络分类器中隐含层神经元的输入，?为当前时刻递归神经网络分类器隐含层神经元的输出（特别的# = 0)，Θ ()为4到％的函数;Wih，W' hh，为:， &3对应的权重参数，在一次向前算法传递过程中，参数w&W'hh均是跨时序共享的，所谓跨时序共享是指递归神经网络分类器在一次信号正向传递过程中，各个时刻Wih W hh的值相同（并非Wih = w\h)，不同时刻尺顺的^彳^值相同膺低了模型参数的复杂程度池避免了模型复杂度的线性增长导致可能的过拟合。为当前时刻递归神经网络分类器输出层神经元的输入;whk为输出层各神经元对应的权重；为当前时刻递归神经网络分类器输出层神经元的输出，为一个概率值，表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例，一般情况下，将选择值最大的输出神经元对应的类别为该时刻递归神经网络分类器的识别结果。
[0058] 从上述公式可以看出本发明系统中所使用的递归神经网络分类器中隐含层神经元的输入数据包括:CNN提取出来的训练样本特征以及上一时刻递归神经网络分类器隐含层的输出数据。因此本发明使用的递归神经网络分类器在预测当前时刻的"汉字前部分"、 "汉字后部分"、数字、字母或者标点符号的时候，既依赖了采样框提取的图像特征，也依赖了上一时刻输出的特征，识别的准确率高。
[0059] 进一步的，本发明系统中所述递归神经网络分类器采用上述向前算法在卷积神经网络和递归神经网络分类器中来逐级传输运算数据，在输出层获取到识别(预测)数据，当预测结果与训练样本的标注结果具有偏差时，通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重，误差反向传播方法将误差逐级反向传播分摊到各层的所有神经元，获得各层神经元的误差信号，进而修正各神经元的权重。通过向前算法逐层传输运算数据，并通过向后算法来逐渐修改个神经元的权重的过程就是神经网络的训练过程;重复上述过程，直到预测结果的正确率达到设定的阈值，停止训练，此时可认为所述卷积神经网络和递归神经网络分类器模型已经训练完成。
[0060] 进一步的，本系统的所述卷积神经网络和递归神经网络在神经网络训练过程中，通过开发集来检验神经网络的训练结果及时调整神经网络的训练方向，防止模型过拟合情况的发生，在模型训练过程中，仅仅保留在开发集上识别准确率最高的训练模型。使用开发集来避免神经网络训练过程中的过拟合，是机器学习领域中的常见技术具体过程不再赘述。
[0061 ]作为一种优选，所述滑动采样框满足以下条件:a 1.5a，0.5b 1.5b，其中 L为矩形滑动采样框的长，W为矩形滑动采样框的宽，a为待识别字符图片的长，b为待识别字符图片的宽。本发明系统实现的图像文字序列识别，通过滑动取样框依次序对待识别的图像文字序列进行取样，取样框的大小可设计成与待识别图片单个汉字字符的大小相当，则每次采样可以覆盖大约一个汉字字符的面积;且经过优选，所述滑动采样框每次滑动的距离Η满足以下条件:0.4b 0.6b，即将每次滑动的距离设置为约半个取样框的面积，这样每次采样大约可以覆盖半个汉字字符、一个数字、字母或者标点符号将每次取样框采样的数据输入到卷积神经网络和递归神经网络分类器中，由递归神经网络分类器每次根据输入数据输出汉字的前部分、汉字的后部分、数字、字母或标点符号。此外本发明系统中所采用的滑动采样的方式，相邻采样时刻获得的子图片具有重叠部分，可以保证特征信号的平滑过渡，有以利于提尚系统的稳定性。
[0062] 本发明系统的克服了 OCR识别前先要进行图片切分的弊端，解决了混合有汉字(包括左右结构的汉字）、数字、字母、符号等复杂文字序列的识别问题，提高了复杂文字序列的识别的准确率。同时本发明中采用的递归神经网络分类器在模型训练和应用的过程中RNN 递归使用了上一轮输出数据，这样这每次输出识别数据时在依赖本次采样数据的同时也依赖了先前的输出数据，在提升字、词序列的识别准确率

完整全部详细技术资料下载

当前第2页1 2 3