基于卷积及递归神经网络的复杂光学文字序列识别系统的制作方法

文档序号:9911657阅读:659来源:国知局
基于卷积及递归神经网络的复杂光学文字序列识别系统的制作方法
【技术领域】 [0001]
[0002] 本发明涉及图像文字识别领域,特别涉及基于卷积及递归神经网络的复杂光学文 字序列识别
【背景技术】
[0003] 随着社会的发展,产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求, 这里的数字化不仅仅限于使用扫描仪或者相机进行"照片化",更重要的是将这些纸质文件 转化成以可读、可编辑的文档来进行存储,实现这一过程需要对扫描出的图片进行图像文 字识别,而传统的图像文字识别为光学文字识别(OCR)。
[0004] 常规的OCR方法包括了图片的切分,特征提取,单字符识别等处理过程,其中图片 的切分包含了大量的图像预处理过程,比如倾斜矫正,背景去噪,单字符的提取;这些处理 过程不仅繁琐耗时,而且可能使得图片损失很多可用信息;而且当待识别图片中包含多个 文字的字符串时,传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行 分别识别,而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂 直投影找到两个文字之间的分界线,根据分界线将文字切分开来,该方法主要存在的主要 问题为:当待识别图像文字序列中包含背景噪音、字符扭曲、字符粘合等情况下,造成文字 的切分困难。特别是当待识别图像文字序列中混合了左右偏旁的汉子、字母、数字、符号时, 或者在待识别图像文字序列中混合有半角和全角格式的字符,由于格式的差异造成字符大 小和间隙存在区别,通过简单的投影法不能准确的将待识别图像文字序列中的单字符切分 出来。而一旦切分出现了问题,就很难得到准确的识别结果。
[0005] 急需一种能够实现快速高效识别混合有汉字、数字、字母或者混合有全角半角格 式的复杂图像文字序列的识别系统来满足巨大的图像文字识别需要。

【发明内容】

[0006] 本发明的目的在于克服现有技术中所存在的上述不足,基于卷积及递归神经网络 的复杂光学文字序列识别系统。本发明系统通过一个滑动采样框,通过滑动采样的方式提 取待识别图像文字序列中的字符信息,并将滑动采样框每次采样获取到的信息输入到卷积 神经网络(CNN)中,通过卷积神经网络提取对应采样框的特征数据输入到递归神经网络分 类器(RNN)中,通过递归神经网络分类器实现连续预测多个字符的目的。
[0007] 为了实现上述发明目的,本发明提供了以下技术方案:基于卷积及递归神经网络 的复杂光学文字序列识别系统:
[0008] 包含图像文字输入模块、滑动采样模块、卷积神经网络以及递归神经网络分类器,
[0009] 其中所述滑动采样模块中包含滑动采样框,所述滑动采样框对图像文字输入模块 所输入的待识别图像文字序列进行滑动采样,并将采样所获得的子图片输入到卷积神经网 络中;
[0010] 所述卷积神经网络提取所述子图片的特征,并将提取到的特征输入到所述递归神 经网络分类器中;
[0011] 所述递归神经网络分类器根据卷积神经网络提取的特征数据以及上一时刻递归 神经网络分类器的输出数据,计算出该时刻图像文字序列识别结果;
[0012] 依次迭代,将每个时刻所述递归神经网络分类器的识别结果记录合并,得到待处 理图像文字序列的识别结果。
[0013] 具体的,本发明系统实现复杂图像文字序列识别的过程包含以下步骤:
[0014] (1)构建卷积神经网络和递归神经网络分类器模型,所述递归神经网络分类器各 个时刻输入信号包括:所述卷积神经网络提取的样本特征数据以及上一时刻递归神经网络 分类器的输出数据;
[0015] (2)使用训练样本集来训练所述卷积神经网络和递归神经网络分类器模型;
[0016] (3)由滑动采样框对待识别图像文字序列进行滑动采样,并将采样结果输入训练 好的所述卷积神经网络中,由所述卷积神经网络提取待识别图片的特征数据,输入到所述 递归神经网络分类器中,经过所述递归神经网络分类器的依次迭代,输出待识别图像文字 序列的完整识别结果。
[0017] 具体的,本发明系统中所使用的递归神经网络分类器向前算法的计算公式如下:
[0022]其中I是输入向量的维度,Η是隐层的神经元个数,K是输出层的神经元个数,X为 卷积神经网络提取出来的特征数据,^为当前时刻递归神经网络分类器中隐含层神经元
[0018]
[0019]
[0020]
[0021] 的输入,?为当前时刻递归神经网络分类器隐含层神经元的输出;wlh,W〃hh,为g,试; 1 对应的权重参数。为当前时刻递归神经网络分类器输出层神经元的输入;Whk为输出层各 神经元对应的权重;为当前时刻递归神经网络分类器输出层神经元的输出,为一个 概率值,表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。 [0023]除卷积神经网络进一步的,本发明系统中,信号正向传递时用到的参数^认^此都 是跨时序共享的,这样避免了模型复杂度的线性增长,导致可能的过拟合。
[0024] 进一步的,本发明系统中所述递归神经网络分类器采用上述向前算法在卷积神经 网络和递归神经网络分类器中来逐级传输运算数据,在输出层获取到识别(预测)数据,当 预测结果与训练样本的标注结果具有偏差时,通过神经网络中经典的误差反向传播算法来 调整神经网络中的各个权重。
[0025] 进一步的,本发明系统中所述卷积神经网络和递归神经网络分类器在神经网络训 练过程中,通过开发集来检验神经网络的训练结果,及时调整神经网络的训练方向,防止过 拟合情况的发生,在模型训练过程中,仅仅保留在开发集上识别准确率最高的训练模型。 [0026]作为一种优选,所述滑动采样框满足以下条件:a 1.5a,0.5b 1.5b,其中 L为矩形滑动采样框的长,W为矩形滑动采样框的宽,a为待识别字符图片的长,b为待识别字 符图片的宽。
[0027]作为一种优选,所述滑动采样框每次滑动的距离Η满足以下条件:0.4b < Η < 0.6b。 [0028]进一步的,所述卷积神经网络和递归神经网络在进行模型训练时,需要对训练样 本进行人工标注,根据识别情况将样本图像文字中的汉字、数字、字母、标点符号以及空白 分别进行相应的标注,其中将汉字字符的前部分和后部分分别标注,比如说将汉字中的 "字"分别标注为"字Γ和"字2","字Γ是指"字"的前部分,"字2"是指"字"的后部分。相应 的,本发明中所述递归神经网络分类器的识别结果包含"汉字的前部分"、"汉字的后部分"、 数字、字母、标点符号以及空白。
[0029]特别的,很多左右结构的汉字具有相同的部首,而本发明的识别方法会将左右结 构的汉字的左右部分分别识别出来,这样的情况下,为了简化识别结果可以将这样左右结 构的汉字的左右两部分分别标注,将相同部首标注统一标注,将对应偏旁分别标注,在识别 的后期再对识别结果进行合并,输出完整的汉字。
[0030] 进一步的,本发明系统中所述滑动采样模块在对待处理图像文字序列进行滑动采 样处理前,对进行归一化处理的过程,所述待处理图像文字序列包含:训练样本、开发样本、 待识别图像文字序列;所述归一化处理包括:统一待处理图像文字序列的大小,设置待识别 图片允许的最长字数(比如设定句子的长度为20)设置最大的对应递归次数为40次。当样本 图像中包含的字数少于设置的最长字数时,使用<SP>标记符将样本图片中的字数补齐。
[0031] 进一步的,本系统中所述图像文字输入模块为扫描仪、数码相机或者具有输出能 力的图像文字存储模块。
[0032] 进一步的,本发明提供一种复杂图像文字序列识别设备;包含计算机和,或服务 器,所述计算机和,或服务器加载上述系统中所述的滑动采样模块、卷积神经网络和递归神 经网络分类器程序。
[0033] 与现有技术相比,本发明的有益效果:本发明提供基于卷积及递归神经网络的复 杂光学文字序列识别系统,包含图像文字输入模块、滑动采样模块、卷积神经网络以及递 归神经网络分类器,本系统中滑动采样模块通过滑动采样框对待识别图像文字序列进行滑 动采样,所述CNN对采样获得的子图片进行特征提取,然后将特征输出到RNN中,所述RNN根 据输入信号,依次识别出汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白;依 次记录和整合各个时亥丨jRNN的识别结果,获得完整的识别结果;所述RNN每个时刻的输出信 号除卷积神经网络提取的子图片特征外,还包括上一
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1