一种光学文字序列识别方法_2

文档序号:9888732阅读:来源:国知局
过程,其中归一化处理过程包括:设定图片句子可能的最长字(或者词)数,比如设定句子的 长度为20。
[0034]进一步的,在进行归一化处理过程中,为了避免数据变形,尺寸的放大缩小使用等 比例的方式,与目标尺寸缺失的区域用背景色补齐。
[0035]进一步的,将归一化的图片进行人工标注,如果标注的句子字数不足20,使用一个 特殊的词语:<SP>进行补齐(至20的长度),然后随机选取75%的数据作为训练集,25%的数 据作为开发集。
[0036] 与现有技术相比,本发明的有益效果:本发明提供一种光学文字序列识别方法,本 发明采用卷积神经网络对待识别文字序列图片进行整体征提取,并将提取到的特征数据作 为第一数据输入到各个时刻的递归神经网络中,本发明方法实现的图像文字序列识别,通 过卷积神经网络提取图片整体特征,在不需要进行单个字符切分和噪声过滤的基础上实现 了整个文字序列的识别,相对于传统的OCR方法,本发明避免了文字切分不准确可能导致的 不可逆转的识别错误,极大的简化了图像文字识别的前期处理过程,显著提高了文字识别 的效率。
[0037] 此外本发明方法通过递归神经网络来实现文字序列中字符的连续识别,在使用递 归神经网络来识别字符时,每个时刻递归神经网络的输入信号还包含上一时刻递归神经网 络的输出数据以及上一时刻递归神经网络识别出的字词转化成的向量数据,每个时刻递归 神经网络在进行对应的文字识别时,即依赖了卷积神经网络所提取的图片整体特征,也依 赖了上一时刻递归神经网络的输出数据和识别结果,这样在分别识别字词的基础上,将字、 词之间依赖关系的语言模型也一并学习和识别到了,相比于OCR方法,不再需要通过额外构 建语言模型来对单字符识别结果进行优化补充,简化了识别文字的后期处理过程,识别效 率更高,识别结果更加准确可靠。
[0038]总之,本发明方法简化了图像文字序列识别的处理过程,显著提高了识别效率和 准确率,使开发者可以更加关注于模型的调优和数据的储备,提升了开发效率,本发明方法 在图像文字识别领域具有极高的应用价值和广泛的应用前景。
【附图说明】:
[0039] 图1为本发明方法的实现过程示意图。
[0040] 图2为卷积神经网络结构示意图。
[0041 ]图3为本发明方法文字序列识别过程信号流向示意图。
【具体实施方式】
[0042]下面结合试验例及【具体实施方式】对本发明作进一步的详细描述。但不应将此理解 为本发明上述主题的范围仅限于以下的实施例,凡基于本
【发明内容】
所实现的技术均属于本 发明的范围。
[0043]本发明提供一种光学文字序列识别方法。本发明应用了卷积神经网络(CNN)和递 归神经网络(RNN)的技术,通过CNN对包含多个字符的整个图片进行特征提取,然后将同样 的特征送入RNN进行递归重复使用,以实现连续预测多个字符的目的。本发明方法实现的光 学文字序列识别,系统的克服了 OCR识别前先要进行图片切分的弊端,极大的提高了图像文 字的识别效率,使得开发者更加关注于模型的调优和数据的储备,提升了开发效率,又由于 在模型训练和应用的过程中RNN递归使用了上一轮的识别结果和输出数据,这样将字、词之 间依赖关系的语言模型也一并学习得到了,在提升字、词序列的识别准确率的同时进一步 提高了图像文字的识别效率。
[0044] 为了实现上述发明目的本发明提供了以下技术方案:一种光学文字序列识别方 法,包含如图1所示的以下实现步骤:
[0045] (1)构建卷积神经网络和递归神经网络模型,其中所述递归神经网络各个时刻输 入信号包括:所述卷积神经网络提取的样本特征数据,上一时刻递归神经网络的输出数据 以及上一时刻递归神经网络识别出的字词转化成的向量数据;如图2所示:所述卷积神经网 络主要是用于图片特征的自动学习。其中,每一个特征图(feature map,图中的竖排长方形 所示)的产生都是通过自有的一个卷积核(即如图2中的小矩形框,在指定的特征图里是共 享的)进行初步的特征抽取,二次采样层对卷积层所提取的特征进行采样主要解决卷积层 所抽取特征的冗余性。简言之,所述卷积神经网络通过卷积层提取图片的不同特征,通过二 次采样层对提取到的特征进行采样,以去除冗余信息(在一个卷积神经网络中可以包含多 个卷积层,二次采样层和全连接层),最后通过全连接层将不同的特征图串联起来构成最终 的完整图片特征,本发明方法使用一个卷积神经网络,对整张图片进行一次性的特征提取, 完全避免了图片切分可能导致的不可逆转的识别错误。
[0046] (2)使用训练样本集来训练所述卷积神经网络和递归神经网络模型。
[0047] (3)将待识别图像文字序列输入训练好的所述卷积神经网络及递归神经网络中, 由所述卷积神经网络提取待识别图片的特征数据,输入到所述递归神经网络中,经过所述 递归神经网络的依次迭代,输出待识别图像文字序列的完整识别结果。
[0048] 具体的,本发明方法中所使用的递归神经网络向前算法的计算公式如下:
[0049]
[0050]
[0051]
[0052]
[0053] 其中I是输入向量的维度,V是向量化的字或者词的维度,Η是隐层的神经元个数,K 是输出层的神经元个数,X为卷积神经网络提取出来的特征数据,ν为RNN识别出的字或者词 经过词典映射表转化成的向量数据(特别的/ = 〇),4为当前时刻递归神经网络中隐含层 神经元的输入,?为当前时刻递归神经网络隐含层神经元的输出(bQ = O),0()为4:到尺的 函数;¥化,'^,'?^,为4,1,广,^1对应的权重参数,在一次向前算法传递过程中,参数《^, Wlh,Wh均是跨时序共享的,所谓跨时序共享是指递归神经网络在信号正向传递过程中,各 个时刻_,'?^,¥以的值相同(并非¥认=¥111 = ¥以),不同时刻1?顺的¥认,¥111,'?^值相同,降低 了模型参数的复杂程度,也避免了模型复杂度的线性增长导致可能的过拟合。< 为当前时 刻递归神经网络输出层神经元的输入;Whk为输出层各神经元对应的权重;J.4为当前时刻递 归神经网络输出层神经元的输出,为一个概率值,表示当前时刻对应神经元输出值相对 于输出层所有神经元输出值的加和的比例,一般情况下,将选择Μ直最大的输出神经元对 应的类别为该时刻递归神经网络的识别结果。
[0054] 从上述公式可以看出本发明方法中所使用的递归神经网络中隐含层神经元的输 入数据包括3个方面,CNN提取出来的训练样本特征,上一时刻递归神经网络隐含层的输出 数据,以及上一时刻递归神经网络预测结果(识别出来的字词)经过词典映射表进行向量化 的数据。因此本发明使用的递归神经网络在预测当前时刻的字(词)的时候,既依赖了图像 的特征,也依赖了上一时刻输出的特征(语言模型)。
[0055] 进一步的,本发明采用上述向前算法在卷积神经网络和递归神经网络中来逐级传 输运算数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏 差时,通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重,误差反向 传播方法将误差逐级反向传播分摊到各层的所有神经元,获得各层神经元的误差信号,进 而修正各神经元的权重。通过向前算法逐层传输运算数据,并通过向后算法来逐渐修改个 神经元的权重的过程就是神经网络的训练过程;重复上述过程,直到预测结果的正确率达 到设定的阈值,停止训练,此时可认为神经网络模型已经训练完成。
[0056]进一步的,在神经网络训练过程中,通过开发集来检验神经网络的训练结果,及时 调整神经网络的训练方向,防止过拟合情况的发生,在模型训练过程中,仅仅保留在开发集 上识别准确率最高的训练模型。
[0057]进一步的,本光学文字序列识别方法的神经网络训练过程包含如图3所示的以下 实现步骤:
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1