一种无切分的脱机手写汉字文本识别方法与流程

文档序号:15387342发布日期:2018-09-08 00:43阅读:1140来源:国知局

本发明涉及一种文本识别技术领域,尤其是一种无切分的脱机手写汉字文本识别方法。



背景技术:

脱机手写体文本识别是目前文字识别领域的难题之一,与联机手写识别相比,缺少必要的的字符位置和轨迹信息,其中,后者可以根据字符位置和书写经验来近似获得,因此,字符位置的判定对脱机手写体文本识别效率的影响甚大,由于手写体字符书写随意性导致相邻字符之间的位置关系复杂,造成脱机手写文本中的字符位置定位要比印刷体字符定位困难很多,尤其是行倾斜、不规则行片段以及粘连字符的文本中的字符位置判断。

目前,针对手写文本行的识别问题,传统方法主要是基于字符切分和单字符识别的解决方案,字符切分可以将手写汉字文本行切分为基本手写字符序列,然后将切分后的单字符送入单字符的分类器,得到整行的识别结果,常用的切分技术有基于统计分方法、基于字型结构切分和基于识别的汉字统计切分方法等,其中,基于统计的切分方法是根据字符的总体统计分别特征,确定字符之间的界限,判别时,以字符的平均宽度做辅助判别,统计分布特征的代表性和稳定性对切分的正确性及收敛性起到很重要的作用,该方法实用于字符间距较宽,无粘连字符的切分,并且由于手写汉字的笔画之间较为分散或者字符之间有连笔的情况出现,容易造成过度切分或者错误切分,这使得手写汉字的识别难度更大;而且针对单字符的手写汉字识别,由于汉字类别较多以及手写汉字书写的多样性,单字符手写汉字识别的难度也很大。



技术实现要素:

针对现有技术的不足,本发明提供一种无切分的脱机手写汉字文本识别方法。

本发明的技术方案为:一种无切分的脱机手写汉字文本识别方法,包括以下步骤:

s1)、对脱机手写汉字文本图像进行预处理,预处理包括图像尺寸归一化处理、以及图像亮度值反转;

s2)、构建空间变换网络模型,通过该空间变换网络模型校正文本图像的偏移,该空间变换网络模型由定位网络、采样栅格、采样器构成;

s3)、构建深度卷积神经网络模型,通过该模型提取校正偏移文本图像的深度特征;

s4)、通过深度卷积神经网络模型提取的深度特征构建循环神经网络模型,通过该模型对深度序列特征建模;

s5)、通过联结主义时间分类器ctc输出序列特征标签的概率分布,得到初步的识别结果;

s6)、采用贪婪搜索和基于字典规则搜索得到文本最终的识别结果。

进一步的,所述的步骤s1)中,通过图像尺寸归一化处理将文本图像宽度处理为128,并通过图像亮度值反转将文本图像背景和汉字亮度进行反转,具体为:i(i,j)=255-x(i,j),其中,x(i,j)为文本图像第i行第j列像素位置对应的亮度值,i(i,j)为转后文本图像第i行第j列像素位置的亮度值。

进一步的,上述技术方案中,步骤s2)中,具体包括以下步骤:

s201)、将预处理后的文本图像输入定位网络中,计算得到仿射变换参数θ,即θ=floc(i),其中,floc(i)是一个2层的全连接网络,i为预处理后的文本行图像;

s202)、通过仿射变换参数θ得到文本图像的坐标栅格坐标点的仿射变换如下:

其中,是输入文本图像的采样点坐标,aθ为仿射变换矩阵,为输出栅格的坐标,并且,当仿射变换矩阵其中,s为缩放分量,tx,ty为输出栅格像素坐标的偏移量,该变换矩阵可以实现裁剪、缩放、平移、旋转和倾斜等变换操作,这些变换实现了空间的注意力机制,使得变换后的图像更关注主要内容信息;

s203)、将文本图像的坐标栅格坐标与文本图像y输入到采样器,得到校正偏移的文本图像v,即v=fsam(i,tθ(g)),其中,fsam为采样器函数。

进一步的,上述技术方案中,步骤s3)中,构建的深度卷积神经网络模型为一个18层的残差深度卷积神经网络,残差网络的学习表达式为:

f(x)=h(x)-x,

其中,f(x)为残差映射,h(x)为原始映射,从而根据残差网络结构y=f(x,{wi})+x,提取图像特征y,其中,wi为权值参数,x为输入。

进一步的,上述技术方案中,步骤s4)中,所述的循环神经网络模型为2层双向的gru(gaterecurrentunit)网络。

进一步的,上述技术方案中,步骤s5)中,分类器ctc的映射关系为:

通过ctc层输出每一帧序列特征数据的识别概率分布,其中,p(k|y)为序列特征k在序列特征y下的条件概率,p(l|y)为序列特征l在序列特征y下的条件概率,β(k)=l为序列k到序列y的映射,y=y1,...,yt为输入的特征序列,每一个l′是包含所有识别的字符集和一个空白符号,ctc在输出序列时,移除重复项以及空白项。

进一步的,上述技术方案中,步骤s6)中,通过在最大概率附近的几组数据中搜索最大概率路径l*=argmaxl∈dp(l|y)确定真实序列,其中,d是一个对应的字典;

由于可以在最大概率路径附近搜索最佳输出序列,将搜索路径限制在一个范围nδ(l′)内,其中,δ表示最大的搜索距离,l′是无字典规则的序列,在最大概率路径附近搜索的路径可以表示为从而得到最终的识别结果。

进一步的,所述的18层的残差深度卷积神经网络模型由1个卷积层、16个残差单元和1个全局平均池化层构成。

本发明的有益效果为:通过采用空间变换网络、深度卷积神经网络和循环神经网络相结合的模型,能够针对偏移较大文本行进行校正处理和无切分的识别,提高复杂文本行识别的准确性和鲁棒性;整个模型框架基于迭代算法求解,不需要复杂的过切分预处理,能够较好地减少过切分方法带来的损失,以及能够联合地优化整个模型参数,提高识别的准确率。

附图说明

图1为本发明的流程示意图;

图2为本发明空间变换网络模型的流程图;

图3为本发明残差网络的结构图,其中a为通道相加的残差单元结构图,b为通道串接的残差单元;

图4为本发明18层残差网络的结构图;

图5为本发明双向gru循环神经网络的结构图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明:

如图1所示,一种无切分的脱机手写汉字文本识别方法,包括以下步骤:

s1)、对脱机手写汉字文本图像进行预处理,预处理包括图像尺寸归一化处理、以及图像亮度值反转,通过图像尺寸归一化处理将文本图像宽度处理为128,由于所采集的脱机手写汉字文本图像的背景颜色是白色,亮度值为255,为了减少计算量,通过图像亮度值反转将文本图像背景和汉字亮度进行反转,具体为:i(i,j)=255-x(i,j),其中,x(i,j)为文本图像第i行第j列像素位置对应的亮度值,i(i,j)为转后文本图像第i行第j列像素位置的亮度值,反转后的文本图像中更多的亮度值为0,图像矩阵更加稀疏,进而减少了计算量;

s2)、构建空间变换网络模型,通过该空间变换网络模型校正文本图像的偏移,该空间变换网络模型由定位网络、采样栅格、采样器构成,如图2所示,其中,定位网络用于求解仿射变换的参数θ,具体包括以下步骤:

s201)、将预处理后的文本图像输入定位网络中,计算得到仿射变换参数θ,即θ=floc(i),其中,floc(i)是一个2层的全连接网络,i为预处理后的文本行图像;

s202)、通过仿射变换参数θ得到文本图像的坐标栅格坐标点的仿射变换如下:

其中,是输入文本图像的采样点坐标,aθ为仿射变换矩阵,为输出栅格的坐标,并且,当仿射变换矩阵其中,s为缩放分量,tx,ty为输出栅格像素坐标的偏移量,该变换矩阵可以实现裁剪、缩放、平移、旋转和倾斜等变换操作,这些变换实现了空间的注意力机制,使得变换后的图像更关注主要内容信息;

s203)、将文本图像的坐标栅格坐标与文本图像y输入到采样器,得到校正偏移的文本图像v,即v=fsam(i,tθ(g)),其中,fsam为采样器函数;

s3)、构建深度卷积神经网络模型,通过该模型提取校正偏移文本图像的深度特征,深度卷积神经网络模型可以从数据中学习,并提取更为有表征能力的抽象特征,本发明采用一个18层的残差深度卷积神经网络模型,残差网络的学习表达式为:

f(x)=h(x)-x,

其中,f(x)为残差映射,h(x)为原始映射,对于更深层网络结构,残差映射是更稳定的非线性映射方式,假定提取图像特征为y,输入为x,从而根据残差网络结构y=f(x,{wi})+x,其中,wi为权值参数,如图3所示,图3(a)的结构采用快捷连接实现残差映射关系,通道维数与输入的通道保持不变,图3(b)是采用通道串接的方式实现残差映射关系,通道维数增加为输入通道的两倍;

如图4所示,该18层的残差深度卷积神经网络模型由1个卷积层、16个残差单元和1个全局平均池化层构成,在整个残差网络结构中,添加批量归一化层(batchnorm)来加速网络拟合,采用relu函数作为非线性的激活函数,残差网络最后一层为全局池化层,用于将特征转换为高度为1的深度抽象特征;

s4)、通过深度卷积神经网络模型提取的深度特征构建循环神经网络模型,通过该模型对深度序列特征建模,其中,所述的循环神经网络模型为2层双向的gru(gaterecurrentunit)网络,其基本结构如图5所示;

s5)、通过联结主义时间分类器ctc输出序列特征标签的概率分布,得到初步的识别结果,其中,分类器ctc的映射关系为:通过ctc层输出每一帧序列特征数据的识别概率分布,其中,p(k|y)为序列特征k在序列特征y下的条件概率,p(l|y)为序列特征l在序列特征y下的条件概率,β(k)=l为序列k到序列y的映射,y=y1,...,yt为输入的特征序列,每一个l′是包含所有识别的字符集和一个空白符号,ctc在输出序列时,移除重复项以及空白项,例如序列“信-息息-技-术-中-心心—”会输出新的序列“信息技术中心”;

s6)、采用贪婪搜索和基于字典规则搜索得到文本最终的识别结果,通过在最大概率附近的几组数据中搜索最大概率路径l*=argmaxl∈dp(l|y)确定真实序列,其中,d是一个对应的字典;

由于可以在最大概率路径附近搜索最佳输出序列,将搜索路径限制在一个范围nδ(l′)内,其中,δ表示最大的搜索距离,l′是无字典规则的序列,在最大概率路径附近搜索的路径可以表示为从而得到最终的识别结果。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1