基于语义强化编码器解码器框架的场景文字识别方法及系统与流程

文档序号:22472187发布日期:2020-10-09 22:05阅读:131来源:国知局
基于语义强化编码器解码器框架的场景文字识别方法及系统与流程

本发明涉及计算机图像文字识别领域,具体涉及一种基于语义强化编码器解码器框架的场景文字识别方法及系统。



背景技术:

场景图像的文本检测与识别是近年来的研究热点,其中文字识别是整个流程的核心部分,其任务是将图片中的文字转录为计算机可以直接编辑的文本格式。随着深度学习的发展,这个领域得到了飞速的进步。受到机器翻译领域的启发,目前主流的方法都基于编码器解码器结构,编码器通过卷积神经网络和循环神经网络来提取丰富的视觉特征,解码器通过注意力机制来获取需要的特征按照文本序列的顺序预测出序列中的每个字符。

1,现有的方法在预测每一个字符时只关注到一个特定的图像区域,这使模型很难处理一些低质量的图片(如模糊、遮挡、缺失等等)。

2,文字识别作为一个跨模态的任务,视觉信息与语言语义信息之间存在一定的鸿沟。

3,现有的方法对全局信息的使用缺乏一定的监督,导致全局信息无法得到有效地学习,从而对识别过程起不到非常有效的帮助。



技术实现要素:

本发明的目的在于提出一种基于语义强化编码器解码器框架的场景文字识别方法及系统,能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。

为实现上述目的,本发明采用的技术方案是:

一种基于语义强化编码器解码器框架的场景文字识别方法,包括以下步骤:

将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;

将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;

根据序列信息预测全局语义信息;

利用上述全局语义信息初始化一基于注意力机制的门控循环单元gru的状态,根据上述视觉特征与gru每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。

进一步地,将目标图像上的任意形状的文本矫正为水平文本包括以下步骤:

提取目标图像的视觉特征;

预测视觉特征上的多个(例如20个)控制点的位置信息;

使用控制点的信息计算薄板样条插值函数需要的参数矩阵,作用到目标图片上实现任意形状的矫正。

进一步地,训练一语义模块,利用该语义模块来根据序列信息预测全局语义信息,训练该语义模块的方法为:语义模块预测的全局语义信息,通过与预训练好的语言模型输出的词向量来计算损失,根据损失值来调整语义模块的参数,从而实现训练。

一种基于语义强化编码器解码器框架的场景文字识别系统,包括:

矫正模块,用于将目标图像上的任意形状的文本矫正为水平文本;

编码器模块,包括卷积神经网络和循环神经网络,卷积神经网络用于从矫正后的图像中提取视觉特征,循环神经网络用于从该视觉特征中提取序列信息;

语义模块,用于根据序列信息预测全局语义信息;

解码器模块,包括基于注意力机制的门控循环单元gru,利用上述全局语义信息初始化gru的状态,根据上述视觉特征与gru每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。

进一步地,矫正模块包括卷积层和全连接层,卷积层用来提取目标图片的视觉特征,全连接层用来预测视觉特征上的多个(例如20个)控制点的位置信息,之后使用控制点的信息计算薄板样条插值函数需要的参数矩阵,并作用到目标图片上实现任意形状的矫正。

进一步地,卷积神经网络选用45层的残差网络,循环神经网络选用一个单层的长短时记忆网络。

进一步地,语义模块包括两个全连接层。

进一步地,语义模块与解码器模块联合进行训练,训练方法为:语义模块预测的全局语义信息,通过与预训练好的语言模型输出的词向量来计算损失,根据损失值来调整语义模块的参数,从而实现训练。

进一步地,全局语义信息经过一个全连接层后赋值为gru的初始状态,实现初始化gru的状态。

与现有技术相比,本发明的优点在于:

引入有效的全局语义信息,给识别过程一个全局的引导,从而能够对抗图片中局部的噪声,能够有效地处理图片模糊、曝光,字符不完整的情况。与简单地预测一个全局信息不同,本发明提出使用预训练好的语言模型对全局信息进行监督,从而使全局信息具有更丰富且有效的语义信息。本发明有很强的灵活与泛化性,可能在很多现有方法中进行使用。

附图说明

图1是语义强化的编码器解码器框架结构图。

图2是实施例一种基于语义强化编码器解码器框架的场景文字识别系统的网络结构图。

图3是现有的方法与本发明识别结果可视化的对比图。

具体实施方式

为使本发明的技术方案能更明显易懂,特举实施例并结合附图详细说明如下。

本实施例提出一种基于语义强化编码器解码器框架的场景文字识别方法(简称se-aster),基于语义强化的编码器解码器结构(seed),如图1所示,seed在现有的框架中,使用在编码器输出的视觉信息预测一个全局的语义信息,同时引入了自然语言处理领域常用的词向量作为一个它的一个监督,进而使用这个全局的语义信息来指导后续的解码过程。同时将目前的一个主流方法aster与提出的框架结合,提出了新的场景图像文本识别方法se-aster。如图2所示,se-aster由一种基于语义强化编码器解码器框架的场景文字识别系统来实现,该系统主要由以下模块组成:矫正模块、编码器模块、语义模块和解码器模块。

为了处理任意形状的文本,首先需要矫正模块将弯曲或倾斜的文本矫正为水平文本。矫正模块由卷积层和全连接层组成,卷积层用来提取视觉特征,全连接层则用来预测20个控制点的位置信息。之后使用控制点的信息计算薄板样条插值函数需要的参数矩阵,并作用到原图上实现了任意形状的矫正。

编码器模块由卷积神经网络和循环神经网络组成。首先将矫正后的图片输入到45层的残差网络中提取视觉特征,之后将得到的特征图经过一个单层的长短时记忆网络(lstm)来提取序列信息。

语义模块将编码器的输出作为输入,通过两个全连接层来预测图片的一个全局语义信息,并通过与预训练好的语言模型输出的词向量来计算损失,用于训练语义模块的参数。其中语言模型通过预测大规模文本语料中的词来进行训练,训练收敛后语言模型可以为某个特定词提供一个表示该词的词向量,词向量中包含了丰富的语义信息。全局语义信息通过相应词向量的监督,损失收敛时,全局语义信息更加有效且高质量。

解码器模块由一个基于注意力机制的门控循环单元(gru)组成。它将编码器模块输出的视觉特征和语义模块输出的全局语义信息作为输入。其中全局语义信息经过一个全连接层后赋值为gru的初始状态,来给整个解码过程提供一个有效的全局信息。在解码的每一个时间步,视觉特征用于与gru隐状态计算注意力权重,并将权重与视觉信息加权求和来预测当前解码时间步的字符类别。

以下通过实验来评估本发明se-aster的效果。

本发明提出的系统在两个生成的数据syn90k与synthtext上进行训练,在主流的几个场景文本数据集上进行测试。其中iiit5k有3000张图像;大部分为高质量的水平图像;svt有647张图像,大部分为水平文本;svt-perspective(svtp)有645张图像,其中大部分文本有比较强的形变;icdar2013(ic13)有1015张图像,大部分为高质量的水平文本;icdar2015(ic15)有1811张图像,大部分为任意形状且低质量的文本图像;cute有288张图像,其中大部分为高质量的曲线文本。

表1展示了本系统各个模块之间的效果对比,其中单独的使用词向量监督与只使用任意的全局信息来初始化解码器的状态相对于基准方法都没有提升。而本发明相对于基准方法有明显的提升,这证明了本发明中两个模块的重要性。表2展示了和其他主流方法在测试数据集上的效果对比,本发明在多个数据集上都达到了最好的性能,尤其是在ic15与svtp两个低质量图片数据集上明显优于其他方法,证明了本发明的有效性图3展示了部分识别结果的可视化,可以发现本发明相对于基准方法在一些低质量图片上预测效果更好表1各个模块对比实验

表2se-aster与其他方法在各个数据集上的对比

以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,本发明的保护范围以权利要求所述为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1