自然场景文本识别方法、装置、电子设备及介质与流程

文档序号:35705344发布日期:2023-10-12 05:51阅读:35来源:国知局
自然场景文本识别方法、装置、电子设备及介质与流程

本公开涉及人工智能,具体涉及计算机视觉领域,更具体地涉及一种自然场景文本识别方法、装置、电子设备、介质和程序产品。


背景技术:

1、从自然场景所拍摄的图像中识别并提取文本信息又被称为场景文本识别(scenetext recognition,str),是光学字符识别技术的一大研究及应用方向。现有的光学字符识别技术主要应用于文档识别,并在此应用场景下表现出了极为优秀的识别能力。但自然场景图像容易受到环境及拍摄因素的影响,现有的光学字符识别技术针对特定识别对象的信息提取能力较弱,主要针对身份证、银行卡、车牌等特定文本识别,应用场景较为局限。

2、常见的光学字符识别方法虽在文档识别上表现优秀,但针对证件信息提取等自然场景文本识别的专用系统较少,且主要针对一些简单证件的识别,所支持的证件种类较少,对于信息条目较多且版面复杂的证件几乎没有识别能力。证件类型的多样化,证件所具有的独特的版面结构及网状纹理的防伪标记,以及自然场景下拍摄角度、拍摄质量及光照等因素的影响,无形中增大了证件信息识别、提取的难度。


技术实现思路

1、针对自然场景下证件图像识别存在的上述问题,本公开提供了一种自然场景文本识别方法、装置、电子设备、介质和程序产品,支持各类证件图像的文本定位、识别和文本内容提取。

2、根据本公开的第一个方面,提供了一种自然场景文本识别方法,包括:获取待识别的证件图像;使用特征提取层提取证件图像的多个尺度图像特征,形成图像特征矩阵;将图像特征矩阵输入图像特征解码分支,得到证件图像的至少一个文本位置信息;将图像特征矩阵和至少一个文本位置信息输入文本信息解码分支,得到证件图像包含的目标文本内容。

3、根据本公开的实施例,证件图像包括身份证、银行卡或车牌图像。

4、根据本公开的实施例,特征提取层包括:多个卷积层,用于提取证件图像的多个原始图像特征;池化层,用于缩小多个原始图像特征的尺度,得到图像特征矩阵;其中,在多个卷积层,除第一个卷积层之外的其他卷积层均隔层建立了残差连接。

5、根据本公开的实施例,多个卷积层采用多个平行且膨胀率不同的3×3空洞卷积层;池化层采用全局最大池化层。

6、根据本公开的实施例,文本信息解码分支包括:双向循环特征共享模块,用于将图像特征矩阵融合上下文特征,形成长文本特征序列;结合注意力机制的文本分类模块,用于对长文本特征序列进行分类,得到长文本特征序列中每一个元素的文本分类结果,并根据文本分类结果,提取证件图像包含的目标文本内容,其中,文本分类结果表征了长文本特征序列中各元素是否包含文字。

7、根据本公开的实施例,双向循环特征共享模块采用多个首尾双向相连的ltsm神经元;结合注意力机制的文本分类模块用于执行以下操作:计算长文本特征序列中每一个元素的注意力深度;将长文本特征序列中的各元素和该元素的注意力深度进行连接,得到目标特征序列;将目标特征序列通过多个ltsm神经元进行迭代,得到长文本特征序列中各元素的文本分类结果。

8、本公开的第二方面提供了一种自然场景文本识别装置,包括:证件图像获取模块,用于获取待识别的证件图像;图像特征提取模块,用于使用特征提取层提取证件图像的多个尺度图像特征,形成图像特征矩阵;文本位置确定模块,用于将图像特征矩阵输入图像特征解码分支,得到证件图像的至少一个文本位置信息;文本内容确定模块,用于将图像特征矩阵和至少一个文本位置信息输入文本信息解码分支,得到证件图像包含的目标文本内容。

9、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述自然场景文本识别方法。

10、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述自然场景文本识别方法。

11、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述自然场景文本识别方法。

12、通过本公开实施例提供的自然场景文本识别方法、装置、电子设备、介质和程序产品,针对自然场景下证件图像识别存在的问题,本公开设计了一种共享特征提取层和双重特征解码分支的深度神经网络结构,其中,特征提取层用于提取图像特征,双重特征解码分支——图像特征解码分支和文本信息解码分支完成自然场景下证件图像的文本的定位和信息提取。该深度神经网络结构减少了网络模型的参数量,但并不影响文本识别的速度与精度。使用该深度神经网络结构对自然场景下的证件图像进行自动识别,支持各类证件图像的文本定位、识别和文本内容提取。



技术特征:

1.一种自然场景文本识别方法,包括:

2.根据权利要求1所述的方法,其中,所述证件图像包括身份证、银行卡或车牌图像。

3.根据权利要求1所述的方法,其中,所述特征提取层包括:

4.根据权利要求3所述的方法,其中,所述多个卷积层采用多个平行且膨胀率不同的3×3空洞卷积层;

5.根据权利要求1所述的方法,其中,所述文本信息解码分支包括:

6.根据权利要求5所述的方法,其中,所述双向循环特征共享模块采用多个首尾双向相连的ltsm神经元;

7.一种自然场景文本识别装置,包括:

8.一种电子设备,包括:

9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。

10.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~6中任一项所述的方法。


技术总结
本公开提供了一种自然场景文本识别方法,涉及人工智能技术领域。该方法包括:获取待识别的证件图像;使用特征提取层提取证件图像的多个尺度图像特征,形成图像特征矩阵;将图像特征矩阵输入图像特征解码分支,得到证件图像的至少一个文本位置信息;将图像特征矩阵和至少一个文本位置信息输入文本信息解码分支,得到证件图像包含的目标文本内容。本公开还提供了一种自然场景文本识别装置、电子设备、存储介质和程序产品。

技术研发人员:杨颖
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1