基于编解码结构的发票文本识别方法及装置与流程

文档序号：26007862发布日期：2021-07-23 21:27阅读：来源：国知局

技术特征：

1.一种基于编解码结构的发票文本识别方法，其特征在于：包括如下步骤，s2文本图片特征提取，处理器将预处理图片处理为统一尺寸的制式图片，处理器将制式图片输入至用于提取特征的第一卷积神经网络，第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵f；s3卷积神经网络特征编码，处理器将三维特征向量矩阵f输入至用于转换特征向量的第二卷积神经网络，第二卷积神经网络将三维特征向量矩阵f转换为可供门控循环神经网络序列解码输入的待解码特征向量g；s4门控循环神经网络序列解码，处理器将待解码特征向量g输入至门控循环神经网络，门控循环神经网络解码并获得发票文本图片中对应的文字。

2.根据权利要求1所述的基于编解码结构的发票文本识别方法，其特征在于：还包括在s2步骤之前的步骤s1，s1发票文本图片预处理，处理器获取发票文本图片，对票文本图片进行预处理并获得预处理图片，预处理包括二值化处理、降噪处理和图像矫正处理。

3.根据权利要求1所述的基于编解码结构的发票文本识别方法，其特征在于：在步骤s2中，将预处理图片的长、宽相应调整至160x48个像素点，三维特征向量矩阵f为40*6*512的特征矩阵，包含了制式图片的全部信息，所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块，用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接，用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层，用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层，用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层，用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层，用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层，用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层，用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层，用于提取特征的第三最大池化层为1x2卷积核且1x2步长的池化层，用于提取特征的第一残差块为由两层3x3卷积核且256输出通道的卷积神经网络通过直连分支连接而成的残差块，用于提取特征的第二残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块，用于提取特征的第三残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块。

4.根据权利要求1所述的基于编解码结构的发票文本识别方法，其特征在于：在步骤s3中，待解码特征向量g为1*1*512的特征向量，所述第二卷积神经网络包括用于转换特征向量的第一至第三卷积层和第一至第三最大池化层，用于转换特征向量的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层和第三最大池化层依次连接，用于转换特征向量的第一卷积层为3x3卷积核且512输出通道的卷积层，用于转换特征向量的第二卷积层为3x3卷积核且512输出通道的卷积层，用于转换特征向量的第三卷积层为3x3卷积核且512输出通道的卷积层，用于转换特征向量的第一最大池化层为2x2卷积核且2x2步长的池化层，用于转换特征向量的第二最大池化层为2x1卷积核且2x1步长的池化层，用于转换特征向量的第三最大池化层为5x3卷积核且5x3步长的池化层；在s4步骤中，所述门控循环神经网路包含了五十个门控神经网络单元分别是第一至第五十门控神经网络单元，第一门控神经网络单元至第五十门控神经网络单元依次连接。

5.一种基于编解码结构的发票文本识别装置，其特征在于：包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块，文本图片特征提取模块为程序模块，用于处理器将预处理图片处理为统一尺寸的制式图片，处理器将制式图片输入至用于提取特征的第一卷积神经网络，第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵f；卷积神经网络特征编码模块为程序模块，用于处理器将三维特征向量矩阵f输入至用于转换特征向量的第二卷积神经网络，第二卷积神经网络将三维特征向量矩阵f转换为可供门控循环神经网络序列解码输入的待解码特征向量g；门控循环神经网络序列解码模块为程序模块，用于处理器将待解码特征向量g输入至门控循环神经网络，门控循环神经网络解码并获得发票文本图片中对应的文字。

6.根据权利要求5所述的基于编解码结构的发票文本识别装置，其特征在于：还包括发票文本图片预处理模块，发票文本图片预处理模块为程序模块，用于处理器获取发票文本图片，对票文本图片进行预处理并获得预处理图片，预处理包括二值化处理、降噪处理和图像矫正处理。

7.根据权利要求5所述的基于编解码结构的发票文本识别装置，其特征在于：在文本图片特征提取模块中，将预处理图片的长、宽相应调整至160x48个像素点，三维特征向量矩阵f为40*6*512的特征矩阵，包含了制式图片的全部信息，所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块，用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接，用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层，用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层，用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层，用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层，用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层，用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层，用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层，用于提取特征的第三最大池化层为1x2卷积核且1x2步长的池化层，用于提取特征的第一残差块为由两层3x3卷积核且256输出通道的卷积神经网络通过直连分支连接而成的残差块，用于提取特征的第二残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块，用于提取特征的第三残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块。

8.根据权利要求5所述的基于编解码结构的发票文本识别装置，其特征在于：在卷积神经网络特征编码模块中，待解码特征向量g为1*1*512的特征向量，所述第二卷积神经网络包括用于转换特征向量的第一至第三卷积层和第一至第三最大池化层，用于转换特征向量的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层和第三最大池化层依次连接，用于转换特征向量的第一卷积层为3x3卷积核且512输出通道的卷积层，用于转换特征向量的第二卷积层为3x3卷积核且512输出通道的卷积层，用于转换特征向量的第三卷积层为3x3卷积核且512输出通道的卷积层，用于转换特征向量的第一最大池化层为2x2卷积核且2x2步长的池化层，用于转换特征向量的第二最大池化层为2x1卷积核且2x1步长的池化层，用于转换特征向量的第三最大池化层为5x3卷积核且5x3步长的池化层；在门控循环神经网络序列解码模块中，所述门控循环神经网路包含了五十个门控神经网络单元分别是第一至第五十门控神经网络单元，第一门控神经网络单元至第五十门控神经网络单元依次连接。

9.一种基于编解码结构的发票文本识别装置，其特征在于：包括存储器、处理器以及存储在存储器中并可在处理器上运行的权利要求5～权利要求8中的程序模块，所述处理器执行程序模块时实现权利要求1～权利要求4中任意一项基于编解码结构的发票文本识别方法的步骤。

10.一种基于编解码结构的发票文本识别装置，其特征在于：为计算机可读存储介质，所述计算机可读存储介质存储有权利要求5～权利要求8中的程序模块，所述程序模块被处理器执行时实现权利要求1～权利要求4中任意一项基于编解码结构的发票文本识别方法的步骤。

技术总结
本发明公开了基于编解码结构的发票文本识别方法及装置，涉及票据文本识别技术领域；方法包括S2文本图片特征提取，处理器将预处理图片处理为统一尺寸的制式图片，第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F；S3卷积神经网络特征编码，第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G；S4门控循环神经网络序列解码，门控循环神经网络将待解码特征向量G解码并获得发票文本图片中对应的文字；装置包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块；其通过步骤S2至步骤S4等，实现了识别发票图片中的长文本。

技术研发人员：刘义江;姜琳琳;李云超;辛锐;陈曦;侯栋梁;魏明磊;杨青;池建昆;范辉;陈蕾;阎鹏飞;吴彦巧;姜敬;檀小亚;师孜晗
受保护的技术使用者：国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司
技术研发日：2021.03.08
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2