基于编解码结构的发票文本识别方法及装置与流程

文档序号:26007862发布日期:2021-07-23 21:27阅读:61来源:国知局
基于编解码结构的发票文本识别方法及装置与流程
本发明涉及票据文本识别
技术领域
,尤其涉及一种基于编解码结构的发票文本识别方法及装置。
背景技术
:财务票据报上审批报账对于实现财务自动化和节省人力有着重大帮助,其中尤其是发票图片复杂度较高,这主要是由于发票图片中包含了大量长文本需要识别,目前常见的基于深度学习的场景文本识别算法是将图片输入卷积神经网络做特征提取,提前设定文字字典,然后利用分类模型得到识别结果。如申请号码为cn202011008285.5,名称为《基于深度学习的发票文本信息识别方法》的专利申请,其中发票文本识别采用的即是通用文字识别模型。对于如图3中所示发票文本效果较差,识别较差的主要原因是通常场景文本识别算法通常是针对于10字以内短文本设计,在模型结构分类模型时候直接将从图片中提取到的特征做分类,少于10字即认为是较少,在文本图片字数较少时候可以分类正确,当文字超过10字后我们发现识别效果偏差。现有技术问题及思考:如何解决发票图片中长文本识别困难的技术问题。技术实现要素:本发明所要解决的技术问题是提供一种基于编解码结构的发票文本识别方法及装置,其通过步骤s2至步骤s4等,实现了识别发票图片中的长文本。为解决上述技术问题,本发明所采取的技术方案是:一种基于编解码结构的发票文本识别方法包括如下步骤,s2文本图片特征提取,处理器将预处理图片处理为统一尺寸的制式图片,处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵f;s3卷积神经网络特征编码,处理器将三维特征向量矩阵f输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵f转换为可供门控循环神经网络序列解码输入的待解码特征向量g;s4门控循环神经网络序列解码,处理器将待解码特征向量g输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。进一步的技术方案在于:还包括在s2步骤之前的步骤s1,s1发票文本图片预处理,处理器获取发票文本图片,对票文本图片进行预处理并获得预处理图片,预处理包括二值化处理、降噪处理和图像矫正处理。进一步的技术方案在于:在步骤s2中,将预处理图片的长、宽相应调整至160x48个像素点,三维特征向量矩阵f为40*6*512的特征矩阵,包含了制式图片的全部信息,所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块,用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接,用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层,用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第三最大池化层为1x2卷积核且1x2步长的池化层,用于提取特征的第一残差块为由两层3x3卷积核且256输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第二残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第三残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块。进一步的技术方案在于:在步骤s3中,待解码特征向量g为1*1*512的特征向量,所述第二卷积神经网络包括用于转换特征向量的第一至第三卷积层和第一至第三最大池化层,用于转换特征向量的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层和第三最大池化层依次连接,用于转换特征向量的第一卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第二卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第三卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第一最大池化层为2x2卷积核且2x2步长的池化层,用于转换特征向量的第二最大池化层为2x1卷积核且2x1步长的池化层,用于转换特征向量的第三最大池化层为5x3卷积核且5x3步长的池化层;在s4步骤中,所述门控循环神经网路包含了五十个门控神经网络单元分别是第一至第五十门控神经网络单元,第一门控神经网络单元至第五十门控神经网络单元依次连接。一种基于编解码结构的发票文本识别装置包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块为程序模块,用于处理器将预处理图片处理为统一尺寸的制式图片,处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵f;卷积神经网络特征编码模块为程序模块,用于处理器将三维特征向量矩阵f输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵f转换为可供门控循环神经网络序列解码输入的待解码特征向量g;门控循环神经网络序列解码模块为程序模块,用于处理器将待解码特征向量g输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。进一步的技术方案在于:还包括发票文本图片预处理模块,发票文本图片预处理模块为程序模块,用于处理器获取发票文本图片,对票文本图片进行预处理并获得预处理图片,预处理包括二值化处理、降噪处理和图像矫正处理。进一步的技术方案在于:在文本图片特征提取模块中,将预处理图片的长、宽相应调整至160x48个像素点,三维特征向量矩阵f为40*6*512的特征矩阵,包含了制式图片的全部信息,所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块,用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接,用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层,用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第三最大池化层为1x2卷积核且1x2步长的池化层,用于提取特征的第一残差块为由两层3x3卷积核且256输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第二残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第三残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块。进一步的技术方案在于:在卷积神经网络特征编码模块中,待解码特征向量g为1*1*512的特征向量,所述第二卷积神经网络包括用于转换特征向量的第一至第三卷积层和第一至第三最大池化层,用于转换特征向量的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层和第三最大池化层依次连接,用于转换特征向量的第一卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第二卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第三卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第一最大池化层为2x2卷积核且2x2步长的池化层,用于转换特征向量的第二最大池化层为2x1卷积核且2x1步长的池化层,用于转换特征向量的第三最大池化层为5x3卷积核且5x3步长的池化层;在门控循环神经网络序列解码模块中,所述门控循环神经网路包含了五十个门控神经网络单元分别是第一至第五十门控神经网络单元,第一门控神经网络单元至第五十门控神经网络单元依次连接。一种基于编解码结构的发票文本识别装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的上述程序模块,所述处理器执行程序模块时实现上述任意一项基于编解码结构的发票文本识别方法的步骤。一种基于编解码结构的发票文本识别装置为计算机可读存储介质,所述计算机可读存储介质存储有上述程序模块,所述程序模块被处理器执行时实现上述任意一项基于编解码结构的发票文本识别方法的步骤。采用上述技术方案所产生的有益效果在于:一种基于编解码结构的发票文本识别方法包括如下步骤,s2文本图片特征提取,处理器将预处理图片处理为统一尺寸的制式图片,处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵f;s3卷积神经网络特征编码,处理器将三维特征向量矩阵f输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵f转换为可供门控循环神经网络序列解码输入的待解码特征向量g;s4门控循环神经网络序列解码,处理器将待解码特征向量g输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。该技术方案,其通过步骤s2至步骤s4等,实现了识别发票图片中的长文本。一种基于编解码结构的发票文本识别装置包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块为程序模块,用于处理器将预处理图片处理为统一尺寸的制式图片,处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵f;卷积神经网络特征编码模块为程序模块,用于处理器将三维特征向量矩阵f输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵f转换为可供门控循环神经网络序列解码输入的待解码特征向量g;门控循环神经网络序列解码模块为程序模块,用于处理器将待解码特征向量g输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。该技术方案,其通过文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块等,实现了识别发票图片中的长文本。一种基于编解码结构的发票文本识别装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的上述程序模块,所述处理器执行程序模块时实现上述任意一项基于编解码结构的发票文本识别方法的步骤。该技术方案,其通过该装置,实现了识别发票图片中的长文本。一种基于编解码结构的发票文本识别装置为计算机可读存储介质,所述计算机可读存储介质存储有上述程序模块,所述程序模块被处理器执行时实现上述任意一项基于编解码结构的发票文本识别方法的步骤。该技术方案,其通过该装置,实现了识别发票图片中的长文本。详见具体实施方式部分描述。附图说明图1是本发明实施例1的流程图;图2是本发明实施例2的原理框图;图3是长文本图片;图4是本发明中单个门控神经网络单元的原理框图;图5是本发明中门控循环神经网路的原理框图;图6是本发明中转换特征向量的映射图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。实施例1:如图1所示,本发明公开了一种基于编解码结构的发票文本识别方法包括如下步骤:s1发票文本图片预处理处理器获取发票文本图片,对票文本图片进行预处理并获得预处理图片,预处理包括二值化处理、降噪处理和图像矫正处理。s2文本图片特征提取处理器将预处理图片处理为统一尺寸的制式图片,即将预处理图片的长、宽相应调整至160x48个像素点,处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵f,三维特征向量矩阵f为40*6*512的特征矩阵,包含了制式图片的全部信息。所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块,用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接,用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层,用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第三最大池化层为1x2卷积核且1x2步长的池化层,用于提取特征的第一残差块为由两层3x3卷积核且256输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第二残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第三残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块。s3卷积神经网络特征编码处理器将三维特征向量矩阵f输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵f转换为可供门控循环神经网络序列解码输入的待解码特征向量g,待解码特征向量g为1*1*512的特征向量。所述第二卷积神经网络包括用于转换特征向量的第一至第三卷积层和第一至第三最大池化层,用于转换特征向量的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层和第三最大池化层依次连接,用于转换特征向量的第一卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第二卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第三卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第一最大池化层为2x2卷积核且2x2步长的池化层,用于转换特征向量的第二最大池化层为2x1卷积核且2x1步长的池化层,用于转换特征向量的第三最大池化层为5x3卷积核且5x3步长的池化层。s4门控循环神经网络序列解码处理器将待解码特征向量g输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。所述门控循环神经网路包含了五十个门控神经网络单元分别是第一至第五十门控神经网络单元,第一门控神经网络单元至第五十门控神经网络单元依次连接。其中,步骤s1为现有技术,步骤s2中将预处理图片处理为统一尺寸的制式图片的步骤为现有技术,门控循环神经网络本身为现有技术,在此不再赘述。实施例2:如图2所示,本发明公开了一种基于编解码结构的发票文本识别装置包括发票文本图片预处理模块、文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,发票文本图片预处理模块、文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块均为程序模块。发票文本图片预处理模块为程序模块,用于处理器获取发票文本图片,对票文本图片进行预处理并获得预处理图片,预处理包括二值化处理、降噪处理和图像矫正处理。文本图片特征提取模块为程序模块,用于处理器将预处理图片处理为统一尺寸的制式图片,即将预处理图片的长、宽相应调整至160x48个像素点,处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵f,三维特征向量矩阵f为40*6*512的特征矩阵,包含了制式图片的全部信息。所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块,用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接,用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层,用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第三最大池化层为1x2卷积核且1x2步长的池化层,用于提取特征的第一残差块为由两层3x3卷积核且256输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第二残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第三残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块。卷积神经网络特征编码模块为程序模块,用于处理器将三维特征向量矩阵f输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵f转换为可供门控循环神经网络序列解码输入的待解码特征向量g,待解码特征向量g为1*1*512的特征向量。所述第二卷积神经网络包括用于转换特征向量的第一至第三卷积层和第一至第三最大池化层,用于转换特征向量的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层和第三最大池化层依次连接,用于转换特征向量的第一卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第二卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第三卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第一最大池化层为2x2卷积核且2x2步长的池化层,用于转换特征向量的第二最大池化层为2x1卷积核且2x1步长的池化层,用于转换特征向量的第三最大池化层为5x3卷积核且5x3步长的池化层。门控循环神经网络序列解码模块为程序模块,用于处理器将待解码特征向量g输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。所述门控循环神经网路包含了五十个门控神经网络单元分别是第一至第五十门控神经网络单元,第一门控神经网络单元至第五十门控神经网络单元依次连接。实施例3:本发明公开了一种基于编解码结构的发票文本识别的装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的实施例2中的计算机程序,所述处理器执行计算机程序时实现实施例1的步骤。实施例4:本发明公开了一种计算机可读存储介质,所述计算机可读存储介质存储有实施例2中的计算机程序,所述计算机程序被处理器执行时实现实施例1中的步骤。本申请的构思:发明点的方法包括s2文本图片特征提取,处理器将预处理图片处理为统一尺寸的制式图片,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵f;s3卷积神经网络特征编码,第二卷积神经网络将三维特征向量矩阵f转换为可供门控循环神经网络序列解码输入的待解码特征向量g;s4门控循环神经网络序列解码,门控循环神经网络将待解码特征向量g解码并获得发票文本图片中对应的文字;装置包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块;其通过步骤s2至步骤s4等,实现了识别发票图片中的长文本。本申请要解决的是发票图片中的长文本识别困难的技术问题,提出了一种基于编解码和门控循环神经网络的发票文本识别算法,在解码阶段采用变长序列的方式保证该算法不仅可以应对长文本票据识别,也可以应对短文本票据识别。本申请着重解决票据长文本图片识别困难问题,在票据识别之前通常还需要做文字区域检测和裁剪等工作,且方法目前已成熟,非本申请解决问题,不在赘述。因此,本申请输入数据即是经过检测和裁剪得到的文字区域图片,如图3所示图片,并非原始发票整张图片。本申请提出一种基于编解码结构和门控循环神经网络对发票文本进行识别的构思并形成相应的方法和系统,整个系统采用编码-解码的结构和门控循环神经网络解决发票识别中长文本识别困难的技术问题。整个方法包含了发票文本图片预处理、文本图片特征提取、卷积神经网络特征编码和门控循环神经网络序列解码共四个步骤。本申请的技术贡献:为了解决上述技术问题,本申请提供了一种基于编解码结构和门控循环神经网络的发票文本识别方法,能够有效的解决发票中长文本识别困难的问题。如图1所示,该发票长文本识别方法包含以下主要步骤:s1发票文本图片预处理发票文本图片预处理包含了对图片二值化,降噪,以及图像矫正等具体内容。图片二值化即将图像中所有的像素的灰度值设置为0~255之间,将整张图片呈现出明显的黑白效果,这一步骤可以使得图片变得更简单,且能够突出文字的轮廓。图片降噪主要是去除图片噪声干扰,减少图像在数字化和传输过程中收到的受成像设备与外部环境噪声干扰。图像矫正为了是将图片中文字摆正,方便识别。s2文本图片特征提取在经过预处理后的图片经过专门设计的卷积神经网络模块进行特征提取。如表1所示,整个卷积神经网络参数,将得到三维特征向量矩阵记做f,f∈rc*h*w其中c、h、w分别表示矩阵的深度、高度和宽度,单位是单个像素,即可认为特征向量f代表了原始图片中的信息。专门设计的卷积神经网络中采用了1个窗口为1x2的最大池化,此操作保证了图片特征提取时候尽可能保证文本图片的长远大于宽的原始特性,也是该专利算法有效原理之一。卷积神经网络设计采用了resnet中残差块的思想,保证了特征提取网络稳定性。单个残差块为两层卷积神经网络连接而成,并加入了直连分支,用于防止过拟合。表1:特征提取模块操作参数列表s3卷积神经网络特征编码如表2所示,整个转换过程,f包含了输入图片的全部信息,无法作为序列解码的输入,因此卷积神经网络特征编码主要负责将特征向量f转换为可供门控循环神经网络序列解码输入的特征向量。该阶段采用了三层的卷积神经网络和最大池化将f转为特征向量g,g∈rc其中c分别表示矩阵的深度。表2:特征编码操作参数列表操作名称参数卷积层卷积核:3x3,输出通道:512最大池化层卷积核:2x2步长:2x2卷积层卷积核:3×3,输出通道:512最大池化层卷积核:2x1步长:2×1卷积层卷积核:3×3,输出通道:512最大池化层卷积核:5×3步长5×3s4门控循环神经网络序列解码将g作为门控循环神经网络的初始化输入,在门控循环神经网路包含了50个门控神经网络单元。如图4所示,每一个门控循环神经网络单元会有左侧和下方两个输入,右侧和上方两个输出。在本申请中第一个门控循环神经网络单元有两个输入,左侧输入为特征向量g,下方输入为“start”的标识符号,表示序列解码开始。第二个门控循环神经网络的左侧输入是第一个门控循环神经网络上侧输出,左侧输入为第一个门控循环神经网络右侧输出,整个门控序列解码就是由这样的50个小单元组成。同时也会记录上侧输出的结果,上侧输入不仅是下一个单元的右侧输入,也是单个字符的识别结果,比如输入的图片中文字为“我爱中国”,则第一个单元上策输出的结果是“我”,第二个单元上侧输出为“爱”,第三个第四个上侧依次会输出“中”,“国”,第五个单元上侧会输出“end”标识符号,这样就可以知道对于任意长度的文字输入图片都可以进行识别,如果输入图片中包含20个文字,那么第一个到第二十个单元上侧输出依次为这20个文字,第二十一个单元则会输出“end”标示字符。所以我们最后的识别结果即是第一个单元输出到接受到“end”字符之前的所有上侧输出。但是由于计算机并不会认识开始“start”,“end”这样的字符,我们采用常见的5000个汉字,数字及英文字符作为字典,将开始“start”和结束“end”两个特殊标识符也加入到字典中,因此字典的总共包含了常见的5002个字符,通常认为这5002个字符即包含了常见的汉字使用。如果选择全部汉字字典,会极大的扩增文字识别的资源消耗。如图5所示,整个门控循环神经网络序列解表示,序列解码过程中每一个单元会解码出一个字符,n表示输入文字中字符个数。由于我们设定总的单元个数为50个,此处n小于等于50,通常默认单行文本识别字符个数不超过50个字符。技术方案说明:s1发票文本图片预处理首先对发票文本进行二值化,降噪,以及图像矫正等具体内容。图片二值化即将图像中所有的像素的灰度值设置为0~255之间,将整张图片呈现出明显的黑白效果,这一步骤可以使得图片变得更简单,且能够突出文字的轮廓。图片降噪主要是去除图片噪声干扰,减少图像在数字化和传输过程中收到的受成像设备与外部环境噪声干扰。图像矫正为了是将图片中文字摆正,方便识别。s2文本图片特征提取在经过预处理后的图片将长宽调整至160x48个像素点,经过专门设计的卷积神经网络模块进行特征提取。将得到三维特征向量矩阵记做f,f∈r40*6*512其中512、6、40分别表示矩阵的深度、高度和宽度,单位是单个像素,即可认为特征向量f代表了原始图片中的信息。专门设计的卷积神经网络中采用了1个窗口为1x2的最大池化,此操作保证了图片特征提取时候尽可能保证文本图片的长远大于宽的原始特性。s3卷积神经网络特征编码f即40*6*512的特征矩阵,包含了输入图片的全部信息,无法作为序列解码的输入,因此卷积神经网络特征编码主要负责将特征向量f转换为可供门控循环神经网络序列解码输入的特征向量。该阶段采用了三层的卷积神经网络和最大池化将f转为特征向量g,g∈r512其中512分别表示矩阵的深度,整个转换过程是先f40*6*512经过最大池化变成f120*3*512,再变成f25*3*512,再变成g1*1*512。如图6所示,变换中尺寸缩小示意图,如从f变成f1,长宽都变为原始一半,也即原始的四个像素点变成一个像素点,往后同理。s4门控循环神经网络序列解码将g1*1*512作为门控循环神经网络的初始化输入,在门控循环神经网路包含了50个门控神经网络单元,第一个门控循环神经网络单元会的两个输入,左侧输入为特征向量g,下方输入为“start”的标识符号,表示序列解码开始。第二个门控循环神经网络的左侧输入是第一个门控循环神经网络上侧输出,左侧输入为第一个门控循环神经网络右侧输出,整个门控序列解码就是由这样的50个小单元组成。同时也会记录上侧输出的结果,上侧输入不仅是下一个单元的右侧输入,也是单个字符的识别结果,将解码得到“end”之前的所有结果连接拼接起来就是最终识别结果。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1