本发明涉及文本识别,具体涉及一种发票信息提取方法及系统。
背景技术:
1、目前,随着ai技术的ocr文字识别的进步和日趋成熟,在财务管理领域的应用也越来越普及,尤其是在发票的处理运用上。ai技术能够根据发票的影像文件,通过ocr技术快速识别发票中的内容并形成结构化数据,发票数据的获取速度从人工的分钟级别升级到了秒级,准确率也将达到更高的水平。极大的节省了发票录入的时间,进一步推进了企业财务领域管理线上化、自动化的进程。
2、现有发票识别主要有以下方案:
3、
4、由于拍照设备的硬件、拍照时间以及拍照所处场景千差万别,导致得到的文档素材差异性较大,目前的算法在准确率和鲁棒性方面均不理想。
技术实现思路
1、本发明的目的在于克服现有技术之缺陷,提供了一种场景适应的参数化光伏组件松动检测方法,针对现有发票信息提取存在的流程较长、准确率较低、鲁棒性较差的问题,在算法流程上进行了优化,关键部分均使用深度学习算法,改善了目前算法中存在的问题。
2、为了到达预期效果,本发明采用了以下技术方案:
3、本发明公开了一种发票信息提取方法,包括:
4、1)根据文本方向对目标发票图片进行分类;
5、2)获取经过分类后的图片的检测区域,对检测区域取最小外接矩形并进行仿射变换;
6、3)获取经过仿射变换后的图片的文字定位框位置且进行截图,对截图进行文字识别得到文字识别结果;
7、4)通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果;
8、5)将语义实体识别结果进行后处理得到最终结果。
9、进一步地,通过文本方向检测模型将目标发票图片按照角度分为多种情况,且定义其中一角度为标准方向,根据分类情况将目标发票图片统一旋转至标准方向。
10、进一步地,当通过文本方向检测模型将目标发票图片按照角度分为多种情况时,在所述文本方向检测模型的骨干网络中提取不同尺寸的特征图层进行方向预测以得到预设的分类图片。
11、进一步地,将经过旋转的图片经过部分调整后再输入分割模型以获取经过分类后的图片的检测区域,所述部分调整具体包括:根据图片的长宽比统计特征,缩小图片尺寸,使分割模型在分割速度和精度之间达到平衡。
12、进一步地,将经过仿射变换后的图片输入文字检测模型以获取经过仿射变换后的图片的文字定位框位置且进行截图,所述文字检测模型采用基于自适应尺度融合的可微分二值化模型。
13、进一步地,所述获取经过仿射变换后的图片的文字定位框位置具体包括:在后处理上对相应的超参数进行部分参数搜索,通过网格搜索得到当下任务最优的超参数。
14、进一步地,所述对截图进行文字识别得到文字识别结果具体包括:将截图输入文字识别模型进行文字识别得到文字识别结果。
15、进一步地,所述文字识别模型采用卷积循环神经网络模型,所述卷积循环神经网络模型包括卷积层特征提取层和双向长短时记忆网络序列特征提取层,在文字识别过程中,前端使用卷积层网络提取文本图像的特征,利用双向长短时记忆网络序列特征提取层将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层进行识别得到文本序列。
16、进一步地,所述通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果,具体包括:将文字识别结果、文字定位框位置、目标发票图片输入语义实体识别模型进行多模态预训练以获取语义实体识别结果。
17、本发明还公开了一种发票信息提取系统,包括:
18、文本方向检测模块,用于根据文本方向对目标发票图片进行分类;
19、分割模块,用于获取经过分类后的图片的检测区域,对检测区域取最小外接矩形并进行仿射变换;
20、文字检测模块,用于获取经过仿射变换后的图片的文字定位框位置且进行截图;
21、文字识别模块,用于对截图进行文字识别得到文字识别结果;
22、语义实体识别模块,用于通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果;
23、后处理模块,用于将语义实体识别结果进行后处理得到最终结果。
24、与现有技术相比,本发明的有益效果是:本发明公开了一种发票信息提取方法及系统,该方法完全基于深度学习,流程清晰,速度快,精度高,鲁棒性强。该方法可移植性强,可以轻松应用于其他票据识别上。为了提升发票信息提取的准确率,本发明修改了部分网络,对部分网络进行了级联。本发明放弃layoutxlm的传统keyvalue的预测方式,直接把模型运用在分类任务上,极大提升了可行性。本发明通过减少传统图像处理方法的比重,增加了鲁棒性。本发明通过分析发票使用场景,构造符合场景的模拟数据提升了各模型准确率。提取出字段后,相比传统方法只利用文本信息的方法,本发明利用了文本、视觉、布局等多模态信息从而极大的提升了语义实体识别的准确率。
1.一种发票信息提取方法,其特征在于,包括:
2.如权利要求1所述的一种发票信息提取方法,其特征在于,通过文本方向检测模型将目标发票图片按照角度分为多种情况,且定义其中一角度为标准方向,根据分类情况将目标发票图片统一旋转至标准方向。
3.如权利要求2所述的一种发票信息提取方法,其特征在于,当通过文本方向检测模型将目标发票图片按照角度分为多种情况时,在所述文本方向检测模型的骨干网络中提取不同尺寸的特征图层进行方向预测以得到预设的分类图片。
4.如权利要求2或3所述的一种发票信息提取方法,其特征在于,将经过旋转的图片经过部分调整后再输入分割模型以获取经过分类后的图片的检测区域,所述部分调整具体包括:根据图片的长宽比统计特征,缩小图片尺寸,使分割模型在分割速度和精度之间达到平衡。
5.如权利要求1所述的一种发票信息提取方法,其特征在于,将经过仿射变换后的图片输入文字检测模型以获取经过仿射变换后的图片的文字定位框位置且进行截图,所述文字检测模型采用基于自适应尺度融合的可微分二值化模型。
6.如权利要求5所述的一种发票信息提取方法,其特征在于,所述获取经过仿射变换后的图片的文字定位框位置具体包括:在后处理上对相应的超参数进行部分参数搜索,通过网格搜索得到当下任务最优的超参数。
7.如权利要求1所述的一种发票信息提取方法,其特征在于,所述对截图进行文字识别得到文字识别结果具体包括:将截图输入文字识别模型进行文字识别得到文字识别结果。
8.如权利要求7所述的一种发票信息提取方法,其特征在于,所述文字识别模型采用卷积循环神经网络模型,所述卷积循环神经网络模型包括卷积层特征提取层和双向长短时记忆网络序列特征提取层,在文字识别过程中,前端使用卷积层网络提取文本图像的特征,利用双向长短时记忆网络序列特征提取层将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层进行识别得到文本序列。
9.如权利要求1所述的一种发票信息提取方法,其特征在于,所述通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果,具体包括:将文字识别结果、文字定位框位置、目标发票图片输入语义实体识别模型进行多模态预训练以获取语义实体识别结果。
10.一种发票信息提取系统,其特征在于,包括: