基于复杂场景下的全角度多票据检测方法与流程

文档序号：35197048发布日期：2023-08-21 20:00阅读：25来源：国知局

本发明涉及ocr，尤其涉及一种基于复杂场景下的全角度多票据检测方法。

背景技术：

1、发票作为财务系统不可或缺的组成部分，其识别和处理一直是财务工作中的重要环节。随着技术的不断更新和人工智能的发展，智能发票识别为公司的财务系统开启了一条新的道路，能够帮助财务人员节省大量时间和成本。然而，传统的ocr系统只能对特定角度、清晰度高的图片提供良好的识别结果，面对海量多角度、不同清晰度的发票图片数据，需要大量的人力审核复核，这也是ocr系统在实际应用中遇到的问题。因此，如何将当前人工智能的自动化、智能化和泛化性高的特点与票据识别这一需要严谨、大量重复劳动的工作结合起来，成为当前人工智能落地和企业用户关注的重要方向之一。

2、目前，票据识别面临的实际问题是，原始输入的图片可能包含多张票据，并且每张票据图片的角度都不同，这就导致基于深度学习的方法在识别票据方面准确率较低。为解决这一问题，需要研究和开发新的算法和技术，以提高票据识别的准确性和效率，为财务系统的智能化升级提供更好的技术支持。

技术实现思路

1、本发明实施例针对现今金融和财务领域，提出了一种基于复杂场景下的全角度多票据检测方法。该方法能够对大量的票据/单据进行准确的定位和校正，然后对票据进行精准的定位和识别，方便用于后续的分析和处理。与传统方法不同，本发明涵盖了印刷体、打印体等多种场景，可以处理真实复杂场景中的票据和单据，包括扫描件、复印件、打印件和照相件等。通过将多票据定位和分类这一流程自动化，本发明促进了金融财务领域的自动化信息处理，极大地节省了人力和财力成本。

2、本发明实施例提出了一种基于复杂场景下的全角度多票据检测方法，结合人工智能技术，能够实现对图片中出现的多角度的多个票据进行准确的定位和识别分类，适应了不断更新和变革的发票识别环境。该方法包括：

3、输入原始的多票据图片；

4、通过专业的图像处理增强功能，并结合深度学习技术实现了在文字定位前对图片数据的预处理，提高输入数据的图片质量；

5、接着进入第一阶段的票据朝向预测模块，该网络能够提取不同放置角度的票据图片，并生成正确朝向的票据预测结果；

6、然后将票据的正确朝向特征图输入到下一阶段的票据检测分类模块中进行定位和识别；

7、两阶段的卷积神经网络均是通过端到端训练获得的。

8、优选的，所述的专业的图像处理增强功能，其主要包括，提取和去除票据图片中的二维码、条形码和印章，滤波处理，灰度化图片和二值化图片等等。

9、优选的，在第一阶段的票据朝向预测模块中，特征金字塔机制是一个重要的组成部分。其主要功能是生成5个不同尺度的特征图作为后续网络结构的输入。通过使用多尺度的特征图，可以提高网络的准确性。

10、优选的，第一阶段的票据朝向预测模块包含生成朝向正确的票据特征图的结构。该模块通过使用特征金字塔机制生成5个不同尺度的特征图，然后将这些特征图通过3×3卷积层和两个1×1卷积层进行处理，对输出结构进行解码，最终生成正确朝向的票据预测结果。使用多尺度的特征图可以提高网络的准确率，从而更好地解决含有多个不同角度的票据图片识别准确率低的问题。

11、优选的，在对第一阶段的票据朝向预测模块进行训练的时候，其配置的损失函数包含预测数据偏差损失函数lres。

12、优选的，第二阶段的票据检测分类模块包含一个旋转roi机制，将输入的4个票据图片的特征映射和一个正确朝向的票据预测通过旋转roi从其对应的特征向量里提取固定大小的特征向量。

13、优选的，在第二阶段的票据检测分类模块中，我们采用两个全连接层、分类器和回归器来处理所提取的固定大小的特征向量。将这些特征向量输入两个全连接层以及分类器和回归器后，最终输出票据的分类结果和定位结果。

14、在本发明实施例中，首先获取多张票据图片作为输入；接着，利用第一阶段的票据朝向预测模块，采用特征金字塔机制生成五个不同尺度的特征图，最终预测出票据正确朝向的结果。然后，利用第二阶段的票据检测分类模块，结合四个特征映射和第一阶段的预测结果，通过旋转roi机制来提取固定大小的特征向量，最终通过两个全连接层、分类器和回归器输出票据的分类和定位结果。因此，本发明实施例解决了金融和财务领域中多张票据图片不同角度识别准确率低的问题。通过第一阶段的卷积神经网络和注意力机制生成正确的票据朝向预测，再利用第二阶段的卷积神经网络产生特征向量，并通过全连接层、分类器和回归器输出票据的分类和定位结果，为多票据识别提供了良好的解决方案；

技术特征：

1.一种基于复杂场景下的全角度多票据检测方法，其特征在于，包括：

2.如权利要求1所述的基于复杂场景下的全角度多票据检测方法，其特点在于，票据识别方法中的两阶段模型均通过以下步骤进行训练：

3.通过神经网络进行训练，然后使用准确率、召回率、f1值等来评估模型的性能，对模型进行调优。

4.最后将训练好的模型部署到实际的票据识别系统中，进行应用和测试。在测试后，可以对模型进行版本更新以优化系统性能。

5.如权利要求1所述的基于复杂场景下的全角度多票据检测方法，其特征在于:

6.如权利要求1所述的基于复杂场景下的全角度多票据检测方法，其特征在于，还包括：

7.如权利要求4所述的基于复杂场景下的全角度多票据检测方法，其特征在于，还包括：

8.如权利要求1所述的基于复杂场景下的全角度多票据检测方法的第一阶段卷积神经网络，其特征在于，包括：

9.如权利要求1所述的基于复杂场景下的全角度多票据检测方法，其特征在于，还包括：

10.如权利要求7所述的基于复杂场景下的全角度多票据检测方法的第二阶段卷积神经网络，其特征在于，包括：

技术总结
本发明涉及票据检测领域，提出了一种基于复杂场景下的全角度多票据检测方法，专为金融和财务领域而设计。该方法可以准确地在复杂场景中定位和识别多张票据图片中的单一票据，由处理器实现。该方法主要包括以下步骤：首先输入多张票据的图片；接着进入第一阶段的票据朝向预测模块，该网络能够提取不同放置角度的票据图片，并生成正确朝向的票据预测结果；然后将票据的正确朝向特征图输入到下一阶段的票据检测分类模块中进行定位和识别；这两个阶段的卷积神经网络均通过端到端训练获得。目前，本发明成功解决了单张图片中包含多张票据的问题，同时能够对票据图片的朝向和种类进行准确识别分类。

技术研发人员：龚瑛杰
受保护的技术使用者：焦磊
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龚瑛杰
技术所有人：上海海天信息系统工程有限公司
我是此专利的发明人

上一篇：一种基于闪烁噪声的真随机数发生器及实现方法
上一篇：一种可变频式泌尿外科结石冲洗装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。