一种银行对账单数据自动提取、导入方法、系统及介质与流程

文档序号:37436706发布日期:2024-03-25 19:35阅读:15来源:国知局
一种银行对账单数据自动提取、导入方法、系统及介质与流程

本发明涉及计算机,特别是涉及一种银行对账单数据自动提取、导入方法、系统及介质。


背景技术:

1、近年来,随着计算机技术、算法以及大数据的不断进步,人工智能技术创新快速发展,并且在各行各业加速落地,推动了社会的发展。ocr指的是光学字符识别(opticalcharacter recognition)技术,即将图片中的文本转换为可以编辑和搜索的计算机文字的能力。ocr技术首先经过图像处理、预处理等步骤,然后使用模式识别、机器学习等技术将字符识别为计算机可识别和编辑的文本格式。ocr技术是人工智能技术的一种应用,其算法中包含了许多人工智能技术的成果。文档表格识别是结合ocr技术与版面分析将文档中的表格内容提取出来,并进行适当的表格转换的过程。在财务领域有各种各样的表格数据,其中银行对账单数据是银行为客户提供的一份记录其账户活动的电子或纸质文档,它记录了银行账户的所有活动,包括存入、支出、转账等,是用户记账与报税的重要补充与依据。为了使用银行对账单数据,传统的财务过程需要财务人员手动将银行对账单录入财务系统,既费时又费力,并且严重影响了财务人员的工作效率。如何自动的将用户的银行对账单数据录入财务系统是一个亟待解决的问题。

2、在表格内容提取方面现有的一些技术方案和产品,主要分为三类:1)基于信息抽取的方案;2)通用表格提取方案;3)基于特定模版的表格内容提取方案。其中,uie-x模型是基于信息抽取方案的代表,uie-x的强大之处在于其少样本(few-shot)微调能力,仅需几条、几十条标注样本,即可让模型学习到关键知识,大幅提升效果,从而实现在各类场景上的低成本定制。目前,在30-shot标注,并且加入版面分析的情况下,uie-x能够实现100%的准确率,96.25%的召回率。但是在银行对账单数据上对uie-x进行的测试,在从5-shot到20-shot标注的过程中,识别性能始终在93%左右,并没有太大改变。整体而言,uie-x模型在以下三个方面对银行对账单表格数据提取效果不好。(1)标注一组数据需要指定一个主键;银行对账单数据并没有特别好的主键信息。(2)跨行内容处理效果不好;虽然uie-x号称在加入pp-structure版面分析时可以解决跨行问题,但是在实际测试中,pp-structure效果并不能完美解决文字跨行问题。(3)整体的正确率不够;目前给出的微调最好的效果是100%的准确率,96.25%的召回率。这个性能在银行对账单表格提取中是远远不够的,财务数据要求精度很高,很多时候没有100%的准确率和召回率都是不可用的。

3、通用表格识别和提取方案场景覆盖度支持各种类型的复杂表格结构还原,包括有线表格、无线表格、嵌套表格等,具有较强的通用性,并且通过亿级样本的海量预训练数据来提高模型的泛化能力和准确性。抗干扰性在背景干扰、线不清晰、线密集、扭曲畸变等多种难例场景下,基于生成式的表格线方案鲁棒性好、抗干扰能力强。自动化程度能够自动地将pdf、图片中的表格内容转化为excel数据,大大减少了人工处理的工作量和时间成本。然而通用表格识别在落地时会遇到不小的挑战,对于银行对账单数据提取存在拆行与合并列等不准确的现象。原因可能是该模型是一个通用的表格提取模型,并没有针对银行对账单数据进行专门的训练与微调。

4、基于特定银行模版的内容提取方案,该方案在实际应用中遇到的很大挑战是如何区分用户给定的数据是不是指定模版数据。在实际应用中用户上传的数据各种各样并不按照预期的方式提供,如何有效的识别模版也是一个极大的挑战。

5、综上所述,目前的表格提取方案中,通用的表格提取方法在银行对账单数据提取的准确率不能满足需求。另一方面,专用的银行对账单提取方法只是针对特定银行模版进行提取,覆盖度不能满足需求。因此如何在数据提取准确性满足条件的情况下,快速扩充可支持的银行对账单类别将是本发明要解决的关键问题。


技术实现思路

1、基于此,有必要针对账单提取方案中的提取准确率不高、覆盖度不够的问题,提供一种银行对账单数据自动提取、导入方法、系统及介质。

2、一种银行对账单数据自动提取、导入方法,包括:

3、获取目标对账单的图像信息,并对所述图像信息进行预处理,以对所述图像信息进行图像方向纠正;

4、基于深度学习模型对所述目标对账单的图像信息进行分类匹配,以得到与所述目标对账单的图像信息对应的模版信息;

5、提取所述模版信息对应的先验信息,根据所述先验信息及所述目标对账单的图像信息所包含的表格线,对所述目标对账单的内容进行分割及提取,得到目标对账单的账单数据信息;

6、对所述账单数据信息进行校验,若检验通过,将提取的账单数据信息导入至匹配的账单模板内。

7、在其中的一个优选实施方式中,获取目标对账单的图像信息,并对所述图像信息进行预处理,以对所述图像信息进行图像纠正,包括:

8、将所述获取目标对账单的图像信息导入至文本检测模型;

9、所述文本检测模型选取所述图像信息所包含的表格中的目标文本;

10、判断所述目标文本的坐标角度信息与文本检测模型中的角度阈值是否一致,若不一致,调整所述目标对账单的图像信息的方向,使所述目标文本与所述角度阈值一致。

11、在其中的一个优选实施方式中,在判断所述目标文本的坐标角度信息与文本检测模型中的角度阈值是否一致,若不一致,调整所述目标对账单的图像信息的方向,使所述目标文本与所述角度阈值一致之后,所述方法还包括:

12、选取所述目标对账单的图像信息其中一个线条方向;

13、校验所选取的线条方向与参考线条方向是否一致,若不一致,则调整所述目标对账单的图像信息的方向,使所选取的线条方向与所述参考线条方向一致。

14、在其中的一个优选实施方式中,所述校验所选取的线条方向与参考线条方向是否一致,包括:

15、利用线条检测算法校验所选取的线条方向与参考线条方向是否一致。

16、在其中的一个优选实施方式中,所述基于深度学习模型对所述目标对账单的图像信息进行分类匹配,以得到与所述目标对账单的图像信息对应的模版信息,包括:

17、将所述目标对账单的图像信息导入所述深度学习模型的模型数据库,所述模型数据库包括多种账单类型的模版库,每个账单类型的模版库包括对应类型的多个参考样本;

18、将所述目标对账单的图像信息遍历所述每个账单类型的模版库,当所述目标对账单的图像信息遍历当前账单类型的模版库时,选取来自当前类型模版库的若干个参考样本作为正样本,同时选取来自其他不同类型模版库的若干个参考样本作为负样本;

19、将所述目标对账单的图像信息与所述正样本及所述负样本作比较,使所述目标对账单的图像信息匹配至目标模板库,以得到与所述目标对账单的图像信息对应的模版信息。

20、在其中的一个优选实施方式中,所述提取所述模版信息对应的先验信息,根据所述先验信息及所述目标对账单的图像信息所包含的表格线,对所述目标对账单的图像信息的内容进行分割及提取,得到对应目标对账单的图像信息对应的账单数据信息,包括:

21、将所述目标对账单的图像信息做图像二值化处理,得到水平方向线和竖直方向的像素投影,

22、基于所述模版信息对应的先验信息,对所述水平方向线和竖直方向的像素投影进行分析处理,识别所述图像信息内的数据信息与所述先验信息的关联性;

23、根据所述图像信息内的数据信息与所述先验信息的关联性对所述目标对账单的图像信息的内容进行分割及提取,得到对应目标对账单的账单数据信息。

24、在其中的一个优选实施方式中,所述对所述账单数据信息进行校验,包括对所述账单数据信息进行数据类型校验以及数据逻辑校验。

25、本实施方式中的上述方法在获得用户的银行对账单之后,首先对银行对账单进行简单的预处理;然后,使用数据分类模型定位用户上传的对账单类型;在获得对账单类型之后,根据对账单的特点有针对性的进行表格提取;在表格信息被提取之后,将根据对账单上的入账、出账以及余额数据对这些信息就行校验,保证信息的准确。通过校验后,该表格数据将被录入财务系统,以备后用。整体上通过事先的表格分类,获得了表格的先验信息,这保证了对账单表格信息抽取的高准确性。

26、一种银行对账单数据自动提取、导入系统,包括:

27、图像预处理模块,用以获取目标对账单的图像信息,并对所述图像信息进行预处理,以对所述图像信息进行图像方向纠正;

28、分类匹配模块,用以基于深度学习模型对所述目标对账单的图像信息进行分类匹配,以得到与所述目标对账单的图像信息对应的模版信息;

29、数据提取模块,用以提取所述模版信息对应的先验信息,根据所述先验信息及所述目标对账单的图像信息所包含的表格线,对所述目标对账单的内容进行分割及提取,得到对应目标对账单的图像信息对应的账单数据信息;

30、数据校验模块,用以对所述账单数据信息进行校验,若检验通过,将提取的账单数据信息导入至匹配的账单模板内。

31、在其中的一个优选实施方式中,所述分类匹配模块包括:

32、图像导入单元,用以将所述目标对账单的图像信息导入所述深度学习模型的模型数据库,所述模型数据库包括多种账单类型的模版库,每个账单类型的模版库包括对应类型的多个参考样本;

33、样本选取单元,用以将所述目标对账单的图像信息遍历所述每个账单类型的模版库,当所述目标对账单的图像信息遍历当前账单类型的模版库时,选取来自当前类型模版库的若干个参考样本作为正样本,同时选取来自其他不同类型模版库的若干个参考样本作为负样本;

34、遍历对比单元,用以将所述目标对账单的图像信息与所述正样本及所述负样本作比较,使所述目标对账单的图像信息匹配至目标模板库,以得到与所述目标对账单的图像信息对应的模版信息。

35、本实施方式中的上述系统在获得用户的银行对账单之后,首先对银行对账单进行简单的预处理;然后,使用数据分类模型定位用户上传的对账单类型;在获得对账单类型之后,根据对账单的特点有针对性的进行表格提取;在表格信息被提取之后,将根据对账单上的入账、出账以及余额数据对这些信息就行校验,保证信息的准确。通过校验后,该表格数据将被录入财务系统,以备后用。整体上通过事先的表格分类,获得了表格的先验信息,这保证了对账单表格信息抽取的高准确性。

36、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现以上所述的一种银行对账单数据自动提取、导入方法。

37、本实施方式中的上述计算机可读存储介质通过执行上述方法,在获得用户的银行对账单之后,首先对银行对账单进行简单的预处理;然后,使用数据分类模型定位用户上传的对账单类型;在获得对账单类型之后,根据对账单的特点有针对性的进行表格提取;在表格信息被提取之后,将根据对账单上的入账、出账以及余额数据对这些信息就行校验,保证信息的准确。通过校验后,该表格数据将被录入财务系统,以备后用。整体上通过事先的表格分类,获得了表格的先验信息,这保证了对账单表格信息抽取的高准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1