报表文件的处理方法、装置及电子设备与流程

文档序号:37354643发布日期:2024-03-18 18:38阅读:17来源:国知局
报表文件的处理方法、装置及电子设备与流程

本技术涉及人工智能,特别涉及一种报表文件的处理方法、装置及电子设备。


背景技术:

1、财务报表文件中包含企业的财务信息,在金融机构与企业或客户展开业务之前,需要比对财务报表文件中的各项科目数据,并将部分或全部数据录入系统。目前对于财务报表文件的录入可以通过人工录入或系统自动录入。在自动录入的过程中,通过用户上传财务报表文件,录入系统对利用预先设置的模板对财务报表文件中的财务信息进行提取,并将提取到的信息填写至模板文件中匹配的位置,实现财务报表的自动录入。

2、但是目前的财务报表文件格式多样化,现有财务报表识别系统难以实现数据的准确提取。此外,在进行模板匹配的时候,无法实现财务数据到模板的准确、可靠的映射。

3、可见,现有财务报表的自动录入方法,准确性、可靠性较低,无法实现财务报表的有效录入。


技术实现思路

1、本说明书实施方式的目的是提供一种报表文件的处理方法、装置及电子设备,以解决现有录入方法准确性、可靠性较低,无法实现财务报表的有效录入的问题。

2、为解决上述技术问题,本说明书第一方面提供了一种报表文件的处理方法,包括:

3、获取用户输入的原始报表文件;

4、对所述原始报表文件进行识别处理,得到文件识别结果,所述文件识别结果中包括多个原始科目信息以及各原始科目信息对应的数据;

5、计算各原始科目信息与预设模板文件中的模板科目信息之间的相似度,并基于多个原始科目信息与多个模板科目信息之间的相似度,确定各原始科目信息匹配的目标模板科目信息;

6、将各原始科目信息对应的数据存储至与各原始科目信息匹配的目标模板科目信息的位置区域,以生成所述原始报表文件对应的模板报表文件。

7、在本说明书的一些实施例中,对所述原始报表文件进行识别处理,得到文件识别结果,包括:

8、对所述原始报表文件的数据类型进行分析,确定所述原始报表文件的文件类型;

9、基于所述原始报表文件的文件类型,对所述原始报表文件进行数据处理,得到所述文件识别结果。

10、在本说明书的一些实施例中,基于所述原始报表文件的文件类型,对所述原始报表文件进行数据处理,得到所述文件识别结果,包括:

11、在确定所述原始报表文件的文件类型为非电子表格类型的情况下,对所述原始报表文件进行去印章处理,得到待识别报表文件;

12、对所述待识别报表文件的多个页面进行拆分,得到多个报表页面;

13、对各报表页面进行版面分析,将各报表页面划分为至少一个区域,每个区域对应一种区域类型,所述区域类型包括以下至少之一:文字、标题、表格、图片;

14、在确定报表页面包括表格区域的情况下,对表格区域内的表格进行识别,提取表格区域内的内容信息,作为所述文件识别结果。

15、在本说明书的一些实施例中,对表格区域内的表格进行识别,提取表格区域内的内容信息,作为所述文件识别结果,包括:

16、检测所述表格区域内的单行文字的第一位置信息,对第一位置信息对应的区域进行文本识别,得到文本识别结果;

17、提取所述表格区域内的表格结构信息以及表格区域内各单元格的第二位置信息;

18、基于所述第一位置信息、文本识别结果、第二位置信息,生成单元格识别结果;

19、基于所述单元格识别结果和所述表格结构信息,确定所述报表页面中的原始科目信息以及原始科目信息对应的数据,生成所述文件识别结果。

20、在本说明书的一些实施例中,所述预设模板文件是通过以下方式获取的:

21、获取用户输入的模板配置信息;

22、基于所述模板配置信息,从预先建立的模板文件库中选择与所述原始报表文件对应的模板文件作为预设模板文件;或,基于所述模板配置信息以及预设的模板生成规则,生成所述预设模板文件。

23、在本说明书的一些实施例中,计算各原始科目信息与预设模板文件中的模板科目信息之间的相似度,包括:

24、确定各原始科目信息与多个模板科目信息之间的语义关系,并将所述语义关系作为各原始科目信息与预设模板文件中的模板科目信息之间的相似度。

25、在本说明书的一些实施例中,基于多个原始科目信息与多个模板科目信息之间的相似度,确定各原始科目信息匹配的目标模板科目信息,包括:

26、判断多个原始科目信息中的第i个原始科目信息与多个模板科目信息之间的最大相似度是否大于第一相似度阈值;

27、在确定所述最大相似度小于第一相似度阈值时,确定所述第i个原始科目信息不存在匹配的模板科目信息,并将所述第i个原始科目信息与多个模板科目信息之间的相似度均设为零;

28、在确定所述最大相似度大于第一相似度阈值时:确定所述最大相似度对应的第j个模板科目信息,并确定所述第j个模板科目信息对应的多个相似度中的最大值所对应的原始科目信息为目标原始科目信息;在确定所述目标原始科目信息为所述第i个原始科目信息时,确定第i个原始科目信息与所述第j个模板科目信息匹配,将所述第i个原始科目信息对应的多个相似度中除所述最大相似度之外的相似度均设为零;在确定所述目标原始科目信息不为所述第i个原始科目信息时,确定第i个原始科目信息与所述第j个模板科目信息不匹配,将所述最大相似度设为零,其中,i、j均为正整数;

29、在确定各模板科目信信息对应的多个相似度中存在唯一一个相似度不为零,或所述多个相似度均为零时,完成多个原始科目信息与多个模板科目信息之间的匹配。

30、在本说明书的一些实施例中,计算各原始科目信息与预设模板文件中的模板科目信息之间的相似度,包括:

31、计算各原始科目信息与预设模板文件中的模板科目信息之间的字符相似度,将所述字符相似度作为各原始科目信息与预设模板文件中的模板科目信息之间的相似度。

32、在本说明书的一些实施例中,基于多个原始科目信息与多个模板科目信息之间的相似度,确定各原始科目信息匹配的目标模板科目信息,包括:

33、在确定第i个原始科目信息与第j个模板科目信息之间的字符相似度大于第二相似度阈值时,确定第i个原始科目信息与第j个模板科目信息匹配;

34、在确定第i个原始科目信息与第j个模板科目信息之间的字符相似度大于等于第三相似度阈值且小于等于第二相似度阈值时,确定第i个原始科目信息与第j个模板科目信息疑似匹配;

35、在确定第i个原始科目信息与第j个模板科目信息之间的字符相似度小于第三相似度阈值时,确定第i个原始科目信息与第j个模板科目信息不匹配;

36、对所述第i个原始科目信息对应的疑似匹配结果的多个字符相似度进行由大到小的排序,并基于排序结果,从与第i个原始科目信息疑似匹配的多个模板科目信息中筛选出预设数量的待匹配的模板科目信息;

37、在确定第k个待匹配的模板科目信息不存在匹配的原始科目信息时:计算所述第i个原始科目信息和第k个待匹配的模板科目信息之间的语义相似度;

38、在确定第k个待匹配的模板科目信息对应的语义相似度大于等于第四相似度阈值时,确定第i个原始科目信息与第k个待匹配的模板科目信息匹配;在确定第k个待匹配的模板科目信息对应的语义相似度小于第四相似度阈值时,确定第i个原始科目信息与第k个待匹配的模板科目信息疑似匹配;

39、在确定第第k个待匹配的模板科目信息不存在匹配的原始科目信息时,确定第i个原始科目信息与第k个待匹配的模板科目信息不匹配,其中,i、j、k均为正整数。

40、本说明书第二方面提供了一种报表文件的处理装置,包括:

41、文件获取模块,用于获取用户输入的原始报表文件;

42、报表处理模块,用于对所述原始报表文件进行识别处理,得到文件识别结果,所述文件识别结果中包括多个原始科目信息以及各原始科目信息对应的数据;

43、科目匹配模块,用于计算各原始科目信息与预设模板文件中的模板科目信息之间的相似度,并基于多个原始科目信息与多个模板科目信息之间的相似度,确定各原始科目信息匹配的目标模板科目信息;

44、数据录入模块,用于将各原始科目信息对应的数据存储至与各原始科目信息匹配的目标模板科目信息的位置区域,以生成所述原始报表文件对应的模板报表文件。

45、本说明书第三方面提供了一种电子设备,包括:存储器和处理器,所述处理器和所述存储器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而上述第一方面所述方法的步骤。

46、本说明书第四方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述第一方面所述方法的步骤。

47、本说明书实施例提供的报表文件的处理方法,通过获取用户输入的原始报表文件;对所述原始报表文件进行识别处理,得到文件识别结果,所述文件识别结果中包括多个原始科目信息以及各原始科目信息对应的数据;计算各原始科目信息与预设模板文件中的模板科目信息之间的相似度,并基于多个原始科目信息与多个模板科目信息之间的相似度,确定各原始科目信息匹配的目标模板科目信息;将各原始科目信息对应的数据存储至与各原始科目信息匹配的目标模板科目信息的位置区域,以生成所述原始报表文件对应的模板报表文件。本说明书实施例中通过对原始报表文件进行文件识别处理,并将处理得到的文件识别结果中的预设科目信息与预设模板文件中的模板科目进行匹配,以将识别得到的数据存储至预设模板文件中的对应位置,生成模板报表文件,实现报表文件的自动录入;并且在进行匹配的时候,在确定识别得到的文件识别结果中的原始科目信息与预设模板文件中的模板科目信息之间的相似度后,考虑到报表文件匹配会出现多对多的相似度计算结果,本说明书实施例对计算得到的相似度,进行进一步处理,确定各原始科目信息匹配的目标模板科目信息,从而可以高效、快速地录入原始报表文件,且录入的准确性和可靠性较高。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1