基于OCR技术的财务账本数据识别方法及系统与流程

文档序号:37166510发布日期:2024-03-01 12:07阅读:41来源:国知局
基于OCR技术的财务账本数据识别方法及系统与流程

本发明涉及人工智能,具体而言,涉及一种基于ocr技术的财务账本数据识别方法及系统。


背景技术:

1、随着数字化和自动化的发展,财务账本的管理和处理已经从传统的纸质记录转向电子化数据。然而,财务账本中通常包含大量敏感信息,如公司收入、支出、客户信息等,这些信息在进行分析、存储或传输时可能面临泄露的风险。

2、为了保护这些敏感信息,一种常见的方法是对财务账本数据进行脱敏处理,即将敏感信息替换或隐藏,使得无法从处理后的数据中获取原始信息,但同时又能尽可能保留原始数据的有用信息。然而,目前的脱敏处理方法多数基于规则或者模板,缺乏灵活性和适应性,无法很好地处理各种复杂和变化的数据情况。

3、因此,需要一种新的方法,能够充分利用深度学习技术的优点,解决上述问题,提高财务账本数据脱敏处理的效率和效果。


技术实现思路

1、有鉴于此,本发明实施例提供一种基于ocr技术的财务账本数据识别方法及系统。

2、第一方面,本发明实施例提供一种基于ocr技术的财务账本数据识别方法,应用于基于ocr技术的财务账本数据识别系统,包括:

3、获取至少一个样例财务账本帧数据序列,所述样例财务账本帧数据序列包括样例财务账本脱敏帧和样例财务账本扫描帧;

4、依据财务账本脱敏识别网络对所述样例财务账本脱敏帧进行嵌入表示,生成脱敏嵌入向量分布;

5、基于所述脱敏嵌入向量分布,对所述样例财务账本扫描帧进行脱敏处理,生成目标脱敏处理帧;

6、依据所述脱敏嵌入向量分布对所述样例财务账本脱敏帧进行重构,生成重构脱敏帧;

7、基于所述样例财务账本脱敏帧、目标脱敏处理帧和重构脱敏帧,对所述财务账本脱敏识别网络进行网络参数更新,生成目标财务账本脱敏识别网络,并依据所述目标财务账本脱敏识别网络对候选财务账本扫描数据进行脱敏处理。

8、在第一方面的一种可能的实施方式中,所述基于所述脱敏嵌入向量分布,对所述样例财务账本扫描帧进行脱敏处理,生成目标脱敏处理帧,包括:

9、依据所述财务账本脱敏识别网络对所述样例财务账本扫描帧进行嵌入表示,生成财务文本嵌入表示向量;

10、将所述财务文本嵌入表示向量和脱敏嵌入向量分布进行多光学字符识别单位交互,生成各个光学字符识别单位下的第一交互嵌入向量分布;

11、依据所述第一交互嵌入向量分布,对所述样例财务账本扫描帧进行脱敏处理,生成目标脱敏处理帧。

12、在第一方面的一种可能的实施方式中,所述将所述财务文本嵌入表示向量和脱敏嵌入向量分布进行多光学字符识别单位交互,生成各个光学字符识别单位下的第一交互嵌入向量分布,包括:

13、在财务文本嵌入表示向量中提取各个光学字符识别单位下的初始财务文本嵌入表示向量,并在所述脱敏嵌入向量分布中解析所述各个光学字符识别单位下的初始脱敏嵌入向量分布;

14、计算所述初始财务文本嵌入表示向量的文本词编码信息和所述初始脱敏嵌入向量分布的敏感词编码信息;

15、依据所述文本词编码信息和敏感词编码信息,将所述初始财务文本嵌入表示向量和初始脱敏嵌入向量分布进行交互,生成各个光学字符识别单位下的第一交互嵌入向量分布。

16、在第一方面的一种可能的实施方式中,所述依据所述文本词编码信息和敏感词编码信息,将所述初始财务文本嵌入表示向量和初始脱敏嵌入向量分布进行交互,生成各个光学字符识别单位下的第一交互嵌入向量分布,包括:

17、依据所述文本词编码信息和敏感词编码信息,将相同光学字符识别单位下的所述初始财务文本嵌入表示向量和初始脱敏嵌入向量分布进行交互,生成各个光学字符识别单位下的初始交互嵌入向量分布;

18、基于所述初始交互嵌入向量分布,确定出各个光学字符识别单位下的所述样例财务账本帧数据序列应的屏蔽嵌入节点,所述屏蔽嵌入节点反映初始交互嵌入向量分布之间的关联度;

19、将所述屏蔽嵌入节点与所述初始交互嵌入向量分布进行交互,生成各个光学字符识别单位下的第一交互嵌入向量分布。

20、在第一方面的一种可能的实施方式中,所述依据所述第一交互嵌入向量分布,对所述样例财务账本扫描帧进行脱敏处理,生成目标脱敏处理帧,包括:

21、基于所述第一交互嵌入向量分布,生成各个所述第一交互嵌入向量分布对应的光学字符识别单位的初始脱敏帧区域;

22、基于所述初始脱敏帧区域的光学字符识别单位,对所述初始脱敏帧区域进行次序整理,生成次序整理信息;

23、基于所述次序整理信息,对所述初始脱敏帧区域的光学字符识别单位进行更新,生成目标脱敏处理帧。

24、在第一方面的一种可能的实施方式中,所述基于所述次序整理信息,对所述初始脱敏帧区域的光学字符识别单位进行更新,生成目标脱敏处理帧,包括:

25、在所述初始脱敏帧区域中提取光学字符识别单位最小的初始脱敏帧区域,生成当前初始脱敏帧区域;

26、对所述当前初始脱敏帧区域的光学字符识别单位进行衍生,生成衍生后初始脱敏帧区域;

27、基于所述次序整理信息,在所述初始脱敏帧区域中提取所述当前初始脱敏帧区域的下一个的初始脱敏帧区域,生成目标初始脱敏帧区域;

28、将所述衍生后初始脱敏帧区域和目标初始脱敏帧区域进行交互,生成所述目标脱敏处理帧。

29、在第一方面的一种可能的实施方式中,所述将所述衍生后初始脱敏帧区域和目标初始脱敏帧区域进行交互,生成所述目标脱敏处理帧,包括:

30、将衍生后初始脱敏帧区域和目标初始脱敏帧区域进行交互,生成交互后初始脱敏帧区域;

31、对所述交互后初始脱敏帧区域的光学字符识别单位进行衍生,生成目标衍生后初始脱敏帧区域;

32、将所述目标初始脱敏帧区域作为所述当前初始脱敏帧区域,并将所述目标衍生后初始脱敏帧区域作为所述衍生后初始脱敏帧区域;

33、返回执行基于所述次序整理信息,在所述初始脱敏帧区域中提取所述当前初始脱敏帧区域的下一个的初始脱敏帧区域的步骤,直至提取最后一位初始脱敏帧区域时为止,将提取的目标初始脱敏帧区域与衍生后初始脱敏帧区域进行交互,生成目标脱敏处理帧。

34、在第一方面的一种可能的实施方式中,所述基于所述样例财务账本脱敏帧、目标脱敏处理帧和重构脱敏帧,对所述财务账本脱敏识别网络进行网络参数更新,生成目标财务账本脱敏识别网络,包括:

35、基于所述样例财务账本脱敏帧和重构脱敏帧,确定所述样例财务账本帧数据序列的第一误差参数;

36、基于所述样例财务账本脱敏帧和目标脱敏处理帧,确定所述样例财务账本帧数据序列的第二误差参数;

37、将所述第一误差参数和第二误差参数进行融合,生成所述样例财务账本帧数据序列的第三误差参数;

38、依据所述目标脱敏处理帧和样例财务账本脱敏帧,确定所述样例财务账本帧数据序列的第四误差参数;

39、将所述第三误差参数和第四误差参数进行融合,并依据融合后的第五误差参数,对所述财务账本脱敏识别网络进行网络参数更新,生成目标财务账本脱敏识别网络。

40、第二方面,本发明实施例提供一种基于ocr技术的财务账本数据识别系统,包括:

41、处理器;

42、存储器,所述存储器中存储有计算机程序,所述计算机程序被执行时实现第一方面所述的基于ocr技术的财务账本数据识别方法。

43、如上,本发明实施例中,首先获取至少一个样例财务账本帧数据序列,然后依据财务账本脱敏识别网络对样例财务账本脱敏帧进行嵌入表示,生成脱敏嵌入向量分布。接着,基于这个脱敏嵌入向量分布,对样例财务账本扫描帧进行脱敏处理,生成目标脱敏处理帧。同时,还会依据脱敏嵌入向量分布对样例财务账本脱敏帧进行重构,生成重构脱敏帧。最后,基于样例财务账本脱敏帧、目标脱敏处理帧和重构脱敏帧,对财务账本脱敏识别网络进行网络参数更新,生成目标财务账本脱敏识别网络,并使用这个网络对候选财务账本扫描数据进行脱敏处理。该方法有效地利用了深度学习技术进行财务账本数据的脱敏处理,保证了数据的安全性,同时尽可能保留了原始数据的有用信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1