本发明涉及数据识别,特别涉及一种银行回单信息提取方法和系统。
背景技术:
1、目前,银行回单是企业记账凭证的原始依据,企业在收付款时都会有相应的回单作为证明。回单内容主要包括付款日期、收付款户名、收付款账号、收付款银行名称、金额、备注等信息。在很多大数据系统中,收集了大量的银行回单非结构化文件,需要将其中的关键指标提取为结构化数据,以便用大数据技术进行数据分析;
2、现阶段的回单信息提取,往往需要人工先设置模板,耗费人力资源较多,且非结构回单内容面临遮挡、内容折行等因素使得指标内容边界难以识别,导致准确度不高等问题。传统的银行回单指标提取技术往往依赖于识别对象的特点,需要根据银行回单格式设计个性化的模板。但各大银行的电子回单格式并不相同,这就需要定制大量的银行回单模板,导致识别过程过分依赖人工干预,识别效率较低。再者回单中因为有些指标显示不清晰或者指标内容长短不一等原因,内容的边界无法准确界定,导致提取的指标或者缺失、或者多余,准确率不高。
技术实现思路
1、为解决上述问题,本发明专利申请提供一种银行回单信息提取方法,包括:
2、对获取的银行回单数据进行数据识别,将所述银行回单数据中的非结构化数据进行结构化转换,得到所述银行回单数据对应的回单字符串数据;
3、根据所述回单字符串数据,得到银行名称;
4、根据所述银行名称,调取所述银行名称对应的信息提取模板;
5、根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取。
6、优选的,所述信息提取模板包括如下的构建过程:
7、根据历史银行回单样本信息中不同的银行名称进行分类,得到不同的银行名称下的回单样本信息;
8、基于预先构建的关键词库,依次在所述不同的银行名称下的回单样本信息中遍历匹配所述关键词库中的关键词信息,得到不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息;
9、基于不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息进行数据整合,得到所述关键词信息的纵坐标列表和横坐标二维数组;
10、根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板。
11、优选的,所述根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板,包括:
12、根据所述关键词信息的纵坐标列表,依次取每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息;
13、基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例;
14、根据所述关键词信息的横坐标二维数据,依次取每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息;
15、基于所述每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息,计算所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例;
16、根据所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例和所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例,构建信息提取模板。
17、优选的,基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息的距离比例,包括:
18、基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,将所述关键词信息与其前侧关键词信息的纵坐标之差的绝对值与所述关键词信息的行高作商作为所述纵坐标列表中关键词信息与其前侧关键词的距离比例。
19、优选的,所述根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取,包括:
20、基于所述关键词库,遍历所述信息提取模板中对应的关键词信息及其坐标信息、所述关键词信息的竖直上侧、竖直下侧和后侧的关键词信息及其坐标信息;
21、根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息及其坐标信息,得到第一关键点;
22、根据所述关键词信息的竖直下侧关键词信息及其坐标信息、所述关键词信息的后侧关键词信息及其坐标信息,得到第二关键点;
23、将所述第一关键点和所述第二关键点的连线作为对角线,生成矩形;
24、将所述矩形内的数据作为关键提取信息进行信息提取。
25、优选的,所述根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息及其坐标信息,得到第一关键点,包括:
26、将关键词信息中对应的横坐标最小的关键词信息的横坐标作为所述第一关键点的横坐标,将所述竖直上侧的关键词信息的纵坐标作为所述第一关键词的纵坐标,得到第一关键点。
27、优选的,所述根据所述关键词信息的竖直下侧关键词信息及其坐标信息、所述关键词信息的后侧关键词信息及其坐标信息,得到第二关键点,包括:
28、将关键词信息的竖直下侧关键词信息中纵坐标最大的竖直下侧关键词信息的纵坐标作为所述第二关键点的纵坐标,将关键词信息的后侧关键词信息中横坐标的最小的后侧关键词信息的横坐标作为所述第二关键点的横坐标,得到第二关键点。
29、基于同一发明构思,本发明专利申请还提供了一种银行回单信息提取系统,包括:
30、数据转换模块:用于对获取的银行回单数据进行数据识别,并将所述银行回单数据中的非结构化数据进行结构化转换,得到所述银行回单数据对应的回单字符串数据;
31、名称获取模块:用于根据所述回单字符串数据,得到银行名称;
32、模板选择模块:用于根据所述银行名称,调取所述银行名称对应的信息提取模板;
33、信息提取模块:用于根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取。
34、优选的,所述模板选择模块中的信息提取模板包括如下的构建过程:
35、根据历史银行回单样本信息中不同的银行名称进行分类,得到不同的银行名称下的回单样本信息;
36、基于预先构建的关键词库,依次在所述不同的银行名称下的回单样本信息中遍历匹配所述关键词库中的关键词信息,得到不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息;
37、基于不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息进行数据整合,得到所述关键词信息的纵坐标列表和横坐标二维数组;
38、根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板。
39、优选的,所述模板选择模块中根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板,包括:
40、根据所述关键词信息的纵坐标列表,依次取每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息;
41、基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例;
42、根据所述关键词信息的横坐标二维数据,依次取每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息;
43、基于所述每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息,计算所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例;
44、根据所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例和所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例,构建信息提取模板。
45、优选的,所述模板选择模块中基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息的距离比例,包括:
46、基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,将所述关键词信息与其前侧关键词信息的纵坐标之差的绝对值与所述关键词信息的行高作商作为所述纵坐标列表中关键词信息与其前侧关键词的距离比例。
47、优选的,所述信息提取模块中根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取,包括:
48、基于所述关键词库,遍历所述信息提取模板中对应的关键词信息及其坐标信息、所述关键词信息的竖直上侧、竖直下侧和后侧的关键词信息及其坐标信息;
49、根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息及其坐标信息,得到第一关键点;
50、根据所述关键词信息的竖直下侧关键词信息及其坐标信息、所述关键词信息的后侧关键词信息及其坐标信息,得到第二关键点;
51、将所述第一关键点和所述第二关键点的连线作为对角线,生成矩形;
52、将所述矩形内的数据作为关键提取信息进行信息提取。
53、优选的,所述信息提取模块中根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息及其坐标信息,得到第一关键点,包括:
54、将关键词信息中对应的横坐标最小的关键词信息的横坐标作为所述第一关键点的横坐标,将所述竖直上侧的关键词信息的纵坐标作为所述第一关键词的纵坐标,得到第一关键点。
55、优选的,所述信息提取模块中根据所述关键词信息的竖直下侧关键词信息及其坐标信息、所述关键词信息的后侧关键词信息及其坐标信息,得到第二关键点,包括:
56、将关键词信息的竖直下侧关键词信息中纵坐标最大的竖直下侧关键词信息的纵坐标作为所述第二关键点的纵坐标,将关键词信息的后侧关键词信息中横坐标的最小的后侧关键词信息的横坐标作为所述第二关键点的横坐标,得到第二关键点。
57、与最接近的现有技术相比,本发明具有的有益效果如下:
58、本发明提供了一种银行回单信息提取方法和系统,包括:对获取的银行回单数据进行数据识别,将所述银行回单数据中的非结构化数据进行结构化转换,得到所述银行回单数据对应的回单字符串数据;根据所述回单字符串数据,得到银行名称;根据所述银行名称,调取所述银行名称对应的信息提取模板;根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取;本发明专利申请基于非结构化的银行回单信息,通过预先构建的银行回单信息提取模板,再根据模板提取关键指标信息的方法,可以有效提高回单信息提取的效率及准确率。
59、本发明的其它特征将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
60、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。