票据识别方法、装置、设备、计算机存储介质和程序产品与流程

文档序号:30221727发布日期:2022-05-31 22:27阅读:173来源:国知局
票据识别方法、装置、设备、计算机存储介质和程序产品与流程

1.本技术涉及图像识别技术领域,特别是涉及一种多文字识别方法、装置、设备、存储介质和程序产品。


背景技术:

2.随着图像识别技术的发展,出现了ocr技术,ocr能够快速识别图像中的文字,因此有大量研究人员将ocr技术应用到支票识别中,例如miteksystems公司的checkquest产品已应用于bank of thayer,mount prospect national bank等多家银行;法国a2ia公司的a2ia-checkreader产品也应用于美国、法国等多家商业银行;南京理工大学与中创软件联合研制了金融专用ocr系统;北京惠融金通影像信息技术有限公司和清华大学自动化系联合提出了一个支票自动识别系统,成功应用在中国工商银行的银行系统中。
3.但支票存在多种版式以及手写支票中底色和印章干扰、不同类型的字体混杂、手写不规范、三排章盖章错位以及部分字段变淡等因素,使用传统的图像识别技术难以进行精确识别。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够精确识别的票据识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种票据识别方法,该方法包括:
6.获取待识别票据图像;
7.对待识别票据图像进行文本区域检测得到若干文本区域;
8.对文本区域进行分类;
9.将不同分类的文本区域输入至对应的文字识别模型中以得到票据文字识别结果。
10.在其中一个实施例中,上述对文本区域进行分类,包括:
11.对文本区域进行分类,得到印刷体文本区域和手写体文本区域;
12.将不同分类的文本区域输入至对应的文字识别模型中以得到票据文字识别结果,包括:
13.分别识别印刷体文本区域和手写体文本区域中的文本内容,得到印刷体文本和手写体文本。
14.在其中一个实施例中,上述对待识别票据图像进行文本区域检测得到若干文本区域之前,还包括:
15.对待识别票据图像进行角度矫正。
16.在其中一个实施例中,上述对待识别票据图像进行角度矫正,包括:
17.对待识别票据图像的旋转角度进行分类;
18.根据待识别票据图像的旋转角度的类型,对待识别票据图像进行角度矫正。
19.在一个实施例中,上述对待识别票据图像进行文本区域检测得到若干文本区域是
通过预先训练得到的文本区域检测模型处理得到的;
20.上述对文本区域进行分类是通过预先训练得到的文本区域分类模型处理得到的;
21.上述分别识别印刷体文本区域和手写体文本区域中的文本内容,得到印刷体文本和手写体文本是通过预先训练得到的印刷体识别模型和手写体识别模型处理得到的;
22.上述对待识别票据图像的旋转角度进行分类时是通过预先训练的角度分类模型进行处理得到的;
23.其中,文本区域检测模型的训练、文本区域分类模型、印刷体识别模型、手写体识别模型和角度分类模型的训练过程包括:
24.读取第一图像,标注第一图像中文本区域的位置、文本区域的类型、印刷体内容、手写体内容和旋转角度;
25.根据第一图像与对应的文本区域的位置进行训练得到文本区域检测模型;
26.根据第一图像与对应的文本区域的类型进行训练得到文本区域分类模型;
27.根据第一图像与对应的印刷体内容训练得到印刷体识别模型;
28.根据第一图像与对应的手写体内容进行训练得到手写体识别模型;
29.根据第一图像与对应的旋转角度进行训练得到角度分类模型。
30.在其中一个实施例中,上述手写体识别模型是基于目标字典方式训练得到的,目标字典包括日期、账号、密码、大写金额和小写金额的目标字符识别。
31.在其中一个实施例中,上述第一图像包括真实票据图像与预先合成的票据图像;其中,预先合成的票据图像的合成过程包括:
32.获取票据模板;
33.通过按照预设规则生成的手写体文本和印刷体文本对票据模板进行填充,并生成标注文件。
34.在其中一个实施例中,上述将不同分类的文本区域输入至对应的文字识别模型中以得到票据文字识别结果之后,包括:
35.将识别结果与预设的模板进行模板匹配,以提取目标字段信息。
36.在其中一个实施例中,上述通将识别结果与预设的模板进行模板匹配,以提取目标字段信息,包括:
37.将识别结果与预设模板进行模板匹配;
38.当识别结果与预设模板匹配成功时,根据预设模板进行字段匹配得到字段位置和字段内容;
39.根据字段内容与字段信息的位置关系,获取字段信息候选集;
40.通过预设的匹配规则,从字段信息候选集中确定字段对应的唯一字段信息,并输出结构化数据。
41.第二方面,本技术还提供了一种票据识别装置,该装置包括:
42.图像获取模块,用于获取待识别票据图像;
43.文本区域检测模块,用于对待识别票据图像进行文本区域检测得到若干文本区域;
44.文本区域分类模块,用于对文本区域进行分类;
45.文本区域识别模块,用于将不同分类的文本区域输入至对应的文字识别模型中以
得到票据文字识别结果。
46.第三方面,本技术还提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面实施例中的提供的防调试方法的步骤。
47.第四方面,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面实施例中的提供的防调试方法的步骤。
48.第五方面,本技术还提供了一种计算机程序产品,该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面实施例中的提供的防调试方法的步骤。
49.上述票据识别方法、装置、设备、存储介质和程序产品,通过对获取的待识别票据图像进行文本区域检测可以得到若干文本区域,再对得到的若干文本区域进行分类,最后将不同分类的文本区域输入至对应的文本识别模型中得到票据文字识别,这样能够提高文字识别的精度。
附图说明
50.图1为一个实施例中票据识别方法的应用环境图;
51.图2为一个实施例中票据识别方法的流程示意图;
52.图3为一个实施例中底纹干扰场景示意图;
53.图4为另一个实施例中提取目标字段信息的示意图;
54.图5为一个实施例中印章干扰的示意图;
55.图6为一个实施例中三排章场景示意图;
56.图7为一个实施例中表格线干扰示意图;
57.图8为一个实施例中字体局部变淡场景示意图;
58.图9为一个实施例中点阵字体像素缺失场景示意图;
59.图10为一个实施例中印章字迹模糊场景示意图;
60.图11为一个实施例中手写支票识别示意图;
61.图12为一个实施例中票据识别装置的结构框图;
62.图13为一个实施例中计算机设备的内部结构图。
具体实施方式
63.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
64.本技术实施例提供的票据识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104首先获取待识别票据图像,然后对待识别票据图像进行文本区域检测得到若干文本区域,再对文本区域进行分类,最后将不同分类的文本区域输入至对应的文字识别模型中以
得到票据文字识别结果,实现对票据的精确识别。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
65.在一个实施例中,如图2所示,提供了一种票据识别方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
66.s202,获取待识别票据图像。
67.其中,待识别票据图像是指需要进行文字识别的票据图像,其可以是扫描、拍照场景下手写、印刷、盖章字体混杂的手写支票。其中可选地,终端可以根据需要从终端中选取部分或全部的待识别票据图像并上传至服务器,这样服务器可根据指令对待识别票据图像进行识别,这样可以减少人工录入和核对的工作量,提高效率,同时有利于保证数据的安全性。
68.s204,对待识别票据图像进行文本区域检测得到若干文本区域。
69.其中,文本区域是指待识别票据图像中某一文本框对应的区域,具体地,结合图3所示,图3为一个实施例中底纹干扰场景示意图,图中大写数据所在的边框为一个文本区域。
70.具体地,服务器获取待识别票据图像后,对待识别票据图像中的文本区域进行检测并对文本区域进行分割以得到若干文本区域,在其他实施例中,可通过预先训练的文本区域检测模型对待识别票据图像中的文本区域进行识别,并对待识别票据图像中的文本区域进行分割,以得到若干文本区域。
71.s206,对文本区域进行分类。
72.其中,分类是指对文本区域的类型进行分类,例如若当前文本区域判定为印刷体文本区域则将该文本区域标注为印刷体文本区域;若当前文本区域判定为手写体文本区域则将该文本区域标注为手写体文本区域。
73.具体地,服务器获得若干文本区域后,使用预设规则对得到的若干文本区域进行分类,在其他实施例中,可通过预先训练的文本区域分类模型对文本区域进行分类,将文本区域分为印刷体文本区域和手写体文本区域。
74.s208,将不同分类的所述文本区域输入至对应的文字识别模型中以得到票据文字识别结果。
75.其中,文字识别模型是指预先训练的能对待识别票据图像进行文字识别的机器学习模型,通过文字识别模型可以将待识别票据图像中的文字进行识别;票据文字识别结果是指通过文字识别模型对待识别票据图像进行识别得到文字,继续结合图3所示,通过文字识别模型得到的文字识别结果为佰陆拾元正。
76.具体地,服务器得到不同分类的文本区域之后,将不同分类的文本区域输入至对应的文字识别模型中以得到票据文本识别结果。在其他实施例中,服务器将判定为印刷体文本区域的文本区域输入至印刷体识别模型中,将判定为手写体文本区域的文本区域输入至手写体识别模型中,通过印刷体识别模型和手写体识别模型分别对印刷体文本区域和手写体文本区域进行识别,以提高文字识别的精度。
77.上述方法,通过对获取的待识别票据图像进行文本区域检测可以得到若干文本区域,再对得到的若干文本区域进行分类,最后将不同分类的文本区域输入至对应的文本识别模型中得到票据文字识别,这样能够提高文字识别的精度。
78.在一个实施例中,对文本区域进行分类,包括:对文本区域进行分类,得到印刷体文本区域和手写体文本区域;将不同分类的文本区域输入至对应的文字识别模型中以得到票据文字识别结果,包括:分别识别印刷体文本区域和手写体文本区域中的文本内容,得到印刷体文本和手写体文本。
79.其中,印刷体文本是指通过对印刷体进行识别得到的文本;手写体文本是指通过对手写体进行识别得到文本。
80.具体地,服务器在得到若干文本区域之后,通过预设的规则对得到的若干文本区域进行分类,将若干文本区域分为印刷体文本区域和手写体文本区域,其中可选地,可以采用预先训练的文本区域分类模型对若干文本区域进行分类,将若干文本区域分为印刷体文本区域和手写体文本区域。
81.具体地,服务器得到印刷体文本区域和手写体文本区域后分别识别印刷体文本区域和手写体文本区域中的印刷体文本和手写体文本,其中可选地,可以将印刷体文本区域和手写体文本区域分别输入至印刷体识别模型和手写体识别模型中,通过印刷体识别模型和手写体识别模型对印刷体文本区域和手写体文本区域进行识别得到印刷体文本和手写体文本。
82.在上述实施例中,通过对文本区域进行分类并将文本区域输入至对应的文字识别模型进行识别,这样可以提高文字识别的准确度。
83.在一个实施例中,对待识别票据图像进行文本区域检测得到若干文本区域之前,还包括:对待识别票据图像进行角度矫正。
84.其中,角度矫正是指将存在旋转的待识别票据图像进行旋转以符合对待识别票据图像进行处理的标准。
85.具体地,服务器在获得待识别票据图像后,首先对票据图像进行角度矫正,然后再对角度矫正后的待识别票据图像进行处理。在一个实施例中,可以使用预选训练的角度分类模型对待识别票据图像0
°
、90
°
、180
°
和270
°
四种朝向的情况进行角度分类,并根据角度分类结果对待识别票据图像进行角度矫正。
86.在上述实施例中,通过首先对待识别票据图像进行角度矫正使后续对待识别票据图像进行更方便的操作。
87.在一个实施例中,对待识别票据图像进行角度矫正,包括:对待识别票据图像的旋转角度进行分类;根据待识别票据图像的旋转角度的类型,对待识别票据图像进行角度矫正。
88.具体地,首先对待识别票据图像的旋转角度进行分类,再根据待识别票据图像的旋转角度的类型对待识别票据图像进行角度矫正,其中可选地,当待识别票据图像判定90
°
旋转的类型,服务器对待识别图像进行逆向旋转90
°
进行矫正。在其他实施例中,通过预先训练的角度分类模型对待识别票据图像进行角度分类,并根据角度分类模型的分类结果进行角度矫正。
89.在上述实施例中,通过对待识别票据图像的旋转角度进行分类后,根据分类结果
对待识别票据图像进行角度矫正,这样能够更准确地识别票据图像内容。
90.在一个实施例中,对待识别票据图像进行文本区域检测得到若干文本区域是通过预先训练得到的文本区域检测模型处理得到的;对文本区域进行分类是通过预先训练得到的文本区域分类模型处理得到的;分别识别印刷体文本区域和手写体文本区域中的文本内容,得到印刷体文本和手写体文本是通过预先训练得到的印刷体识别模型和手写体识别模型处理得到的;对待识别票据图像的旋转角度进行分类分时是通过预先训练的角度分类模型进行处理得到的;其中,文本区域检测模型的训练、文本区域分类模型、印刷体识别模型、手写体识别模型和角度分类模型的训练过程包括:读取第一图像,标注第一图像中文本区域的位置、文本区域的类型、印刷体内容、手写体内容和旋转角度;根据第一图像与对应的文本区域的位置进行训练得到文本区域检测模型;根据第一图像与对应的文本区域的类型进行训练得到文本区域分类模型;根据第一图像与对应的印刷体内容训练得到印刷体识别模型;根据第一图像与对应的手写体内容进行训练得到手写体识别模型;根据第一图像与对应的旋转角度进行训练得到角度分类模型。
91.其中,文本区域检测模型是指能够用于检测待识别票据图像中文本区域的机器学习模型,训练完成后的文本区域检测模型可快速地对待识别票据图像中的文本区域进行识别。
92.其中,文本区域分类模型是指能够对文本区域进行识别的机器学习模型,训练完成后的文本区域分类模型能够对文本区域进行准确分类,例如,根据文本区域中文字类型将文本区域分类为手写体文本区域和印刷体文本区域。
93.其中,印刷体识别模型是指能够对印刷体文本区域中的印刷体进行识别的机器学习模型,训练完成后的印刷体识别模型能够精确识别印刷体文本区域中的印刷体文本。
94.其中,手写体识别模型是指能够对手写体文本区域中的手写体进行识别的机器学习模型,训练完成后的手写体识别模型能否精确识别手写体文本区域中的手写体文本。
95.其中,角度分类模型是指能够对待识别票据图像进行角度矫正的机器学习模型,训练完成后的角度分类模型能够对待识别票据图像的旋转角度进行识别。
96.其中,第一图像是指用于训练文本区域检测模型、文本区域分类模型、印刷体识别模型、手写体识别模型和角度分类模型的票据图像数据,其可以是任意一种真实的票据图像也可以是按照预设规则合成的票据图像也可以是第一图像切片,即真实票据图像与合成的票据图像的文本区域切片,这是因为在训练文本区域分类模型、印刷体识别模型和手写体识别模型时采用真实票据图像与合成的票据图像的文本区域切片进行训练能够使识别的速度更快、识别结果更准确。此外,获取更多的第一图像进行模型训练,可以使训练得到的模型更加准确。
97.具体地,预先对每一张第一图像中的文本区域的位置、文本区域的类型、印刷体内容、手写体内容和旋转角度进行标记,然后对第一图像中的文本区域进行分割,这样服务器可以获取到标记了文本区域的位置和旋转角度的第一图像,以及标记了本区域的类型、印刷体内容、手写体内容的第一图像切片。其中可选地,预先对第一图像中的文本区域的位置、文本区域的类型、印刷体内容、手写体内容和旋转角度进行标记然后根据标记的文本区域的位置进行分割以得到第一图像切片。其中第一图像是文本区域检测模型和角度分类模型的训练集数据,第一图像切片是文本区域分类模型、印刷体识别模型和手写体识别模型
的训练集数据。
98.其中可选地,若第一图像是真实的票据图像则需要预先对第一图像中的文本区域的位置、文本区域的类型、印刷体内容、手写体内容和旋转角度进行标记,若第一图像是按照预设规则合成的票据图像则可以在合成票据图像过程中自动生成标注文件,其中标注文件中至少包括对文本区域的位置、文本区域的类型、印刷体内容、手写体内容和旋转角度的标记。在其他实施例中,在第一图像合成过程中,可以按照文本区域位置的标记对文本区域进行分割得到第一图像切片。
99.具体地,服务器将第一图像及对应的文本区域的位置输入至第一机器学习模型中进行训练,其中,第一机器学习模型是指能够对图像文本区域进行检测的机器学习模型,该第一机器学习模型通过对大量第一图像及其对应的文本区域的位置进行训练学习,得到能够对待识别票据图像进行识别以获得对待识别票据图像进行检测的文本区域检测模型。其中优选地,第一机器学习模型可以是centernet(目标检测网络)模型,这是由于待识别票据图像中存在许多倾斜的手写和盖章文本影响检测精度,相比于现有技术中的基于anchor的检测模型,采用基于关键点的centernet检测模型回归的检测框更为准确,且相比于基于分割的检测算法其能够很好地解决手写待识别票据图像中字体颜色变淡导致的检测框断裂和文字重叠导致的检测框合并问题。此外,centernet直接检测目标的中心点和大小,没有nms(非极大值抑制)后处理,在推理速度方面更具优势。
100.具体地,服务器将第一图像切片及对应的文本区域的类型输入至第二机器学习模型中进行训练,其中,第二机器学习模型是指能够对图像切片数据进行分类的机器学习模型,该第二机器学习模型通过对大量第一图像切片及其对应的文本区域类型进行训练学习,得到能够对待处理票据图像的文本切片进行分类的文本区域分类模型。其中可选地,第二机器学习模型可以是resnet50(一种残差网络)模型等可以对检测目标进行分类的机器学习模型。在其他实施例中,在文本区域分类模型训练时可以加入颜色随机翻转和颜色扩充可以有效地提高分类精度。
101.具体地,服务器将第一图像切片与对应的印刷体内容输入至第三机器学习模型中进行训练,其中,第三机器学习模型是指能够对图像中印刷体文本进行识别的机器学习模型,例如crnn(convolutional recurrent neural network,卷积循环神经网络)等模型,该第三机器学习模型通过对大量第一图像切片及对应的印刷体文本进行训练学习,得到能够对待处理图像中印刷体文本进行识别的印刷体识别模型。其中优选地,第三机器学期模型可以是基于crnn-ctc(基于ctc损失函数的卷积循环神经网络)算法。
102.具体地,服务器将第一图像切片与对应的手写体内容输入至第四机器学习模型中进行训练,其中,第四机器学习模型是指能够对图像中手写体文本进行识别的机器学习模型,例如crnn(convolutional recurrent neural network,卷积循环神经网络)等模型,该第四机器学习模型通过对大量第一图像切片及对应的手写体文本进行训练学习,得到能够对待处理图像中手写体文本进行识别的手写体识别模型。其中优选地,第四机器学期模型可以是基于crnn-ctc(基于ctc损失函数的卷积循环神经网络)算法。这是由于待识别票据的数据主要涉及金额、英文数字组合、城市名等短字段,这些文字语义信息相对较少,相比于现有技术中更为复杂的基于attention机制的seq2seq模型,基于ctc的crnn模型能够满足绝大部分的服务需求,并且推理速度更快。在其他实施例中手写体识别模型是基于目标
字典方式训练得到的,以提升手写字体识别模型的准确率。
103.具体地,服务器将第一图像和对应的旋转角度输入至第五机器学习模型中进行训练,其中第五机器学习模型是指能够对图像旋转角度进行识别的机器学期模型,该第五机器学习模型通过对大量第一图像及对应的旋转角度进行训练得到角度分类模型,在一个实施例中第五机器学习模型可以是resnet18(一种残差网络)模型,这是由于考虑到待识别票据图像的角度分类任务比较简单,使用resnet18作为backbone,提取图片特征进行模型训练,可以满足服务需求。
104.在上述实施例中,通过训练文本区域检测模型、文本区域分类模型、印刷体文本识别模型、手写体文本识别模型以及角度分类模型可以快速地对待处理票据图像进行文本区域检测、文本区域分类、文本区域印刷体文本识别、文本区域手写体文本识别以及待识别票据图像旋转角度分类,实现快捷、省力、高效的识别,以减少繁重重复的人工录入工作量,节约了录入时间,提高了工作效率。
105.在一个实施例中,手写体识别模型是基于目标字典方式训练得到的,目标字典包括日期、账号、密码、大写金额和小写金额的目标字符识别。
106.具体地,目标字典是指预先设置的用于手写体识别模型进行训练的标签集,其中包括目标字符和目标字符识别,目标字符和目标字符识别之间一一对应,目标字符是指目标字典中包括的字符,目标字符识别是指目标字典中每个字符的标签,例如待识别的手写体文本区域中包括“浦发”两个目标字符,分别将“浦”和“发”标注为0,1,其中“浦”和“发”为目标字典中的目标字符,0,1为在目标字典中表示为“浦”和“发”这两个目标字符对应的目标字符识别,其中0,1为目标字典中的目标字符识别。具体地,目标字典中至少包括日期、账号、密码、大写金额和小写金额的目标字符识别。在其他实施例中,目标字典可以根据实际的使用场景进行设置,在此不做具体限定。
107.在上述实施中,通过目标字典的方式对手写体识别模型进行训练,这是因为目标字典中仅包含阿拉伯数字、中文数字、金额单位等几十个字符在票据中使用的字符,使得手写体识别的准确率得到提升。
108.在一个实施例中,第一图像包括真实票据图像与预先合成的票据图像;其中,预先合成的票据图像的合成过程包括:获取票据模板;通过按照预设规则生成的手写体文本和印刷体文本对票据模板进行填充,并生成标注文件。
109.其中,真实票据是指现实世界中使用的票据,例如贷记凭证、电汇凭证、特种转账借(贷)方传票、结算业务委托书、转账支票等;合成的票据图像是指按照预设规则生成的票据内容,例如手写体文本和印刷体文本,对票据模板进行填充合成的,其中票据模板是指根据真实票据生成的没有任何内容填写的空白票据。
110.具体地,服务器首先获取票据模板,其中票据模板是至少根据贷记凭证、电汇凭证、特种转账借(贷)方传票、结算业务委托书、转账支票这五类真实票据预先生成的票据模板,然后按照预先设置的规则生成手写体文本和印刷体文本对票据模板进行填充,其中优选地,采用多种不同风格的手写体文本以及票据中常见的印刷字体在模板图片上进行文本内容填充,来模拟真实票据的风格,即将手写体文本以及票据中常见的印刷字体填充到对应的文本区域。其中手写体文本是基于传统图形学方法的工具进行扩充的,这样可以使合成的票据更加真实。在其他实施例中,票据合成时根据真实的数据分布,按照一定的概率添
加了多种合成效果,包括图像模糊、印章干扰、盖章字段局部变淡、字段偏移和旋转、手写印刷字体混合出现等;在语料上除了包含手写支票涉及到的特定金融票据语料,还添加了通用语料,从而提高模型的泛化能力。在一个实施例中,手写体文本的生成范围是按照目标字典的范围生成的。
111.具体地,由于合成票据在合成过程中,预先获得了合成票据中文本区域位置、填充文本区域中文本类型、文本区域内容即文本区域中是手写体文本和/或印刷体文本以及票据图像旋转角度,因此能够自动生成标注文件,标注文件中至少包括对文本区域位置,文本区域类型、文本区域内容以及票据图像旋转角度的标注。
112.在上述实施例中,通过按照预先设置规则生成的手写体文本和印刷体文本对票据模板进行填充,可以扩大用于模型训练的第一图像,尽可能多地覆盖所有出现的真实场景并预测未出现的潜在场景,以提高模型的泛化能力;同时生成标注文件可以减少标注成本的支出。
113.在一个实施例中,将不同分类的文本区域输入至对应的文字识别模型中以得到票据文字识别结果之后,包括:将识别结果与预设的模板进行模板匹配,以提取目标字段信息。
114.其中,预设的模板是记录了结构化配置信息的,其可以是json文件;预设的模板至少包括贷记凭证、电汇凭证、特种转账借(贷)方传票、结算业务委托书、转账支票这五类真实票据的模板,每种票据各有一个模板;目标字段信息是指需要进行提取的字段信息,字段信息是指字段对应的内容,例如“姓名:张三”,其中姓名为字段,张三为字段信息。
115.具体地,服务器在得到票据文字识别结果之后需要将识别结果与预设模板进行模板匹配以确定票据文字识别结果的票据类型,确定票据类型之后再提取目标字段的信息。
116.在上述实施例中,将识别结果与预设的模板进行模板匹配以提取目标字段信息,使提取的目标字段更加准确,避免出现错位等。
117.在一个实施例中,通将识别结果与预设的模板进行模板匹配,以提取目标字段信息,包括:将识别结果与预设模板进行模板匹配;当识别结果与预设模板匹配成功时,根据预设模板进行字段匹配得到字段位置和字段内容;根据字段内容与字段信息的位置关系,获取字段信息候选集;通过预设的匹配规则,从字段信息候选集中确定字段对应的唯一字段信息,并输出结构化数据。
118.其中,字段信息候选集是指包括待识别票据图像中所有字段信息的集合;结构化数据是指符合票据填写规则的数据,例如“姓名:张三”是一组结构化数据。
119.具体地,服务器在得到票据文字识别结果之后需要将识别结果与预设模板进行模板匹配以确定票据文字识别结果的票据类型。在其中一个实施中,可以通过关键字进行模板匹配,具体地,贷记凭证、电汇凭证、特种转账借(贷)方传票、结算业务委托书、转账支票这五类手写支票各有一个模板,每个模板设有几个关键词,首先看识别结果中有没有和关键词相同的字符串,若存在与任意一个关键词相同的字符串,就直接返回这个模板名称,比如转账支票这个类别的关键词有2个:“支票”、“出票人账号”,关键词都是该类票据上独有的词。若所有模板都找不到关键词相同的字符串,再通过模板中的关键词正则规则去提取字符串,然后计算编辑距离,返回编辑距离最小的模板。
120.具体地,当待识别结果与预设模板匹配成功时,则根据预设模板进行字段匹配得
到字段位置和字段内容,在其他实施例中,根据预设模板,通过最大公共子串和字段全称匹配,得到字段位置和字段内容。其中可选地,当待识别结果与预设模板匹配不成功时,上则采用仅包含公共字段的通用模板。
121.具体地,在获得字段位置和字段内容之后,根据字段内容与字段信息的位置关系得到字段信息候选集,在其中一个实施例中,根据字段的字段-字段信息位置关系,对手写支票中左右结构的字段,如收款人信息、付款人信息、大写金额等,获取字段信息候选集。
122.具体地,获取字段信息候选集后根据预设的规则,从字段信息候选集中确定字段对应的唯一字段信息,并输出结构化数据,其中可选地,可以通过正则匹配确定唯一的字段信息。具体地,针对特殊字段,可以根据模板类型,对特殊格式的字段进行字段信息匹配。
123.具体地,结合图4所述,图4为一个实施例中提取目标字段信息的示意图,具体步骤如下:1)模板配置:手写支票5类凭证(贷记凭证、电汇凭证、特种转账借(贷)方传票、结算业务委托书、转账支票)证样式相似,但存在细微差别,对不同凭证配置模板文件,记录key值信息、key-value相对位置信息、正则信息等;2)模板匹配:通过关键字匹配凭证模板,若未匹配上则采用仅包含公共字段的通用模板;3)字段key匹配:根据模板文件,通过最大公共子串和key全称匹配,得到字段key值;4)通用字段value匹配:根据字段的key-value位置关系,对手写支票中左右结构的字段,如收款人信息、付款人信息、大写金额等,获取value候选集,再通过正则匹配确定唯一的value值;5)特殊字段value匹配:根据凭证类型,对特殊格式的字段进行value值匹配;6)标准输出:返回格式化的识别结果。其中key是指字段,value是指字段信息。
124.在上述实施例中,通过模板匹配,然后根据识别到的字段以及模板里配置的相对位置关系找到对应的字段信息来实现目标字段的准确提取。
125.在一个实施例中,由于手写支票总共包含五个大类的场景:贷记凭证、电汇凭证、特种转账借(贷)方传票、结算业务委托书、转账支票,票据的版面极具金融特色,具有各色的底纹以及印章干扰,具体结合图3和图5所示,图5为一个实施例中印章干扰的示意图,对检测和识别提出了较大的挑战;手写支票中手写、印刷、盖章字体混杂,对检测和识别提高了难度;付(收)款人的全称、账号和开户行用三排章一起盖时,会存在严重错位的场景,具体结合图6所示,图6为一个实施例中三排章场景示意图,给后处理提高了难度;在小写金额和密码字段,表格线可能会导致对应字段误识别,具体结合图7所示,图7为一个实施例中表格线干扰示意图,给识别模型带来了挑战;部分手写体书写不规范,不同人书写的风格差异较大,有的字迹比较潦草,增大了识别模型的识别难度;部分字段存在局部变淡、像素缺失和印章模糊的问题,具体结合图8-10所示,图8为一个实施例中字体局部变淡场景示意图、图9为一个实施例中点阵字体像素缺失场景示意图和图10为一个实施例中印章字迹模糊场景示意图,且图中字体的风格、大小差异很大,对检测和识别增加了难度。因此,提供了一种多文字识别模型融合的复杂票据场景的手写支票识别方法,结合图11所示,图11为一个实施例中手写支票识别示意图。在本实施例中提供了一种端到端集成的多文字识别模型融合的复杂票据场景的手写支票识别方法,端到端集成是将预处理、文本区域检测模型、文本区域分类模型、识别模型(手写体识别模型和印刷体识别模型)、结构化提取(目标字段信息提取)集成在一个端到端框架里,在手写支票识别过程中,首先将上传的手写支票图片缩放成特定尺寸,进行角度校正,即将上传的手写支票图片的旋转角度进行分类,然后根据分类结
果将上传的手写支票图片进行角度矫正。之后对手写支票进行文本检测,并对检测到的文本区域进行分割得到文本区域切片,再将文本区域切片通过文本区域分类模型分类出印刷体文本区域和手写体文本区域,然后分别对印刷体文本区域和手写体文本区域进行文字识别,最后通过信息提取模块完成模板匹配工作,提取出目标字段的关键信息,输出结构化数据。具体各个模型的训练及使用可参照上述任意一个实施例所述的方法,在此不再重复赘述。
126.在上述实施例中,提供了一种快捷、省力、高效的多文字识别模型融合的复杂票据场景的手写支票识别方法,即能同时支持五种样式相似、存在细微差别的手写支票的自动识别,减少繁重重复的人工录入工作量,节约了录入时间,提高了工作效率。基于手写支票手写、印刷、盖章字体混杂的数据特点,本方法采用多文字识别模型融合的方式,结合手写体识别模型采用小字典的策略,在保证较快的推理速度的同时,实现了较高的识别精度。
127.在一个实施例中,提供了一种多文字识别模型融合的复杂票据场景的手写支票识别方法,具体方法包括以下步骤:
128.步骤一:模拟真实手写票据,即真实票据图像的特点和分布,对第一图像进行扩充,尽可能多地覆盖所有出现的真实场景并预测未出现的潜在场景,提高模型的泛化能力。具体地,真实票据图像具有大量盖章和底纹干扰、手写印刷字体混杂、模板风格多样等特点。采用真实票据图像进行模型训练,真实票据图像中数据,即真实票据图像中文本区域、印刷体内容、手写体内容等分布不均匀且对真实票据图像进行标注成本高,因此基于对真实票据图像的特点分析,利用基于传统图形学方法的工具对第一图像进行扩充。首先挑选具有代表性的票据图像作为模板,再采用多种不同风格的手写字体以及票据中常见的印刷字体在模板图像上进行文本内容填充,来模拟真实票据图像的风格,并同时生成标注文件。合成时根据真实的数据分布,按照一定的概率添加了多种合成效果,包括图像模糊、印章干扰、盖章字段局部变淡、字段偏移和旋转、手写印刷字体混合出现等;在语料上除了包含手写支票涉及到的特定金融票据语料,还添加了通用语料,从而提高模型的泛化能力。
129.步骤二:根据真实和合成的整图数据,训练基于resnet18的角度分类模型,用于对待识别票据图片进行角度矫正前使用。具体地,针对真实票据图像扫描件的0
°
、90
°
、180
°
和270
°
四种朝向的情况,使用一个分类模型进行朝向分类,根据分类结果,将待识别票据图像朝向转正。由于考虑到待识别图像的角度分类任务比较简单,使用resnet18作为backbone,提取图片特征进行角度分类模型训练,可以满足服务需求。
130.步骤三:根据第一图像,进行基于文本区域检测模型和文本区域分类模型的训练,其中,基于centernet的文本区域检测模型用于检测文本框,然后将检测到文本区域进行分割,得到文本区域切片。其中,基于resnet50的文本区域分类模型用于对文本区域进行分类。具体地由于手写支票中各字段手写、印刷、盖章字体混杂,对检测和识别模型的要求较高,所以采用基于centernet的文本区域检测模型+基于resnet50的文本区域分类模型,通过对检测到的文本区域切片进行分类,再送入对应的识别模型进行识别,能有效地提高识别的精度。选择centernet模型进行训练得到文本区域检测模型的理由:真实票据图像中存在许多倾斜的手写和盖章文本影响检测精度,实验结果表明相比基于anchor的检测模型,采用基于关键点的centernet模型回归的检测区域更为准确,且相比于基于分割的检测算法其能够很好地解决真实票据图像中字体颜色变淡导致的检测区域断裂和文字重叠导致
的检测区域合并问题。此外,centernet直接检测目标的中心点和大小,没有nms(非极大值抑制)后处理,在推理速度方面更具优势。此外,由于票据背景色调不同,文字有红、黑、绿、蓝等多种颜色,因此文本区域分类模型训练时加入颜色随机翻转和颜色扩充可以有效地提高分类精度。
131.步骤四:根据第一图像切片,分别训练基于crnn-ctc的手写体识别模型和印刷体识别模型,对步骤三输出的对应类别文本区域切片进行文字识别,其中手写体识别模型采用小字典提升手写字体识别的准确率。具体地,手写体和印刷体识别模型都是基于crnn-ctc算法进行训练得到的,手写体风格多变、部分字体潦草,且汉字字符比较繁杂,极具变化,诸多汉字在外形上相似,容易混淆,使得手写体文本的识别非常困难。由于真实票据图像主要关注的日期、账号、密码、大写金额和小写金额等字段仅由少量特定字符组成,手写体识别模型的训练中设计了小字典的方式,字典仅包含阿拉伯数字、中文数字、金额单位等。通过小字典的方式在满足大部分需求场景的前提下大幅提升了识别精度。由于真实票据图像属于票据类型的数据,字段主要涉及金额、英文数字组合、城市名等短字段,这些文字语义信息相对较少,相比于更为复杂的基于attention机制的seq2seq模型,基于ctc的crnn模型能够满足绝大部分的服务需求,并且推理速度更快。
132.步骤五:对步骤四中模型输出的中间结果进行后处理和结构化提取,通过关键字进行模板匹配,接着根据不同模板的配置以字段-字段信息,即key-value的方式提取字段信息并完成字段校验。具体地,由于真实票据图像版式较多,且版式格式相近,所以选取了模板匹配的后处理提取方案,首先通过模板配置不同版式的key和value的相对位置信息,根据关键字进行模板匹配,然后根据识别到的key以及模板里配置的相对位置关系找到对应的value,提取流程图如图8所示。具体步骤如下:1)模板配置:手写支票5类(贷记凭证、电汇凭证、特种转账借(贷)方传票、结算业务委托书、转账支票)凭证样式相似,但存在细微差别,对不同凭证配置模板文件,记录key值信息、key-value相对位置信息、正则信息等;2)模板匹配:通过关键字匹配凭证模板,若未匹配上则采用仅包含公共字段的通用模板;3)字段key匹配:根据模板文件,通过最大公共子串和key全称匹配,得到字段key值;4)通用字段value匹配:根据字段的key-value位置关系,对手写支票中左右结构的字段,如收款人信息、付款人信息、大写金额等,获取value候选集,再通过正则匹配确定唯一的value值;5)特殊字段value匹配:根据凭证类型,对特殊格式的字段进行value值匹配;6)标准输出:返回格式化的识别结果。
133.步骤六:将预处理、文本区域检测+文本区域分类+识别推理和结构化提取集成到端到端推理框架。具体地,端到端集成是将预处理、文本区域检测模型、文本区域分类模型、识别模型(手写体识别模型和印刷体识别模型)、结构化提取(目标字段信息提取)集成在一个端到端框架里,实现全流程的票据图像识别过程,首先将上传的手写支票图片缩放成特定尺寸,进行角度校正,即将上传的手写支票图片的旋转角度进行分类,然后根据分类结果将上传的手写支票图片进行角度矫正。之后对手写支票进行文本检测,并对检测到的文本区域进行分割得到文本区域切片,再将文本区域切片通过文本区域分类模型分类出印刷体文本区域和手写体文本区域,然后分别对印刷体文本区域和手写体文本区域进行文字识别,最后通过信息提取模块完成模板匹配工作,提取出目标字段的关键信息,输出结构化数据。
134.在上述实施例中,将文本区域检测模型检测到文本区域进行分割得到文本区域切片,并文本区域切片输入至文本区域分类模型区分出手写体文本还是印刷体文本,再分别输入对应的手写体文本识别模型和印刷体识别模型中进行识别提高了识别精度;其次,真实票据图像中手写体大小不一、字体歪斜,易导致检测框回归不准,且手写文本与盖章文本重叠易导致检测框合并,盖章文本的墨迹变化易造成检测框断裂,这些问题提高了手写支票中文本检测的难度,本实施例中采用centernet模型进行训练得到文本区域检测模型,对于墨迹颜色变化和文本重叠带来的检测框断裂和合并的场景,相比于基于分割的检测算法,基于centernet的文本区检测模型能够更好地支持,且基于关键点的centernet相比于基于anchor的检测模型在倾斜、不规则的文本上回归得更为准确,同时centernet直接提取每个目标的中心点和大小且没有nms后处理,在推理速度方面更具优势;第三,手写体风格多变、部分字体潦草,且汉字字符比较繁杂,极具变化,诸多汉字在外形上相似,容易混淆,使得手写体的识别非常困难。由于手写支票主要关注的日期、账号、密码、大写金额和小写金额等字段仅由少量特定字符组成,本实施例中手写体识别模型设计了小字典的方式,字典仅包含阿拉伯数字、中文数字、金额单位等,在满足大部分需求场景的前提下大幅提升了识别精度。
135.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
136.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的票据识别方法的票据识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个票据识别装置实施例中的具体限定可以参见上文中对于票据识别方法的限定,在此不再赘述。
137.在一个实施例中,如图12所示,提供了一种票据识别装置,包括:图像获取模块100、文本区域检测模块200、和文本区域分类模块300和文本区域识别模块400,其中:
138.图像获取模块100,用于获取待识别票据图像。
139.文本区域检测模块200,用于对待识别票据图像进行文本区域检测得到若干文本区域。
140.文本区域分类模块300,用于对文本区域进行分类。
141.文本区域识别模块400,用于将不同分类的文本区域输入至对应的文字识别模型中以得到票据文字识别结果。
142.在一个实施例中,上述文本区域分类模块300包括:
143.分类单元:用于对文本区域进行分类,得到印刷体文本区域和手写体文本区域。
144.在一个实施例中,上述文本区域识别模块400包括:
145.识别单元,用于分别识别印刷体文本区域和手写体文本区域中的文本内容,得到印刷体文本和手写体文本。
146.在一个实施例中,上述票据识别装置还包括:
147.角度矫正模块,用于对待识别票据图像进行角度矫正。
148.在一个实施例中,上述角度矫正模块包括:
149.角度分类单元,用于对待识别票据图像的旋转角度进行分类。
150.角度旋转单元,用于根据待识别票据图像的旋转角度的类型,对待识别票据图像进行角度矫正。
151.在一个实施例中,上述票据识别装置还包括:
152.标注模块,用于读取第一图像,标注第一图像中文本区域的位置、文本区域的类型、印刷体内容、手写体内容和旋转角度。
153.文本区域检测训练模块,用于根据第一图像与对应的文本区域的位置进行训练得到文本区域检测模型。
154.文本区域分类训练模块,用于根据第一图像与对应的文本区域的类型进行训练得到文本区域分类模型。
155.印刷体识别模型训练模块,用于根据第一图像与对应的印刷体内容训练得到印刷体识别模型。
156.手写体识别模型训练模块,用于根据第一图像与对应的手写体内容进行训练得到手写体识别模型。
157.角度分类模型训练模块,用于根据第一图像与对应的旋转角度进行训练得到角度分类模型。
158.在一个实施例中,上述手写体识别模型是基于目标字典方式训练得到的,目标字典包括日期、账号、密码、大写金额和小写金额的目标字符识别。
159.在一个实施例中,上述票据识别装置还包括:
160.票据模板获取模块,用于获取票据模板。
161.票据生成模块,用于通过按照预设规则生成的手写体文本和印刷体文本对票据模板进行填充,并生成标注文件。
162.在一个实施例中,上述票据识别装置还包括:
163.字段信息提取模块,用于将识别结果与预设的模板进行模板匹配,以提取目标字段信息。
164.在一个实施例中,上述字段信息提取模块包括:
165.模板匹配单元,用于将识别结果与预设的模板进行模板匹配;
166.字段匹配单元,用于当识别结果与预设模板匹配成功时,根据预设模板进行字段匹配得到字段位置和字段内容。
167.字段信息候选集获取单元,用于根据字段内容与字段信息的位置关系,获取字段信息候选集。
168.数据获取单元,用于通过预设的匹配规则,从字段信息候选集中确定字段对应的唯一字段信息,并输出结构化数据。
169.上述票据识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
170.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待识别票据图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种票据图像识别方法。
171.本领域技术人员可以理解,图13中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
172.在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
173.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
174.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
175.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
176.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
177.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1