多语言票据识别方法、装置、设备及存储介质与流程

文档序号:31720261发布日期:2022-10-04 23:04阅读:78来源:国知局
多语言票据识别方法、装置、设备及存储介质与流程

1.本发明涉及图像处理技术领域,尤其涉及一种多语言票据识别方法、装置、设备及存储介质。


背景技术:

2.现有技术中通过ocr技术能够实现票据的自动识别,文本的自动录入、内容的自动审核。但是票据内容存在文本多语言、印刷体与手写体、多种符号等诸多文本内容,现有的识别模型针对这些复杂的票据内容的检测与识别存在过程繁琐、识别效率低、识别效果差、优化困难等问题。
3.因此,如何解决现有票据识别模型的识别精度低成为亟待解决的技术问题。


技术实现要素:

4.本发明的主要目的在于提供一种多语言票据识别方法、装置、设备及存储介质,旨在解决现有票据识别模型的识别精度低的技术问题。
5.为实现上述目的,本发明提供一种多语言票据识别方法,所述多语言票据识别方法包括:获取至少一张待预测图片,并基于预设识别模型对所述待预测图片进行文本识别,定位至少一个目标识别要素;基于所述目标识别要素,对所述待预测图片进行分割,获得至少一张目标子图片;并发调用所述目标子图片对应的识别子模型,对所述目标子图片进行信息识别,获得目标信息。
6.此外,为实现上述目的,本发明还提供一种多语言票据识别装置,所述多语言票据识别装置包括:识别要素定位模块,用于获取至少一张待预测图片,并基于预设识别模型对所述待预测图片进行文本识别,定位至少一个目标识别要素;子图片提取模块,用于基于所述目标识别要素,对所述待预测图片进行分割,获得至少一张目标子图片;信息识别模块,用于并发调用所述目标子图片对应的识别子模型,对所述目标子图片进行信息识别,获得目标信息。
7.此外,为实现上述目的,本发明还提供一种多语言票据识别设备,所述多语言票据识别设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的多语言票据识别程序,其中所述多语言票据识别程序被所述处理器执行时,实现如上述的多语言票据识别方法的步骤。
8.此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有多语言票据识别程序,其中所述多语言票据识别程序被处理器执行时,实现如上述的多语言票据识别方法的步骤。
9.本发明提供一种多语言票据识别方法,所述方法获取至少一张待预测图片,并基于预设识别模型对所述待预测图片进行文本识别,定位至少一个目标识别要素;基于所述目标识别要素,对所述待预测图片进行分割,获得至少一张目标子图片;并发调用所述目标子图片对应的识别子模型,对所述目标子图片进行信息识别,获得目标信息。通过上述方
式,本发明通过预设识别模型对待预测图片进行文本识别,区分待预测图片的文本信息,从而定位目标识别要素,以目标识别要素为依据,对待预测图片进行分割,将需要进行识别的目标信息进行区分,形成多个目标子图片,而每个目标子图片都对应一个识别子模型,并发调用多个识别子模型对各目标识别要素进行信息识别,能够提高识别效率,并且实现将票据中不同类型的文本信息进行分别识别,避免不同类型文本之间的识别干扰,从而提高识别精度,解决了现有票据识别模型的识别精度低成为亟待解决的技术问题。
附图说明
10.图1为本发明实施例方案中涉及的多语言票据识别设备的硬件结构示意图;
11.图2为本发明多语言票据识别方法第一实施例的流程示意图;
12.图3为本发明多语言票据识别方法第二实施例的流程示意图;
13.图4为本发明多语言票据识别装置第一实施例的功能模块示意图。
14.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
15.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
16.本发明实施例涉及的多语言票据识别方法主要应用于多语言票据识别设备,该多语言票据识别设备可以是pc、便携计算机、移动终端等具有显示和处理功能的设备。
17.参照图1,图1为本发明实施例方案中涉及的多语言票据识别设备的硬件结构示意图。本发明实施例中,多语言票据识别设备可以包括处理器1001(例如cpu),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口);存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
18.本领域技术人员可以理解,图1中示出的硬件结构并不构成对多语言票据识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
19.继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及多语言票据识别程序。
20.在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的多语言票据识别程序,并执行本发明实施例提供的多语言票据识别方法。
21.本发明实施例提供了一种多语言票据识别方法。
22.参照图2,图2为本发明多语言票据识别方法第一实施例的流程示意图。
23.本实施例中,所述多语言票据识别方法包括以下步骤:
24.步骤s10,获取至少一张待预测图片,并基于预设识别模型对所述待预测图片进行文本识别,定位至少一个目标识别要素;
25.本实施例中,预设识别模型可以包括文本检测模型、方向分类模型和通用识别模型。
26.具体地,文本检测模型主要用于定位出文字所在区域,排除图片中背景等杂物的干扰。文本检测模型可以作为一种标注工具,用来对待预测图片进行半自动化的人工标注,从而将待预测图片中的文本区域进行识别提取。
27.可以理解地是,本实施例中所述的文本检测模型可以是现有技术中用于文本检测的任一模型。比如文本检测模型可以是ctrn模型,还可以是east模型。
28.具体地,ctrn模型通过用blstm模块提取字符周围的上下文特征,用文本线构造算法将小文字块连接成完成的文本框。文本线构造算法为检测到的每个小文字块正向和反向地寻找水平距离小于50像素的配对文字块,寻找完全部的文字块后即可自然形成它们的连接图,从而找到文本检测框。
29.具体地,east模型提出了一种简单而性能强大的流水线,可在自然场景中快速而准确的实现文本检测。该流水线利用简单的神经网络直接预测全图像中任意方向的四边形单词或文本行。
30.具体地,为了提升检测文本框中的文字识别效果,保持文字的一致性,一般都希望待识别的文本框是正的水平方向。方向分类模型可以用于将文本检测模型检测到的图像进行偏向校正,可以使用fft变换后校正然后再逆变换回来,也可以直接使用查找包含文字区域的矩形,旋转这个矩形。比如,如果图像是竖直方向,则旋转90度后,变为水平方向;如果变为水平方向后,文本框是颠倒的,则可以将图片转正再识别。
31.具体地,通用识别模型是用来对票据图像的文本进行识别的文本识别模型。通用识别模型识别文本检测模型框选地文本框,提取其中的文本信息,包括语言类型(如汉字、英文、数字等)、文字类型(如手写、印刷)以及文字内容等信息。
32.步骤s20,基于所述目标识别要素,对所述待预测图片进行分割,获得至少一张目标子图片;
33.本实施例中,根据目标识别要素在待预测图片中的坐标位置,以及文本框大小,对待预测图片进行图像分割,将若干个目标识别要素对应分割为若干个目标子图片。
34.具体地,基于预设识别模型定位的目标识别要素,确定目标识别要素所在行的文本框,然后将单行的文本切割层单个的字符。可以采用均匀切割或者统计切割的方法对文本实现切割。
35.具体地,均匀切割是不加任何判断,直接按照高度将单行文本切割为一个个的正方形图片。这种方法主要用于方块汉字的切割。
36.具体地,统计切割是通过对单行的文字图片进行垂直方向的求和,和为0的列就是被切割的列。这种方法可以用于针对英文和数字字符的切割。
37.步骤s30,并发调用所述目标子图片对应的识别子模型,对所述目标子图片进行信息识别,获得目标信息。
38.本实施例中,根据每一个目标识别要素的文本信息(如语言属性、印刷体或者手写体等),匹配对应的识别子模型,完成匹配之后,并发调用各个识别子模型对目标子图片进行识别,读取每个目标子图片的文本并解析,获得目标信息。其中,通过并发调用各个识别子模型进行识别,能够提高识别效率,且各个识别子模型是独立运行的,且针对对应的目标子图片,能够避免互相干扰。
39.本实施例提供一种多语言票据识别方法,所述方法获取至少一张待预测图片,并
基于预设识别模型对所述待预测图片进行文本识别,定位至少一个目标识别要素;基于所述目标识别要素,对所述待预测图片进行分割,获得至少一张目标子图片;并发调用所述目标子图片对应的识别子模型,对所述目标子图片进行信息识别,获得目标信息。通过上述方式,本发明通过预设识别模型对待预测图片进行文本识别,区分待预测图片的文本信息,从而定位目标识别要素;以目标识别要素为依据,对待预测图片进行分割,将需要进行识别的目标信息进行区分,形成多个目标子图片;而每个目标子图片都对应一个识别子模型,并发调用多个识别子模型对各目标识别要素进行信息识别,能够提高识别效率;并且实现将票据中不同类型的文本信息进行分别识别,避免不同类型文本之间的识别干扰,从而提高识别精度,解决了现有票据识别模型的识别精度低成为亟待解决的技术问题。
40.参照图3,图3为本发明多语言票据识别方法第二实施例的流程示意图。
41.基于上述图2所示实施例,本实施例中,所述步骤s10之前,还包括:
42.步骤s01,获取票据训练集,并基于所述预设识别模型和所述票据训练集,获得标注票据;
43.步骤s02,基于文本识别模型,对所述标注票据进行识别,定位识别要素;
44.步骤s03,基于所述识别要素,提取要素子图片,并基于所述要素子图片,构建所述识别子模型。
45.本实施例中,首先根据获取的票据训练集,对预设识别模型进行训练,实现半自动化的人工标注,获得标注票据;然后经过文本识别模型对标注票据进行文本初识别;利用关键词定位识别任务的识别要素;随后基于识别任务定位到的所有要素的坐标对票据进行分割提取要素子图片,忽略其他无关文字及模块的识别干扰。对票据要素子图片分别建立基于crnn+ctc结构的识别子模型进行识别,这种针对特定要素的识别单模型的准确率会有大幅度提升,子模型的识别准确率的提升同时使最终识别效果得到提升。
46.具体地,crnn(卷积循环神经网络),就是cnn+rnn的组合,模型既有cnn强大的提取特征的能力,又有与rnn相同的性质,能够产生一系列序列化标签。整个crnn分为了三个部分:卷积层、循环层和转录层。
47.其中,卷积层是一个cnn网络,用于提取特征(代码输入32*256*1);循环层使用深层双向rnn,预测从卷积层获取的特征序列的标签(真实值)分布(64*512);转录层使用ctc,训练样本。
48.具体地,cnrr算法输入归一化高度的词条图像,基于cnn提取特征图,把特征图按列切分。在训练过程中,通过ctc损失函数的指导,实现字符位置与类标的近似软对齐。
49.具体地,ctc在训练时更多的考虑是将可能映射(去重、去空)出的标签所包含的路径的概率之和进行最大化(ctc假设每个时间片的输出是相互独立的,则路径的后验概率是每个时间片概率的累积),那么在输出时根据给定输入搜索概率最大的路径时就更可能搜索出能映射到正确结果的路径。且搜索时考虑了“多对一”的情况,进一步增加了解码出正确结果的可能性。
50.进一步地,步骤s02之前,还包括:
51.基于所述标注票据的标注信息,确定所述标注票据的文字类型和语言类型;
52.基于所述标注票据的文字类型和语言类型,构建多语言文本检测模型,作为所述文本识别模型。
53.本实施例中,为了适应多语言的票据识别,根据标注票据的标注信息,对票据中的文字类型和语言类型进行识别区分和归类,比如区分其中的手写体和印刷体,以及区分其中的汉字、英文、数字等不同语言类型,对不同类型的文本信息进行归类总结,并且对所有类型的文本建立对应的识别词库。
54.具体地,基于对应不用类型的识别词库,本实施例中可以建立一个包含多语言的文本检测模型,也可以建立多个对应不同语言的文本检测模型,从而使得文本识别模型能够识别不同类型的文本信息,可以同时支持多语言文本检测,提高文本识别模型的适用性。
55.进一步地,步骤s02具体包括:
56.基于所述文本识别模型,识别所述标注票据的不同类型的文本信息;
57.基于所述不同类型的文本信息,提取所述不同类型的文本信息对应的关键词;
58.基于所述关键词和预设阈值间距,定位所述关键词对应的所述识别要素。
59.本实施例中,一个标注票据中存在多种不同类型的文本信息,比如汉字、英文、数字等语言类型,或者手写字和印刷字等文字类型,所以一张标注票据中也包含多个识别要素,而针对每个识别要素,可以根据关键词的提取对识别要素的类别和位置进行确定。
60.具体地,在文本信息中,利用关键词定位识别任务的识别要素。为确保识别要素的定位准确,利用关键要素上下左右一定阈值间距的其他关键词来确认并锁定当前识别要素,提高要素定位的准确率;其中,关键词可以是“日期”、“金额”、“签字”、“盖章”等。
61.具体地,关键词的提取可以采用无监督关键词提取方法,也可以采用有监督关键词提取方法。
62.具体地,无监督关键词提取方法主要包括:基于统计特征的关键词提取(tf,tf-idf);基于词图模型的关键词提取(pagerank,textrank);基于主题模型的关键词提取(lda)。其中,基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词;基于词图模型的关键词提取首先要构建文档的语言网络图,然后对语言进行网络图分析,在这个图上寻找具有重要作用的词或者短语,这些短语就是文档的关键词;基于主题关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取。
63.具体实施例中,无监督关键词提取可以通过提取文本中比较重要的词作为关键词,该方法是先抽取出候选词,然后对各个候选词进行打分,然后输出top k个分值最高的候选词作为关键词。根据打分的策略不同,有不同的算法,例如tf-idf,text rank,lda等算法。例如采用textrank算法实现,text rank是一种基于图排序的算法,通过把文本分割为若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用票据本身的信息即可实现关键词提取。使用text rank算法提取关键词时,首先需要把图构建出来。图的节点就是单词,至于边可以利用n-gram的思路,认为某个单词只与它附近的n个单词有关,即与它附近的n个词对应的节点连一条无向边。
64.具体地,有监督关键词提取方法将关键词抽取过程视为二分类问题,先提取出候选词,然后对于每个候选词划定标签,要么是关键词,要么不是关键词,然后训练关键词抽取分类器。当获取新的票据时,提取出所有的候选词,然后利用训练好的关键词提取分类器,对各个候选词进行分类,最终将标签为关键词的候选词作为关键词。
65.进一步地,步骤s03具体包括:
66.定位当前关键词在所述标注票据的位置坐标,作为所述当前关键词对应的当前识
别要素的位置坐标;
67.基于所述预设阈值间距和所述当前识别要素的位置坐标,确定所述当前识别要素相邻识别要素的位置坐标;
68.基于所述位置坐标,对所述标注票据进行分割,提取所述要素子图片。
69.本实施例中,当前关键词定位主要采用邻近搜索和文本切割的方法。其中,邻近搜索是为了圈出单行文字,文本切割是为了将单行文本切割成单字。
70.具体地,基于文本识别所提取的特征文本框,进行连通区域搜索,得到的每一个连通区域视为一个字符。通过邻近搜索算法实现,能够整合可能成字的区域,得到单行的文本区域,避免某些字符因为不具有连通性而被拆分开,比如汉字中的“八”、“元”等字符。邻近搜索的目的是进行膨胀,以把可能成字的区域“粘合”起来。如果不进行搜索就膨胀,那么膨胀是各个方向同时进行的,这样有可能把上下行都粘合起来了。因此,必须只允许区域向单一的一个方向膨胀。
71.具体实施例中,通过搜索邻近区域来确定膨胀方向(上、下、左、右):从一个连通区域出发,可以找到该连通区域的水平外切矩形,将连通区域扩展到整个矩形。当该区域与最邻近区域的距离小于一定范围时,考虑这个矩形的膨胀,膨胀的方向是最邻近区域的所在方向。
72.可以理解地,因为距离存在上下左右的方向,而根据邻近搜索方法,可能会使得当前关键词上下左右在预设阈值间距内的字符均粘合起来,所以,需要对膨胀方向进行限定,比如:当且仅当所在方向是水平的,才执行膨胀操作。此时,即限定其只允许横向膨胀。
73.具体地,在确定当前关键词在待预测图片中的位置坐标,并且通过邻近搜索确定当前识别要素的文本区域,而根据预设阈值间距和当前关键词的位置坐标,即可推算出当前识别要素文本区域的位置坐标。对文本区域进行切割,即可获得若干个要素子图片。
74.进一步地,基于上述图2所示实施例,本实施例中,所述步骤s30具体包括:
75.基于所述目标识别要素,确定所述目标识别要素对应的所述识别子模型;
76.基于所述识别子模型对应的所述识别词库,并发调用所述识别子模型,对所述目标子图片进行信息识别,获得所述目标信息。
77.本实施例中,通过所有目标识别要素的文本信息,确定其中的文本信息类型,然后调用对应的识别子模型对不同的目标识别要素进行识别。比如印刷体汉字则调用对应的汉字识别子模型,通过汉字识别子模型所对应的汉字识别词库,对印刷体汉字进行查询,从而解析其文本信息。
78.具体地,需要根据目标识别要素,匹配对应的识别子模型,并发调用所有识别子模型,对所有目标识别要素进行同步识别,从而解读出对应的目标信息。并发调用各识别子模型,能够提升识别效率,且避免不同要素之间的识别干扰,从而提升识别精度。
79.此外,本发明实施例还提供一种多语言票据识别装置。
80.参照图4,图4为本发明多语言票据识别装置第一实施例的功能模块示意图。
81.本实施例中,所述多语言票据识别装置包括:
82.识别要素定位模块10,用于获取至少一张待预测图片,并基于预设识别模型对所述待预测图片进行文本识别,定位至少一个目标识别要素;
83.子图片提取模块20,用于基于所述目标识别要素,对所述待预测图片进行分割,获
得至少一张目标子图片;
84.信息识别模块30,用于并发调用所述目标子图片对应的识别子模型,对所述目标子图片进行信息识别,获得目标信息。
85.进一步地,所述多语言票据识别装置包括识别模型训练模块,所述识别模型训练模块具体包括:
86.标注票据获得单元,用于获取票据训练集,并基于所述预设识别模型和所述票据训练集,获得标注票据;
87.识别要素定位单元,用于基于文本识别模型,对所述标注票据进行识别,定位识别要素;
88.识别子模型构建单元,用于基于所述识别要素,提取要素子图片,并基于所述要素子图片,构建所述识别子模型。
89.进一步地,所述多语言票据识别装置还包括文本识别模型构建模块,所述文本识别模型构建模块具体包括:
90.文本信息确定单元,用于基于所述标注票据的标注信息,确定所述标注票据的文字类型和语言类型;
91.文本识别模型构建单元,用于基于所述标注票据的文字类型和语言类型,构建多语言文本检测模型,作为所述文本识别模型。
92.进一步地,所述识别要素定位单元具体包括:
93.文本信息识别子单元,用于基于所述文本识别模型,识别所述标注票据的不同类型的文本信息;
94.关键词提取子单元,用于基于所述不同类型的文本信息,提取所述不同类型的文本信息对应的关键词;
95.识别要素定位子单元,用于基于所述关键词和预设阈值间距,定位所述关键词对应的所述识别要素。
96.进一步地,所述识别子模型构建单元具体包括:
97.要素坐标定位子单元,用于定位当前关键词在所述标注票据的位置坐标,作为所述当前关键词对应的当前识别要素的位置坐标;
98.相邻要素坐标确定子单元,用于基于所述预设阈值间距和所述当前识别要素的位置坐标,确定所述当前识别要素相邻识别要素的位置坐标;
99.要素子图片提取子单元,用于基于所述位置坐标,对所述标注票据进行分割,提取所述要素子图片。
100.进一步地,多语言票据识别装置还包括识别词库对接模块,所述识别词库对接模块具体包括:
101.服务接口建立单元,用于基于所述识别子模型,建立要素识别服务接口;
102.识别词库确定单元,用于基于所述要素子图片中的文本信息,确定所述要素子图片对应的识别词库;
103.识别词库连接单元,用于基于所述识别子模型,将所述要素识别服务接口与所述识别词库建立连接。
104.进一步地,所述信息识别模块30具体包括:
105.识别子模型确定单元,用于基于所述目标识别要素,确定所述目标识别要素对应的所述识别子模型;
106.目标信息获得单元,用于基于所述识别子模型对应的所述识别词库,并发调用所述识别子模型,对所述目标子图片进行信息识别,获得所述目标信息。
107.其中,上述多语言票据识别装置中各个模块与上述多语言票据识别方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
108.此外,本发明实施例还提供一种计算机可读存储介质。
109.本发明计算机可读存储介质上存储有多语言票据识别程序,其中所述多语言票据识别程序被处理器执行时,实现如上述的多语言票据识别方法的步骤。
110.其中,多语言票据识别程序被执行时所实现的方法可参照本发明多语言票据识别方法的各个实施例,此处不再赘述。
111.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
112.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
113.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
114.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
115.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1