票据标注方法及装置与流程

文档序号:20265861发布日期:2020-04-03 18:22阅读:609来源:国知局
票据标注方法及装置与流程
本发明涉及互联网领域,尤其涉及一种票据标注方法及装置。
背景技术
:在互联网各个领域,诸多场景中(例如银行票据)都存在需要大量人工录入的数据,耗时耗力,成本高昂,ocr(opticalcharacterrecognition,光学字符识别)模型是替换上述人工录入的一种有效手段,在收集了大量的票据后,输入至ocr模型进行训练,进而获得准确率较高的模型,在大量票据输入至ocr模型进行训练之前,需要对票据进行标注,而很多银行票据由于不能外传的特点,票据的数量不大,导致训练出来的ocr模型的精度不高,因此,目前缺乏一种在票据较少的情况下,对票据进行标注的准确度较高的方法,进而提高ocr模型的准确度。技术实现要素:本发明实施例提出一种票据标注方法,用以在票据较少的情况下实现票据标注,准确度高,该方法包括:确定票据的类型;根据票据的图像,基于票据的类型对应的票据识别模板,获得票据的多个键值对,所述键值对包括关键字和数值;在根据票据的多个键值对与票据的电子数据,确定票据有效时,根据票据的多个键值对,对票据进行标注。本发明实施例提出一种票据标注装置,用以在票据较少的情况下实现票据标注,准确度高,该装置包括:票据类型确定模块,用于确定票据的类型;键值对获得模块,用于根据票据的图像,基于票据的类型对应的票据识别模板,获得票据的多个键值对,所述键值对包括关键字和数值;标注模块,用于在根据票据的多个键值对与票据的电子数据,确定票据有效时,根据票据的多个键值对,对票据进行标注。本发明实施例还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述票据标注方法。本发明实施例还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述票据标注方法的计算机程序。在本发明实施例中,确定票据的类型;根据票据的图像,基于票据的类型对应的票据识别模板,获得票据的多个键值对,所述键值对包括关键字和数据;在根据票据的多个键值对与票据的电子数据,确定票据有效时,根据票据的多个键值对,对票据进行标注。在上述过程中,基于票据的类型对应的票据识别模板获得票据的多个键值对,可提高读取票据数据的效率,在根据票据的多个键值对,对票据进行标注之前,确定了票据有效,因此,即使有效的票据的数量较少,对票据进行标注的准确度也较高,有利于提高ocr模型的训练的准确度。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1为本发明实施例中票据标注方法的流程图;图2为本发明实施例中银行支票的图像的示意图;图3为本发明实施中银行支票的图像的多个图像框的示意图;图4为本发明实施例中银行支票的票据识别模板的示意图;图5为本发明实施例提出的票据标注方法的详细流程图;图6为本发明实施例中票据标注装置的示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施,其中的步骤顺序不作限定,可根据需要作适当调整。图1为本发明实施例中票据标注方法的流程图,如图1所示,该方法包括:步骤101,确定票据的类型;步骤102,根据票据的图像,基于票据的类型对应的票据识别模板,获得票据的多个键值对,所述键值对包括关键字和数据;步骤103,在根据票据的多个键值对与票据的电子数据,确定票据有效时,根据票据的多个键值对,对票据进行标注。在上述实施例中,基于票据的类型对应的票据识别模板获得票据的多个键值对,可提高读取票据数据的效率,在根据票据的多个键值对,对票据进行标注之前,确定了票据有效,因此,即使有效的票据的数量较少,对票据进行标注的准确度也较高,有利于提高ocr模型的训练的准确度。在步骤101中,票据的类型可以包括多种,例如,银行卡、身份证、护照、户口薄、驾驶证、行驶证、营业执照、税务登记证、组织机构代码证、开户许可证、临时身份证、港澳台通行证等,尤其是银行业务中,存在大量的票据。对于银行专用的票据,比如进账单、收入凭证、缴款书、承兑汇票等等。进行票据标注主要面临着以下困难:一是银行不允许将此类数据传输到银行体系之外进行ocr模型的训练;二是银行内部员工未经过专业培训,无法完成标注任务;三是对于银行专用票据,存在数据量极少的情况,影响ocr模型训练的准确度。在步骤102中,首先获取票据的图像,例如,在票据的类型为银行支票时,首先获得银行支票的图像,然后从票据的类型对应的票据识别模板中,识别出该票据的多个键值对,一个键值对包括一个关键字和一个数值,例如,关键词“金额”,数值“人民币4700000”。在步骤103中,每个票据都有一个电子数据,例如,银行支票的电子数据存储在银行系统中,银行支票为机打发票,在打印过程中,在银行系统中进行电子存档,该存储的形式可以有多种,例如,可以是将票据的键值对存放在oracle等数据库中,供后续核对。为了提高标注的准确度,首先对票据进行有效性确定,就是将该票据的多个键值对与票据的电子数据进行比对,存放时,可以从多个键值对的关键字中确定一个主关键词,便于后续查找,在票据有效时,再根据票据的多个键值对,对票据进行标注。标注时,一般是标注键值对中的关键字。在一实施例中,票据识别模板采用如下方法获得:对票据的图像进行画框标识,获得票据的多个图像框;识别每个图像框中的键值对;根据多个图像框中的键值对,确定票据识别模板。在上述实施例中,以银行支票为例进行说明,图2为本发明实施例中银行支票的图像的示意图,对图2中的银行支票的图像进行画框识别,得到银行支票的多个图像框,画框识别时,每个图像框都有固定文字,通过至少四个点来确定图片中文字的位置,从而形成一个图像框,上述至少4个点也称为锚点。图3为本发明实施中银行支票的图像的多个图像框的示意图,识别图3中每个图像框中的键值对,最后识别出来的键值对如表1所示。表1银行支票的键值对示例关键字数值发票编号深圳dg0201905201出票日期贰零零玖年壹拾壹月贰拾柒日收款人深圳海关人民币肆佰柒拾万元整用途慰问金根据表1中的键值对,可以得到银行支票的票据识别模板,图4为本发明实施例中银行支票的票据识别模板的示意图。上述票据识别模板可以通过加密的标识作为请求参数来区分。具体实施时,根据票据的图像,基于票据的类型对应的票据识别模板,获得票据的多个键值对的方法有多种,下面给出其中一个实施例。在一实施例中,根据票据的图像,基于票据的类型对应的票据识别模板,获得票据的多个键值对,包括:根据票据的图像,基于票据的类型对应的票据识别模板,采用如下ocr模型中的至少一种获得票据的多个键值对:分类器字符识别模型,字符模板匹配模型,深度学习模型。当然,可以理解的是,上述三种ocr模型仅为举例,也可采用其他类型的ocr模型获得票据的多个键值对,相关变化例均应落入本发明的保护范围。在一实施例中,根据票据的多个键值对与票据的电子数据,确定票据有效,包括:确定票据的多个键值对中需核对的键值对;在需核对的键值对与票据的电子数据一致时,确定票据有效。在上述实施例中,以银行支票为例,确定了5个键值对,但是在核对时,不需要核对每个键值对,可以只核对“人民币,肆佰柒拾万元整”这个键值对与票据的电子数据是否一致,即能够确定该银行支票的有效性。在确定票据有效之后,可以根据票据的多个键值对,对票据进行标注。具体实施时,在对票据进行标注时,由于已经确定了票据的需核对的键值对与票据的电子数据一致,因此,可以采用票据的电子数据对票据进行标注,由于票据的电子数据比票据识别出的键值对的准确度更高,可以进一步提高标注的准确性。本发明的方法可以应用于各个用于ocr技术的应用系统和ocr平台产品。基于上述实施例,本发明提出如下一个实施例来说明票据标注方法的详细流程,图5为本发明实施例提出的票据标注方法的详细流程图,如图5所示,在一实施例中,票据标注方法的详细流程包括:步骤501,对票据的图像进行画框标识,获得票据的多个图像框;步骤502,识别每个图像框中的键值对;步骤503,根据多个图像框中的键值对,确定票据识别模板;步骤504,确定票据的类型;步骤505,根据票据的图像,基于票据的类型对应的票据识别模板,采用ocr模型,获得票据的多个键值对,所述键值对包括关键字和数值;步骤506,确定票据的多个键值对中需核对的键值对;步骤507,在需核对的键值对与票据的电子数据一致时,确定票据有效;步骤508,在确定票据有效时,根据票据的多个键值对,对票据进行标注。当然,可以理解的是,上述票据标注方法的详细流程还可以有其他变化例,相关变化例均应落入本发明的保护范围。综上所述,在本发明实施例提出的方法中,确定票据的类型;根据票据的图像,基于票据的类型对应的票据识别模板,获得票据的多个键值对,所述键值对包括关键字和数据;在根据票据的多个键值对与票据的电子数据,确定票据有效时,根据票据的多个键值对,对票据进行标注。在上述过程中,基于票据的类型对应的票据识别模板获得票据的多个键值对,可提高读取票据数据的效率,在根据票据的多个键值对,对票据进行标注之前,确定了票据有效,因此,即使有效的票据的数量较少,对票据进行标注的准确度也较高,有利于提高ocr模型的训练的准确度。基于同样的发明构思,本发明实施例还提供了一种票据标注装置,如下面的实施例所述。由于这些解决问题的原理与票据标注方法相似,因此装置的实施可以参见方法的实施,重复之处不在赘述。图6为本发明实施例中票据标注装置的示意图,如图6所示,该装置包括:票据类型确定模块601,用于确定票据的类型;键值对获得模块602,用于根据票据的图像,基于票据的类型对应的票据识别模板,获得票据的多个键值对,所述键值对包括关键字和数值;标注模块603,用于在根据票据的多个键值对与票据的电子数据,确定票据有效时,根据票据的多个键值对,对票据进行标注。在一实施例中,票据识别模板采用如下方法获得:对票据的图像进行画框标识,获得票据的多个图像框;识别每个图像框中的键值对;根据多个图像框中的键值对,确定票据识别模板。在一实施例中,键值对获得模块602具体用于:根据票据的图像,基于票据的类型对应的票据识别模板,采用如下ocr模型中的至少一种获得票据的多个键值对:分类器字符识别模型,字符模板匹配模型,深度学习模型。在一实施例中,标注模块603具体用于:确定票据的多个键值对中需核对的键值对;在需核对的键值对与票据的电子数据一致时,确定票据有效。综上所述,在本发明实施例提出的装置中,确定票据的类型;根据票据的图像,基于票据的类型对应的票据识别模板,获得票据的多个键值对,所述键值对包括关键字和数据;在根据票据的多个键值对与票据的电子数据,确定票据有效时,根据票据的多个键值对,对票据进行标注。在上述过程中,基于票据的类型对应的票据识别模板获得票据的多个键值对,可提高读取票据数据的效率,在根据票据的多个键值对,对票据进行标注之前,确定了票据有效,因此,即使有效的票据的数量较少,对票据进行标注的准确度也较高,有利于提高ocr模型的训练的准确度。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1