一种火车票识别方法、系统、设备以及介质与流程

文档序号:21272882发布日期:2020-06-26 23:03阅读:609来源:国知局
一种火车票识别方法、系统、设备以及介质与流程

本发明涉及火车票领域,具体涉及一种火车票识别方法、系统、设备以及存储介质。



背景技术:

ocr(opticalcharacterrecognition,光学字符识别)的概念早在上世纪初期便被提出,目的是将图像中的信息转换为计算机可读取的信息,主要采用了图像处理和模式识别技术,并且一直是人工智能领域中重要的研究方向。近年来,随着移动设备的快速更新迭代,以及移动互联网的快速发展,使得ocr有更为广泛的应用场景,从以往的扫描文件的字符识别,到现在应用到自然场景中图片文字的识别,如识别身份证、银行卡、门牌、票据及各类网络图片中的文字。其可以在书摘、笔记、搜索、合同制定等应用场景中,实现拍照自动识别汉字、数字等主要文字信息,方便用户进行文本录入,提高工作效率和用户体验。

但是,基于ocr火车票的识别存在准确率低,人名等复杂汉字易识别错,磨损后的火车票易识别错等问题。



技术实现要素:

有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种火车票识别方法,包括以下步骤:

获取待识别的火车票的图像;

根据所述火车票的各种信息的位置,获取所述图像中的多个信息区域,并利用分类网络获取所述图像中的多个文本框;

利用第一识别网络对每一个所述信息区域中的每一个字符分别进行识别以得到第一识别结果,并利用第二识别网络对每一个所述文本框中的所有字符进行整体识别以得到第二识别结果;

对所述第一识别结果和所述第二识别结果进行置信度对比以得到组合识别结果。

在一些实施例中,还包括:

建立包含火车信息的第一数据库和/或包含身份信息的第二数据库;

将所述第一数据库和/或所述第二数据库中分别与所述组合识别结果的编辑距离最短的火车信息以及身份信息作为最终识别结果。

在一些实施例中,根据所述火车票的各种信息的位置,获取所述图像中的多个信息区域,进一步包括:

利用基于阈值及边缘的自适应二值化将所述图像转换为二值化图像;

对所述二值化图像进行连通域分析并将横向距离相近的文字形成连通域,以得到所述多个信息区域。

在一些实施例中,利用第一识别网络对每一个所述信息区域中的每一个字符分别进行识别以得到第一识别结果,进一步包括:

对所述每一个信息区域进行字符分割;

利用所述第一识别网络对单个字符进行识别;

根据每一个所述连通域的位置信息以及所述单个字符的识别结果进行结构化组合以得到第一识别结果。

在一些实施例中,利用分类网络获取所述图像中的多个文本框,进一步包括:

提取所述图像经过所述分类网络的若干个卷积层后得到的特征图;

在每一个所述特征图上的每一个点构造多个不同尺度大小的初始文本框;

对所述多个初始文本框进行检测和分类以得到多个有效文本框;

根据非极大值抑制方法对所述多个有效文本框进行抑制以得到所述多个文本框。

在一些实施例中,利用第二识别网络对每一个所述文本框中的所有字符进行整体识别以得到第二识别结果,进一步包括:

将所述每一个文本框输入到所述第二识别网络中以利用cnn卷积网络和istm网络对所述每一个文本框进行端对端识别,进而得到第二识别结果。

在一些实施例中,获取待识别的火车票的图像,进一步包括:

对所述图像的角度进行度数的判断以对所述图像进行相应旋转。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种火车票识别系统,包括:

第一获取模块,所述第一获取模块配置为获取待识别的火车票的图像;

第二获取模块,所述第二获取模块配置为根据所述火车票的各种信息的位置,获取所述图像中的多个信息区域,并利用分类网络获取所述图像中的多个文本框;

识别模块,所述识别模块配置为利用第一识别网络对每一个所述信息区域中的每一个字符分别进行识别以得到第一识别结果,并利用第二识别网络对每一个所述文本框中的所有字符进行整体识别以得到第二识别结果;

对比模块,所述对比模块配置为对所述第一识别结果和所述第二识别结果进行置信度对比以得到组合识别结果。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:

至少一个处理器;以及

存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如上所述的任一种火车票识别方法的步骤。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种火车票识别方法的步骤。

本发明具有以下有益技术效果之一:本发明提出的方案准确率高,速度快,多模型校验,支持对火车票的始发站、目的站、车次、日期、票价等信息进行结构化识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的火车票识别方法的流程示意图;

图2为本发明的实施例提供的模板识别的流程框图;

图3为本发明的实施例提供的textboxes++的网络结构图;

图4为本发明的实施例提供的训练第一识别网络和第二识别网络的流程框图;

图5为本发明的实施例提供的火车票识别系统的结构示意图;

图6为本发明的实施例提供的计算机设备的结构示意图;

图7为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。

需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。

根据本发明的一个方面,本发明的实施例提出一种火车票识别方法,如图1所示,其可以包括步骤:s1,获取待识别的火车票的图像;s2,根据所述火车票的各种信息的位置,获取所述图像中的多个信息区域,并利用分类网络获取所述图像中的多个文本框;s3,利用第一识别网络对每一个所述信息区域中的每一个字符分别进行识别以得到第一识别结果,并利用第二识别网络对每一个所述文本框中的所有字符进行整体识别以得到第二识别结果;s4,对所述第一识别结果和所述第二识别结果进行置信度对比以得到组合识别结果。

本发明提出的方案准确率高,速度快,多模型校验,支持对火车票的始发站、目的站、车次、日期、票价等信息进行结构化识别。

在一些实施例中,方法还包括:

建立包含火车信息的第一数据库和/或包含身份信息的第二数据库;

将所述第一数据库和/或所述第二数据库中分别与所述组合识别结果的编辑距离最短的火车信息以及身份信息作为最终识别结果。

具体的,可以建立全国车站、车次的第一数据库,将组合识别结果中的始发站、终点站、车次等火车信息使用编辑距离与数据库进行对比,并选择数据库中与识别结果编辑距离最短的始发站、终点站、车次作为识别最终结果。另外,还可以建立包含员工姓名与身份证号等身份信息的数据库,将多模型融合识别到的人员姓名、身份证号等信息使用编辑距离与数据库进行对比,并选择数据库中与识别结果编辑距离最短的人员姓名、身份证号作为最终识别结果。

在一些实施例中,在步骤s1获取待识别的火车票的图像中,进一步包括:

对所述图像的角度进行度数的判断以对所述图像进行相应旋转。

具体的,在获取到火车票图像后进行自动旋转扶正,首先通过神经网络对图片角度进行0度,90度,180度,270度的分类判断,然后对图像进行相应旋转,将火车票图像扶正。

在一些实施例中,在步骤s2根据所述火车票的各种信息的位置,获取所述图像中的多个信息区域中,进一步包括:

利用基于阈值及边缘的自适应二值化将所述图像转换为二值化图像;

对所述二值化图像进行连通域分析并将横向距离相近的文字形成连通域,以得到所述多个信息区域。

在一些实施例中,在步骤s3利用第一识别网络对每一个所述信息区域中的每一个字符分别进行识别以得到第一识别结果中,进一步包括:

对所述每一个信息区域进行字符分割;

利用所述第一识别网络对单个字符进行识别;

根据每一个所述连通域的位置信息以及所述单个字符的识别结果进行结构化组合以得到第一识别结果。

具体的,由于火车票的格式固定,各种信息的相对位置有一定规则,所以可以根据火车票票面各种信息的相对位置,实现基于模板的火车票识别。如图2所示,首先使用基于阈值及边缘的自适应二值化,将火车票变为二值化图像,文字为值为1,背景值为0;然后对二值化图像进行连通域分析,将距离相近的文字形成连通域,划分出信息区域,对每个信息区域进行字符分割,然后将单个字符缩放到统一尺寸后放入alexnet(第一识别网络)进行卷积分类,识别为汉字或数字、字母。最后按每个连通区域的位置进行结构化信息,形成第一识别结果。

需要说明的是,在形成连通域以及划分出信息区域时,也会同时得到每个连通域的位置信息。

在一些实施例中,在步骤s2利用分类网络获取所述图像中的多个文本框中,进一步包括:

提取所述图像经过所述分类网络的若干个卷积层后得到的特征图;

在每一个所述特征图上的每一个点构造多个不同尺度大小的初始文本框;

对所述多个初始文本框进行检测和分类以得到多个有效文本框;

根据非极大值抑制方法对所述多个有效文本框进行抑制以得到所述多个文本框。

在一些实施例中,在步骤s3利用第二识别网络对每一个所述文本框中的所有字符进行整体识别以得到第二识别结果中,进一步包括:

将所述每一个文本框输入到所述第二识别网络中以利用cnn卷积网络和istm网络对所述每一个文本框进行端对端识别,进而得到第二识别结果。

具体的,常用的目标检测网络有fasterr-cnn、ssd等,对于fasterr-cnn,其先通过cnn得到候选框,然后再进行分类与回归,而ssd可以一步到位完成检测。这样极大地加快了目标检测的速度。textboxes++建立在一个端对端的全卷积网络上,能够检测任意方向的文本,是在ssd的基础上改进的。通过四边形来表示图像中文本区域,在ssd的各个输出层后面通过预测回归从而检测任意方向的文本区域。因为火车票字段检测有比较大的长宽比,一般的convolutionalfilter无法全部检测到,针对此将defaultbox的比例改成(1,2,3,4,5)的长矩形,并且修改了传统的vgg16网络,包括将vgg16的fc6和fc7层转化为卷积层,去掉所有的dropout层和fc8层,添加了atrous算法(hole算法),将pool5从2x2-s2变换到3x3-s1。

而针对火车票图像的特殊情况,如图3所示,可以将输入的火车票图像(image)的像素统一为500x500,将其输入到预训练好的分类网络中来获得不同大小的特征图,并且抽取conv4、conv7、conv8、conv9、conv10、conv11层的特征图(featuremap),然后分别在这些featuremap层上面的每一个点构造5个不同尺度大小的初始文本框(bbox),然后分别进行检测和分类,生成多个有效bbox;其目的是为了能够准确的检测到不同尺度的物体,因为在低层的featuremap,感受野比较小,高层的感受野比较大,在不同的featuremap进行卷积,可以达到多尺度的目的。接着将不同featuremap获得的bbox结合起来,经过nms(非极大值抑制)方法来抑制掉一部分重叠或者不正确的bbox,生成最终的bbox集合(即检测结果);最后将检测到的结果输入到crnn网络(第二识别网络)中,经过第二识别网络中的cnn卷积网络与istm网络对文字进行端对端识别。

本发明提出的方案针对火车票对识别到的信息进行分类提取,使用多模型结合的方法准确识别到车站、车次、价格、日期等主要信息,主要包含基于模板的火车票识别与基于textboxes++与rcnn的火车票识别两种模型。基于模板的火车票识别与基于textboxes++与rcnn的火车票识别的区别主要体现在两个方面,一个是文本定位过程中,基于模板的火车票识别用到了一些传统图像处理的方法,而基于textboxes++与rcnn的火车票识别是使用深度学习的方式进行文本定位。第二是在识别过程中,基于模板的识别是对单个字符进行切割识别,而基于textboxes++与rcnn的火车票识别是对一段话(比如“济南西站”)进行识别,识别过程中会考虑到前后文的影响。

而由于基于模板的火车票识别具有速度快,定位准确,数字、字母识别率高等优点,基于textboxes++与rcnn的火车票识别具有端到端,结合上下文信息等优点,因此,将两个模型识别的结果相互对比,根据其位置、文字信息结合火车票格式特点进行筛选,选择各个字段信息中两个模型中更为合理的结果组合成最终结果。

在一些实施例中,如图4所示,针对第一识别网络和第二识别网络可以首先通过票据获取、人工标注、模型训练等步骤实现自动切割模型,然后利用自动切割模型实现自动标注,然后仅需进行简单的人工校验,就可以进一步训练模型,提升模型准确率,并进一步完善自动切割模型,从而实现训练数据的自动收集增加。除了真实采集的火车票图像外,还可以使用自动生成的火车票图像进行数据扩充,并根据火车常见的划痕、模糊、污渍等噪声自动添加噪声,生成相似图像,扩充训练样本,提高模型准确率。

本发明提出的方法解决了火车票的ocr识别准确率低,人名等复杂汉字易识别错,磨损后的火车票易识别错等问题。可应用在报销环节,将火车票结构化识别后录入系统,自动完成财务数据核对,减少人工校验成本。也可应用在日程管理、理财记账等移动应用中,通过识别车票信息实现个人日程、账单的记录,辅助用户合理规划生活,提高产品易用性和用户体验。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种火车票识别系统400,如图5所示,包括:

第一获取模块401,所述第一获取模块401配置为获取待识别的火车票的图像;

第二获取模块402,所述第二获取模块402配置为根据所述火车票的各种信息的位置,获取所述图像中的多个信息区域,并利用分类网络获取所述图像中的多个文本框;

识别模块403,所述识别模块403配置为利用第一识别网络对每一个所述信息区域中的每一个字符分别进行识别以得到第一识别结果,并利用第二识别网络对每一个所述文本框中的所有字符进行整体识别以得到第二识别结果;

对比模块404,所述对比模块404配置为对所述第一识别结果和所述第二识别结果进行置信度对比以得到组合识别结果。

在一些实施例中,系统还可以包括数据库模块,所述数据库模块配置为:

建立包含火车信息的第一数据库以及包含身份信息的第二数据库;

将所述第一数据库和所述第二数据库中分别与所述组合识别结果的编辑距离最短的火车信息以及身份信息作为最终识别结果。

基于同一发明构思,根据本发明的另一个方面,如图6所示,本发明的实施例还提供了一种计算机设备501,包括:

至少一个处理器520;以及

存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行如上的任一种火车票识别方法的步骤。

基于同一发明构思,根据本发明的另一个方面,如图7所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行如上的任一种火车票识别方法的步骤。

最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外,典型地,本发明实施例公开的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(pda)、平板电脑(pad)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

此外,根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时,执行本发明实施例公开的方法中限定的上述功能。

此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦写可编程rom(eeprom)或快闪存储器。易失性存储器可以包括随机存取存储器(ram),该ram可以充当外部高速缓存存储器。作为例子而非限制性的,ram可以以多种形式获得,比如同步ram(dram)、动态ram(dram)、同步dram(sdram)、双数据速率sdram(ddrsdram)、增强sdram(esdram)、同步链路dram(sldram)、以及直接rambusram(drram)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,dsp和微处理器的组合、多个微处理器、一个或多个微处理器结合dsp和/或任何其它这种配置。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在ram存储器、快闪存储器、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在asic中。asic可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。

在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。

应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1