图像字符识别模型生成和竖列字符图像识别方法和装置与流程

文档序号:11134706阅读:552来源:国知局
图像字符识别模型生成和竖列字符图像识别方法和装置与制造工艺

本发明实施例涉及文字识别技术,尤其涉及一种图像字符识别模型生成和竖列字符图像识别方法和装置。



背景技术:

随着智能手机及便携式设备的普及,OCR(Optical Character Recognition,光学字符识别)的使用更加普遍,它可以用来减少或替换繁琐的文字输入,用户只需要拍摄一张包含文字的图像,OCR技术就可以自动识别出图像中的文字,以便进行后续的处理(例如:检索和翻译等)。

传统的OCR技术包括两大类:第一类是将文字行进行过分割,得到若干个候选文字区域,然后根据训练好的单字识别引擎(例如:卷积神经网络等)对每个候选文字区域进行识别并输出若干个候选,最后根据语言模型以及文字的识别置信度等信息对文字行解码得到输出;第二类是近年来流行的技术,它避免了第一类方法中的文字分割模块,基于循环神经网络(Recursive Neural Network,RNN)来得到行图像到字符串输出。其中,第二类技术更加前沿,能够直接得到行级别图像的文字串输出。

但是,在实际的环境里,文字行的数量要远远多于竖列文字的数量,由于对于竖列文字的识别来讲,难以直接利用已有的文字行图像来训练模型,因此需要收集大量的竖列文字图片,以保证识别模型的训练性能,这将耗费大量的人力和物力。



技术实现要素:

有鉴于此,本发明实施例提供了一种图像字符识别模型生成和竖列字符图像识别方法和装置,以克服难以直接利用已有的字符行图像来训练竖列字符识别模型的技术缺陷。

在第一方面,本发明实施例提供了一种图像字符识别模型生成方法,包括:

生成旋转行字符训练样本,其中,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;

使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。

在第二方面,本发明实施例提供了一种竖列字符图像识别方法,包括:

将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;

将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;

根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果。

在第三方面,本发明实施例提供了一种图像字符识别模型生成装置,包括:

训练样本生成模块,用于生成旋转行字符训练样本,其中,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;

图像字符识别模型生成模块,用于使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。

在第四方面,本发明实施例提供了一种竖列字符图像识别装置,包括:

旋转待识别图像生成模块,用于将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;

旋转待识别图像输入模块,用于将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;

竖列字符识别结果确定模块,用于根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果。

本发明实施例提供的图像字符识别模型生成和竖列字符图像识别方法和装置,通过先得到与标准行字符图像中各字符单元相差90度的旋转行字符图像,而后生成旋转行字符训练样本,进而对设定神经网络进行训练,生成图像字符识别模型,然后使用该图像字符识别模型识别将待识别竖列字符图像整体进行90度旋转后得到的旋转待识别图像,最后根据图像字符识别模型的输出,确定与待识别竖列字符图像对应的竖列字符识别结果,克服了难以直接利用已有的行字符图像来训练竖列字符图像识别模型的技术缺陷,实现了对竖列字符的高效识别。

附图说明

图1是本发明实施例一提供的一种图像字符识别模型生成方法的流程图;

图2a是本发明实施例二提供的一种图像字符识别模型生成方法的流程图;

图2b是本发明实施例二提供的目标操作图像的示例图;

图2c是本发明实施例二提供的字符单元图片集合的示例图

图2d是本发明实施例二提供的字符单元图片旋转的示例图;

图2e是本发明实施例二提供的旋转行字符图像的示例图;

图3a是本发明实施例三提供的一种图像字符识别模型生成方法的流程图;

图3b是本发明实施例三提供的标准竖列字符图像的示例图;

图3c是本发明实施例三提供的旋转行字符图像的示例图;

图4是本发明实施例四提供的一种竖列字符图像识别方法的流程图;

图5是本发明实施例五提供的一种竖列字符图像识别方法的流程图;

图6是本发明实施例六提供的一种图像字符识别模型生成装置的结构图;

图7是本发明实施例七提供的一种竖列字符图像识别装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。

另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

首先,为了后文便于理解,将本发明实施例的发明构思进行简单介绍:

一般来说,为了实现对图像中包括的中文或者日文内容进行识别,可以预先训练一个图像字符识别模型,训练后该图像字符识别模型的输入为图像,输出为与识别结果对应的字符串。

例如,输入一个文字内容为“中国”的设定图片格式(典型的:.jpg或者.png等)的图像输入至一个训练好的图像字符识别模型中后,该模型的输出结果理想应为“中国”这一中文字符串。

其中,一般来说,由于同时存在有行字符图像以及竖列字符图像,在训练该图像字符识别模型时,需要针对行字符图像以及竖列字符图像分别训练不同的图像字符识别模型。所谓行字符图像,具体是指图像中出现的各字符是横向排列的;所谓竖列字符图像,具体是指图像中出现的各字符是竖向排列的。

因此,为了训练对应的图像字符识别模型,需要预先标注大量的训练样本,其中,训练样本包括:行字符或者竖列字符图像,以及与图像对应的预期字符识别结果(与图像准确对应的字符串)。

一般来说,由于网络中出现的行字符图像比较多,因此,存在有大量的已经针对行字符图像的图像字符识别模型的训练样本。正常来说,如果需要生成针对竖列字符图像的图像字符识别模型的训练样本,需要再重新标注大量的竖列字符图像,这种实现方案存在的主要技术问题就是网络中存在的竖列文字图像数量较少,以及需要重新投入大量的人力和物理成本。

在本实施例中,发明人创造性的提出了使用已有的针对行文字图像的图像字符识别模型的训练样本,并进行简单的处理即可作为针对竖列文字图像的图像字符识别模型的训练样本的技术方案。

具体的,发明人考虑到如果将一个竖列文字图像进行整体的90度旋转后,其可以看成一个特殊的行文字图像,只是在这样的行文字图像中,各个文字相对于标准文字来说,均进行了90度的旋转。因此,如果能将现有的行文字图像训练样本转换为各个文字均进行90度旋转的图像,即可作为针对竖列文字图像的图像字符识别模型的训练样本,这就是本案的核心发明点。

实施例一

图1为本发明实施例一提供的一种图像字符识别模型生成方法的流程图,本实施例的方法可以由图像字符识别模型生成装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于进行图像字符识别的设备中,例如:智能手机、计算机以及平板电脑等,本实施例对此不进行限制。

本实施例的方法具体包括:

110、生成旋转行字符训练样本,其中,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;

在本实施例中,标准行字符图像具体是指图像中包括一个或者多个横向排列的字符单元的图像。

其中,该字符单元具体可以是中文字、日文字、英文字母或数字等。

一般来说,中文字以及日文字中经常会出现文字竖向排列的形式,因此,本实施例的方法主要适用于基于中文字以及日文字的竖列字符图像的识别。此外,如果需要识别的竖列字符图像中包括有单独存在的一个或者多个英文字母或者数字,同样可以适用于本发明实施例的方法进行识别。

示例性的,若标准行字符图像中的字符为“一帆风顺”,那么该标准行字符图像包括四个字符单元,分别是“一”、“帆”、“风”和“顺”。

标准行字符图像的获取方式具体可以是从已有的标准行字符图像样本中选取或是由横向字符图片生成工具生成等,本实施例对此不进行限制。

在本实施例中,旋转行字符图像具体可以是标准行字符图像经过一定变化得到的或是标准竖列字符图像经过90度旋转得到的等,本实施例对此不进行限制。

其中,标准竖列字符图像具体可以是从已有的标准竖列字符图像样本中选取或是由竖列字符图片生成工具生成等,本实施例对此不进行限制。进一步地,标准竖列字符图像经过90度旋转具体是指标准竖列字符图像整体进行90度顺时针旋转或是90度逆时针旋转等,本实施例对此也不进行限制。

其中,标准行字符图像经过一定变化具体可以是将标准行字符图像中包括的各字符单元分别均进行90度顺时针旋转或分别均进行90度逆时针旋转等。

相应的,旋转行字符图像对应的预期字符识别结果具体可以是标准行字符图像对应的预期字符识别结果或是标准竖列字符图像对应的预期字符识别结果等。进一步地,当标准行字符图像具体是从已有的标准行字符图像样本中选取的,那么,标准行字符图像对应的预期字符识别结果就是该已有的标准行字符图像样本对应的字符识别结果;当标准行字符图像具体是由横向字符图片生成工具生成的,那么,该标准行字符图像对应的预期字符识别结果就是横向字符图片生成工具的输入字符按顺序横向排列的结果。同样的,标准竖列字符图像对应的预期字符识别结果的确定方式与标准行字符图像对应的预期字符识别结果确定方式相同。

120、使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。

在本实施例中,设定神经网络具体可以是循环神经网络或是卷积神经网络(Convolutional Neural Network,CNN)等,本实施例对此不进行限制。

在本实施例中,对设定神经网络进行训练具体是指向设定神经网络输入旋转行字符训练样本中的旋转行字符图像,通过一定算法调整设定神经网络的结构(例如:权值),使得设定神经网络的输出与旋转行字符图像对应的预期字符识别结果相符。其中,一定算法具体是指设定神经网络内部嵌套的调整设定神经网络结构的算法。

其中,旋转行字符样本中的旋转行字符图像中的各字符单元,无论是标准行字符图像中各字符单元顺时针旋转90度所得,还是标准行字符图像中各字符单元逆时针旋转90度所得,都可以同时对同一设定神经网络进行训练,调整神经网络的结构,也就是说,旋转行字符图像的获得方式不影响其对设定神经网络的训练结果。

相应的,图像字符识别模型具体是指通过使用旋转行字符训练样本对设定神经网络进行训练,最终得到的训练完成的设定神经网络。

本发明实施例提供的图像字符识别模型生成方法,通过先生成旋转行字符图像,其中,旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度,而后得到旋转行字符图像训练样本,进而对设定神经网络进行训练,生成图像字符识别模型,使得该图像字符识别模型可以用来识别竖列字符图像,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。

实施例二

图2a是本发明实施例二提供的一种图像字符识别模型生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将生成旋转行字符训练样本具体优化为:获取标准行字符图像样本中的标准行字符图像作为目标操作图像;根据所述目标操作图像中每个字符单元的标注位置,对所述目标操作图像进行裁剪,并生成与所述目标操作图像中各字符单元对应的字符单元图片集合;分别将所述字符单元图片集合中的各字符单元图片进行90度旋转;将旋转后所述字符单元图片按照裁剪顺序进行拼接,生成旋转行字符图像;根据拼接生成的所述旋转行字符图像,以及与所述目标操作图像对应的预期字符识别结果,生成所述旋转行字符训练样本。

相应的,本实施例的方法具体包括:

210、获取标准行字符图像样本中的标准行字符图像作为目标操作图像;

在本实施例中,标准行字符图像样本具体是指图像中包括一个或者多个横向排列的字符单元的图像样本及该图像对应的字符识别结果所组成的样本。进一步地,标准行字符图像样本具体可以是从网络中下载的标准行字符图像样本或是由横向字符图片生成工具生成的标准行字符图像及其对应的输入字符组成的标准行字符图像样本等,本实施例对此不进行限制。

相应的,目标操作图像具体是指标准行字符图像样本中的标准行字符图像,如图2b所示。

220、根据所述目标操作图像中每个字符单元的标注位置,对所述目标操作图像进行裁剪,并生成与所述目标操作图像中各字符单元对应的字符单元图片集合;

在本实施例中,字符单元的标注位置具体可以是字符单元四个顶点位于目标操作图像中的具体的像素位置等。本领域技术人员可以理解的是,在作为神经网络训练样本的图像中,除了预先标注了该图像对应的字符识别结果之外,优选还可以对该图像中各字符单元的位置进行了预先标注。

在本实施例中,对目标操作图像进行剪裁具体是指依据目标操作图像中每个字符的标注位置,对目标操作图像进行剪切,最终得到字符单元图片集合,如图2c所示。

230、分别将所述字符单元图片集合中的各字符单元图片进行90度旋转;

在本实施例中,字符单元图片集合中的各字符单元图片进行90度旋转具体可以是各字符单元图片分别均进行90度顺时针旋转或分别均进行90度逆时针旋转,本实施例对此不进行限制。图2d是将图2c中各字符单元图片均进行90度逆时针旋转得到的旋转后的字符单元图片集合。

240、将旋转后所述字符单元图片按照裁剪顺序进行拼接,生成旋转行字符图像;

图2e是将图2d中的旋转后的字符单元图片按照裁剪顺序进行拼接得到的旋转行字符图像。

250、根据拼接生成的所述旋转行字符图像,以及与所述目标操作图像对应的预期字符识别结果,生成所述旋转行字符训练样本;

在本实施例中,目标操作图像对应的预期字符识别结果具体是指标准行字符图像样本中的标准行字符图像对应的字符识别结果。

在本实施例中,旋转行字符训练样本具体是指由旋转行字符图像和与所述目标操作图像对应的预期字符识别结果组成的样本。

260、使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。

本发明实施例提供的图像字符识别模型生成方法,通过先获取标准行字符图像样本中的标准行字符图像作为目标操作图像,然后根据目标操作图像中每个字符单元的标注位置,对目标操作图像进行裁剪,生成与目标操作图像中各字符单元对应的字符单元图片集合,分别将字符单元图片集合中的各字符单元图片进行90度旋转,再将旋转后的字符单元图片按照裁剪顺序进行拼接,生成旋转行字符图像,根据拼接生成的旋转行字符图像,以及与目标操作图像对应的预期字符识别结果,生成旋转行字符训练样本,最后,使用旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型,使得该图像字符识别模型可以用来识别竖列字符图像,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。

进一步的,行级别图像的识别框架基础上,通过使用已有的标准行字符图像样本以及基于文本行设计的网络模型,即可训练得到针对竖列字符图像的图像字符识别模型,在不引入大量人力物力成本的基础上,可以高效地实现竖列字符单元的识别。

实施例三

图3a是本发明实施例三提供的一种图像字符识别模型生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将生成旋转行字符训练样本具体优化为:将设定字符单元输入至竖列字符图片生成工具中,生成标准竖列字符图像;将所述标准竖列字符图像作为一个整体进行90度旋转,生成旋转行字符图像作为目标操作图像;将所述设定字符单元作为所述目标操作图像的预期字符识别结果,生成所述旋转行字符训练样本。

相应的,本实施例的方法具体包括:

310、将设定字符单元输入至竖列字符图片生成工具中,生成标准竖列字符图像;

在本实施例中,设定字符单元具体可以是中文字、日文字、英文字母或数字,本实施例对此不进行限制。

在本实施例中,竖列字符图片生成工具具体是指可以依据输入的字符以及字符的输入顺序,生成与之对应的竖列图片的工具。图3b所示为标准竖列字符图像示例图。

320、将所述标准竖列字符图像作为一个整体进行90度旋转,生成旋转行字符图像作为目标操作图像;

在本实施例中,将标准竖列字符图像作为一个整体进行90度旋转具体可以是进行90度顺时针旋转或进行90度逆时针旋转,本实施例对此不进行限制。将图3b逆时针旋转90度得到图3c所示的旋转行字符图像。

330、将所述设定字符单元作为所述目标操作图像的预期字符识别结果,生成所述旋转行字符训练样本;

在本实施例中,旋转行字符训练样本具体是指由目标操作图像和目标操作图像的预期字符识别结果组成的样本。

340、使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。

本发明实施例提供的图像字符识别模型生成方法,通过先将设定字符单元输入至竖列字符图片生成工具中,生成标准竖列字符图像,然后将标准竖列字符图像作为一个整体进行90度旋转,生成旋转行字符图像作为目标操作图像,将设定字符单元作为目标操作图像的预期字符识别结果,生成旋转行字符训练样本,最后,使用旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型,使得该图像字符识别模型可以用来识别竖列字符图像,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。

需要再次强调的是,考虑到直接使用竖列字符图片生成工具生成的各竖列图像其图像格式也会相对比较相似,如果仅使用该竖列字符图片生成工具生成的各竖列图像作为训练样本,则会使训练样本缺乏多样性,在本实施例的一个优选的实施方式中,可以首先以实施例二的方法首先生成一定数量的旋转行字符训练样本,之后在以实施例三的方法生成一定数量的旋转行字符训练样本,两者组合共同构成旋转行字符训练样本。

实施例四

图4为本发明实施例四提供的一种竖列字符图像识别方法的流程图,本实施例的方法可以由竖列字符图像识别装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于进行图像字符识别的设备中,例如:智能手机、计算机以及平板电脑等,本实施例对此不进行限制。

本实施例的方法具体包括:

410、将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;

在本实施例中,待识别竖列字符图像具体是指图像中包括一个或者多个竖向排列的字符单元的图像。

在本实施例中,将待识别竖列字符图像作为一个整体进行90度旋转具体可以是进行90度顺时针旋转或进行90度逆时针旋转,本实施例对此不进行限制。

420、将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;

在本实施例中,图像字符识别模型的输入图像的格式具体可以是JPG格式、BMP格式或GIF格式的,本实施例对此不进行限制。

430、根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果。

在本实施例中,图像字符识别模型的输出结果具体是指与旋转待识别图像中的字符一一对应的横向放置的字符串。

在本实施例中,确定与待识别竖列字符图像对应的竖列字符识别结果具体是指确定旋转待识别图像的识别结果中的各个字符在竖列字符识别结果中对应的位置。其中,确定与待识别竖列字符图像对应的竖列字符识别结果的方式具体可以是依据图像字符识别模型的输出结果中各字符与旋转待识别图像中各字符的位置对应关系,以及旋转待识别图像中各字符与待识别竖列字符图像中各字符的位置对应关系,确定与待识别竖列字符图像对应的竖列字符识别结果等。

本发明实施例提供的竖列字符图像识别方法,通过先将待识别竖列字符图像作为一个整体进行90度旋转生成旋转待识别图像,然后将所述旋转待识别图像输入至由旋转行字符图像训练样本训练设定神经网络模型生成的图像字符识别模型中,最后根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。

在上述实施例的基础上,进一步进行优化,具体优化为:在将所述旋转待识别图像输入至图像字符识别模型中之前,还包括:根据所述图像字符识别模型的模型参数,对所述旋转待识别图像进行尺寸归一化处理。

这样设置的好处是:由于一般来说图像字符识别模型可以准确识别的字符图像的尺寸的一定的,也就是说,为了让图像字符识别模型对字符图像进行准确识别,在将字符图像输入至图像字符识别模型之前,应将字符图像的尺寸变换为图像字符识别模型可以识别的尺寸,这样使得图像字符识别模型可以更加准确地对待识别竖列字符图像进行识别。

实施例五

图5是本发明实施例五提供的一种竖列字符图像识别方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果具体优化为:获取所述图像字符识别模型的输出结果作为行字符识别结果,并在所述旋转待识别图像中识别各字符单元的显示位置;根据各字符单元在所述旋转待识别图像与所述待识别竖列字符图像中显示位置,确定所述行字符识别结果在所述待识别竖列字符图像中的显示位置;根据所述行字符识别结果在所述待识别竖列字符图像中的显示位置以及所述行字符识别结果,生成所述竖列字符识别结果。

相应的,本实施例的方法具体包括:

510、将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;

520、将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;

530、获取所述图像字符识别模型的输出结果作为行字符识别结果,并在所述旋转待识别图像中识别各字符单元的显示位置;

在本实施例中,识别旋转待识别图像中各字符单元的显示位置具体是指确定各字符单元的四个顶点位于旋转待识别图像中的具体像素位置。

540、根据各字符单元在所述旋转待识别图像与所述待识别竖列字符图像中显示位置,确定所述行字符识别结果在所述待识别竖列字符图像中的显示位置;

在本实施例中,由于旋转待识别图像中各字符单元的显示位置与待识别竖列字符图像中各字符单元的显示位置有固定的对应关系,同时,行字符识别结果中各字符单元的显示位置与旋转待识别图像中各字符单元的显示位置也有固定的对应关系,因此,可以依据上述两组固定的对应关系,进而确定行字符识别结果中各字符单元的显示位置与待识别竖列字符图像中各字符单元显示位置的对应关系,最终确定行字符识别结果在待识别竖列字符图像中的显示位置。

550、据所述行字符识别结果在所述待识别竖列字符图像中的显示位置以及所述行字符识别结果,生成所述竖列字符识别结果。

在本实施例中,竖列字符识别结果具体是指包括一个或多个竖向排列的字符的字符串。其中,一个或多个竖向排列的字符与待识别竖列字符图像中的字符一一对应。

本发明实施例提供的竖列字符图像识别方法,通过先获取图像字符识别模型的输出结果作为行字符识别结果,并在旋转待识别图像中识别各字符单元的显示位置,根据各字符单元在旋转待识别图像与待识别竖列字符图像中显示位置,确定行字符识别结果在待识别竖列字符图像中的显示位置,根据行字符识别结果在所述待识别竖列字符图像中的显示位置以及所述行字符识别结果,生成所述竖列字符识别结果,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。

实施例六

图6是本发明实施例六提供的一种图像字符识别模型生成装置。如图6所示,所述装置包括:训练样本生成模块101以及图像字符识别模型生成模块102,其中:

训练样本生成模块101,用于生成旋转行字符训练样本,其中,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;

图像字符识别模型生成模块102,用于使用所述旋转行字符训练样本对设定神经网络进行训练,生成图像字符识别模型。

本发明实施例提供的图像字符识别模型生成装置,通过先生成旋转行字符图像,其中,旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度,而后得到旋转行字符图像训练样本,进而对设定神经网络进行训练,生成图像字符识别模型,使得该图像字符识别模型可以用来识别竖列字符图像,克服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。

在上述各实施例的基础上,所述字符单元可以包括下述至少一项:中文字、日文字、英文字母以及数字。

在上述各实施例的基础上,所述训练样本生成模块可以包括:

目标操作图像获取单元,用于获取标准行字符图像样本中的标准行字符图像作为目标操作图像;

字符单元图片集合生成单元,用于根据所述目标操作图像中每个字符单元的标注位置,对所述目标操作图像进行裁剪,并生成与所述目标操作图像中各字符单元对应的字符单元图片集合;

字符单元图片旋转单元,用于分别将所述字符单元图片集合中的各字符单元图片进行90度旋转;

旋转行字符图像生成单元,用于将旋转后所述字符单元图片按照裁剪顺序进行拼接,生成旋转行字符图像;

旋转行字符训练样本生成单元,用于根据拼接生成的所述旋转行字符图像,以及与所述目标操作图像对应的预期字符识别结果,生成所述旋转行字符训练样本。

在上述各实施例的基础上,所述训练样本生成模块可以包括:

标准竖列字符图像生成单元,用于将设定字符单元输入至竖列字符图片生成工具中,生成标准竖列字符图像;

竖列字符目标操作图像生成单元,用于将所述标准竖列字符图像作为一个整体进行90度旋转,生成旋转行字符图像作为目标操作图像;

竖列字符训练样本生成单元,用于将所述设定字符单元作为所述目标操作图像的预期字符识别结果,生成所述旋转行字符训练样本。

在上述各实施例的基础上,所述90度旋转可以包括:90度顺时针旋转,和/或90度逆时针旋转;

所述设定神经网络包括循环神经网络。

本发明实施例所提供的图像字符识别模型生成装置可用于执行本发明实施例一至实施例三提供的图像字符识别模型生成方法,具备相应的功能模块,实现相同的有益效果。

实施例七

图7是本发明实施例七提供的一种竖列字符图像识别装置。如图7所示,所述装置包括:旋转待识别图像生成模块201、旋转待识别图像输入模块202和竖列字符识别结果确定模块203。其中:

旋转待识别图像生成模块201,用于将待识别竖列字符图像作为一个整体进行90度旋转,生成旋转待识别图像;

旋转待识别图像输入模块202,用于将所述旋转待识别图像输入至图像字符识别模型中,其中,所述图像字符识别模型由旋转行字符图像训练样本训练设定神经网络模型生成,所述旋转行字符训练样本包括:旋转行字符图像以及与所述旋转行字符图像对应的预期字符识别结果,所述旋转行字符图像中的各字符单元与标准行字符图像中各字符单元相差90度;

竖列字符识别结果确定模块203,用于根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果。

本发明实施例提供的竖列字符图像识别装置,通过先将待识别竖列字符图像作为一个整体进行90度旋转生成旋转待识别图像,然后将所述旋转待识别图像输入至由旋转行字符图像训练样本训练设定神经网络模型生成的图像字符识别模型中,最后根据所述图像字符识别模型的输出,确定与所述待识别竖列字符图像对应的竖列字符识别结果,服了难以直接利用已有的行字符图像来训练竖列字符图像的识别模型的技术缺陷,实现了对竖列字符的高效识别。

在上述各实施例的基础上,在所述旋转待识别图像输入模块之前,还可以包括:

图像尺寸归一化模块,用于根据所述图像字符识别模型的模型参数,对所述旋转待识别图像进行尺寸归一化处理。

在上述各实施例的基础上,所述竖列字符识别结果确定模块可以包括:

字符单元显示位置识别单元,用于获取所述图像字符识别模型的输出结果作为行字符识别结果,并在所述旋转待识别图像中识别各字符单元的显示位置;

行字符识别结果显示位置确定单元,用于根据各字符单元在所述旋转待识别图像与所述待识别竖列字符图像中显示位置,确定所述行字符识别结果在所述待识别竖列字符图像中的显示位置;

竖列字符识别结果生成单元,用于根据所述行字符识别结果在所述待识别竖列字符图像中的显示位置以及所述行字符识别结果,生成所述竖列字符识别结果。

本发明实施例所提供的竖列字符图像识别装置可用于执行本发明实施例四至实施例五提供的竖列字符图像识别方法,具备相应的功能模块,实现相同的有益效果。

显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器来实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1