一种文字识别方法、装置、服务器及存储介质与流程

文档序号：21697650发布日期：2020-07-31 22:47阅读：135来源：国知局

本发明涉及文字识别技术领域，更具体地说，涉及一种文字识别方法、装置、服务器及存储介质。

背景技术：

随着科学技术的快速发展，文字识别技术也在快速的发展，且被广泛的应用于各个行业中。

传统的文字识别方法是通过模板匹配法或者手工几何特征提取法实现对图像中文字的识别，然而由于文字具有一定的语义信息、且自然场景下图像中文字往往存在光照不均、遮挡、扭曲等问题，传统的文字识别方法对图像中文字的识别结果通常不够准确。

现有的文字识别方法是通过文字识别模型实现对图像中文字的识别，这种识别方式虽然能够在一定程度上提高文字识别结果的准确程度；但是，现有的文字识别模型这只能对固定文字格式的文字图像进行文字识别，若要对不同文字格式的文字图像进行文字识别需要训练不同的文字识别模型。通过不同文字识别模型对不同文字格式的文字图像进行文字识别，导致服务器在加载文字识别模型时需要同时加载的多个文字识别模型，大大增加了内存或显存的使用量，导致利用文字识别模型进行文字识别的效率低。并且，现有技术提供的文字识别模型所涉及到的文字格式通常仅涉及到常见的一种横排文字格式(比如，正向横排文字格式)和一种竖排文字格式(比如，正向竖排文字格式)，不能实现对更多种类的文字格式的文字图像的文字识别。

技术实现要素：

有鉴于此，本申请提供的一种文字识别方法、装置、服务器及存储介质，以实现对更多种类的文字格式的文字图像的文字识别，以及提高文字识别模型进行文字识别的效率为目的。技术方案如下所示：

本发明第一方面公开一种文字识别方法，包括：

确定待进行文字识别的第一文字图像；

将所述第一文字图像转换成满足文字识别模型的图像输入条件的第二文字图像；

将所述第二文字图像输入至所述文字识别模型得到所述文字识别模型对所述第二文字图像的文字识别结果；

其中，待训练文字识别模型包括用于提取文字图像的文字图像特征的第一网络、用于对所述文字图像特征进行文字识别结果预测的第二网络，以及用于对所述文字图像特征进行文字格式预测的第三网络，文字格式表征文字图像中文字排列方式；所述文字识别模型以所述第二网络对文字图像样本的文字识别结果趋近于所述文字图像样本携带的目标文字识别结果以及所述第三网络预测的所述文字图像样本中文字的文字格式趋近于所述文字图像样本携带的目标文字格式为训练目标，对所述待训练文字识别模型进行训练生成。

可选的，所述图像输入条件指示文字图像的目标图像格式，所述将所述第一文字图像转换成满足文字识别模型的图像输入条件的第二文字图像，包括：

检测所述第一文字图像的图像格式是否为所述图像输入条件指示的目标图像格式；

若所述第一文字图像的图像格式不为所述图像输入条件指示的目标图像格式，将所述第一文字图像按照预设旋转方式旋转预设角度得到第二文字图像，所述第二文字图像的图像格式为所述目标图像格式。

可选的，还包括：

将所述第二文字图像的高转换成预设高度。

可选的，还包括文字识别模型生成过程，该文字识别模型生成过程包括：

获取文字图像样本，所述文字图像样本携带目标文字识别结果和目标文字格式；

将所述文字图像样本转换成满足所述图像输入条件的目标文字图像样本；

将所述目标文字图像样本输入至待训练文字识别模型得到所述第二网络预测出的所述目标文字图像样本的文字识别结果和所述第三网络预测出的所述目标文字图像样本中文字的文字格式；

以所述文字识别结果趋近于所述目标文字识别结果且所述文字格式趋近于所述目标文字格式为训练目标反向调节所述第一网络，以所述文字识别结果趋近于所述目标文字识别结果为训练目标反向调节所述第二网络，且以所述文字格式趋近于所述目标文字格式为训练目标反向调节所述第三网络，对所述待训练文字识别模型进行训练得到第一文字识别模型；所述第一文字识别模型中的第一网络和第二网络构成文字识别模型。

可选的，还包括：

将第一目标文字图像样本输入至待训练文字识别模型得到所述第三网络预测出的所述第一目标文字图像样本中文字的文字格式；

以预测出的所述第一目标文字图像样本中文字的文字格式趋近于所述第一目标文字图像样本携带的目标文字格式为训练目标，反向调节所述待训练文字识别模型中的所述第一网络和所述第三网络，对所述待训练文字识别模型进行训练得到第二文字识别模型；

所述将所述目标文字图像样本输入至待训练文字识别模型得到所述第二网络预测出的所述目标文字图像样本的文字识别结果和所述第三网络预测出的所述目标文字图像样本中文字的文字格式，包括：

将第二目标文字图像样本输入至所述第二文字识别模型得到所述第二网络预测出的所述第二目标文字图像样本的文字识别结果和所述第三网络预测出的所述第二目标文字图像样本中文字的文字格式；所述第一目标文字图像样本和所述第二目标文字图像样本均为所述目标文字图像样本。

可选的，还包括：

随机确定所述文字图像样本中的目标区域，所述目标区域覆盖所述文字图像样本的部分文字内容；

采用随机颜色覆盖所述文字图像样本中所述目标区域。

可选的，所述目标区域包括条状区域和块状区域中的任意一个或多个。

可选的，所述第一网络为卷积神经网络、所述第二网络为循环神经网络，所述第三网络为分类网络。

本发明第二方面公开一种文字识别装置，包括：

第一确定单元，用于确定待进行文字识别的第一文字图像；

第一转换单元，用于将第一文字图像转换成满足文字识别模型的图像输入条件的第二文字图像；

识别单元，用于将所述第二文字图像输入至所述文字识别模型得到所述文字识别模型对所述第二文字图像文字识别结果；

其中，待训练文字识别模型包括用于提取文字图像的文字图像特征的第一网络、用于对所述文字图像特征进行文字识别结果预测的第二网络，以及用于对所述文字图像特征进行文字格式预测的第三网络，文字格式表征文字图像中文字排列方式；所述文字识别模型以所述第二网络对文字图像样本的文字识别结果趋近于所述文字图像样本携带的目标文字识别结果以及所述第三网络预测的所述文字图像样本的文字格式趋近于所述文字图像样本携带的目标文字格式为训练目标，对所述待训练文字识别模型进行训练生成。

本发明第三方面公开一种服务器，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储存储的程序，所述程序用于实现如上述本发明第一方面任意一项公开的文字识别方法。

本发明第四方面公开一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行如上述本发明第一方面任意一项公开的文字识别方法。

本发明提供一种文字识别方法、装置、服务器及存储介质，在确定待进行文字识别的第一文字图像后，将第一文字图像转换成满足文字识别模型的图像输入条件的第二文字图像；将第二文字图像输入至文字识别模型得到文字识别模型对第二文字图像的文字识别结果，其中，待训练文字识别模型包括用于提取文字图像的文字图像特征的第一网络、用于对文字图像特征进行文字识别结果预测的第二网络，以及用于对文字图像特征进行文字格式预测的第三网络，文字格式表征文字图像中文字排列方式；文字识别模型以第二网络对文字图像样本的文字识别结果趋近于文字图像样本携带的目标文字识别结果以及第三网络预测的文字图像样本的文字格式趋近于文字图像样本携带的目标文字格式为训练目标，对待训练文字识别模型进行训练生成。

本发明提供的文字识别模型是通过文字识别结果和文字格式对待训练文字识别模型进行训练得到的，文字格式表征文字图像中文字排列方式，多种文字排列方式对应多种文字格式，因此本申请提供的这个文字识别模型可以对更多种类的文字格式的文字图像进行文字识别，并且，通过一个文字识别模型实现对更多种类的文字格式的文字图像的文字识别，服务器在加载文字识别模型时，只需要加载一个文字识别模型，减小了内存或显存的使用量，进而提高文字识别模型进行文字识别的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种待训练的文字识别模型的结构示意图；

图2为本发明实施例提供的一种文字识别模型生成过程的方法的流程示意图；

图3(a)-图3(d)为本发明实施例提供的文字图像中文字排列方式的示意图；

图4为本发明实施例提供的另一种文字识别模型生成过程的方法的流程示意图；

图5为本发明实施例提供的一种第二文字识别模型的结构示意图；

图6为本发明实施例提供的一种文字识别方法的流程示意图；

图7为本发明实施例提供的一种文字识别装置的结构示意图；

图8为本发明实施例提供的一种服务器的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由上述背景技术可知，现有的一个文字识别模型无法实现对不同文字格式的文字图像进行文字识别，若要对不同文字格式的文字图像进行文字识别需要训练不同的文字识别模型。通过不同文字识别模型对不同文字格式的文字图像进行文字识别，导致服务器在加载文字识别模型时需要同时加载的多个文字识别模型，大大增加了内存或显存的使用量，导致利用文字识别模型进行文字识别的效率低。并且，现有技术提供的文字识别模型所涉及到的文字格式通常仅涉及到常见的一种横排文字格式(比如，正向横排文字格式)和一种竖排文字格式(比如，正向竖排文字格式)，不能实现对更多种类的文字格式的文字图像的文字识别。

因此，本申请提出一种文字识别方法、装置、服务器及存储介质，通过一个文字识别模型能够对更多种类的文字格式的文字图像进行文字识别，这样，不仅能够实现对更多种类的文字格式的文字图像的文字识别，而且服务器在加载文字识别模型时，只需要加载一个文字识别模型，减小了内存或显存的使用量，进而提高文字识别模型进行文字识别的效率。

参见图1，示出了本发明实施例提供的一种待训练文字识别模型的结构示意图。待训练文字识别模型包括用于提取文字图像的文字图像特征的第一网络、用于对文字图像特征进行文字识别结果预测的第二网络，以及用于对文字图像特征进行文字格式预测的第三网络。其中，第一网络的第一输出端与第二网络的输入端相连，第一网络的第二输出端与第三网络的输入端相连。

在本申请实施例中，第一网络可以为卷积神经网络，第二网络可以为循环神经网络，具体可以为lstm循环神经网络，第三网络可以为以vgg为主干网络构建的一个标准的分类网络。有关于第一网络、第二网络和第三网络的具体选取，发明人可根据自己的需求进行选取，本申请实施例不加以限定。

参见图2，示出了本发明实施例提供的一种文字识别模型的生成过程的方法的流程示意图，该文字识别模型的生成过程具体包括以下步骤：

s201：获取文字图像样本，文字图像样本携带目标文字识别结果和目标文字格式；

在本申请实施例中，可以收集自然场景下的图像样本集。有关于收集自然场景的图像样本的具体数量，发明人可根据自己的需求进行收集，本申请实施例不加以限定。

在具体执行步骤s201的过程中，收集自然场景下的图像样本集，针对收集到的图像样本集中的每个图像样本而言，将该图像样本中的文字区域进行剪裁得到文字图像样本；将文字图像样本中的文字内容做为文字识别结果进行标注，以及将文字图像样本中文字的文字格式进行标注(为了便于区分，将标注出的文字图像样本的文字格式称为目标文字格式，将标注出的文字图像样本的文字识别结果称为目标文字结果)，得到携带目标文字识别结果和目标文字格式的文字图像样本。进一步的，还可以采用图像合成的方式对文字图像样本进行处理，以得到更多种类的文字图像样本。

在本申请实施例中，文字图像样本中的文字的文字格式表征文字图像样本中文字排列方式；文字图像样本中文字排列方式可以为正向横排文字、反向横排文字、正向竖排文字、反向竖排文字；当文字图像样本中文字排列方式为正向横排文字时，文字图像样本可以认为是正向横排文字图像样本；当文字图像样本中文字排列方式为反向横排文字时，文字图像样本可以认为是反向横排文字图像样本；当文字图像样本中文字排列方式为正向竖排文字时，文字图像样本可以认为是正向竖排文字图像样本；当文字图像样本文字排列方式为反向竖排文字时，文字图像样本可以认为是反向竖排文字图像样本。

参见图3(a)示出了文字格式表征文字排列方式为正向横排文字的两个文字图像样本，这两个文字图像样本分别为正向横排文字图像样本1、正向横排文字图像样本2；图3(b)示出了文字格式表征文字排列方式为反向横排文字的两个文字图像样本，这两个文字图像样本分别为反向横排文字图像样本1、反向横排文字图像样本2；图3(c)示出了文字格式表征文字排列方式为正向竖排文字的两个文字图像样本，这两个文字图像样本分别为正向竖排文字图像样本1、正向竖排文字图像样本2；图3(d)示出了文字格式表征文字排列方式为反向竖排文字的两个文字图像样本，这两个文字图像样本分别为反向竖排文字图像样本1、反向竖排文字图像样本2。

在本申请实施例中，除了可以选取文字排列方式为正向横排文字和正向竖排文字的文字图像样本作为待训练文字识别模型的训练样本，还可以选取文字排列方式为反向横排文字和反向竖排文字中的任意一种或多种文字排列方式的文字图像样本作为待训练文字识别模型的训练样本。有关于具体选取那几种文字排列方式的文字图像样本作为待训练文字识别模型的训练样本，发明人可以根据自己的需求进行选取，本申请实施例不加以限定。

s202：将文字图像样本转换成满足图像输入条件的目标文字图像样本；

在本申请实施例中，图像输入条件指示文字图像样本的目标图像格式，该目标图像格式可以为横排图像或者竖排图像，该目标图像格式是预先设置的。其中，若文字图像样本的长大于宽，则确定该文字图像的图像格式为横排图像，若文字图像样本的宽大于长，则确定该文字图像的图像格式为竖排图像。

在本申请实施例中，在获取到文字图像样本后，检测该文图图像样本的图像格式是否为图像输入条件指示的目标图像格式，若文字图像样本的图像格式为图像输入条件指示的目标图像格式，将该文字图像样本作为目标文字图像样本输入至待训练文字识别模型对待训练文字识别模型进行训练得到文字识别模型。

若该文字图像样本的图像格式不为目标图像格式，将该文字图像样本按照预设旋转方式旋转预设角度得到满足待训练文字识别模型的图像输入条件的目标文字图像样本。其中预设旋转方式可以为顺时针旋转，预设角度可以为90度。有关于预设旋转方式的具体方式和预设角度的具体内容，发明人可根据自己的需求进行设置，本申请实施例不加以限定。

比如，若图像输入条件指示的目标图像格式为横排图像。在获取到文字图像样本后，检测该文图图像样本的长是否大于宽；参见图3(a)和图3(c)，若所获取的文字图像样本为图3(a)所示的正向横排文字图像样本1，确定该文字图像样本的长大于宽，进而确定该文字图像样本的图像格式为横排图像，将该文字图像样本作为目标文字图像样本输入至待训练文字识别模型对待训练文字识别模型进行训练得到文字识别模型。若所获取的文字图像样本为图3(c)所示的正向竖排文字图像样本1，确定该文字图像样本的长不大于宽，进而确定该文字图像样本的图像格式不为横排图像，将该文字图像样本顺时针旋转90度得到满足待训练文字识别模型的图像输入条件的目标文字图像样本，即，将正向竖排文字图像样本1顺时针旋转90度得到正向横排文字图像样本1(目标文字图像样本)。

s203：将目标文字图像样本输入至待训练文字识别模型得到第二网络预测出的目标文字图像样本的文字识别结果和第三网络预测出的目标文字图像样本中文字的文字格式；

在具体执行步骤s203的过程中，将目标文字图像样本输入至待训练文字识别模型中，待训练文字识别模型中的第一网络对输入的目标文字图像样本进行特征提取，得到该目标文字图像样本的文字图像特征；第二网络基于第一网络所提取到的文字图像特征进行文字识别结果预测，得到该目标文字图像样本的文字识别结果；第三网络基于第一网络所提取到的文字图像特征进行文字格式预测，得到该目标文字图像样本中文字的文字格式。

进一步的，在本申请实施例中，在将满足图像输入条件的目标文字图像样本输入待训练文字识别模型之前，本发明还可以将满足图像输入条件的目标文字图像样本的高转换成预设高度；随机确定将高转成预设高度的目标文字图像样本中的目标区域，并采用随机颜色覆盖所确定的目标区域；将高转成预设高度，且采用随机颜色覆盖所确定的目标区域的目标文字图像样本输入待训练文字识别模型，对待训练的文字识别模型进行训练得到文字识别模型，能够提高文字识别模型对遮挡字体和不规则字体的识别能力。其中，目标区域覆盖该目标文字图像样本的部分文字内容。

在本申请实施例中，预设高度可以为96个像素，随机确定的文字图像样本中的目标区域可以为条状区域和块状区域中的任意一个或多个。有关于预设高度的具体数值，随机确定的文字图像样本中的目标区域的具体区域形状，发明人可根据自己的需求进行设置，本申请实施例不加以限定。

s204：以文字识别结果趋近于目标文字识别结果且文字格式趋近于目标文字格式为训练目标反向调节第一网络，以文字识别结果趋近于目标文字识别结果为训练目标反向调节第二网络，且以文字格式趋近于目标文字格式为训练目标反向调节第三网络，对待训练文字识别模型进行训练得到第一文字识别模型；第一文字识别模型中的第一网络和第二网络构成文字识别模型。

在本申请实施例中，在将目标文字图像样本输入至待训练文字识别模型得到第二网络预测出的目标文字图像样本的文字识别结果和第三网络预测出的目标文字图像样本中文字的文字格式后，以预测出的文字识别结果趋近于该目标文字图像样本的目标文字识别结果和预测出的文字格式趋近于该目标文字图像样本的目标文字格式为训练目标，反向调节第一网络中的参数以使得第一网络达到收敛；将ctc损失函数作为第二网络的损失函数，以预测出的文字识别结果趋近于该目标文字图像样本的目标文字识别结果为训练目标，通过ctc损失函数反向调节第二网络中的参数以使得第二网络达到收敛；且以文字格式趋近于目标文字图像样本的目标文字格式为训练目标，反向调节第三网络中的参数以使得第三网络达到收敛；当第一网络、第二网络、第三网络均达到收敛时，得到第一文字识别模型。将第一文字识别模型中的第一网络和第二网络构成文字识别模型。

在本申请实施例中，利用文字图像样携带的目标文字识别结果和目标文字格式对待训练文字识别模型进行训练生成文字识别模型，文字格式表征文字图像样本中文字排列方式，多种文字排列方式对应多种文字格式，因此利用该文字识别模型能够实现对更多种类的文字格式的文字图像进行文字识别。并且，通过一个文字识别模型实现对更多种类的文字格式的文字图像的文字识别，服务器在加载文字识别模型时，只需要加载一个文字识别模型，减小了内存或显存的使用量，进而提高文字识别模型进行文字识别的效率。

参见图4，示出了本发明实施例提供的另一种文字识别模型的生成过程的方法的流程示意图，该文字识别模型的生成过程具体包括以下步骤：

s401：获取文字图像样本，文字图像样本携带目标文字识别结果和目标文字格式；

在具体执行步骤s401的过程中，步骤s401的具体执行过程和实现原理与上述本发明实施例公开的图2中的步骤s201的具体执行过程和实现原理相同，可参见上述本发明实施例公开的图2中相应的部分，这里不再进行赘述。

s402：将文字图像样本转换成满足图像输入条件的目标文字图像样本；

在具体执行步骤s402的过程中，步骤s402的具体执行过程和实现原理与上述本发明实施例公开的图2中的步骤s202的具体执行过程和实现原理相同，可参见上述本发明实施例公开的图2中相应的部分，这里不再进行赘述。

s403：将第一目标文字图像样本输入至待训练文字识别模型得到第三网络预测出的第一目标文字图像样本中文字的文字格式；

在具体执行步骤s403的过程中，将第一目标文字图像输入至待训练文字识别模型，待训练文字识别模型中的第一网络对输入的第一目标文字图像样本进行特征提取，得到第一目标文字图像样本的文字图像特征；第三网络基于第一网络所提取到的文字图像特征进行文字格式预测，得到第一目标文字图像样本中文字的文字格式。

在本申请实施例中，第一目标文字图像样本为将所获取的文字图像样本转换成满足图像输入条件的目标文字图像样本。

s404：以预测出的第一目标文字图像样本中文字的文字格式趋近于第一目标文字图像样本携带的目标文字格式为训练目标，反向调节待训练文字识别模型中的第一网络和第三网络，对待训练文字识别模型进行训练得到第二文字识别模型；

在本申请实施例中，在将第一目标文字图像样本输入至待训练文字识别模型得到第三网络预测出的第一目标文字图像样本中文字的文字格式后，以预测出的第一目标文字图像样本的文字格式趋近于该第一目标文字图像样本的目标文字格式为训练目标反向调节第一网络中的参数和第三网络中的参数，以使得第一网络和第三网络达到收敛，得到第二文字识别模型，如图5所示。

进一步的，在本申请实施例中，在将第一目标文字图像样本输入待训练文字识别模型之前，本发明还可以将第一目标文字图像样本的高转换成预设高度；随机确定将高转成预设高度的第一目标文字图像样本中的目标区域，并采用随机颜色覆盖所确定的目标区域；将高转成预设高度，且采用随机颜色覆盖所确定的目标区域的目标文字图像样本输入待训练文字识别模型，对待训练的文字识别模型进行训练得到第二文字识别模型，能够提高第二文字识别模型对遮挡字体和不规则字体的识别能力。

s405：将第二目标文字图像样本输入至第二文字识别模型得到第二网络预测出的第二目标文字图像样本的文字识别结果和第三网络预测出的第二目标文字图像样本中文字的文字格式；

在本申请实施例中，将第二目标文字图像样本输入至第二文字识别模型中，第二文字识别模型中的第一网络对输入的第二目标文字图像样本进行特征提取，得到该第二目标文字图像样本的文字图像特征；第二网络基于第一网络所提取到的文字图像特征进行文字识别结果预测，得到该第二目标文字图像样本的文字识别结果；第三网络基于第一网络所提取到的文字图像特征进行文字格式预测，得到该第二目标文字图像样本中文字的文字格式。

在本申请实施例中，第二目标文字图像样本为将所获取的文字图像样本转换成满足图像输入条件的目标文字图像样本。第二目标文字图像样本和第一目标文字图像样本可以为相同的目标文字图像样本，可以为不同的目标文字图像样本。

进一步的，在本申请实施例中，在将第二目标文字图像样本输入第二文字识别模型之前，本发明还可以将第二目标文字图像样本的高转换成预设高度；随机确定将高转成预设高度的第二目标文字图像样本中的目标区域，并采用随机颜色覆盖所确定的目标区域，将高转成预设高度，且采用随机颜色覆盖所确定的目标区域的目标文字图像样本输入第二文字识别模型，对第二的文字识别模型进行训练得到文字识别模型，能够进一步提高文字识别模型对遮挡字体和不规则字体的识别能力。

s406：以文字识别结果趋近于目标文字识别结果且文字格式趋近于目标文字格式为训练目标反向调节第一网络，以文字识别结果趋近于目标文字识别结果为训练目标反向调节第二网络，且以文字格式趋近于目标文字格式为训练目标反向调节第三网络，对第二文字识别模型进行训练得到第一文字识别模型；第一文字识别模型中的第一网络和第二网络构成文字识别模型。

在本申请实施例中，在将第二目标文字图像样本输入至第二文字识别模型得到第二网络预测出的第二目标文字图像样本的文字识别结果和第三网络预测出的第二目标文字图像样本中文字的文字格式后，以预测出的文字识别结果趋近于该第二目标文字图像样本的目标文字识别结果和预测出的第二文字格式趋近于该第二目标文字图像样本的目标文字格式为训练目标，反向调节第一网络中的参数以使得第一网络达到收敛；将ctc损失函数作为第二网络的损失函数，以预测出的文字识别结果趋近于该第二目标文字图像样本的目标文字识别结果为训练目标，通过ctc损失函数反向调节第二网络中的参数以使得第二网络达到收敛；且以预测出的文字格式趋近于第二目标文字图像样本的目标文字格式为训练目标，反向调节第三网络中的参数以使得第三网络达到收敛；当第一网络、第二网络、第三网络均达到收敛时，得到第一文字识别模型。将第一文字识别模型中的第一网络和第二网络构成文字识别模型。

在本申请实施例中，利用文字图像样本中文字的文字格式对第一网络和第三网络进行训练得到的第二文字识别模型能够精准的识别出文字图像中文字的文字格式。进一步的，再利用文字图像样本中文字的文字格式和文字识别结果对得到的第二文字识别模型进行训练得到的文字识别模型对待进行文字识别的文字图像进行文字识别，能够进一步的提高文字识别结果的准确性。

参见图6，示出了本发明实施例提供的一种文字识别方法的流程示意图，该文字识别方法具体包括以下步骤：

s601：确定待进行文字识别的第一文字图像；

在本申请实施例中，待进行文字识别的第一文字图像图像格式可以为横排图像或竖排图像。

s602：将第一文字图像转换成满足文字识别模型的图像输入条件的第二文字图像；

在本申请实施例中，图像输入条件指示文字图像的目标图像格式，该目标图像格式可以为横排图像或者竖排图像，该目标图像格式是预先设置的。其中，若文字图像的长大于宽，则确定该文字图像的图像格式为横排图像，若文字图像的宽大于长，则确定该文字图像的图像格式为竖排图像。

在具体执行步骤s602的过程中，在确定待进行文字识别的第一文字图像后，判断所确定的待进行文字识别的第一文字图像的图像格式是否为图像输入条件指示的目标图像格式；若待进行文字识别的第一文字图像的图像格式为目标图像格式，将待进行文字识别的第一文字图像输入至文字识别模型，得到文字识别模型对待进行文字识别的第一文字图像的文字识别结果。

若待进行文字识别的第一文字图像的图像格式不为目标图像格式，将待进行文字识别的第一文字图像按照预设旋转方式旋转预设角度得到第二文字图像，以便于将第二文字图像输入至文字识别模型得到文字识别模型对第二文字图像的文字识别结果。

在本申请实施例中，预设旋转方式可以为顺时针旋转，预设角度可以为90度。作为本申请实施例的一种优选方式，将待进行文字识别的第一文字图像按照预设旋转方式旋转预设角度得到第二文字图像的方式可以为：将待进行文字识别的第一文字图像顺时针旋转90度得到第二文字图像。

以上仅仅为本发明实施例提供的一种将待进行文字识别的第一文字图像按照预设旋转方式旋转预设角度得到第二文字图像的优选方式。有关于将待进行文字识别的第一文字图像按照预设旋转方式旋转预设角度得到第二文字图像的具体方式、预设旋转方式的具体方式，以及预设角度的具体内容，发明人可根据自己需求进行设置，本申请实施例不加以限定。

s603：将第二文字图像输入至文字识别模型得到文字识别模型对第二文字图像的文字识别结果。

在具体执行步骤s603的过程中，在待进行文字识别的第一文字图像为不满足文字识别模型的图像输入条件的文字图像的情况下，将第一文字图像装换成满足文字识别模型的图像输入条件的第二文字图像；将第二文字图像的高转换成预设高度，并将高转成预设高度的第二文字图像输入至文字识别模型得到文字识别模型对第二文字图像的文字识别结果。

需要说明的是，预设高度可以为96个像素。有关于预设高度的具体数值，发明人可根据自己的需求进行设置，本申请实施例不加以限定。

本发明提供一种文字识别方法、装置、服务器及存储介质，在确定待进行文字识别的第一文字图像后，将第一文字图像转换成满足文字识别模型的图像输入条件的第二文字图像；将第二文字图像输入至文字识别模型得到文字识别模型对第二文字图像的文字识别结果。本发明提供的文字识别模型是通过文字识别结果和文字格式对待训练文字识别模型进行训练得到的，文字格式表征文字图像中文字排列方式，多种文字排列方式对应多种文字格式，因此本申请提供的这个文字识别模型可以对更多种类的文字格式的文字图像进行文字识别，并且，通过一个文字识别模型实现对更多种类的文字格式的文字图像的文字识别，服务器在加载文字识别模型时，只需要加载一个文字识别模型，减小了内存或显存的使用量，进而提高文字识别模型进行文字识别的效率。

为了更好的对上述内容进行理解，下面进行举例说明。

比如，若图像输入条件指示的目标图像格式为横排图像。获取待进行文字识别的第一文字图像；检测第一文字图像的图像格式的长是否大于宽，若若第一文字图像的长大于宽，确定第一文字图像的图像格式为目标图像格式，将第一文字图像作为第二文字图像输入文字识别模型得到文字识别模型对第二文字图像的文字识别结果。

若待进行文字识别的第一文字图像的长不大于宽，确定该待进行文字识别的第一文字图像的图像格式不为横排图像，将待进行文字识别的第一文字图像顺时针旋转90度得到满足文字识别模型的图像输入条件的第二文字图像；将第二文字图像输入文字识别模型得到文字识别模型对第二文字图像的文字识别结果。

基于本发明实施例公开的文字识别方法，本发明实施例还对应公开了一种文字识别装置，如图7所示，该文字识别装置包括：

第一确定单元71，用于确定待进行文字识别的第一文字图像；

第一转换单元72，用于将第一文字图像转换成满足文字识别模型的图像输入条件的第二文字图像；

识别单元73，用于将第二文字图像输入至文字识别模型得到文字识别模型对第二文字图像文字识别结果；

其中，待训练文字识别模型包括用于提取文字图像的文字图像特征的第一网络、用于对文字图像特征进行文字识别结果预测的第二网络，以及用于对文字图像特征进行文字格式预测的第三网络，文字格式表征文字图像中文字排列方式；文字识别模型以第二网络对文字图像样本的文字识别结果趋近于文字图像样本携带的目标文字识别结果以及第三网络预测的文字图像样本的文字格式趋近于文字图像样本携带的目标文字格式为训练目标，对待训练文字识别模型进行训练生成。

上述本发明实施例公开的文字识别装置中各个单元具体的原理和执行过程，与上述本发明实施例公开的文字识别方法相同，可参见上述本发明实施例公开的文字识别方法中相应的部分，这里不再进行赘述。

本发明提供一种文字识别装置，在确定待进行文字识别的第一文字图像后，将第一文字图像转换成满足文字识别模型的图像输入条件的第二文字图像；将第二文字图像输入至文字识别模型得到文字识别模型对第二文字图像的文字识别结果，其中，待训练文字识别模型包括用于提取文字图像的文字图像特征的第一网络、用于对文字图像特征进行文字识别结果预测的第二网络，以及用于对文字图像特征进行文字格式预测的第三网络，文字格式表征文字图像中文字排列方式；文字识别模型以第二网络对文字图像样本的文字识别结果趋近于文字图像样本携带的目标文字识别结果以及第三网络预测的文字图像样本的文字格式趋近于文字图像样本携带的目标文字格式为训练目标，对待训练文字识别模型进行训练生成。

在本申请实施例中，优选的，图像输入条件指示文字图像的目标图像格式，第一转换单元包括：

检测单元，用于检测第一文字图像的图像格式是否为图像输入条件指示的目标图像格式；

旋转单元，用于若第一文字图像的图像格式不为图像输入条件指示的目标图像格式，将第一文字图像按照预设旋转方式旋转预设角度得到第二文字图像，第二文字图像的图像格式为目标图像格式。

进一步的，本申请实施例提供的文字识别装置，还包括：

第二转换单元，用于将第二文字图像的高转换成预设高度。

进一步的，本申请实施例提供的文字识别装置，还包括文字识别模型生成过程，该文字识别模型生成过程包括：

获取单元，用于获取文字图像样本，文字图像样本携带目标文字识别结果和目标文字格式；

第三转换单元，用于将文字图像样本转换成满足图像输入条件的目标文字图像样本；

第一预测单元，用于将目标文字图像样本输入至待训练文字识别模型得到第二网络预测出的目标文字图像样本的文字识别结果和第三网络预测出的目标文字图像样本中文字的文字格式；

第一训练单元，用于以文字识别结果趋近于目标文字识别结果且文字格式趋近于目标文字格式为训练目标反向调节第一网络，以文字识别结果趋近于目标文字识别结果为训练目标反向调节第二网络，且以文字格式趋近于目标文字格式为训练目标反向调节第三网络，对待训练文字识别模型进行训练得到第一文字识别模型；第一文字识别模型中的第一网络和第二网络构成文字识别模型。

进一步的，本申请实施例提供的文字识别装置，还包括：

第二预测单元，用于将第一目标文字图像样本输入至待训练文字识别模型得到第三网络预测出的第一目标文字图像样本中文字的文字格式；

第二训练单元，用于以预测出的第一目标文字图像样本中文字的文字格式趋近于第一目标文字图像样本携带的目标文字格式为训练目标，反向调节待训练文字识别模型中的第一网络和所述第三网络，对待训练文字识别模型进行训练得到第二文字识别模型；

第一预测单元还用于将第二目标文字图像样本输入至第二文字识别模型得到第二网络预测出的第二目标文字图像样本的文字识别结果和第三网络预测出的第二目标文字图像样本中文字的文字格式；第一目标文字图像样本和第二目标文字图像样本均为目标文字图像样本。

进一步的，本申请实施例提供的文字识别装置，还包括：

第二确定单元，用于随机确定图像样本中的目标区域，目标区域覆盖图像样本的部分文字内容；

覆盖单元，用于采用随机颜色覆盖图像样本中目标区域。

在本申请实施例中，优选的，目标区域包括条状区域和块状区域中的任意一个或多个。

在本申请实施例中，优选的，第一网络为卷积神经网络、第二网络为循环神经网络，第三网络为分类网络。

下面以请求方法应用于服务端为例，对本申请实施例提供的一种文字识别方法所适用于的服务端的硬件结构进行详细说明。

本申请实施例提供的一种文字识别方法可应用于服务端，该服务端可以是网络侧为用户提供服务的服务设备，其可能是多台服务器组成的服务器集群，也可能是单台服务器。

可选的，图8示出了本申请实施例提供的一种文字识别方法所适用于的服务端的硬件结构框图，参照图8，服务端的硬件结构可以包括：处理器81，存储器82，通信接口83和通信总线84；

在本发明实施例中，处理器81、存储器82、通信接口83、通信总线84的数量均可以为至少一个，且处理器81、存储器82、通信接口83通过通信总线84完成相互间的通信；

处理器81可能是一个中央处理器cpu，或者是特定集成电路asic(applicationspecificintegratedcircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器82可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，程序用于：

确定待进行文字识别的第一文字图像；

将第一文字图像转换成满足文字识别模型的图像输入条件的第二文字图像；

将第二文字图像输入至文字识别模型得到文字识别模型对第二文字图像的文字识别结果；

有关程序的功能可参见上文对本申请实施例提供的一种文字识别方法的详细描述，在此不做赘述。

进一步的，本申请实施例还提供一种计算机可读计算机存储介质，该计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行上述文字识别方法。

有关计算机可执行指令的具体内容可参见上文对本申请实施例提供的一种文字识别方法的详细描述，在此不做赘述。

以上对本发明所提供的一种文字识别方法、装置、服务器及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钟艺豪;李百川;蔡锐涛
技术所有人：有米科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。