文字识别方法及装置与流程

文档序号：13662177阅读：170来源：国知局

本公开涉及图像识别技术领域，尤其涉及一种文字识别方法及装置。

背景技术：

相关技术中，文字识别是指利用计算机对图像中文字进行识别、验证和记录等处理的技术。人们在生产和生活中，要处理大量的文字、报表和文本，文字识别技术能够大大减轻人们的工作。目前，对于扭曲文字图像中的文字识别准确率较低，提高扭曲文字图像中的文字识别准确率具有重要意义。

技术实现要素：

为克服相关技术中存在的问题，本公开提供一种文字识别方法及装置。

根据本公开实施例的第一方面，提供一种文字识别方法，包括：

将待识别文字图像输入文字图像生成网络，得到第一修复文字图像；其中，所述文字图像生成网络通过未扭曲文字图像和扭曲文字图像训练得到；

根据所述第一修复文字图像进行文字识别。

在一种可能的实现方式中，所述方法还包括：

对所述未扭曲文字图像进行扭曲处理，得到所述扭曲文字图像；

根据所述未扭曲文字图像和所述扭曲文字图像，训练判别网络和生成网络，所述判别网络用于判别所述修复文字图像和所述未扭曲文字图像的一致性；

重复训练所述生成网络和所述判别网络，在训练次数达到预设阈值或所述判别网络的判别结果表明所述修复文字图像和所述未扭曲文字图像的一致性满足预设条件时，将当前的生成网络确定为所述文字图像生成网络。

在一种可能的实现方式中，根据所述未扭曲文字图像和所述扭曲文字图像，训练判别网络和生成网络，包括：

将所述扭曲文字图像输入所述生成网络，得到第二修复文字图像；

将所述未扭曲文字图像和所述第二修复文字图像输入所述判别网络，得到用于表示所述第二修复文字图像与所述未扭曲文字图像是否一致的判别结果；

根据所述判别结果，调整所述判别网络或所述生成网络中参数的取值。

在一种可能的实现方式中，所述生成网络包括通过残差方式连接的多个编码模块和多个解码模块，所述编码模块包括卷积层、线性整流函数层和最大池化层，所述解码模块包括卷积层、线性整流函数层和最大池化层。

在一种可能的实现方式中，所述判别网络包括依次连接的多个编码模块、多个全连接层和阈值函数层，所述编码模块包括卷积层、线性整流函数层和最大池化层。

根据本公开实施例的第二方面，提供一种文字识别装置，包括：

修复模块，用于将待识别文字图像输入文字图像生成网络，得到第一修复文字图像；其中，所述文字图像生成网络通过未扭曲文字图像和扭曲文字图像训练得到；

识别模块，用于根据所述第一修复文字图像进行文字识别。

在一种可能的实现方式中，所述装置还包括：

处理模块，用于对所述未扭曲文字图像进行扭曲处理，得到所述扭曲文字图像；

训练模块，用于根据所述未扭曲文字图像和所述扭曲文字图像，训练判别网络和生成网络，所述判别网络用于判别所述修复文字图像和所述未扭曲文字图像的一致性；

确定模块，用于重复训练所述生成网络和所述判别网络，在训练次数达到预设阈值或所述判别网络的判别结果表明所述修复文字图像和所述未扭曲文字图像的一致性满足预设条件时，将当前的生成网络确定为所述文字图像生成网络。

在一种可能的实现方式中，所述训练模块用于：

将所述扭曲文字图像输入所述生成网络，得到第二修复文字图像；

将所述未扭曲文字图像和所述第二修复文字图像输入所述判别网络，得到用于表示所述第二修复文字图像与所述未扭曲文字图像是否一致的判别结果；

根据所述判别结果，调整所述判别网络或所述生成网络中参数的取值。

根据本公开实施例的第三方面，提供一种文字识别装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行上述的方法。

根据本公开实施例的第四方面，提供一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：本公开的文字识别方法及装置，通过将待识别文字图像输入文字图像生成网络，得到第一修复文字图像，根据第一修复文字图像进行文字识别，其中，文字图像生成网络通过未扭曲文字图像和扭曲文字图像训练得到，由此能够对待识别文字图像进行修复，得到修复文字图像，并对修复文字图像中的文字信息进行识别，由此能够大大提高文字识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种文字识别方法的流程图。

图2是根据一示例性实施例示出的一种文字识别方法的流程图。

图3是根据一示例性实施例示出的生成网络的示意框图。

图4是根据一示例性实施例示出的判别网络的示意框图。

图5是根据一示例性实施例示出的一种文字识别装置的框图。

图6是根据一示例性实施例示出的一种文字识别装置的一示意性的框图。

图7是根据一示例性实施例示出的一种用于文字识别的装置800的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种文字识别方法的流程图。该方法用于文字识别设备，本公开对此不做限制。如图1所示，该方法包括步骤s11和步骤s12。

在步骤s11中，将待识别文字图像输入文字图像生成网络，得到第一修复文字图像；其中，文字图像生成网络通过未扭曲文字图像和扭曲文字图像训练得到。

其中，文字图像生成网络的输入可以为待识别文字图像，输出可以为第一修复文字图像。第一修复文字图像为待识别文字图像对应的修复文字图像。第一修复文字图像与待识别文字图像具有相同的尺寸和分辨率。待识别文字图像可以为文字被扭曲的文字图像或文字未被扭曲或几乎未被扭曲的文字图像，本公开对此不做限制。

在步骤s12中，根据第一修复文字图像进行文字识别。

其中，第一修复文字图像中的文字可以包括中文字符、英文字符、数字字符和符号字符中的一项或多项，第一修复文字图像中的文字可以为手写体文字和印刷体文字中的一项或多项，本公开对此不做限制。

需要说明的是，本领域技术人员能够理解，相关技术中有多种方式能够实现根据第一修复文字图像进行文字识别，例如模板匹配法、结构分析法或特征提取法等，本公开对此不做限制。

本公开的文字识别方法，能够对待识别文字图像进行修复，得到修复文字图像，并对修复文字图像中的文字信息进行识别，由此能够大大提高文字识别的准确率。

图2是根据一示例性实施例示出的一种文字识别方法的流程图。如图2所示，该方法包括步骤s21至步骤s25。

在步骤s21中，对未扭曲文字图像进行扭曲处理，得到扭曲文字图像。

其中，未扭曲文字图像可以指文字未被扭曲或几乎未被扭曲的文字图像，扭曲文字图像可以指文字被扭曲的文字图像。

在一种可能的实现方式中，选取未扭曲文字图像，随机扭曲选取的未扭曲文字图像，得到扭曲文字图像。

在步骤s22中，根据未扭曲文字图像和扭曲文字图像，训练判别网络和生成网络，判别网络用于判别修复文字图像和未扭曲文字图像的一致性。

需要说明的是，本领域技术人员能够理解，步骤s21中的未扭曲文字图像和扭曲文字图像用于训练判别网络和生成网络。在实际训练过程中，针对每组未扭曲文字图像和扭曲文字图像，交替训练判别网络和生成网络。此外，需要获取多组不同的未扭曲文字图像和扭曲文字图像，重复训练判别网络和生成网络，以增强训练得到的文字图像生成网络的稳定性和适应性。

其中，交替训练判别网络和生成网络可以指针对每组未扭曲文字图像和扭曲文字图像，在保持生成网络的参数不变的情况下，训练判别网络，然后在保持判别网络的参数不变的情况下，训练生成网络。交替训练判别网络和生成网络，直到生成网络根据扭曲文字图像生成第二修复文字图像，判别网络无法分辨未扭曲文字图像和第二修复文字图像是否一致，例如判别网络输出0.5，即第二修复文字图像有50％的概率与未扭曲文字图像一致，有50％的概率与未扭曲文字图像不一致。

在步骤s23中，重复训练生成网络和判别网络，在训练次数达到预设阈值或判别网络的判别结果表明修复文字图像和未扭曲文字图像的一致性满足预设条件时，将当前的生成网络确定为文字图像生成网络。

在一种可能的实现方式中，生成网络包括通过残差方式连接的多个编码模块(encode)和多个解码模块(decode)，编码模块包括卷积层、线性整流函数(relu，rectifiedlinearunit)层和最大池化层(maxpooling)，解码模块包括卷积层、线性整流函数层和最大池化层。

其中，编码模块用于对图像进行编码。解码模块用于对通过编码模块编码得到的图像进行解码。编码模块和解码模块均能够改变图像分辨率和图像通道数，例如增加图像分辨率并降低图像通道数，或降低图像分辨率并增加图像通道数。卷积层、线性整流函数层和最大池化层均为编码模块和解码模块中的一个基本运算单元。

图3是根据一示例性实施例示出的生成网络的示意框图。如图3所示，生成网络为一个十层的编码模块-解码模块结构，包括通过残差方式连接的5个编码模块和5个解码模块。每个编码模块和每个解码模块均包括1个卷积层、1个线性整流函数层和1个最大池化层。其中，编码模块分别为encode1(n*32*3)、encode2(n/2*16*64)、encode3(n/4*8*128)、encode4(n/8*4*256)和encode5(16/n*2*512)。解码模块分别为decode1(16/n*2*512)、decode2(n/8*4*256)、decode3(n/4*8*128)、decode4(n/2*16*64)和decode5(n*32*3)。可以理解的是，n*32*3中的n*32可以表示图像分辨率，32可以表示图像中短边分辨率，3可以表示图像通道数。

作为该实现方式的一个示例，将待识别文字图像中短边分辨率调整为32，长边按照比例缩放，得到第一文字图像。将第一文字图像输入生成网络。第一文字图像经过生成网络中的编码模块进行编码，再经过生成网络中的解码模块进行解码，得到第一修复文字图像。

在一种可能的实现方式中，判别网络包括依次连接的多个编码模块、多个全连接(fc，fullyconnectedlayers)层和阈值函数(sigmoid)层，编码模块包括卷积层、线性整流函数层和最大池化层。

其中，编码模块用于对图像进行编码。全连接层用于将学习到的分布式特征表示映射到样本标记空间。阈值函数层用于将变量映射到[0，1]之间。编码模块能够改变图像分辨率和图像通道数，例如降低图像分辨率并增加图像通道数。卷积层、线性整流函数层和最大池化层均为编码模块中的一个基本运算单元。

图4是根据一示例性实施例示出的判别网络的示意框图。如图4所示，判别网络包括依次连接的5个编码模块、2个全连接层和1个阈值函数层。每个编码模块包括1个卷积层、1个线性整流函数层和1个最大池化层。其中，编码模块分别为encode1’(n*32*6)、encode2’(n/2*16*64)、encode3’(n/4*8*128)、encode4’(n/8*4*256)和encode5’(16/n*2*512)。可以理解的是，n*32*3中的n*32可以表示图像分辨率，32可以表示图像中短边的分辨率，3可以表示图像通道数。

在一种可能的实现方式中，根据未扭曲文字图像和扭曲文字图像，训练判别网络和生成网络(步骤s22)可以包括：将扭曲文字图像输入生成网络，得到第二修复文字图像；将未扭曲文字图像和第二修复文字图像输入判别网络，得到用于表示第二修复文字图像与未扭曲文字图像是否一致的判别结果；根据判别结果，调整判别网络或生成网络中参数的取值。

其中，生成网络中参数的取值可以指图3中各个编码模块和解码模块包括的卷积层、线性整流函数层和最大池化层中参数的取值。判别网络中参数的取值可以指图4中各个编码模块包括的卷积层、线性整流函数层和最大池化层、以及各个全连接层和阈值函数层中参数的取值。

在一种可能的实现方式中，判别网络的输入可以为未扭曲文字图像和第二修复文字图像进行融合后得到的融合图像，输出可以为用于表示第二修复文字图像是否为未扭曲文字图像的判别结果。例如，未扭曲文字图像和第二修复文字图像对应的图像通道数均为3，将未扭曲文字图像和第二修复文字图像进行融合，得到图像通道数为6的融合图像，将融合图像作为判别网络的输入。

在一种可能的实现方式中，交替训练判别网络和生成网络，并根据判别结果采用反向传播算法调整判别网络和生成网络中参数的取值，直到判别网络和生成网络都收敛。其中，判别网络和生成网络都收敛可以指判别结果处于稳定状态或训练次数达到预设阈值。

在一种可能的实现方式中，采用式1确定生成网络g；

其中，g表示生成网络，d表示判别网络，表示生成网络对应的损失结果，x表示未扭曲文字图像，d(x)表示x作为输入得到的判别结果，表示判别网络对应的损失结果，z表示扭曲文字图像，g(z)表示z作为输入得到的生成结果，即g(z)表示第二修复文字图像，d(g(z))表示g(z)作为输入得到的判别结果，e[||x-g(z)||1表示未扭曲文字图像和第二修复文字图像之差的平滑损失(smoothl1loss)。

可以理解的是，生成网络g是用于生成图像的网络，它接收随机的噪声z，通过噪声z生成图像g(z)。判别网络d是用于判别的网络，输出判别结果。判别结果表示输入判别网络的图像是否为真实图像的概率。判别结果为1则表示输入判别网络的图像100％是真实图像，判别结果为0则表示输入判别网络的图像不可能是真实图像。

在实际训练过程中，生成网络g的目标就是尽量生成真实图像去欺骗判别网络d。而判别网络d的目标就是尽量把生成网络g生成的图像和真实图像分别开来。由此生成网络g和判别网络d构成了一个动态的博弈过程。在最理想的状态下，最后博弈的结果为生成网络g可以生成足以以假乱真的图像g(z)，判别网络d难以判别生成网络g生成的图像究竟是不是真实，因此d(g(z))＝0.5。

需要说明的是，本领域技术人员应该能够理解，x表示真实图像，z表示输入生成网络g的噪声，而g(z)表示生成网络g生成的图像。d(x)表示判别网络d判断真实图像x是否真实的概率。d(g(z))表示判别网络d判断生成网络g生成的图像是否真实的概率。因为x就是真实图像，所以对于判别网络d来说，d(x)越接近1越好。而g(z)是生成网络g生成的图像，所以对于判别网络d来说，d(x)越接近0越好。生成网络g的目的：d(g(z))是判别网络d判断生成网络g生成的图像是否真实的概率，生成网络g应该希望自己生成的图像越接近真实越好。也就是说，生成网络g希望d(g(z))尽可能得大，这时的值会变小。因此式1的最前面的记号是判别网络d的目的：判别网络d的能力越强，d(x)应该越大，d(g(z))应该越小，这时的值会变大。因此式1的最前面的记号是

在步骤s24中，将待识别文字图像输入文字图像生成网络，得到第一修复文字图像。

针对该步骤的描述可以参见步骤s11。

在步骤s25中，根据第一修复文字图像进行文字识别。

针对该步骤的描述可以参见步骤s12。

需要说明的是，本领域技术人员应当理解，步骤s21至步骤s23为训练得到文字图像生成网络的过程，步骤s24至步骤s25为实际使用文字图像生成网络的过程。训练过程为非常态过程，使用过程为常态过程。

在一种可能的实现方式中，在文字识别设备中封装训练得到的文字图像生成网络，以使得文字识别设备可以重复使用该文字图像生成网络对待识别文字图像进行修复，得到修复文字图像，并对修复文字图像中的字符信息进行识别，由此能够大大提高文字识别的准确率。

本公开的文字识别方法，采用生成式对抗网络进行生成网络的训练，使得生成网络对扭曲文字图像具有较好的修复能力，能够修复得到与未扭曲文字图像相同或相似的修复文字图像，由此能够大大提高文字识别的准确率。

图5是根据一示例性实施例示出的一种文字识别装置的框图。参照图5，该装置包括：修复模块51，用于将待识别文字图像输入文字图像生成网络，得到第一修复文字图像；其中，所述文字图像生成网络通过未扭曲文字图像和扭曲文字图像训练得到；识别模块52，用于根据所述第一修复文字图像进行文字识别。

图6是根据一示例性实施例示出的一种文字识别装置的一示意性的框图。参照图6：

在一种可能的实现方式中，所述装置还包括：处理模块53，用于对所述未扭曲文字图像进行扭曲处理，得到所述扭曲文字图像；训练模块54，用于根据所述未扭曲文字图像和所述扭曲文字图像，训练判别网络和生成网络，所述判别网络用于判别所述修复文字图像和所述未扭曲文字图像的一致性；确定模块55，用于重复训练所述生成网络和所述判别网络，在训练次数达到预设阈值或所述判别网络的判别结果表明所述修复文字图像和所述未扭曲文字图像的一致性满足预设条件时，将当前的生成网络确定为所述文字图像生成网络。

在一种可能的实现方式中，所述训练模块54用于：将所述扭曲文字图像输入所述生成网络，得到第二修复文字图像；将所述未扭曲文字图像和所述第二修复文字图像输入所述判别网络，得到用于表示所述第二修复文字图像与所述未扭曲文字图像是否一致的判别结果；根据所述判别结果，调整所述判别网络或所述生成网络中参数的取值。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开的文字识别装置，能够对待识别文字图像进行修复，得到修复文字图像，并对修复文字图像中的文字信息进行识别，由此能够大大提高文字识别的准确率。

图7是根据一示例性实施例示出的一种用于文字识别的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等具有文字识别功能的设备。

参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(i/o)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(mic)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

i/o接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张水发
技术所有人：北京小米移动软件有限公司
我是此专利的发明人

上一篇：一种聚合聚苯板薄抹灰外墙外保温系统的制作方法
上一篇：一种保温剪力墙桁架建筑体系及建筑物的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。