文字识别方法、装置、计算机可读介质及电子设备与流程

文档序号：20514237发布日期：2020-04-24 18:53阅读：123来源：国知局

本申请涉及计算机及通信技术领域，具体而言，涉及一种文字识别方法、装置、计算机可读介质及电子设备。

背景技术：

随着文字识别的需求和精确度越来越高，一般通过构建文字识别模型对图像中的文字进行识别，以达到更高的识别精度。但是这些识别方法或者文字识别模型无法满足差异化的文字识别需求，尤其是在识别对象中包括了隐私信息、或者用户隐私需求较高的情况下，无法保证信息的私密性，导致文字识别的效果较低。

技术实现要素：

本申请的实施例提供了一种文字识别方法、装置、计算机可读介质及电子设备，进而至少在一定程度上可以从模型层面避免了识别出文字之后再甄别而造成的敏感信息泄露，提高了信息的私密性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种文字识别方法，包括获取包含有文本信息的待处理图片；检测所述待处理图片中包含的各个文本区域；通过预训练的第一模型识别所述各个文本区域中所包含的文本信息，其中，所述第一模型通过包含有负样本区域的训练数据训练得到，所述负样本区域包括：包含有敏感信息的文本区域，以及与所述包含有敏感信息的文本区域对应的设定输出信息；输出所述第一模型识别出的文本信息。

根据本申请实施例的一个方面，提供了一种文字识别装置，包括：获取单元，用于获取包含有文本信息的待处理图片；检测单元，用于检测所述待处理图片中包含的各个文本区域；识别单元，用于通过预训练的第一模型识别所述各个文本区域中所包含的文本信息，其中，所述第一模型通过包含有负样本区域的训练数据训练得到，所述负样本区域包括：包含有敏感信息的文本区域，以及与所述包含有敏感信息的文本区域对应的设定输出信息；输出单元，用于输出所述第一模型识别出的文本信息。

在本申请的一些实施例中，基于前述方案，所述文字识别装置包括：第一选取单元，用于基于所述第一模型对至少两个文本区域样本的识别结果，从所述至少两个文本区域样本中选取负样本区域；第一训练单元，用于将从所述至少两个文本区域中选取的负样本区域作为新的文本区域样本对所述第一模型进行训练。

在本申请的一些实施例中，基于前述方案，所述第一选取单元包括：第一计算单元，用于基于所述第一模型对至少两个文本区域样本的识别结果，计算各文本区域对应的损失值；第二计算单元，用于根据所述各文本区域对应的损失值，确定所述至少两个文本区域样本对应的平均损失；第二选取单元，用于若所述平均损失小于损失阈值，则从所述至少两个文本区域样本中选取负样本区域。

在本申请的一些实施例中，基于前述方案，所述第二选取单元配置为：根据所述平均损失和滑动参数，确定平均滑动损失；将损失值小于所述平均滑动损失时对应的文本区域选取为所述负样本区域。

在本申请的一些实施例中，基于前述方案，所述待处理图片包括检验报告；所述文字识别装置还包括：第一识别单元，用于通过所述第一模型识别所述检验报告中的检验信息；第一调节单元，用于若所述检验信息与预设信息匹配，则增大所述检验报告对应的损失值，得到增大损失值；第二训练单元，用于基于所述增大损失值和所述负样本区域，对所述第一模型进行训练。

在本申请的一些实施例中，基于前述方案，通过预训练的第二模型检测所述待处理图片中包含的各个文本区域；所述文字识别装置还包括：第三选取单元，用于基于样本图像中检测到的文本区域对应的正样本像素点、从非文本区域中选取的负样本像素点确定模型损失值；第三训练单元，用于将所述模型损失值进行反向传播训练得到所述第二模型。

在本申请的一些实施例中，基于前述方案，所述文字识别装置还包括：区域识别单元，用于识别所述样本图像中包含文本片段的文本区域，以及不包含文本片段的非文本区域；第四选取单元，用于从所述非文本区域中选取出所述负样本像素点。

在本申请的一些实施例中，基于前述方案，所述第四选取单元包括：数目识别单元，用于识别所述文本区域对应的所述正样本像素点的数目；第三计算单元，用于根据所述正样本像素点数目与正负样本比例之间的乘积，确定所需选取的负样本像素点的数目；第五选取单元，用于从所述非文本区域中选取出所述负样本像素点的数目个所述负样本像素点。

在本申请的一些实施例中，基于前述方案，所述第五选取单元配置为：根据所述文本区域、所述样本图像中各像素点的像素标签，确定所述样本图像中各像素点对应的损失值；从所述非文本区域中选取所述各像素点对应的损失值偏小的像素点作为所述负样本像素点。

在本申请的一些实施例中，基于前述方案，所述文本信息包括作为所述待处理图片的检验报告中的检验信息；所述文字识别装置还包括：异常识别单元，用于识别所述检验信息中的检验项目，并识别所述检验信息中超出检验指标的异常项目；异常显示单元，用于区别显示所述检验项目的相关信息与所述异常项目的相关信息。

根据本申请实施例的一个方面，提供了一种文字识别模型的训练方法，其特征在于，所述文字识别模型包括用于识别文本的第一模型，所述第一模型的训练方法包括：将包含有负样本区域的训练数据输入识别网络，得到识别结果；所述负样本区域包括：包含有敏感信息的文本区域，以及与所述包含有敏感信息的文本区域对应的设定输出信息；根据所述识别结果与所述设定输出信息，确定所述第一模型的损失值；基于所述第一模型的损失值训练得到所述第一模型。

根据本申请实施例的一个方面，提供了一种文字识别装置，包括：识别单元，用于将包含有负样本区域的训练数据输入识别网络，得到识别结果；所述负样本区域包括：包含有敏感信息的文本区域，以及与所述包含有敏感信息的文本区域对应的设定输出信息；损失单元，用于所述识别结果与所述设定输出信息，确定所述第一模型的损失值；训练单元，用于基于所述第一模型的损失值训练得到所述第一模型。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的文字识别方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的文字识别方法。

在本申请的一些实施例所提供的技术方案中，由于负样本区域包括：包含有敏感信息的文本区域，以及与包含有敏感信息的文本区域对应的设定输出信息，因此在通过负样本区域训练得到用于文字识别的第一模型之后，可以在文本区域中包含敏感信息时直接输出设定输出信息，进而从模型层面避免了识别出文字之后再甄别而造成的敏感信息泄露的风险，提高了信息的私密性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2示出了可以应用本申请实施例的技术方案的示意图；

图3示意性示出了根据本申请的一个实施例的文字识别方法的流程图；

图4示意性示出了根据本申请的一个实施例的一种待处理图片中的文本区域的示意图；

图5示意性示出了根据本申请的一个实施例的训练文字检测的第二模型的流程图；

图6示意性示出了根据本申请的一个实施例的文字检测的第二模型的示意图；

图7示意性示出了根据本申请的一个实施例的一种检测模型的示意图；

图8示意性示出了根据本申请的一个实施例的选取负样本像素点的流程图；

图9示意性示出了根据本申请的一个实施例的文字的识别网络的示意图；

图10示意性示出了根据本申请的一个实施例的从至少两个文本区域样本中选取负样本区域的流程图；

图11为本申请实施例提供的基于负样本区域的训练方法的示意图；

图12为本申请实施例提供的对医疗图片进行检测识别的流程图；

图13示出了根据本申请的一个实施例的文字识别装置的框图；

图14示出了根据本申请的一个实施例的文字识别装置的框图；

图15示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备通过网络104与服务器105交互，以接收或发送消息等。服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105上传了待处理图片，服务器105可以获取包含有文本信息的待处理图片，检测待处理图片中包含的各个文本区域；通过预训练的、用于文字识别的第一模型识别各个文本区域中所包含的文本信息，其中，第一模型通过包含有负样本区域的训练数据训练得到，负样本区域包括：包含有敏感信息的文本区域，以及与包含有敏感信息的文本区域对应的设定输出信息；输出第一模型识别出的文本信息。通过基于包含敏感信息的文本区域及其设定输出信息训练得到文字识别的第一模型，以在文本区域中包含敏感信息时直接输出设定输出信息，进而从模型层面避免了识别出文字之后再甄别而造成的敏感信息泄露的风险，提高了信息的私密性。

需要说明的是，本申请实施例所提供的文字识别方法一般由服务器105执行，相应地，文字识别装置一般设置于服务器105中。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的文字识别的方案。

图2示出了可以应用本申请实施例的技术方案的示意图。

如图2所示，本申请实施例的执行主体可以为终端设备，例如人工智能(artificialintelligence，ai)设备、用户的手机210等，此处不做限定。

示例性的，用户通过手机拍摄包含有文本信息的待处理图片，本实施例中的待处理图片可以为医院检验报告单220，其中包含有各检验项目对应的文本信息，通过检测待处理图片中包含的各个文本区域；通过预训练的、用于文字识别的第一模型识别各个文本区域中所包含的文本信息230，其中，第一模型通过包含有负样本区域的训练数据训练得到，负样本区域包括：包含有敏感信息的文本区域，以及与包含有敏感信息的文本区域对应的设定输出信息；输出第一模型识别出的文本信息。通过基于包含敏感信息的文本区域及其设定输出信息训练得到文字识别的第一模型，以在文本区域中包含敏感信息时直接输出设定输出信息，进而从模型层面避免了识别出文字之后再甄别而造成的敏感信息泄露的风险，提高了信息的私密性。

如图2所示，在本申请的一个实施例中，终端设备输出第一模型识别出的文本信息230在用户界面上。其中，医院检验报告单220中包括了一些检验者的个人信息，例如检验者的姓名、性别、年龄、病案号等等，本实施例通过第一模型检测到这些信息为敏感信息之后，直接输出设定输出信息，例如直接显示“敏感信息”的文字，其余信息正常显示在用户界面上。本实施例通过这种不识别的方式，在文本区域中包含敏感信息时直接输出设定输出信息，保护的用户的隐私，提高了信息的私密性。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图3示出了根据本申请的一个实施例的文字识别方法的流程图，该文字识别方法可以由服务器来执行，该服务器可以是图1中所示的服务器。参照图3所示，该文字识别方法至少包括步骤s310至步骤s340，详细介绍如下：

在步骤s310中，获取包含有文本信息的待处理图片。

在本申请的一个实施例中，获取待处理图片的方式可以为通过带有摄像功能的装置实时拍摄获取、调取存储在本地的待处理图片的方式获取，也可以是接收其它装置或者存储设备发送的待处理图片的方式获取，此处不做限定。

在本申请的一个实施例中，待处理图片为包含有文本信息的图片。示例性的，待处理图片可以为检查报告、成绩单、报纸图像等，此处不做限定。

示例性的，终端设备可以通过拍摄报纸得到包含有新闻信息的待处理图片；可以调取存储在终端设备本地存储空间中的图像作为待处理图片；还可以从其他的存储设备、服务器等获取存储在云端或者其他存储位置处的图片作为待处理图片。

在步骤s320中，检测待处理图片中包含的各个文本区域。

在本申请的一个实施例中，在获取到待处理图片之后，从待处理图片中检测待处理图片中包含的各个文本区域。其中，文本区域表示待处理图片中包含文本信息的区域。

其中，本实施例中在检测文本区域的过程中，可以基于横排的文字顺序进行检测，在检测到文字空白的区域时，停止当前检测，并将空白区域之前的一排包含文本信息的区域识别为文本区域。

图4为本申请实施例提供的一种待处理图片中的文本区域的示意图。

示例性的，基于图2中的医院检验报告单，通过检测医院检验报告单中的文本信息，得到各个包含文本信息的文本区域410。其中，医院检验报告单中的文本区域为以横排为单位的文本区域。

图5为本申请实施例提供的训练文字检测的第二模型的流程图。

如图5所示，本实施例中检测待处理图片中包含的各个文本区域的方法，可以是通过预训练的第二模型检测得到。其中，在训练第二模型的过程中，可以包括步骤s510～s520，详细说明如下：

在步骤s510中，基于样本图像中检测到的文本区域对应的正样本像素点、从非文本区域中选取的负样本像素点确定模型损失值。

在本申请的一个实施例中，在对第二模型进行训练的过程中，首先基于深度残差网络(deepresidualnetwork，resnet)构建检测网络。对本实施例的检测网络的构成详细说明如下：

图6为本申请实施例提供的文字检测的第二模型的示意图。如图6所示，检测网络采用基于图像分割的渐进尺度扩展网络(progressivescaleexpansionnetwork，psenet)模型训练得到。其中，psenet模型由两部分组成：前端为通过resnet(610)和特征金字塔网络(featurepyramidnetwork，fpn)(620)，得到融合了多尺度特征的特征图f(630)；后端为多分支预测结构(640)。

在本申请的一个实施例中，在基于样本图像训练检测网络的过程中，首先对样本图像做红蓝绿(redbluegreen，rbg)维度的归一化，将样本图像处理未特定的尺寸，以提高模型训练的效果和效率。再将归一化之后的样本图像输入主干网络，即resnet(610)中，以提取到不同特征层级的视觉特征。其中，每个特征层级对应的图像中携带不同的特征；将resnet50(610)中输出的小尺寸的特征图输入fpn(620)中，进行多尺度特征融合，在fpn(620)中可以综合不同特征层级的特征图来提取特征图中的低维度特征，即p2～p5，在基本没有额外开销的情况下有效融合主干网络中不同尺度的特征，得到融合了多尺度特征的特征图；再得到不同层级的融合特征之后，将这些具有多尺度特征的特征图进行融合处理得到f(630)；将f(630)输入到后端的多分支预测结构640，投影到n个分支中，以产生多个分割结果s1～sn-1以及sn。其中，每个分割结果是所有文本实例在一定范围内的一个分割掩码，用于分开凑得紧密的文字，得到文本区域。

具体的，在多分支预测结构640中，首先将前端fpn得到的融合了多尺度特征的特征图映射到若干个分支上。每个分支代表了一个尺度下的预测。这里的尺度对应的是内核，即预测图中每一块文字实例，满尺度下的内核即文字实例真实大小对应到预测图上的大小，小尺度的内核即将预测图上的每一个文字实例压缩一定的大小。因此小尺度的内核对应的预测图能够轻易分开凑的很近的文字。最后从最小尺度对应的预测图开始，首先得到整张图上全部的文字实例，每个文字实例在预测图中的位置就是每个内核对应的中心位置。每一个内核以比它大一级尺度的预测图中相应的内核为目标大小向上下左右四个方向扩增，直到扩增至目标大小。最后扩增完所有比完整尺度小的预测图，得到最终图像分割结果，将每一块分割结果用边框包裹，即得到最终的检测结果。

进一步的，在本实施例中，当应用场景为将检验报告作为待处理图片时，检验报告中的图像内容比较单一，也不需要主干网络拥有很强的提取图像语义特征的能力，因此考虑对主干网络进行一些简化，使其运行速度加快。可选的，通过将restnet的网络结构替换成以可分离卷积和分组卷积为核心的随机网络结构，使得网络模型的运行更快。

图7为本申请实施例提供的一种检测模型的示意图；其中，左图为可分离卷积结构，右图为分组卷积结构。

如图7左图所示，在可分离卷积结构中，先将样本图像(7101)输入可分离卷积结构中，通过分离通道(7102)，首先进行1×1卷积(7103)输出第一卷积结果；将第一卷积结果通过批量规范化的线性整流函数(batchnormalizationrectifiedlinearunit，bnrelu)，并进行3×3深度滤波卷积3×3dwconv(7104)得到第二卷积结果；将第二卷积结果通过批量规范化处理(batchnormalization，bn)，并再次进行1×1卷积(7105)，并对输出结果进行bnrelu处理，输出第三卷积结果，将第三卷积结果与分离通道输出的分离数据进行连接融合(7106)，通过随机通道(7107)得到最后的输出结果(7108)。

如图7右图所示，在分组卷积结构中，先将样本图像(7201)进行分组，得到第一样本和第二样本，将第一样本进行3×3深度滤波卷积(7202)得到第四卷积结果，其中，卷积步长stride为2；对第四卷积结果进行bn处理，并进行1×1卷积处理(7203)，得到第五卷积结果；同时，对第二样本进行1×1卷积处理(7204)得到第六卷积结果；对第六卷积结果进行bnrelu处理，并进行3×3深度滤波卷积(7205)得到第七卷积结果；对第七卷积结果进行1×1卷积处理(7206)得到第八卷积结果；将第五卷积结果的bnrelu处理处理结果和第八卷积结果的bnrelu处理处理结果进行连接融合处理(7207)，通过随机通道(7208)得到最后的输出结果(7209)。

在本申请的一个实施例中，如图8所示，步骤s510中基于样本图像中检测到的文本区域对应的正样本像素点、从非文本区域中选取的负样本像素点确定模型损失值之前，还包括步骤s810～s820，详细说明如下：

在步骤s810中，识别样本图像中包含文本片段的文本区域，以及不包含文本片段的非文本区域。

在本申请的一个实施例中，在训练过程中，模型并没有将不同的文字实例区别对待，我们希望模型在检测指标项时精准度更高，在检测到敏感信息时自动过滤。通过识别所述样本图像中包含文本信息的文本区域、不包含文本信息的非文本区域，其中，文本区域中的像素点为正样本像素点，本实施例中根据正样本像素点，从非文本区域中选取处负样本像素点，以根据正样本像素点和负样本像素点计算检测模型的模型损失值，基于该模型损失值训练检测网络得到第二模型。

在步骤s820中，从非文本区域中选取出负样本像素点。

在本申请的一个实施例中，上述步骤从非文本区域中选取出负样本像素点的过程中，具体包括：

识别文本区域对应的正样本像素点的数目；

根据正样本像素点数目与正负样本比例之间的乘积，确定所需选取的负样本像素点的数目；

从非文本区域中选取出负样本像素点的数目个负样本像素点。

在本申请的一个实施例中，本实施例中的文本区域中的像素点为正样本像素点，在识别正样本像素点数目时，可以是根据原样本图像的图像分辨率来确定，也可以对文本区域和非文本区域中的图像特征进行统一处理，确定正样本像素点的数目。

在本申请的一个实施例中，预先设定一个正负样本比例，计算正负样本比例与正样本像素点的数目的乘积，得到所需选取的负样本像素点的数目，以基于负样本像素点的数目，从非文本区域中选取出负样本像素点。

示例性的，设正负样本比例为r，一个样本图像中包含有文本信息的正样本总面积为s，即正样本像素的数目为s个。计算得到的负样本像素点的数目为r*s个。例如，当r＝5时，计算得到需要选取5s个负样本像素点的数目。

需要说明的是，由于在很多情况下，样本图像中的文本区域的面积和非文本区域的面积不同，还有可能会出现非文本区域的面积小于文本区域的面积的情况，这种情况下，为了保证选取负样本像素点的数目，可以从非文本区域中重复选取，以保证负样本像素点的数目与正样本像素点的数目之间的比例一定，进而保证模型损失值的计算的准确性。

在本申请的一个实施例中，在确定了参与计算模型损失值的正样本像素点和负样本像素点之后，根据正样本像素点和负样本像素点计算得到模型损失值。具体的计算方法可以是根据损失函数的方法计算，此处不做赘述。

在本申请的一个实施例中，在从非文本区域中选取出负样本像素点的过程中，具体包括：

根据文本区域、样本图像中各像素点的像素标签，确定样本图像中各像素点对应的损失值；

从非文本区域中选取各像素点对应的损失值偏小的像素点作为负样本像素点。

在本申请的一个实施例中，在检测得到文本区域和非文本区域之后，根据样本图像中各个像素点对应设定的像素标签，计算非文本区域中各个像素点对应的损失值。以根据各个像素点对应的损失值从非文本区域中选取损失值偏小的像素点，作为负样本像素点。

进一步的，为了更加体现本申请中负样本像素点的作用，可结合正样本像素点的数目，确定负样本像素点的数目，进而从非文本区域中选取该负样本像素点的数目的、损失值偏小的像素点作为负样本像素点。

示例性的，正负样本比例为r，一个样本图像中包含有文本信息的正样本总面积为s，即正样本像素的数目为s个，计算得到的负样本像素点的数目为r*s个。在训练检测模型过程中，对图片中的每个像素点计算出损失值，对各像素点的损失值进行排序，从非文本区域中选取损失值最小的r*s个负样本像素点，将其和正样本s个像素，计算出检测网络整体的模型损失值。

在步骤s520中，将模型损失值进行反向传播训练得到第二模型。

在本申请的一个实施例中，在计算得到模型损失值之后，基于该模型损失值进行神经网络反向传播计算，以不断更新模型中的各种参数，以此使模型损失值不断下降，即可使输出的数据更加理想，得到第二模型。

本实施例中通过确定正样本像素点的数目和负样本像素点的数据，并基于各个像素点的损失值，来选取一定数目的、损失值较低的负样本像素点，即相比于正样本像素点高出几倍数目的、识别效果较低的负样本像素点，来参与模型损失值的计算，提高了模型损失值，在根据模型损失值进行反向传播训练第二模型之后，保证了第二模型训练的准确性，进而通过第二模型精确地检测文本区域。

在步骤s330中，通过预训练的第一模型识别各个文本区域中所包含的文本信息，其中，第一模型通过包含有负样本区域的训练数据训练得到，负样本区域包括：包含有敏感信息的文本区域，以及与包含有敏感信息的文本区域对应的设定输出信息。

在本申请的一个实施例中，第一模型为预先训练得到，用于识别文本区域中包含的文字信息。其中，第一模型的训练样本中包括敏感信息的文本区域对应的负样本区域，以及该区域对应的设定输出信息，通过基于敏感信息的文本区域及其对应的输出信息对识别网络进行训练，以在识别文本区域中的文字信息的过程中，在检测到文字信息为敏感信息时，不进行文字识别，直接输出设定输出信息，实现文字识别的脱敏效果，保护用户隐私。

进一步的，由于待处理图像中的个异性，其中可能包括除敏感信息之外的各种信息，例如噪声等，针对这些情况的处理方式和敏感信息的处理方式相同，此处不做赘述。通过这种方式可以降低待处理图像中噪声处理的精确度，以得到更加准确的识别结果。

在本申请的一个实施例中，第一模型为基于连接时许分类(connectionisttemporalclassification，ctc)构建的识别网络进行训练得到。其输入为第二模型输出的文本区域，输出为具体的文本信息或者设定输出信息。

图9为本申请实施例提供的一种文字的识别网络的示意图。

如图9所示，识别网络的处理流程从下至上，首先对文本区域进行预处理，例如大小归一化，得到统一高度的文本区域(910)；将文本区域(910)送入到视觉几何组(visualgeometrygroup，vgg)中提取视觉特征(920)；然后将提取出的视觉特征(920)做重组后，得到重组特征(930)；将重组特征(930)送入前后向结合的长短时记忆网络(bi-directionallongshort-termmemory，bi-lstm)(940)中，得到图像中的语义信息；最终通过ctc(950)使其能找到句子中各个字之间的概率转移矩阵，识别得到文本区域中的文字信息。

在本申请的一个实施例中，在基于上述识别网络训练得到第一模型的参数过程，包括如下步骤：

基于第一模型对至少两个文本区域样本的识别结果，从至少两个文本区域样本中选取负样本区域；

将从至少两个文本区域中选取的负样本区域作为新的文本区域样本对第一模型进行训练。

在本申请的一个实施例中，在训练识别网络的过程中，通过将至少两个文本区域样本作为一批文本区域样本输入到识别网络中，得到识别结果。从这些识别结果中选取出识别效果较低的文本区域样本作为负样本区域，以基于这些负样本区域进行针对性的训练，得到更加精确的第一模型的参数。

在本申请的一个实施例中，如图10所示，上述基于第一模型对至少两个文本区域样本的识别结果，从至少两个文本区域样本中选取负样本区域的过程，包括步骤s1010～s1030：

在步骤s1010中，基于第一模型对至少两个文本区域样本的识别结果，计算各文本区域对应的损失值。

在本申请的一个实施例中，将至少两个文本区域样本输入识别网络中，得到各文本区域对应的识别结果。根据识别结果和文本区域设定的文字标签，计算各文本区域对应的损失值。具体的损失值计算方式可以为根据损失函数计算，此处不做赘述。

在步骤s1020中，根据各文本区域对应的损失值，确定至少两个文本区域样本对应的平均损失。

在本申请的一个实施例中，在计算得到各文本区域对应的损失值之后，根据各文本区域对应的损失值，确定该批文本区域样本对应的平均损失，以基于平均损失来衡量该批文本区域样本的识别效果。

可选的，计算一批文本区域样本对应的平均损失的方式可是根据各文本区域的损失值直接求取均值的方式。也可以根据各文本区域面积的大小确定其对应的权值，根据权值和损失值，求取加权平均的方式，此处不做限定。

在步骤s1030中，若平均损失小于损失阈值，则从至少两个文本区域样本中选取负样本区域。

在本申请的一个实施例中，在计算得到平均损失之后，若平均损失小于预设的损失阈值，则说明该批文本区域的识别效果较低，可能由于其中存在较难识别的文本区域，因此从这一批的文本区域样本中选取负样本区域。

示例性的，设置损失阈值为1.0，在基于一批的文本区域样本训练过程中，当计算得到的平均损失小于1.0时，从文本区域中选取负样本区域进行针对性的训练，进一步提升模型训练效果。

在本申请的一个实施例中，若平均损失大于或者等于损失阈值，则不选取负样本区域，继续根据原有的训练样本进行训练。

在本申请的一个实施例中，步骤s1030中从文本区域中选取负样本区域的过程，具体包括：

则根据平均损失和滑动参数，确定平均滑动损失；

将损失值小于平均滑动损失时对应的文本区域选取为负样本区域。

在本申请的一个实施例中，在计算得到平均损失之后，若平均损失小于损失阈值，则根据平均损失和滑动参数，确定平均滑动损失，以将损失值小于平均滑动损失时对应的文本区域选取为负样本区域，进行针对性训练。

具体的，计算平均滑动损失的公式为：a·loss_y+(1-a)·loss_a；其中，a表示损失参数，loss_y表示损失阈值，loss_a表示平均损失。

示例性的，设置损失阈值为1.0，a为0.8在基于一批的文本区域样本训练过程中，若计算得到的平均损失为0.9时，则此次平均滑动损失为0.8×1.0+(1-0.8)×0.9＝0.98。当某个文本区域对应的损失小于0.98时，则将该文本区域选取为负样本区域。

图11为本申请实施例提供的基于负样本区域的训练方法的示意图。

如图11所示，在一批文本区域训练样本1110中，其中包括了多个文本区域。在基于文本区域训练样本1110中的各个文本区域进行训练之后，得到各个文本区域对应的识别结果1120。根据各个文本区域对应的设定标签以及识别结果，确定各个文本区域的损失值，根据各个文本区域的损失值及上述方法，选取其中的一些文本区域作为负样本区域，即1121、1122以及1123，将这些负样本区域继续投入下一次的训练中，即1131。

进一步的，本实施例中一批文本区域训练样本中的文本区域的数量是一定的，为了保证训练的统一性，通过将其余数量的文本区域通过其余文本区域补齐，即1132，最后得到下一批文本区域样本1130，再将下一批文本区域样本1130投入到下一次的训练中。

示例性的，本实施例中的待处理图片可以为检验报告，为了更加突出检验报告中的检验信息，本实施例中在训练第一模型的过程中，可以包括如下步骤：

将检验报告输入第一模型，得到检验报告中的检验信息；

若检验信息与预设信息匹配，则增大检验报告对应的损失值，得到增大损失值；

基于增大损失值和负样本区域，对第一模型进行训练得到第一模型的参数。

具体的，首先将检验项目的词句构建一个词库，将检验报告输入第一模型，在得到检验报告中的检验信息之后，如果识别得到的检验信息在词库中的匹配程度很高，则认为该文字实例对应于原图中的检查项，为了让模型在这些文字实例的识别上表现更好，人为地增加其相应的损失，得到增大损失值。再根据增大损失值和负样本区域训练得到第一模型的参数。

本实施例中通过在检测模型中调节模型的损失值，在识别模型中调节模型训练的样本和损失值，使得得到的文字识别模型在我们想要的文字信息上表现更为良好，同时也过滤掉了检验报告中的敏感信息和图像噪点，为后端引擎的处理减小了压力，相应地增加了整个系统的精度。

在步骤s340中，输出第一模型识别出的文本信息。

在本申请的一个实施例中，将待处理图像通过第一模型，得到待处理图像中的文本信息，并将文本信息输出。其输出的方式可以是显示在终端设备的用户界面上，也可以基于文本信息生成文本文件，直接输出文本文件，此处不做限定。

图12为本申请实施例提供的对医疗图片进行检测识别的流程图。

如图12所示，在本申请的一个实施例中，在步骤s1210中输入医疗图片，在步骤s1220中对图片进行前处理，使得图片尺寸压缩到固定大小、像素变换为单通道图片，以方便图片的同一处理；在步骤s1230中将前处理之后的医疗图片输入检测模型中；在步骤s1240中得到检测模型检测出的文本框坐标；在步骤s1250中根据文本框坐标裁剪成多个小图片，在步骤s1260中将多个小图片送入识别模型中；在步骤s1270中识别出小图片对应的文本片段；在步骤s1280中将文本框坐标和文本片段组装起来；在步骤s1290中返回整体的识别结果，输出识别出的文本信息。

本实施例通过先将医疗图片输入检测模型中得到文本框坐标对应的小图片，再将小图片输入识别模型中得到其中的文本信息，并且基于训练得到的检测模型和识别模型可以更加精确和高效得到医疗图片中的文本信息。

在本申请的一个实施例中，在步骤s340中输出第一模型识别出的文本信息的过程之后，还包括：

识别所述检验信息中的检验项目，并识别所述检验信息中超出检验指标的异常项目；

区别显示所述检验项目的相关信息与所述异常项目的相关信息。

在本申请的一个实施例中，文本信息包括检验报告中的检验信息，检验信息中具体包括各检验项目对应的信息。在输出第一模型识别出的文本信息之后，识别检验信息中的检验项目，以从预设的检验项目信息中获取各个检验项目关联的信息，并与识别得到的检验信息同时显示，以提醒用户相关信息的含义。

在本申请的一个实施例中，根据预设的各个检验项目对应的正常阈值范围，即检验指标，从各个检验项目中，确定超出检验指标的异常项目，并通过预设的显示方式显示这些异常项目，以警示相关人员注意发生异常的检验项目。

示例性的，通过手机获取到医学检验报告中的检验信息之后，在手机端显示电子化的检验信息。并对检验信息中的异常项进行识别，针对其中的异常项标红显示，另外提供针对各个指标项的医学解读，以给用户参考，提高了检验报告的可读性。

在本申请的一个实施例中，文字识别方法可以应用在医疗环境中，其中，待处理图片包括检验者的医疗检验报告，敏感信息包括医疗检验报告中检验者的身份信息，示例性的，身份信息可以为检验者的姓名、性别、电话号码以及身份证号等，此处不做限定。

本实施例中通过获取医疗检验报告，检测医疗检验报告中包含的各个报告文本区域，并通过第一模型识别各个报告文本区域中所包含的医疗检验信息，最后输出第一模型识别出的医疗检验信息，并针对检测到的敏感区域输出设定输出信息，其中，敏感区域为身份信息对应的区域。例如，设定输出信息可以为“敏感信息”，当确定某报告文本区域中包括了检验者的身份信息之后，针对该报告文本区域对应输出“敏感信息”。本实施例中通过不识别检验者的身份信息，并以直接输出设定输出信息的方式，保护了医疗检验报告中用户信息的隐私，提高了该文字识别方法的可信度。

在本申请的一个实施例中，提供了一种文字识别模型的训练方法，文字识别模型包括用于识别文本的第一模型，第一模型的训练方法包括：将包含有负样本区域的训练数据输入识别网络，得到识别结果；负样本区域包括：包含有敏感信息的文本区域，以及与包含有敏感信息的文本区域对应的设定输出信息；根据识别结果与设定输出信息，确定第一模型的损失值；基于第一模型的损失值训练得到第一模型。

在本申请的一个实施例中，文字识别模型包括用于检测待处理图片中文本区域的第二模型，第二模型的训练方法包括：识别所述样本图像中包含文本信息的文本区域、不包含文本信息的非文本区域；根据文本区域对应的正样本像素点，从非文本区域中选取负样本像素点；根据正样本像素点、负样本像素点以及文本区域中各像素点对应的设定标签，确定第二模型的模型损失值；将模型损失值进行反向传播训练得到第二模型。

在本申请的一个实施例中，上述文字识别模型包括用于检测文本区域的第二模型、用于识别文本的第一模型。其中，第二模型输出的文本区域为第一模型的输入，第一模型从文本区域中识别出文字信息，两个模型的训练方法和数据处理方法相不干涉。具体的模型训练方法和数据处理方法请详见上文描述，此处不做赘述。

以下介绍本申请的文字识别装置实施例，可以用于执行本申请上述实施例中的文字识别方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的文字识别方法的实施例。

图13示出了根据本申请的一个实施例的文字识别装置的框图。

参照图13所示，根据本申请的一个实施例的文字识别装置1300，包括：获取单元1310，用于获取包含有文本信息的待处理图片；检测单元1320，用于检测待处理图片中包含的各个文本区域；识别单元1330，用于通过预训练的第一模型识别各个文本区域中所包含的文本信息，其中，第一模型通过包含有负样本区域的训练数据训练得到，负样本区域包括：包含有敏感信息的文本区域，以及与包含有敏感信息的文本区域对应的设定输出信息；输出单元1340，用于输出第一模型识别出的文本信息。

在本申请的一些实施例中，基于前述方案，文字识别装置1300包括：第一选取单元，用于基于第一模型对至少两个文本区域样本的识别结果，从至少两个文本区域样本中选取负样本区域；第一训练单元，用于将从至少两个文本区域中选取的负样本区域作为新的文本区域样本对第一模型进行训练。

在本申请的一些实施例中，基于前述方案，第一选取单元包括：第一计算单元，用于基于第一模型对至少两个文本区域样本的识别结果，计算各文本区域对应的损失值；第二计算单元，用于根据各文本区域对应的损失值，确定至少两个文本区域样本对应的平均损失；第二选取单元，用于若平均损失小于损失阈值，则从至少两个文本区域样本中选取负样本区域。

在本申请的一些实施例中，基于前述方案，第二选取单元配置为：根据平均损失和滑动参数，确定平均滑动损失；将损失值小于平均滑动损失时对应的文本区域选取为负样本区域。

在本申请的一些实施例中，基于前述方案，待处理图片包括检验报告；文字识别装置1300还包括：第一识别单元，用于通过第一模型识别检验报告中的检验信息；第一调节单元，用于若检验信息与预设信息匹配，则增大检验报告对应的损失值，得到增大损失值；第二训练单元，用于基于增大损失值和负样本区域，对第一模型进行训练。

在本申请的一些实施例中，基于前述方案，通过预训练的第二模型检测待处理图片中包含的各个文本区域；文字识别装置1300还包括：第三选取单元，用于基于样本图像中检测到的文本区域对应的正样本像素点、从非文本区域中选取的负样本像素点确定模型损失值；第三训练单元，用于将模型损失值进行反向传播训练得到第二模型。

在本申请的一些实施例中，基于前述方案，文字识别装置1300还包括：区域识别单元，用于识别样本图像中包含文本片段的文本区域，以及不包含文本片段的非文本区域；第四选取单元，用于从非文本区域中选取出负样本像素点。

在本申请的一些实施例中，基于前述方案，第四选取单元包括：数目识别单元，用于识别文本区域对应的正样本像素点的数目；第三计算单元，用于根据正样本像素点数目与正负样本比例之间的乘积，确定所需选取的负样本像素点的数目；第五选取单元，用于从非文本区域中选取出负样本像素点的数目个负样本像素点。

在本申请的一些实施例中，基于前述方案，第五选取单元配置为：根据文本区域、样本图像中各像素点的像素标签，确定样本图像中各像素点对应的损失值；从非文本区域中选取各像素点对应的损失值偏小的像素点作为负样本像素点。

在本申请的一些实施例中，基于前述方案，文本信息包括作为待处理图片的检验报告中的检验信息；文字识别装置1300还包括：异常识别单元，用于识别检验信息中的检验项目，并识别检验信息中超出检验指标的异常项目；异常显示单元，用于区别显示检验项目的相关信息与异常项目的相关信息。

以下介绍本申请的文字识别模型的训练装置实施例，可以用于执行本申请上述实施例中的文字识别模型的训练方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的文字识别模型的训练方法的实施例。

图14示出了根据本申请的一个实施例的文字识别装置的框图。

参照图14所示，根据本申请的一个实施例的文字识别模型的训练装装置1400，包括：识别单元1410，用于将包含有负样本区域的训练数据输入识别网络，得到识别结果；负样本区域包括：包含有敏感信息的文本区域，以及与包含有敏感信息的文本区域对应的设定输出信息；损失单元1420，用于识别结果与设定输出信息，确定第一模型的损失值；训练单元1430，用于基于第一模型的损失值训练得到第一模型。

在本申请的一个实施例中，文字识别模型包括用于检测待处理图片中文本区域的第二模型，训练装装置1400还包括：检测单元，用于识别所述样本图像中包含文本信息的文本区域、不包含文本信息的非文本区域；选取单元，用于根据文本区域对应的正样本像素点，从非文本区域中选取负样本像素点；确定单元，用于根据正样本像素点、负样本像素点以及文本区域中各像素点对应的设定标签，确定第二模型的模型损失值；反向训练单元，用于将模型损失值进行反向传播训练得到第二模型。

图15示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图15示出的电子设备的计算机系统1500仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图15所示，计算机系统1500包括中央处理单元(centralprocessingunit，cpu)1501，其可以根据存储在只读存储器(read-onlymemory，rom)1502中的程序或者从存储部分1508加载到随机访问存储器(randomaccessmemory，ram)1503中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在ram1503中，还存储有系统操作所需的各种程序和数据。cpu1501、rom1502以及ram1503通过总线1504彼此相连。输入/输出(input/output，i/o)接口1505也连接至总线1504。

以下部件连接至i/o接口1505：包括键盘、鼠标等的输入部分1506；包括诸如阴极射线管(cathoderaytube，crt)、液晶显示器(liquidcrystaldisplay，lcd)等以及扬声器等的输出部分1507；包括硬盘等的存储部分1508；以及包括诸如lan(localareanetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至i/o接口1505。可拆卸介质1511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1510上，以便于从其上读出的计算机程序根据需要被安装入存储部分1508。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1509从网络上被下载和安装，和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(cpu)1501执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasableprogrammablereadonlymemory，eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compactdiscread-onlymemory，cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高文龙;史仪男
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：用于汽车的通风口的制作方法
上一篇：一种海潮流发电设备架体防冲刷调平装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。