字符检测方法和装置与流程

文档序号：12671376阅读：226来源：国知局

本申请涉及人工智能领域，具体涉及机器学习领域，尤其涉及字符检测方法和装置。

背景技术：

机器学习被广泛应用于大数据、图像识别、语音识别等技术领域。然而，对于图片中的字符的检测，目前，由于既有的标注样本通常为词级别的标注样本，无法参与对字符进行检测的机器学习模型的训练，导致对字符进行检测的机器学习模型无法得到充分的训练，进而造成无法对图片中的字符进行较为精确地检测。此外，只有符合严格的标注规范的样本才能参与训练，进一步导致可参与训练的标注样本数量的减少。

发明信息

本申请提供了字符检测方法和装置，用于解决上述背景技术部分存在的技术问题。

第一方面，本申请提供了字符检测方法，该方法包括：将包含经标注的词语的图片作为机器学习模型的输入；基于被机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息，从被机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符；基于选取出的字符的特征，对机器学习模型进行训练，以利用训练后的机器学习模型对图片中的字符进行检测。

第二方面，本申请提供了字符检测装置，该装置包括：输入单元，配置用于将包含经标注的词语的图片作为机器学习模型的输入；选取单元，配置用于基于被机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息，从被机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符；训练单元，配置用于基于选取出的字符的特征，对机器学习模型进行训练，以利用训练后的机器学习模型对图片中的字符进行检测。

本申请提供的字符检测方法和装置，通过将包含经标注的词语的图片作为机器学习模型的输入；基于被机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息，从被机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符；基于选取出的字符的特征，对机器学习模型进行训练。实现了利用既有的词级别标注的图片即可对机器学习模型进行充分地训练，得到可对图片中的字符进行检测的机器学习模型，降低了训练可对图片中的字符进行检测的机器学习模型的开销。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了根据本申请的字符检测方法的一个实施例的流程图；

图2示出了根据本申请的字符检测方法的另一个实施例的流程图；

图3示出了适用于本申请的字符检测方法的一个示例性架构图；

图4示出了根据本申请的字符检测装置的一个实施例的结构示意图；

图5示出了适于用来实现本申请实施例的字符检测装置的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了根据本申请的字符检测方法的一个实施例的流程。该方法包括以下步骤：

步骤101，将包含经标注的词语的图片作为机器学习模型的输入。

在本实施例中，包含经标注的词语的图片中可以包含用于对词语的位置进行标注的对象。

例如，图片中包含用于对图片中的词语的位置进行标注的包围词语的标注框，可以将该图片中的位于该标注框内的词语称之为经标注的词语，将该包含经标注的词语的图片称之为词级别标注的图片，将该标注框称之为经标注的词语的标注信息。

在本实施例中，可以将词级别标注的图片作为机器学习模型的输入。当图片中的一个位置存在字符的概率大于阈值时，机器学习模型可以预测该位置可能存在字符，可以将位于该位置的对象称之为被预测出的字符。机器学习模型可以输出被预测出的字符的预测结果。

在本实施例的一些可选的实现方式中，机器学习模型为卷积神经网络。

在本实施例中，机器学习模型可以为卷积神经网络，卷积神经网络可以包括但不限于：深度卷积网络、SSD(single shot multibox detector)、R-FCN:(Object Detection via Region-based Fully Convolutional Networks)、Faster RCNN等通用物体预测深度卷积网络框架。

在本实施例的一些可选的实现方式中，被机器学习模型预测出的字符的预测结果包括：字符对应的置信度、字符对应的包围盒，经标注的词语的标注信息包括：经标注的词语对应的包围盒。

应理解，在本实施例中，包围盒并不特指某一对象，可以将机器学习模型对图片中的待检测的对象进行预测时使用的包围待检测的对象的对象称之为包围盒。相应地，包围盒可以对应一个置信度。

以机器学习模型为卷积神经网络SSD为例，在将词级别标注的图片作为SSD的输入即将词级别标注的图片输入到SSD之后，SSD可以输出被预测出的字符的预测结果。被预测出的字符的预测结果可以包括：该字符对应的包围盒(bounding box)和该字符对应的置信度(text/non-text score)，该字符对应的置信度可以用于表示包围盒中的对象为字符的概率。

在本实施例的一些可选的实现方式中，还包括：将词级别标注的数据集中的词级别标注的图片作为包含经标注的词语的图片，词级别标注的图片包括：用于对词语的位置进行标注的包围词语的标注框。

例如，词级别标注的数据集COCO-Text数据集中包含词级别标注的图片。词级别标注的图片包含用于对词语的位置进行标注的包围词语的标注框和位于该标注框内的经标注的词语。可以将COCO-Text数据集中的词级别标注的图片作为机器学习模型的输入。

步骤102，基于标注区域内的字符的预测结果和标注信息，选取出用于训练的字符。

在本实施例中，为了利用词级别标注的图片对机器学习模型进行训练，得到用于对图片中的字符进行检测的机器学习模型，可以首先从被机器学习模型预测出的字符中查找出位置位于经标注的词语的标注区域内的字符。然后，可以基于被预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息，从被预测出的位于经标注的词语的标注区域内的字符中选取出适用于参与机器学习模型的训练的字符。

以机器学习模型为卷积神经网络SSD，词级别标注的图片中包含标注框为例，经标注的词语的标注信息为该标注框。经标注的词语的标注区域为该标注框占用的区域。该标注框可以为任意形状例如多边形，用于包围图片中的词语对词语的位置进行标注。该标注框也可称之为经标注的词语对应的包围盒。在将包含经标注的词语的图片作为SSD的输入之后，SSD可以输出被预测出的字符的预测结果。被SSD预测出的字符的预测结果可以包括：该字符对应的包围盒和该字符对应的置信度，该字符对应的置信度可以用于表示包围盒中的对象为字符的概率。可以首先从被SSD预测出的字符中查找出位于该标注框内的字符。例如，当被预测出的字符对应的包围盒在经标注的词语对应的包围盒中时，则可以确定该被检测出的字符的位置位于该标注框内。然后，可以根据被SSD预测出的位于标注框内的字符的预测结果和经标注的词语对应的包围盒，从被SSD预测出的位于标注框内的字符中选取出用于适用于参与SSD的训练的字符。

在本实施例的一些可选的实现方式中，从被机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符包括：基于被机器学习模型预测出的位于经标注的词语的标注区域内的字符对应的包围盒的区域与经标注的词语对应的包围盒的区域之间的比例关系和被机器学习模型预测出的位于经标注的词语的标注区域内的字符之间的对齐情况，从被机器学习模型预测出的字符中选取出用于训练机器学习模型的字符。

以机器学习模型为卷积神经网络SSD，词级别标注的图片中包含标注框为例，经标注的词语的标注信息为该标注框。经标注的词语的标注区域为该标注框占用的区域。该标注框可以为任意形状例如多边形，用于包围图片中的词语对词语的位置进行标注。该标注框也可称之为经标注的词语对应的包围盒。

SSD预测出的位于标注框内的字符的预测结果可以包括：字符对应的包围盒和字符对应的置信度。在从被SSD预测出的位于标注框内的字符中的字符中选取出用于训练SSD的字符时，可以根据被SSD预测出的位于标注框内的字符对应的包围盒和经标注的词语对应的包围盒的面积之间的比例关系和预测出的位于标注框内的字符之间的对齐情况，选取出用于参加SSD训练的字符。选取出的字符应满足：对应的包围盒的面积尽可能多地覆盖经标注的词语对应的包围盒的面积以及尽可能地在同一直线上。

步骤103，基于选取出的字符的特征，对机器学习模型进行训练。

在本实施例中，在通过步骤102从被机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符之后，可以利用选取出用于训练机器学习模型的字符的特征，对机器学习模型进行训练。

例如，通过步骤102从被预测出的位于标注框内的字符中选取的字符满足：对应的包围盒尽可能多地覆盖经标注的词语对应的包围盒的面积以及尽可能地在同一直线上。可以利用从位于标注框内的字符中选取出的字符的特征，例如利用从位于标注框内的字符中选取出的字符对应的包围盒对机器学习模型进行训练。

在本实施例中，步骤101-步骤103可以执行多次，从而，多次对机器学习模型进行训练，得到用于对图片中的字符进行检测的机器学习模型。在每一次训练中，通过步骤101将包含经标注的词语的图片即词级别标注的图片作为机器学习模型的输入，例如将COCO-Text数据集中的词级别标注的图片作为机器学习模型的输入。通过步骤102基于机器学习模型预测出的经标注的词语的标注区域内字符的预测结果和经标注的词语的标注信息，从预测出的位于经标注的词语的标注区域内的字符中选取出适用于参与训练机器学习模型的字符。通过步骤103利用选取出的用于对机器学习模型进行训练的字符的特征，对机器学习模型进行训练。

在本实施例中，步骤101-步骤103所涉及的对机器学习模型的训练方式可以应用在深度卷积网络、SSD、R-FCN、Faster RCNN等通用物体预测深度卷积网络框架中。从而，利用既有的词级别标注的图片例如COCO-Text数据集中的词级别标注的图片即可对机器学习模型进行充分地训练，得到可对图片中的字符进行检测的机器学习模型，降低了训练可对图片中的字符进行检测的机器学习模型的开销。适用于多种不同的机器学习模型，进一步地，参与训练的词级别标注的图片不会受到严格的标注规范的限制，也可参与训练，增加了参与训练的词级别标注的图片的数量，进一步充分地对机器学习模型进行训练。

请参考图2，其示出了根据本申请的字符检测方法的另一个实施例的流程。该方法包括以下步骤：

步骤201，将包含经标注的词语的图片作为卷积神经网络的输入。

在本实施例中，包含经标注的词语的图片中包含用于对词语的位置进行标注的对象。

例如，图片中包含用于对图片中的词语的位置进行标注的包围图片中的词语的标注框，可以将该图片中的位于该标注框内的词语称之为经标注的词语，将该包含经标注的词语的图片称之为词级别标注的图片，将该标注框称之为经标注的词语的标注信息。

在本实施例中，可以将词级别标注的数据集中的词级别标注的图片作为卷积神经网络的输入。例如，词级别标注的数据集COCO-Text数据集包含词级别标注的图片。词级别标注的图片包含用于对词语的位置进行标注的包围词语的标注框即经标注的词语的标注信息和位于该标注框内的经标注的词语。可以将COCO-Text数据集中的词级别标注的图片作为卷积神经网络的输入。

在本实施例中，卷积神经网络可以包括但不限于：深度卷积网络、SSD(single shot multibox detector)、R-FCN:(Object Detection via Region-based Fully Convolutional Networks)、Faster RCNN等通用物体预测深度卷积网络框架。在将词级别标注的图片作为卷积神经网络的输入之后，由卷积神经网络进行前向传播，卷积神经网络可以输出被预测出的字符的预测结果。被卷积神经网络预测出的字符的预测结果可以包括：该字符对应的包围盒和该字符对应的置信度，该字符对应的置信度可以用于表示包围盒中的对象为字符的概率。

步骤202，基于标注区域内的字符的预测结果和标注信息，选取出用于训练的字符。

在本实施例中，为了利用词级别标注的图片对卷积神经网络进行训练，得到用于对字符进行检测的卷积神经网络，可以首先从被卷积神经网络预测出的字符中查找出位置位于经标注的词语的标注区域内的字符。然后，可以基于被卷积神经网络预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息，从被预测出的位于经标注的词语的标注区域内的字符中选取出适用于参与机器学习模型的训练的字符。

以卷积神经网络为SSD，词级别标注的图片中包含标注框为例，经标注的词语的标注信息为该标注框。经标注的词语的标注区域为该标注框占用的区域。该标注框可以为任意形状例如多边形，用于包围图片中的词语对词语的位置进行标注。该标注框也可称之为经标注的词语对应的包围盒。

在将词级别标注的图片作为SSD的输入之后，SSD预测出的位于标注框内的字符的预测结果可以包括：字符对应的包围盒和字符对应的置信度。可以首先从被预测出的字符中查找出位于该标注框内的字符。例如，当被预测出的字符对应包围盒在经标注的词语对应的包围盒中时，则该被检测出的字符的位置可以相当于位于该标注框内。然后，可以根据预测出的位于标注框内的字符对应的包围盒和经标注的词语对应的包围盒的面积之间的比例关系和预测出的位于标注框内的字符之间的对齐情况，选取出适用于参加SSD训练的字符。选取出的字符应满足：对应的包围盒的面积尽可能多地覆盖经标注的词语对应的包围盒的面积以及尽可能地在同一直线上。

在本实施例中，可以采用以下方式从预测出的位于经标注的词语的标注区域内的字符中选取出适用于参与卷积神经网络的训练的字符：可以采用K-NN(k-nearest neighbors)算法对被卷积神经网络预测出的位于经标注的词语的标注区域内的字符对应的包围盒计算k近邻，得到一个表示预测出的位于经标注的词语的标注区域内的字符之间的连接关系的拓扑结构。

例如，采用K-NN算法根据位于经标注的词语的标注区域内的每一个字符对应的包围盒的中心点的位置，计算k近邻，得到个表示位于经标注的词语的标注区域内的字符之间的连接关系的拓扑结构。在该拓扑结构中，一个字符可以与其他被卷积神经网络预测出的位于经标注的词语的标注区域内的k个字符相连接。两个相连接的字符之间可以具有权重值w_ij，权重值w_ij可以采用以下公式计算：

其中，d(i,j)表示两个相连接的字符之间的距离，表示所有字符连接对中的字符之间的距离的平均值，t_i和t_j表示两个相连接的字符各自对应的置信度。两个相连接的字符之间的距离可以为两个相连接的字符对应的包围盒的中心点的位置之间的距离。

在该拓扑结构中，两个相连接的字符可以构成一个字符连接对。在分别计算出每一个字符连接对中的两个相连接的字符之间的距离之后，例如，计算出每一个字符连接对中的两个相连接的字符对应的包围盒的中心点的位置之间的距离之后，可以计算每一个字符连接对中的两个相连接的字符之间的距离的平均值，得到上述所有字符连接对中的字符之间的距离的平均值。

在对被卷积神经网络预测出的位于经标注的词语的标注区域内的字符对应的包围盒计算k近邻，得到表示字符之间的连接关系的拓扑结构之后，可以从该拓扑结构中查找出最大生成树。该最大生成树包括所有被卷积神经网络预测出的位于经标注的词语的标注区域内的字符，所有被卷积神经网络预测出的位于经标注的词语的标注区域内的字符在最大生成树中依次连接，并且，依次连接的字符中两两相连接的字符之间的权重值之和最大。

在查找出最大生成树之后，可以查找出最大生成树和最大生成树中的子树中得分较高的树。将得分较高的树中的字符作为用于参与卷积神经网络训练的字符。从而，使得参与卷积神经网络训练的字符对应的包围盒的面积覆盖尽可能多地占用词级别的标注信息所对应的面积，参与卷积神经网络训练的字符尽可能地落在同一直线上。

可以采用以下得分计算公式计算最大生成树或最大生成树中的子树的得分s：

s＝w·s1+(1-w)·s2

其中，B_chars表示子树或当前树中的字符对应的包围盒。子树或当前树中的字符为多个时，B_chars可以表示由每一个字符对应的包围盒组成的包围盒集合。

B_anno表示经标注的词语对应的包围盒，area(B_chars)表示子树或当前树中的字符对应的包围盒的面积，子树中的字符为多个时，area(B_chars)则可每一个字符对应的包围盒的面积之和。area(B_anno)表示经标注的词语对应的包围盒的面积，λ₁和λ₂表示B_chars的中心坐标协方差矩阵C的最大和第二大特征值。

s1可以用于描述被机器学习模型预测出的位于经标注的词语的标注区域内的字符对应的包围盒的区域与经标注的词语对应的包围盒的区域之间的比例关系，s2可以用于描述被机器学习模型预测出的位于经标注的词语的标注区域内的字符之间的对齐情况。

可以采用以下方式查找出最大生成树和最大生成树中的子树中得分较高的树：在第一次计算得分时，将最大生成树作为当前树，利用上述得分计算公式计算当前树的得分，w的取值为预设权重值例如w的取值为0.5，得到当前树的得分。同时，可以对当前树中的每一个字符连接对分别进行剪枝，在每一次剪枝之后，连接字符对中的一个字符与该字符上游的字符可以构成一个子树，连接字符对中的另一个字符与该另一个字符下游的字符可以构成一个子树。在对当前树中的每一个字符连接对分别进行剪枝之后，可以得到多个子树。可以通过得分计算公式计算每一个子树的得分，利用上述得分计算公式计算子树的得分时，w的取值为子树对应的字符连接对中的两个相连接的字符之间的权重值。

在计算出当前树和子树的得分之后，可以判断多个子树中得分最高的子树的得分是否大于当前树的得分。当得分最高的子树的得分小于当前树的得分时，可以将当前树中的字符作为用于训练经标注的词语的标注区域内的字符。当得分最高的子树大于当前树的得分时，可以将得分最高的子树作为当前树，再次对得分最高的子树中的每一个字符连接对分别进行剪枝，计算对该当前树中的字符连接对进行剪枝后得到的多个子树的得分，再次将得到的得分最高的子树的分数与该当前树的得分进行比较，直至查找出最大生成树和最大生成树中的子树中得分较高的树。

步骤203，基于选取出的字符对应的包围盒，对卷积神经网络进行训练。

在本实施例中，在通过步骤202从被卷积神经网络预测出的位于经标注的词语的标注区域内的字符中选取出用于训练卷积神经网络的字符之后，可以利用选取出用于训练卷积神经网络的字符对应的包围盒作为卷积神经网络的监督学习方式的标签信息，根据预设损失函数进行后向传导，以有监督学习方式对卷积神经网络进行训练，更新卷积神经网络的参数。

在本实施例中，步骤201-步骤203可以执行多次，从而，多次对卷积神经网络进行训练，得到用于对图片中的字符进行检测的卷积神经网络。在每一次训练中，通过步骤201将包含经标注的词语的图片作为机器学习模型的输入，例如将COCO-Text数据集中的词级别标注的图片作为卷积神经网络的输入，由卷积神经网络进行前向传播。通过步骤202基于预测出的经标注的词语的标注区域内字符的预测结果和经标注的词语的标注信息，从预测出的位于经标注的词语的标注区域内的字符中选取出适用于参与训练卷积神经网络的字符。选取出的字符可以满足：对应的包围盒尽可能多地覆盖经标注的词语对应的包围盒的面积以及尽可能地在同一直线上。通过步骤203利用选取出的字符对应的包围盒作为卷积神经网络的监督学习方式的标签信息，根据预设损失函数进行后向传导，以有监督学习方式对卷积神经网络进行训练。

在本实施例中，步骤201-步骤203所涉及的对卷积神经网络的训练方式可以应用在深度卷积网络、SSD、R-FCN、Faster RCNN等通用物体预测深度卷积网络框架中。从而，利用既有的词级别标注的图片例如COCO-Text数据集中的词级别标注的图片即可对卷积神经网络进行充分地训练，得到可对图片中的字符进行检测的卷积神经网络，降低了训练可对图片中的字符进行检测的卷积神经网络的开销。适用于多种不同的卷积神经网络，进一步地，参与训练的词级别标注的图片不会受到严格的标注规范的限制，也可参与训练，增加了参与训练的词级别标注的图片的数量，进一步充分地对卷积神经网络进行训练。

请参考图3，其示出了适用于本申请的字符检测方法的一个示例性架构图。

词级别标注的图片：作为卷积神经网络的输入，可以包含标注框和位于标注框内的经标注的词语。经标注的词语的标注信息为该标注框。标注框可以为任意形状例如多边形，用于包围图片中的词语对词语的位置进行标注。可以将词语别标注的数据集例如COCO-Text数据集中的词级别标注的图片作为深度卷积网络的输入。

卷积神经网络：接收输入的词级别标注的图片，输出预测结果。预测结果包括：字符对应的包围盒和字符对应的置信度。卷积神经网络可以包括但不限于：深度卷积网络、SSD(single shot multibox detector)、R-FCN:(Object Detection via Region-based Fully Convolutional Networks)、Faster RCNN等通用物体预测深度卷积网络框架。

字符模板更新装置：在每一次训练中，同时接收卷积神经网络的预测结果和词级别的标注图片的词级别的标注信息即标注框，结合卷积神经网络的预测结果和词级别的标注图片的词级别的标注信息，从预测出的位于经标注的词语的标注区域内的字符中选取出适用于参与训练机器学习模型的字符，将选取出的字符对应的包围盒进行组合，得到更新的字符模板。更新的字符模板可以作为卷积神经网络当前训练过程的后向传播对应的标签信息。字符模板更新装置使得整个用于对字符检测的卷积神经网络的训练过程不需要依赖成本巨大的字符级别的标注信息，能够让卷积神经网络使用更多的文字数据集参与训练。

在每一次训练开始时，向卷积神经网络输入词级别标注的图片，卷积神经网络完成一次前向传播，进行网络预测，输出被预测出的字符的预测结果。接着，字符模板更新装置结合卷积神经网络输出的预测结果和词级别的标注信息，输出包含选取出用于对卷积神经网络进行训练的字符对应的包围盒的更新的字符模板。最后，卷积神经网络将更新的字符模板作为监督学习标签，根据预先定义的损失函数来完成一次网络的后向传导，进行网络更新即更新卷积神经网络的参数，完成一次对卷积神经网络的训练。

在针对卷积神经网络的训练中，由于仅需词级别的标注信息即标注框即可对卷积神经网络进行充分地训练，并不依赖于精确到字符级别的标注信息例如标注框中的每一个字符对应的标注信息，使得能够利用更多的文字数据集来参与训练，尤其是只有词级别的标注信息的数据集例如COCO-Text数据集参与训练。进一步地，参与训练的词级别标注的图片不会受到严格的标注规范的限制，也可参与训练，增加了参与训练的词级别标注的图片的数量，进一步充分地对卷积神经网络进行训练。

请参考图4，其示出了根据本申请的字符检测装置的一个实施例的结构示意图。该装置实施例与图1所示的方法实施例相对应。

如图4所示，本实施例的字符检测装置400包括：输入单元401，选取单元402，训练单元403。输入单元401配置用于将包含经标注的词语的图片作为机器学习模型的输入；选取单元402配置用于基于被机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息，从被机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符；训练单元403配置用于基于选取出的字符的特征，对机器学习模型进行训练，以利用训练后的机器学习模型对图片中的字符进行检测。

在本实施例的一些可选的实现方式中，机器学习模型为卷积神经网络。

在本实施例的一些可选的实现方式中，预测结果包括：字符对应的包围盒、字符对应的置信度，标注信息包括：经标注的词语对应的包围盒。

在本实施例的一些可选的实现方式中，预测结果基于在将包含经标注的词语的图片作为机器学习模型的输入之后，机器学习模型进行前向传播而获得。

在本实施例的一些可选的实现方式中，训练单元403包括：监督学习子单元(未示出)，配置用于将选取出的字符对应的包围盒作为机器学习模型的监督学习方式的标签信息；机器学习模型根据预设损失函数进行后向传导，更新机器学习模型的参数。

在本实施例的一些可选的实现方式中，选取单元402包括：字符选取子单元(未示出)，配置用于基于被机器学习模型预测出的位于经标注的词语的标注区域内的字符对应的包围盒的区域与经标注的词语对应的包围盒的区域之间的比例关系和被机器学习模型预测出的位于经标注的词语的标注区域内的字符之间的对齐情况，从被机器学习模型预测出的字符中选取出用于训练机器学习模型的字符。

在本实施例的一些可选的实现方式中，字符选取子单元进一步配置用于：对被机器学习模型预测出的位于经标注的词语的标注区域内的字符对应的包围盒计算k近邻，得到字符之间的连接关系，其中，每一个字符连接k个其他的字符；采用以下公式计算两个相连接的字符之间的权重值w_ij：

其中，两个相连接的字符构成一个字符连接对，d(i,j)表示两个相连接的字符之间的距离，表示所有字符连接对中的字符之间的距离的平均值，t_i和t_j表示两个相连接的字符各自对应的置信度；查找出最大生成树，最大生成树包括：依次连接的被机器学习模型预测出的字符并且字符之间的权重值之和最大；执行以下选取操作：对当前树中的每一个字符连接对分别进行剪枝，得到多个子树，其中，当选取操作为首次执行时当前树为最大生成树；采用以下公式计算子树或当前树的得分s：

s＝w·s1+(1-w)·s2

其中，B_chars表示子树或当前树中的字符对应的包围盒，B_anno表示经标注的词语对应的包围盒，area(B_chars)表示子树或当前树中的字符对应的包围盒的面积，area(B_anno)表示经标注的词语对应的包围盒的面积，λ₁和λ₂分别表示B_chars的中心坐标协方差矩阵的最大特征值和第二大特征值，当选取操作为首次执行时w为预设权重值，当选取操不是首次执行时w为子树对应的字符连接对中的两个字符之间的权重值；判断得分最高的子树的得分是否大于当前树的得分；若是，将得分最高的子树作为当前树，以及再次执行选取操作；若否，将当前树中的字符作为用于训练机器学习模型的字符。

在本实施例的一些可选的实现方式中，装置400还包括：标注信息获取单元(未示出)，配置用于将词级别标注的数据集中的词级别标注的图片作为包含经标注的词语的图片，词级别标注的图片包括：用于对词语的位置进行标注的包围词语的标注框。

图5示出了适于用来实现本申请实施例的字符检测装置的计算机系统的结构示意图。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有系统500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述设备中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：将包含经标注的词语的图片作为机器学习模型的输入；基于被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和所述经标注的词语的标注信息，从被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符；基于选取出的字符的特征，对所述机器学习模型进行训练，以利用训练后的所述机器学习模型对图片中的字符进行检测。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章成全;胡瀚;罗宇轩;韩钧宇;丁二锐
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种电池负极材料破碎筛分进料设备的制作方法与工艺
上一篇：一种温控鞋烘干器的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。