文字检测方法、装置、可读介质及电子设备与流程

文档序号：31545425发布日期：2022-09-17 01:02阅读：62来源：国知局

1.本公开涉及人工智能技术领域，具体地，涉及一种文字检测方法、装置、可读介质及电子设备。

背景技术：

2.在教育领域中，文字检测技术应用广泛，例如：智能批改、题库录排、ai学习机等，例如在题库录排场景中：文字检测可以准确定位试卷中文字位置，避免录排老师人工录入文字，有效提高题库录排效率。
3.对于教育场景中的图片，具有单位文字区域形状不规则，多个单位文字区域相邻紧凑的特点。这些特点，导致采用基于连通域轮廓检测的传统图像处理方法或基于预定义锚框的深度学习方法进行文字检测时，出现检测正确率较低的问题。

技术实现要素：

4.本公开的目的是提供一种文字检测方法、装置、可读介质及电子设备，以提高对单位文字区域形状不规则、多个单位文字区域相邻紧凑的图片的文字检测正确率。
5.为了实现上述目的，本公开提供一种文字检测方法，所述方法包括：
6.将待检测图像输入预设文字检测模型，得到多张单位文字区域尺寸不同的预测文字区域图；对目标预测文字区域图在监督预测文字区域图的监督下进行像素扩张，得到中间扩张图，其中，所述目标预测文字区域图为多张所述预测文字区域图中单位文字区域尺寸最小的预测文字区域图，所述监督预测文字区域图为多张所述预测文字区域图中单位文字区域的尺寸排序与所述目标预测文字区域图相邻，且尺寸大于所述目标预测文字区域图的预测文字区域图；
7.针对获取的中间扩张图，在新的监督预测文字区域图的监督下进行像素扩张，直至新的监督预测文字区域图为多张预测文字区域图中单位文字区域尺寸最大的预测文字区域图时，获得的中间扩张图为最终预测文字区域图；
8.其中，所述新的监督预测文字区域图为多张预测文字区域图中单位文字区域的尺寸排序与上一张监督预测文字区域图相邻，且尺寸大于上一张监督预测文字区域图的预测文字区域图。
9.可选地，将待检测图像输入预设文字检测模型，得到多张单位文字区域尺寸不同的预测文字区域图包括基于所述预设文字检测模型执行的以下步骤：
10.对待检测图像进行特征提取，获得多张目标特征图，该多张目标特征图来源于特征提取的不同层；
11.对所述多张目标特征图进行双向融合，得到多张第一融合特征图；
12.对于每张第一融合特征图，通过一个3x3的卷积核、两个连续的3x3的卷积核以及三个连续的3x3的卷积核来扩大感受野，得到第二融合特征图；
13.对多张第二融合特征图进行上采样及拼接，得到一张第三融合特征图，所述第三
融合特征图的尺寸与所述多张第二融合特征图中最大尺寸相同；
14.减少所述第三融合特征图的通道数，得到第四融合特征图；
15.通过多个1x1卷积核对所述第四融合特征图进行处理，得到多张第五融合特征图，其中，所述1x1卷积核的个数与所述预测文字区域图的张数相同，每张所述第五融合特征图的通道数为2且张数与所述预测文字区域图的张数相同；
16.对所述多张第五融合特征图进行上采样，得到多张第六融合特征图，每张所述第六融合特征图的尺寸与所述待检测图像相同；
17.对多张第六融合特征图进行预测，得到多张单位文字区域尺寸不同的预测文字区域图。
18.可选地，所述预设文字检测模型是通过如下方式进行训练的：
19.针对图像集内的每张图像，根据用户输入的标注指令对该图像中所有单位文字区域进行标注，得到第一标注图像，并对所述第一标注图像中所有单位文字区域按不同内缩距离进行多次内缩，得到多张第二标注图像，所述标注指令为根据固定顺序依次表示的图像中所有单位文字区域的坐标；
20.基于所述图像集，对一多分支模型进行训练，得到预设文字检测模型。
21.可选地，所述预设文字检测模型是通过如下方式进行训练的：
22.针对图像集内的每张图像，根据用户输入的标注指令对该图像中所有单位文字区域进行标注，得到第一标注图像，并对所述第一标注图像中所有单位文字区域按不同内缩距离进行多次内缩，得到多张第二标注图像，所述标注指令为根据固定顺序依次表示的图像中所有单位文字区域的坐标；
23.基于所述图像集，对一个多分支模型进行训练，得到多分支检测模型；
24.对所述多分支检测模型进行网络重构，获得单分支检测模型，将所述单分支检测模型作为预设文字检测模型。
25.本公开还提供一种文字检测装置，所述文字检测装置包括：
26.检测模块，用于将待检测图像输入预设文字检测模型，得到多张单位文字区域尺寸不同的预测文字区域图；后处理模块，用于对目标预测文字区域图在监督预测文字区域图的监督下进行像素扩张，得到中间扩张图，其中，所述目标预测文字区域图为多张所述预测文字区域图中单位文字区域尺寸最小的预测文字区域图，所述监督预测文字区域图为多张所述预测文字区域图中单位文字区域的尺寸排序与所述目标预测文字区域图相邻，且尺寸大于所述目标预测文字区域图的预测文字区域图；针对获取的中间扩张图，在新的监督预测文字区域图的监督下进行像素扩张，直至新的监督预测文字区域图为多张预测文字区域图中单位文字区域尺寸最大的预测文字区域图时，获得的中间扩张图为最终预测文字区域图；其中，所述新的监督预测文字区域图为多张预测文字区域图中单位文字区域的尺寸排序与上一张监督预测文字区域图相邻，且尺寸大于上一张监督预测文字区域图的预测文字区域图。
27.可选地，所述检测模块具体用于基于所述预设文字检测模型，对待检测图像进行特征提取，获得多张目标特征图，该多张目标特征图来源于特征提取的不同层；对所述多张目标特征图进行双向融合，得到多张第一融合特征图；对于每张第一融合特征图，通过一个3x3的卷积核、两个连续的3x3的卷积核以及三个连续的3x3的卷积核来扩大感受野，得到第
二融合特征图；对多张第二融合特征图进行上采样及拼接，得到一张第三融合特征图，所述第三融合特征图的尺寸与所述多张第二融合特征图中最大尺寸相同；减少所述第三融合特征图的通道数，得到第四融合特征图；通过多个1x1卷积核对所述第四融合特征图进行处理，得到多张第五融合特征图，其中，所述1x1卷积核的个数与所述预测文字区域图的张数相同，每张所述第五融合特征图的通道数为2且张数与所述预测文字区域图的张数相同；对所述多张第五融合特征图进行上采样，得到多张第六融合特征图，每张所述第六融合特征图的尺寸与所述待检测图像相同；对多张第六融合特征图进行预测，得到多张单位文字区域尺寸不同的预测文字区域图。
28.可选地，所述预设文字检测模型是通过如下方式进行训练的：
29.针对图像集内的每张图像，根据用户输入的标注指令对该图像中所有单位文字区域进行标注，得到第一标注图像，并对所述第一标注图像中所有单位文字区域按不同内缩距离进行多次内缩，得到多张第二标注图像，所述标注指令为根据固定顺序依次表示的图像中所有单位文字区域的坐标；
30.基于所述图像集，对一多分支模型进行训练，得到预设文字检测模型。
31.可选地，所述预设文字检测模型是通过如下方式进行训练的：
32.针对图像集内的每张图像，根据用户输入的标注指令对该图像中所有单位文字区域进行标注，得到第一标注图像，并对所述第一标注图像中所有单位文字区域按不同内缩距离进行多次内缩，得到多张第二标注图像，所述标注指令为根据固定顺序依次表示的图像中所有单位文字区域的坐标；
33.基于所述图像集，对一个多分支模型进行训练，得到多分支检测模型；
34.对所述多分支检测模型进行网络重构，获得单分支检测模型，将所述单分支检测模型作为预设文字检测模型。
35.本公开还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。
36.本公开还提供一种电子设备，包括：
37.存储器，其上存储有计算机程序；
38.处理器，用于执行所述存储器中的所述计算机程序，以实现上述方法的步骤。
39.通过上述技术方案，在对待检测图像进行检测及后处理，以获得最终预测文字区域图，是基于语义分割的内核扩张算法。因此，本公开提供的技术方案，可以很好地解决单位文字区域形状不规则、多个单位文字区域相邻紧凑导致检测正确率低的问题，提高文字检测正确率。
40.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
41.附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：
42.图1是根据本公开一实施例示出的一种文字检测方法的流程图。
43.图2是根据本公开一实施例示出的对一张第一融合特征图进一步特征融合得到一张第二融合特征图的流程图。
44.图3是根据本公开一实施例示出的一种文字检测装置的框图。
45.图4是根据本公开一实施例示出的一种电子设备的框图。
具体实施方式
46.以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。
47.需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。
48.本公开实施例提供一种文字检测方法。图1是根据本公开一实施例示出的一种文字检测方法的流程图。如图1所示，该方法包括：
49.步骤s10，将待检测图像输入预设文字检测模型，得到多张单位文字区域尺寸不同的预测文字区域图。
50.其中，单位文字区域可以为文字行或文字列。多张单位文字区域尺寸不同的预测文字区域图，即任何一张预测文字区域图包括的单位文字区域的数目与其它预测文字区域图包括的单位文字区域的数目相同、形状相似、尺寸不同、一一对应。例如，步骤s10得到5张预测文字区域图，分别为第一预测文字区域图、第二预测文字区域图、第三预测文字区域图、第四预测文字区域图和第五预测文字区域图；第一预测文字区域图包括3个单位文字区域，记为单位文字区域a、单位文字区域b和单位文字区域e；则，第二预测文字区域图也包括3个单位文字区域，记为单位文字区域a1、单位文字区域b1和单位文字区域e1；则单位文字区域a与单位文字区域a1对应、形状相似且尺寸不同，单位文字区域b与单位文字区域b1对应、形状相似且尺寸不同，单位文字区域e与单位文字区域e1对应、形状相似且尺寸不同；同理，第三预测文字区域图、第四预测文字区域图和第五预测文字区域图也包括形状相似、尺寸不同、一一对应尺寸不同的3个单位文字区域，在此不做赘述。步骤s20，对目标预测文字区域图在监督预测文字区域图的监督下进行像素扩张，得到中间扩张图。
51.其中，所述目标预测文字区域图为多张所述预测文字区域图中单位文字区域尺寸最小的预测文字区域图，所述监督预测文字区域图为多张所述预测文字区域图中单位文字区域的尺寸排序与所述目标预测文字区域图相邻，且尺寸大于所述目标预测文字区域图的预测文字区域图。
52.步骤s30，针对获取的中间扩张图，在新的监督预测文字区域图的监督下进行像素扩张，直至新的监督预测文字区域图为多张预测文字区域图中单位文字区域尺寸最大的预测文字区域图时，获得的中间扩张图为最终预测文字区域图。
53.其中，所述新的监督预测文字区域图为多张预测文字区域图中单位文字区域的尺寸排序与上一张监督预测文字区域图相邻，且尺寸大于上一张监督预测文字区域图的预测文字区域图。
54.步骤s20和s30进行像素扩张可以采用内核扩张算法，内核扩张算法核心思想是无向图的宽度优先算法。为了便于对步骤s20和s30的理解，沿用步骤s10的举例，即假设步骤s10得到5张预测文字区域图，分别为第一预测文字区域图、第二预测文字区域图、第三预测文字区域图、第四预测文字区域图和第五预测文字区域图，并假设这5张预测文字区域图的
单位文字区域尺寸依次减小，即第五预测文字区域图的单位文字区域尺寸最小，第四预测文字区域图的单位文字区域尺寸倒数第二小，第三预测文字区域图的单位文字区域尺寸倒数第三小，第二预测文字区域图的单位文字区域尺寸倒数第四小，第一预测文字区域图的单位文字区域尺寸最大。则步骤s20和步骤s30即为，对第五预测文字区域图在第四预测文字区域图的监督下进行像素扩张，得到第一中间扩张图；将该第一中间扩张图在第三预测文字区域图的监督下进行像素扩张，得到第二中间扩张图；将该第二中间扩张图在第二预测文字区域图的监督下进行像素扩张，得到第三中间扩张图；将该第三中间扩张图在第一预测文字区域图的监督下进行像素扩张，得到第四中间扩张图，第四中间扩张图为最终预测文字区域图。
55.通过上述技术方案，在对待检测图像进行检测及后处理，以获得最终预测文字区域图，是基于语义分割的内核扩张算法。因此，本公开提供的技术方案，可以很好地解决单位文字区域形状不规则、多个单位文字区域相邻紧凑导致检测正确率低的问题，提高文字检测正确率。
56.可选地，将待检测图像输入预设文字检测模型，得到多张单位文字区域尺寸不同的预测文字区域图包括基于所述预设文字检测模型执行的以下步骤：
57.对待检测图像进行特征提取，获得多张目标特征图，该多张目标特征图来源于特征提取的不同层。
58.即，基于预设文字检测模型的骨干网络提取的特征图，一般按层(阶段)进行划分，分别记为c1、c2、c3、c4、c5、c6、c7等，其中的数字与层(阶段)的编号相同，代表的是尺寸(分辨率)减半的次数，如c3代表层(阶段)3输出的特征图，分辨率为输入图片的1/4，c6代表层(阶段)6输出的特征图，尺寸(分辨率)为输入图片的1/32。则多张目标特征图是从特征图c1、c2、c3、c4、c5、c6、c7等中选择的，例如选择特征图c3、c4、c5、c6作为目标特征图。
59.对所述多张目标特征图进行双向融合，得到多张第一融合特征图。
60.特征融合可以选择图像金字塔(feature pyramid networks，fpn)方法，则对多张目标特征图进行双向fpn融合，可以获得多张第一融合特征图，所述第一融合特征图的张数与所述目标特征图的张数相同。例如，对目标特征图c3、c4、c5、c6进行双向融合，得到第一融合特征图p3、p4、p5、p6。
61.对于每张第一融合特征图，通过一个3x3的卷积核、两个连续的3x3的卷积核以及三个连续的3x3的卷积核来扩大感受野，得到第二融合特征图。
62.为了对各种尺寸的单位文本区域有较高的检测准确率，本方案对于每张第一融合特征图，通过一个3x3的卷积核、两个连续的3x3的卷积核以及三个连续的3x3的卷积核进一步地进行了特征融合，得到第二融合特征图，如图2所示。通过此步骤，可以有效解决待检测图像的单位文字区域尺寸跨度大的问题。
63.对多张第二融合特征图进行上采样及拼接，得到一张第三融合特征图，所述第三融合特征图的尺寸与所述多张第二融合特征图中最大尺寸相同。
64.例如，将根据第一融合特征图p3、p4、p5、p6，得到的第二特征融合图记为p3’、p4’、p5’、p6’。对第二特征融合图p4’进行2倍上采样，对第二特征融合图p5’进行4倍上采样，第二特征融合图p6’进行8倍上采样，再与第二特征融合图p3’拼接，得到第三融合特征图f1。第三融合特征图f1的尺寸与第二特征融合图p3’相同。
65.减少所述第三融合特征图的通道数，得到第四融合特征图。
66.例如，可以通过3*3的卷积核来减少第三融合特征图f1的通道数的减少，得到第四融合特征图f2，以降低计算量。例如使第三融合特征图f1的通道数由1024变成256。
67.通过多个1x1卷积核对所述第四融合特征图进行处理，得到多张第五融合特征图，其中，所述1x1卷积核的个数与所述预测文字区域图的张数相同，每张所述第五融合特征图的通道数为2且张数与所述预测文字区域图的张数相同。
68.由于在进行文字检测时，只有文本类和非文本类，所以可以将第四融合特征图f2的通道数将为2。并且，由于需要得到多张预测文字区域图，所以需要多个卷积核对第四融合特征图分别进行处理。沿袭上述例子，由于需要得到5张预测文字区域图(第一预测文字区域图、第二预测文字区域图、第三预测文字区域图、第四预测文字区域图和第五预测文字区域图)，所以可以通过5个1x1卷积核对所述第四融合特征图f2进行处理，得到5张第五融合特征图f3。
69.对所述多张第五融合特征图进行上采样，得到多张第六融合特征图，每张所述第六融合特征图的尺寸与所述待检测图像相同。
70.沿袭上述例子，第五融合特征图f3的尺寸与特征图c3尺寸相同，是待检测图像的1/4，因此需要对每张第五融合特征图f3进行4倍上采样，以得到与待检测图像尺寸相同的第六融合特征图f4。
71.对多张第六融合特征图进行预测，得到多张单位文字区域尺寸不同的预测文字区域图。
72.例如，根据激活函数、损失函数，对多张第六融合特征图进行预测。沿袭上述例子，对5张第六融合特征图f4分别进行预测，即可得5张预测文字区域图(第一预测文字区域图、第二预测文字区域图、第三预测文字区域图、第四预测文字区域图和第五预测文字区域图)。
73.通过上述技术方案，采用双向特征金字塔网络进行特征融合，并对单层融合特征图进一步做特征融合来扩大感受野，有效解决待检测图像的单位文字区域尺寸跨度大的问题。
74.可选地，所述预设文字检测模型是通过如下方式进行训练的：
75.针对图像集内的每张图像，根据用户输入的标注指令对该图像中所有单位文字区域进行标注，得到第一标注图像，并对所述第一标注图像中所有单位文字区域按不同内缩距离进行多次内缩，得到多张第二标注图像，所述标注指令为根据固定顺序依次表示的图像中所有单位文字区域的坐标。
76.即，在进行标注图像时，首先根据图像内单位文字区域的实际大小，对图像进行标注，得到第一标注图像。然后，对第一标注图像按不同内缩距离进行内缩，每次内缩得到一张第二标注图像。其中内缩距离的计算公式，可以为：
[0077][0078]
其中，d为第一标注图像中每个单位文字区域每次内缩的内缩距离，r为每次内缩的内缩因子，例如有4次内缩，可以取r＝0.8，0.6，0.4，0.2，得到4张第二标注图像，s为第一标注图像中每个单位文字区域的面积，l为第一标注图像中每个单位文字区域的周长。沿袭
上述举例，对于每张待检测图像为了获得5张预测文字区域图，需要在训练时，对每张图像产生第一标注图像和4张内缩距离不同的第二标注图。
[0079]
基于所述图像集，对一多分支模型进行训练，得到预设文字检测模型。
[0080]
通过上述技术方案，采用多分支模型进行训练，使得得到的预设文字检测模型泛化能力强。例如该多分支模型可以串联50个多分支网络部件。
[0081]
可选地，所述预设文字检测模型是通过如下方式进行训练的：
[0082]
针对图像集内的每张图像，根据用户输入的标注指令对该图像中所有单位文字区域进行标注，得到第一标注图像，并对所述第一标注图像中所有单位文字区域按不同内缩距离进行多次内缩，得到多张第二标注图像，所述标注指令为根据固定顺序依次表示的图像中所有单位文字区域的坐标。
[0083]
基于所述图像集，对一个多分支模型进行训练，得到多分支检测模型。
[0084]
对所述多分支检测模型进行网络重构，获得单分支检测模型，将所述单分支检测模型作为预设文字检测模型。
[0085]
通过上述技术方案，在训练阶段用多分支模型来进行训练，然后采用网络重构的方法将训练得到的多分支检测模型等价转化为单分支检测模型，从而在推理阶段直接用网络重构后的单分支检测模型进行模型推理，从而达到提升推理速度，节省硬件资源的效果。
[0086]
基于上述发明构思，本公开实施例还提供一种文字检测装置。图3所示，所述文字检测装置包括：
[0087]
检测模块10，用于将待检测图像输入预设文字检测模型，得到多张单位文字区域尺寸不同的预测文字区域图。后处理模块20，用于对目标预测文字区域图在监督预测文字区域图的监督下进行像素扩张，得到中间扩张图，其中，所述目标预测文字区域图为多张所述预测文字区域图中单位文字区域尺寸最小的预测文字区域图，所述监督预测文字区域图为多张所述预测文字区域图中单位文字区域的尺寸排序与所述目标预测文字区域图相邻，且尺寸大于所述目标预测文字区域图的预测文字区域图；针对获取的中间扩张图，在新的监督预测文字区域图的监督下进行像素扩张，直至新的监督预测文字区域图为多张预测文字区域图中单位文字区域尺寸最大的预测文字区域图时，获得的中间扩张图为最终预测文字区域图；其中，所述新的监督预测文字区域图为多张预测文字区域图中单位文字区域的尺寸排序与上一张监督预测文字区域图相邻，且尺寸大于上一张监督预测文字区域图的预测文字区域图。
[0088]
通过上述技术方案，在对待检测图像进行检测及后处理，以获得最终预测文字区域图，是基于语义分割的内核扩张算法。因此，本公开提供的技术方案，可以很好地解决单位文字区域形状不规则、多个单位文字区域相邻紧凑导致检测正确率低的问题，提高文字检测正确率。
[0089]
可选地，所述检测模块具体用于基于所述预设文字检测模型，对待检测图像进行特征提取，获得多张目标特征图，该多张目标特征图来源于特征提取的不同层；对所述多张目标特征图进行双向融合，得到多张第一融合特征图；对于每张第一融合特征图，通过一个3x3的卷积核、两个连续的3x3的卷积核以及三个连续的3x3的卷积核来扩大感受野，得到第二融合特征图；对多张第二融合特征图进行上采样及拼接，得到一张第三融合特征图，所述第三融合特征图的尺寸与所述多张第二融合特征图中最大尺寸相同；减少所述第三融合特
server
tm
，mac os x
tm
，unix
tm
，linux
tm
等等。
[0103]
在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的文字检测方法的步骤。例如，该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的文字检测方法。
[0104]
在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的文字检测方法的代码部分。
[0105]
以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。
[0106]
另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。
[0107]
此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘腾龙
技术所有人：北京开拓鸿业高科技有限公司
我是此专利的发明人

上一篇：用于建筑砌筑缝隙的勾缝密封装置的制作方法
上一篇：一种螺旋板换热器用鼓泡机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。