文本检测方法、装置、电子设备以及存储介质与流程

文档序号：29795821发布日期：2022-04-23 18:48阅读：114来源：国知局

1.本公开涉及图像处理、模式识别技术领域，尤其涉及文本检测方法、装置、电子设备以及存储介质。

背景技术：

2.在相关技术中，在进行文本检测时，基于锚文本(anchor-based)类的方法针对的是正矩形的文本预测结果，而无法应对不同程度的旋转以及不规则形状的文字形状。

技术实现要素：

3.本公开提供了一种用于文本检测的方法、装置、设备以及存储介质。
4.根据本公开的一方面，提供了一种文本检测的方法，包括：获取目标图像，其中，目标图像包括待检测的目标文本；确定目标文本的外接矩形和目标四边形的多个第一角点，其中，外接矩形为外接于目标文本的最小正矩形，目标四边形为由目标文本上的多个目标点确定，且包括目标文本；基于外接矩形检测多个第一角点的目标位置信息。
5.可选地，基于外接矩形检测多个第一角点的目标位置信息，该方法包括：确定每个第一角点相对于外接矩形中的第二角点的偏移位置信息；基于偏移位置信息确定每个第一角点的目标位置信息。
6.可选地，基于偏移位置信息确定每个第一角点的目标位置信息，该方法包括：基于偏移位置信息和外接矩形的尺寸，确定每个第一角点的目标位置信息。
7.可选地，基于偏移位置信息和外接矩形的尺寸，确定每个第一角点的目标位置信息，该方法包括：基于外接矩形的长、宽、中心点的位置信息，对偏移位置信息进行调整，得到每个第一角点的目标位置信息。
8.可选地，基于外接矩形检测多个第一角点的目标位置信息，该方法包括：基于第一目标模型对外接矩形的尺寸进行处理，得到每个第一角点的目标位置信息，其中，第一目标模型为基于目标图像样本中文本样本的外接矩形样本的尺寸和文本样本的四边形样本进行训练而得到，外接矩形样本为外接于文本样本的最小正矩形，四边形样本由文本样本上的多个目标点样本确定，且包括文本样本。
9.可选地，该方法还包括：确定与目标文本所属的文本对应的多个锚点框；分别基于多个锚点框对文本进行检测，得到多个目标检测结果，其中，多个目标检测结果与多个锚点框一一对应，且每个目标检测结果用于表示一个目标文本的检测结果。
10.可选地，该方法还包括：多个目标检测结果对应的多个目标文本中至少两个目标文本重叠。
11.可选地，该方法还包括：获取目标图像的多个特征图；确定与目标文本所属的文本对应的多个锚点框包括：基于每个特征图的尺寸确定多个锚点框的尺寸。
12.可选地，分别基于多个锚点框对目标文本进行检测，得到多个目标检测结果，该方法包括：基于每个锚点框和对应的目标文本的外接矩形对目标文本进行检测，得到每个目
标检测结果。
13.可选地，该方法包括：外接矩形与目标四边形不重合。
14.可选地，该方法包括：目标文本为一个文本行。
15.根据本公开的另一方面，提供了一种文本检测装置，包括：获取单元，用于获取目标图像，其中，目标图像包括待检测的目标文本；确定单元，用于确定目标文本的外接矩形和目标四边形的多个第一角点，其中，外接矩形为外接于目标文本的最小正矩形，目标四边形为由目标文本上的多个目标点确定，且包括目标文本；检测单元，用于基于外接矩形检测多个第一角点的目标位置信息。
16.可选地，检测单元包括：第一确定模块，用于确定每个第一角点相对于外接矩形中的第二角点之间的偏移位置信息；第二确定模块92，用于基于偏移位置信息确定目标位置信息。
17.根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的文本检测方法。
18.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例的文本检测的方法。
19.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开实施例的文本检测的方法。
20.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
21.图1是根据本公开实施例的一种文本检测方法的流程图；
22.图2是根据本公开实施例的一种通常采用的文字检测网络的示意图；
23.图3是根据本公开实施例的一种基于anchor的四角点建模的流程图的示意图；
24.图4是根据本公开实施例中的一种基于四角点建模的文本检测网络的示意图；
25.图5是根据本公开实施例的一种基于四角点建模的文本检测网络的应用效果的示意图；
26.图6为相关技术中的一种east的文本检测效果图；
27.图7为本公开实施例的一种的文本检测效果图；
28.图8是根据本公开实施例的一种文本检测装置的示意图；
29.图9是根据本公开实施例的一种设置于文本检测装置之中的检测单元的结构的示意图；
30.图10是根据本公开实施例的一种电子设备的示意性框图。
具体实施方式
31.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同
样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
32.下面对本公开实施例的文本检测方法进行介绍。
33.通常来说，文字定位通常分为基于分割的方案和基于检测的自由锚文本(anchor-free)方案，分别如下：
34.基于分割：直接预测出图片中每个像素点对文字的响应，可以较好的处理文本较长的问题，如数据库网(dbnet)等；
35.基于检测的anchor-free方案：图片中每个网格点有文字的响应时，预测出文字的四角点，如east。
36.也有直接采用通用目标检测的方案，通用目标检测主要分为anchor-free和anchor-based两类，anchor-free类结构简单、更加灵活，而anchor-based类引入了锚点框(anchor)先验来引导检测。两类方法的区别主要在于在预测最终的检测框时，是否利用了anchor先验知识，来减少预测难度，下面是几种典型方法的建模方式：
37.anchor free类包括：左上角点+右下角点(cornernet/cornernet-lite)、上下左右4个极值点+中心点(extremenet)、9个学习到的自适应跳动的采样点(reppoints)、中心点+宽度+高度centernet:objects as points(中centernet:objects as points)、中心点+到框的2个距离fcos(fcos)；
38.anchor based包括：中心点+宽度+高度(fasterrcnn)、中心点+宽度+高度(ssd)、中心点+宽度+高度(yolov3)。
39.然而，对于基于分割的方案来说，如果文字发生重叠，像素点对文字的响应无法区分出所属哪个字段；anchor-free类的方法，因为正负样本的区分问题，可能对遮挡问题处理难，如east；anchor-based为预测结果正矩形，无法应对不同程度的旋转以及不规则形状的文字形状。但是却可以依赖不同的anchor解决文字重叠问题。
40.图1是根据本公开实施例的一种文本检测方法的流程图，如图1所示，该方法可以包括以下步骤：
41.步骤s102，获取目标图像，其中，目标图像包括待检测的目标文本。
42.在本公开上述步骤s102提供的技术方案中，获取目标图像，其中，目标图像包括待检测的目标文本，比如，在医保报销时，需要提供医疗门诊收费票据，利用文字识别设备扫描该票据单上的个人信息以及收费项目等文本信息，从而实现快速完成报销流程。
43.可选地，在该实施例中，目标图像可以是各种票据。
44.步骤s104，确定目标文本的外接矩形和目标四边形的多个第一角点，其中，外接矩形为外接于目标文本的最小正矩形，目标四边形为由目标文本上的多个目标点确定，且包括目标文本。
45.在本公开上述步骤s104提供的技术方案中，确定目标文本的外接矩形和目标四边形的多个第一角点，比如，在文本检测的过程中，在获取到票据的文本内容之后，由于票据上的个人信息、收费项目和收费金额等文本部分会有重叠部分，或者由于拍摄角度等原因导致的文本畸变，需要对票据图像上的不同分类的信息进行定位和检测，通过确定票据文本的外接矩形以及包含文本的四边形的多个角点，可以实现文本信息的定位和检测。
46.在该实施例中，外接矩形为外接于目标文本的最小正矩形，比如，在医疗门诊收费票据上，收费项目一栏的信息为一行或多行的文本，因此，，可以通过外接于一行或多行的
文本的最小正矩形提取到所要检测的目标文本。
47.在该实施例中，目标四边形为由目标文本上的多个目标点确定，且包括目标文本，比如，在通过最小矩形确定所要检测的目标文本为医疗门诊收费票据上的收费项目一栏的信息，但是由于拍摄的操作不当或者票据上的存在文本重叠的部分，通过最小矩形则无法检测到想要的目标文本，而通过在外接最小矩形的的基础之上，再增加一个四边形，则可以实现对畸变或倾斜的文本的检测。
48.可选地，在该实施例中，在确定目标文本的外接矩形和目标四边形的多个第一角点之前，可以采用anchor-based类的方法确定目标文本所属的文本对应的多个锚点框，进而分别基于多个锚点框对文本进行检测，得到多个目标检测结果。
49.步骤s106，基于外接矩形检测多个第一角点的目标位置信息。
50.在本公开上述步骤s106提供的技术方案中，基于外接矩形检测多个第一角点的目标位置信息，比如，为了准确且高效地检测票据文本，可以在基于目标文本的最小外接正矩形的基础上确定四个角点，进而确定由该四个角点依次相连而得到的四边形，该四边形可以实现对最小外接正矩形中的目标文本的更精准的检测。
51.可选地，在该实施例中，通过确定每个第一角点相对于外接矩形中的第二角点的偏移位置信息，进而基于偏移位置信息确定每个第一角点的目标位置信息。
52.可选地，在该实施例中，基于第一目标模型对外接矩形的尺寸进行处理，得到每个第一角点的目标位置信息，其中，第一目标模型为基于目标图像样本中文本样本的外接矩形样本的尺寸和文本样本的四边形样本进行训练而得到，外接矩形样本为外接于文本样本的最小正矩形，四边形样本由文本样本上的多个目标点样本确定，且包括文本样本。
53.通过上述步骤s102至步骤s106，获取目标图像，其中，目标图像包括待检测的目标文本；确定目标文本的外接矩形和目标四边形的多个第一角点，其中，外接矩形为外接于目标文本的最小正矩形，目标四边形为由目标文本上的多个目标点确定，且包括目标文本；基于外接矩形检测多个第一角点的目标位置信息，也就是说，基于文本的最小外接正矩形和文本的最小四边形来检测角点的位置信息，即使文本有不同程度的旋转以及为不规则形状的文字形状，也可以有效地检测，从而提高了对文本进行检测的效率，进而解决了对文本进行检测的效率低的技术问题，达到了提高对文本进行检测的效率的技术效果。。
54.下面对该实施例的上述方法进行进一步地详细介绍。
55.作为一种可选的实施方式，步骤s106，基于外接矩形检测多个第一角点的目标位置信息包括：确定每个第一角点相对于外接矩形中的第二角点的偏移位置信息；基于偏移位置信息确定每个第一角点的目标位置信息。
56.在该实施例中，确定每个第一角点相对于外接矩形中的第二角点的偏移位置信息，比如，在在原有anchor-based预测4个回归值(dx、dy、dw、dh)的基础上，新增8个预测值，其中，每2个为1组，分别代表每个角点的x、y坐标在最小外接矩形的相对位置，进而通过训练卷积神经网络学习预测四角点在原有外接矩形的偏移量。
57.在该实施例中，基于偏移位置信息确定每个第一角点的目标位置信息，比如，通过卷积神经网络的学习将偏移位置信息中的偏移量达到符合要求的目标阈值范围内，从而实现确定每个第一角点的目标位置信息。
58.在该实施例中，外接矩形中的第二角点可以是目标文本的最小外接矩形的左上角
点。
59.作为一种可选的实施方式，基于偏移位置信息确定每个第一角点的目标位置信息包括：基于偏移位置信息和外接矩形的尺寸，确定每个第一角点的目标位置信息。
60.在该实施例中，基于偏移位置信息和外接矩形的尺寸，确定每个第一角点的目标位置信息，比如，通过确定每个第一角点相对于外接矩形中的左上角点的偏移位置信息和最小外接矩形的尺寸，其中，偏移位置信息为每个第一角点在网格中的横轴和纵轴坐标，进而确定每个第一角点的目标位置信息。
61.在该实施例中，偏移位置信息可以包括每个第一角点在网格中的横轴和纵轴坐标。
62.在该实施例中，偏移位置信息可以根据以下公式确定：
[0063][0064][0065]
其中，gxi、gyi分别代表真实检测框的4个角点的坐标，p
xi
、p
yi
分别代表网络的预测值，dxi、dxi分别代表四角点坐标相对于最小外接正矩形的左上角点坐标的偏移。
[0066]
在该实施例中，外接矩形的尺寸可以是最小外接矩形的长和宽。
[0067]
作为一种可选的实施方式，基于偏移位置信息和外接矩形的尺寸，确定每个第一角点的目标位置信息包括：基于外接矩形的长、宽、中心点的位置信息，对偏移位置信息进行调整，得到每个第一角点的目标位置信息。
[0068]
在该实施例中，基于外接矩形的长、宽、中心点的位置信息，对偏移位置信息进行调整，得到每个第一角点的目标位置信息，比如，通过anchor-based类方法建模得到最小为外接正矩形的长、宽和中心点的坐标，根据每个第一角点在网格中的横轴和纵轴坐标和偏移量，通过网络预测得到每个第一角点的目标位置信息。
[0069]
在该实施例中，外接矩形的长、宽、中心点的位置信息可以通过anchor-based类方法建模得到，如下式：
[0070]gx
＝σ(d
x
)+c
x
[0071]gy
＝σ(dy)+cy[0072][0073][0074]
其中，gx、gy分别代表真实检测框的中心点坐标x、y，gw、gh分别代表真实检测框的宽、高，cx、cy分别anchor的所在网格的左上角点的横纵坐标，pw、ph分别代表anchor的宽、高。dx、dy、dw、dh分别代表网络的预测值。
[0075]
作为一种可选的实施方式，步骤s106，基于外接矩形检测多个第一角点的目标位置信息包括：基于第一目标模型对外接矩形的尺寸进行处理，得到每个第一角点的目标位置信息，其中，第一目标模型为基于目标图像样本中文本样本的外接矩形样本的尺寸和文本样本的四边形样本进行训练而得到，外接矩形样本为外接于文本样本的最小正矩形，四
边形样本由文本样本上的多个目标点样本确定，且包括文本样本。
[0076]
在该实施例中，基于第一目标模型对外接矩形的尺寸进行处理，得到每个第一角点的目标位置信息，比如通过四角点建模对文本的最小外接正矩形的尺寸进行适应文本的调整，进而得到每个第一角点的目标位置信息，使其更精准的定位并检测该文本。
[0077]
在该实施例中，第一目标模型可以是四角点模型，第一目标模型可以根据下述公式确定：
[0078][0079][0080]
其中，gxi、gyi分别代表真实检测框的4个角点的坐标，p
xi
、p
yi
分别代表网络的预测值，dxi、dxi分别代表四角点坐标相对于最小外接正矩形的左上角点坐标的偏移。
[0081]
作为一种可选的实施方式，该方法还包括：确定与目标文本所属的文本对应的多个锚点框；分别基于多个锚点框对文本进行检测，得到多个目标检测结果，其中，多个目标检测结果与多个锚点框一一对应，且每个目标检测结果用于表示一个目标文本的检测结果。
[0082]
在该实施例中，确定与目标文本所属的文本对应的多个锚点框，比如，在基于anchor-based进行建模的时候，通过锚点框来选中文本并识别，进而建立该文本的最小外接矩形来适应该文本的尺寸，并对最小外接矩形中的文本进行检测。
[0083]
在该实施例中，分别基于多个锚点框对文本进行检测，得到多个目标检测结果，其中，多个目标检测结果与多个锚点框一一对应，且每个目标检测结果用于表示一个目标文本的检测结果，比如，在通过卷积神经网络获取到目标文本的特征图之后，对于每个特征点的预测不仅仅是一个目标，而是具备多个目标，对应不同的锚点框中。
[0084]
作为一种可选的实施方式，多个目标检测结果对应的多个目标文本中至少两个目标文本重叠。
[0085]
在该实施例中，多个目标检测结果对应的多个目标文本中至少两个目标文本重叠，比如，由于拍摄等原因导致的票据上的个人信息、收费项目和收费金额等文本部分会有重叠部分，从而通过四角点建模实现多个目标检测结果对应的多个目标文本中至少两个目标文本重叠的情况的检测。
[0086]
作为一种可选的实施方式，该方法还包括：获取目标图像的多个特征图；确定与目标文本所属的文本对应的多个锚点框包括：基于每个特征图的尺寸确定多个锚点框的尺寸。
[0087]
在该实施例中，获取目标图像的多个特征图，比如，通过训练完成的卷积神经网络进行文本检测时，仿照目标检测网络输出3层特征图，每层的特征图具有不同的尺寸。
[0088]
在该实施例中，确定与目标文本所属的文本对应的多个锚点框包括：基于每个特征图的尺寸确定多个锚点框的尺寸，比如，每个特征图上的每个特征点上可以有多个不同尺寸的锚点框，因此可以将不同尺寸的文字分配到不同大小的锚点框上。
[0089]
作为一种可选的实施方式，分别基于多个锚点框对目标文本进行检测，得到多个
目标检测结果包括：基于每个锚点框和对应的目标文本的外接矩形对目标文本进行检测，得到每个目标检测结果。
[0090]
在该实施例中，基于每个锚点框和对应的目标文本的外接矩形对目标文本进行检测，得到每个目标检测结果，比如，在通过anchor-based类方法建模得到最小外接正矩形时，可以通过网络预测得到目标文本的外接正矩形的长、宽和中心点坐标。
[0091]
在该实施例中，目标检测结果可以通过以下公式得到：
[0092]gx
＝σ(d
x
)+c
x
[0093]gy
＝σ(dy)+cy[0094][0095][0096]
其中，gx、gy分别代表真实检测框的中心点坐标x、y，gw、gh分别代表真实检测框的宽、高，cx、cy分别anchor的所在网格的左上角点的横纵坐标，pw、ph分别代表anchor的宽、高。dx、dy、dw、dh分别代表网络的预测值，也即，目标检测结果。
[0097]
作为一种可选的实施方式，外接矩形与目标四边形不重合。
[0098]
在该实施例中，外接矩形与目标四边形不重合，比如，最小四边形存在轻微旋转和畸变。
[0099]
作为一种可选的实施方式，目标文本为一个文本行。
[0100]
在该实施例中，目标文本为一个文本行，比如医院门诊收费票据上的收费项目中的文本行。
[0101]
该实施例通过确定每个第一角点相对于外接矩形中的第二角点的偏移位置信息；基于偏移位置信息确定每个第一角点的目标位置信息；基于第一目标模型对外接矩形的尺寸进行处理，得到每个第一角点的目标位置信息，其中，第一目标模型为基于目标图像样本中文本样本的外接矩形样本的尺寸和文本样本的四边形样本进行训练而得到，外接矩形样本为外接于文本样本的最小正矩形，四边形样本由文本样本上的多个目标点样本确定，且包括文本样本；确定与目标文本所属的文本对应的多个锚点框；分别基于多个锚点框对文本进行检测，得到多个目标检测结果，其中，多个目标检测结果与多个锚点框一一对应，且每个目标检测结果用于表示一个目标文本的检测结果，也就是说，基于文本的最小外接正矩形和文本的最小四边形来检测角点的位置信息，即使文本有不同程度的旋转以及为不规则形状的文字形状，也可以有效地检测，从而提高了对文本进行检测的效率，进而解决了对文本进行检测的效率低的技术问题，达到了提高对文本进行检测的效率的技术效果。
[0102]
下面结合优选的实施例对本公开的人脸识别方法作进一步地介绍。
[0103]
图2是根据本公开实施例的一种通常采用的文字检测网络的示意图，如图2所示，该网络可以包括以下内容：
[0104]
首先，输入原始图片，经过一系列的卷积神经网络(convolutional neural networks，简称为cnn)，得到一系列的候选框集合，每个候选框包含自身所属的类别和位置，最后通过非极大值抑制(non-maximum suppression,简称为nms)操作，得到最终的检测框。
[0105]
在检测建模的过程中，物体(目标)在图象中的位置，通常有两种表示方式：
[0106]
(x,y,w,h)：这里的x、y指的是物体中心点的横纵坐标，w、h代表的是物体的宽高；(x
min
,y
min
,x
max
,y
max
)：即物体的左上角点和右下角点。
[0107]
在通常的建模方式中，网络通常不会直接预测x、y、w、h这4个值，因为这4个值在开放世界中是一个绝对值，这具有相当大的预测难度；而是会预测dx、dy、dw、dh等相对值，通过预先定义的公式，转换为真实值x、y、w、h，这种真实值与预测值的转换，即为检测的建模。
[0108]
在该实施例中，通过将待检测的文本图像输入到cnn中，得到一系列的候选框(锚点框)集合，通过非极大值抑制操作得到最终的检测框，进而实现了文本的检测，但是由于其为针对正矩形的文本检测方案，从而无法应对不同程度的旋转以及不规则形状的文字形状。
[0109]
图3是根据本公开实施例的一种基于anchor的四角点建模的流程图的示意图，如图3所示，该流程可以包括以下步骤：
[0110]
步骤s302，基于anchor-based模型预测4个回归值(dx、dy、dw、dh)。
[0111]
在本公开上述步骤s302提供的技术方案中，在anchor-based类方法中，建模正矩形的方法都比较相似，以yolo v3为例，如下式：
[0112]gx
＝σ(d
x
)+c
x
[0113]gy
＝σ(dy)+cy[0114][0115][0116]
其中，gx、gy分别代表真实检测框的中心点坐标x、y，gw、gh分别代表真实检测框的宽、高，cx、cy分别anchor的所在网格的左上角点的横纵坐标，pw、ph分别代表anchor的宽、高，dx、dy、dw、dh分别代表网络的预测值。
[0117]
步骤s304，在正矩形预测的基础上，衔接四角点建模。
[0118]
在本公开上述步骤s304提供的技术方案中，在原有anchor-based预测4个回归值(dx、dy、dw、dh)的基础上，新增8个预测值，每2个为1组，分别代表每个角点的x、y坐标在最小外接矩形的相对位置。如下所示：
[0119][0120][0121]
其中，gxi、gyi分别代表真实检测框的4个角点的坐标，p
xi
、p
yi
分别代表网络的预测值，dxi、dxi分别代表四角点坐标相对于最小外接正矩形的左上角点坐标的偏移，四角点建模实质上是预测四角点在原有外接矩形的偏移量。
[0122]
通过该实施例中的步骤s302至步骤s304，基于anchor-based模型预测4个回归值(dx、dy、dw、dh)，进而在正矩形预测的基础上，衔接四角点建模，也就是说，基于文本的最小外接正矩形和文本的最小四边形来检测角点的位置信息，即使文本有不同程度的旋转以及为不规则形状的文字形状，也可以有效地检测，提高了对文本进行检测的效率，从而解决了对文本进行检测的效率低的技术问题，达到了提高对文本进行检测的效率的技术效果。
[0123]
图4是根据本公开实施例中的一种基于四角点建模的文本检测网络的示意图，如图4所示，该网络可以包括以下内容：
[0124]
与通常的文字检测网络相比，feature map(特征图)层仿照目标检测网络输出3层，每层feature map具有不同的尺寸。在每层的feature map中，每个feature point(特征点)预测不仅仅是一个目标，而是具备多个目标，依靠分配到不同的anchor中，使之具备检测重叠文本的能力，但是与通常的目标检测网络不同，检测建模为4角点的形式，使之更适用于文字场景。
[0125]
图5是根据本公开实施例的一种基于四角点建模的文本检测网络的应用效果的示意图，如图5所示，该效果图可以包括以下内容：
[0126]
该图中，由检测框矩形的中心点向外，依次为：最小四边形(四角点)，最小外接正矩形，原始锚点框(anchor)。
[0127]
图6为相关技术中的一种east的文本检测效果图，如图6所示，图片中每个网格点有文字的响应时，预测出文字的四角点，但是，因为正负样本的区分问题，难以对遮挡问题进行处理，此外，还会出现对同一文本行的多个锚点框，导致文本检测不准确，比如，图6中的文本行“医疗机构”被两个锚点框选中进行检测。
[0128]
图7为本公开实施例的一种的文本检测效果图，如图7所示，在正矩形预测的基础上，衔接了四角点建模，模型同时预测文字行的最小外接正矩形和最小四边形(四角点)，能够应对不同程度的旋转以及不规则形状的文字形状，比如，在图7所示的文本检测效果图中，并不存在图6中的文本行“医疗机构”被两个锚点框选中进行检测的问题。
[0129]
本公开实施例还提供了一种用于执行图1所示实施例的文本检测装置。
[0130]
图8是根据本公开实施例的一种文本检测装置的示意图，如图8所示，该文本检测装置80可以包括：获取单元81、确定单元82和检测单元83。
[0131]
获取单元81，用于获取目标图像，其中，目标图像包括待检测的目标文本；
[0132]
确定单元82，用于确定目标文本的外接矩形和目标四边形的多个第一角点，其中，外接矩形为外接于目标文本的最小正矩形，目标四边形为由目标文本上的多个目标点确定，且包括目标文本；
[0133]
检测单元83，用于基于外接矩形检测多个第一角点的目标位置信息。
[0134]
本公开实施例还提供了一种用于设置于如图4所示出的根据本公开实施例的一种文本检测装置之中的检测单元。
[0135]
图9是根据本公开实施例的一种设置于文本检测装置之中的检测单元，如图9所示，该检测单元包括：第一确定模块91和第二确定模块92。
[0136]
第一确定模块91，用于确定每个第一角点相对于外接矩形中的第二角点之间的偏移位置信息。
[0137]
第二确定模块92用于基于偏移位置信息确定目标位置信息。
[0138]
可选地，第二确定模块92包括：第一确定子单元，其中，第一确定子单元包括第一确定子模块，其中，第二检测第一子模块包括第二检测第一子模块第一单元。其中，第一确定子单元用于基于偏移位置信息和外接矩形的尺寸，确定每个第一角点的目标位置信息；第一确定子模块，用于基于外接矩形的长、宽、中心点的位置信息，对偏移位置信息进行调整，得到每个第一角点的目标位置信息。
[0139]
可选地，检测单元83还包括处理模块。其中，处理模块，用于基于第一目标模型对外接矩形的尺寸进行处理，得到每个第一角点的目标位置信息，其中，第一目标模型为基于目标图像样本中文本样本的外接矩形样本的尺寸和文本样本的四边形样本进行训练而得到，外接矩形样本为外接于文本样本的最小正矩形，四边形样本由文本样本上的多个目标点样本确定，且包括文本样本。
[0140]
可选地，检测单元83包括：第三确定模块和检测模块，其中，检测模块包括：第二确定子单元和检测子单元，第三确定模块包括：获取子单元和第三确定子单元。其中，第三确定模块，用于确定与目标文本所属的文本对应的多个锚点框；检测模块，用于分别基于多个锚点框对文本进行检测，得到多个目标检测结果，其中，多个目标检测结果与多个锚点框一一对应，且每个目标检测结果用于表示一个目标文本的检测结果；第二确定子单元，用于确定多个目标检测结果对应的多个目标文本中至少两个目标文本重叠，获取子单元，用于获取目标图像的多个特征图；第三确定子单元，用于确定与目标文本所属的文本对应的多个锚点框包括：基于每个特征图的尺寸确定多个锚点框的尺寸；检测子单元，用于基于每个锚点框和对应的目标文本的外接矩形对目标文本进行检测，得到每个目标检测结果。
[0141]
可选地，该装置还包括：第四确定模块和第五确定模块。其中，第四确定模块，用于确定外接矩形与目标四边形不重合；第五确定模块，用于确定目标文本为一个文本行。
[0142]
在该实施例的文本检测装置中，通过获取单元81获取目标图像，其中，目标图像包括待检测的目标文本；确定单元82确定目标文本的外接矩形和目标四边形的多个第一角点，其中，外接矩形为外接于目标文本的最小正矩形，目标四边形为由目标文本上的多个目标点确定，且包括目标文本；检测单元83基于外接矩形检测多个第一角点的目标位置信息，提高了对文本进行检测的效率，进而解决了对文本进行检测的效率低的技术问题，达到了提高对文本进行检测的效率的技术效果。
[0143]
本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
[0144]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0145]
本公开的实施例提供了一种电子设备，该电子设备可以包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的文本检测方法。
[0146]
可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
[0147]
可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：
[0148]
步骤s102，获取目标图像，其中，目标图像包括待检测的目标文本；
[0149]
步骤s104，确定目标文本的外接矩形和目标四边形的多个第一角点，其中，外接矩形为外接于目标文本的最小正矩形，目标四边形为由目标文本上的多个目标点确定，且包括目标文本；
[0150]
步骤s106，基于外接矩形检测多个第一角点的目标位置信息。
[0151]
可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0152]
根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现以下步骤：
[0153]
步骤s102，获取目标图像，其中，目标图像包括待检测的目标文本；
[0154]
步骤s104，确定目标文本的外接矩形和目标四边形的多个第一角点，其中，外接矩形为外接于目标文本的最小正矩形，目标四边形为由目标文本上的多个目标点确定，且包括目标文本；
[0155]
步骤s106，基于外接矩形检测多个第一角点的目标位置信息。
[0156]
图10是根据本公开实施例的一种电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0157]
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0158]
如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(rom)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(ram)1003中的计算机程序，来执行各种适当的动作和处理。在ram 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
[0159]
设备1000中的多个部件连接至i/o接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0160]
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如方法基于外接矩形检测多个第一角点的目标位置信息。例如，在一些实施例中，
方法基于外接矩形检测多个第一角点的目标位置信息可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由rom 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram 1003并由计算单元1001执行时，可以执行上文描述的方法基于外接矩形检测多个第一角点的目标位置信息的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法基于外接矩形检测多个第一角点的目标位置信息。
[0161]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0162]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0163]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0164]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0165]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0166]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
[0167]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0168]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄聚谢群义李煜林钦夏孟姚锟
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：固定模台生产线的上料方法、装置、电子设备及存储介质与流程
上一篇：一种上纸检测装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。