用于检测文本的方法和装置与流程

文档序号：30581833发布日期：2022-06-29 12:41阅读：76来源：国知局

1.本发明涉及计算机视觉领域，具体地涉及一种用于检测文本的方法和装置。

背景技术：

2.自然场景文本检测是计算机视觉领域的一个重要方向。文本检测模型的目标是从图片中尽可能准确地找出文字所在区域。但是，常见目标检测方法(ssd、yolo、faster-rcnn等)直接用于文字检测任务的效果并不理想，因为相比于常规物体，文字行长度、长宽比例变化范围很大。为了解决这个问题，常用的方法是将文本行看成一个序列，而不是单个完整独立的目标；通过将文本序列拆分成许多小文本框分别进行检测，然后将属于同一个文本行的小文本框合并，从而得到一个完整的、大的文本框。以前方法(ctpn，detecting text in natural image with connectionist text proposal network等)通常需要预测很多个候选框，然后将重叠的候选框一一合并，参数量很大且非常耗时。而且在自然场景下，文本行很可能不是水平的，即具有一定的角度，常规的检测框bbox(x,y,w,h)无法精准的检测出文本行的位置。

技术实现要素：

3.本发明实施例的目的是提供一种用于检测文本的方法和装置，其可实现解决或至少部分解决上述问题。
4.为了实现上述目的，本发明实施例的一个方面提供一种用于检测文本的方法，该方法包括：将待检测文本的图像输入到预设卷积神经网络结构中，以得到所述图像被拆分成的多个候选框中的每一候选框的候选框信息，其中，针对所述多个候选框中的任一候选框，所述候选框信息包括所述候选框的左边概率、所述候选框的右边概率、所述候选框的其他概率以及所述候选框的基础参数，其中，所述左边概率为所述候选框位于所述图像中的待检测文本区域的左边界的概率，所述右边概率为所述候选框位于所述待检测文本区域的右边界的概率，所述其他概率为所述候选框位于所述待检测文本区域中除所述左边界和所述右边界外的其他位置的概率；针对所述多个候选框中的任一候选框，基于该候选框的所述左边概率、所述右边概率和所述其他概率，确定该候选框位于所述左边界、所述右边界还是所述其他位置，以确定该候选框为左边框、右边框还是其他边框；以及针对任一所述左边框，根据所述左边框的基础参数确定配对右边框；以及基于所述左边框的基础参数以及所述配对右边框的基础参数，确定一行文本区域检测框，所述行文本区域检测框用于框选所述图像中从所述左边框至所述配对右边框的处于一行的所有文字。
5.可选地，所述候选框的基础参数包括所述候选框的中心点的坐标位置以及所述候选框的长度和宽度，所述针对任一所述左边框，基于所述左边框的基础参数以及所述配对右边框的基础参数，确定所述行文本区域检测框包括：基于左边中心点、右边中心点、所述左边框的所述长度和所述宽度以及所述配对右边框的所述长度和所述宽度，确定所述行文本区域检测框，其中，所述左边中心点为所述左边框的中心点，所述右边中心点为所述配对
右边框的中心点。
6.可选地，针对任一所述左边框，以所述左边中心点和所述右边中心点确定第一线段，在所述第一线段的左侧延长所述左边框的所述长度的一半，并且在所述第一线段的右侧延长所述配对右边框的所述长度的一半，得到第二线段，将所述第二线段作为所述行文本区域检测框的中心线，所述行文本区域检测框的长度为所述第二线段的长度，所述行文本区域检测框的宽度为所述左边框的所述宽度和所述配对右边框的所述宽度的均值。
7.可选地，所述候选框的基础参数包括所述候选框的中心点的坐标位置，针对任一所述左边框，确定配对右边框包括：分别计算所有所述右边框中的每一所述右边框的中心点的所述坐标位置与所述左边框的中心点的所述坐标位置之间的距离值；以及通过比较确定出所有所述距离值中的最小距离值，其中，所述最小距离值对应的所述右边框为所述配对右边框。
8.可选地，针对所述多个候选框中的任一候选框，所述基础参数还包括所述候选框的角度，所述角度为所述候选框的上边界与所述图像的水平线的夹角且所述角度的正负取决于所述候选框的上边界相对于所述图像的水平线的转动方向；针对任一所述左边框，所述配对右边框还满足以下条件：所述配对右边框的所述角度与所述左边框的所述角度的差值的绝对值小于预设角度值。
9.可选地，所述预设卷积神经网络结构中的预设值个彼此相邻的卷积层输出的特征图在通道维上进行融合，被融合的预设值个卷积层中任意相邻两个卷积层之间没有池化层，所述预设卷积神经网络结构中输出层为卷积层，所述输出层输出的特征图对应于所述左边概率、所述右边概率、所述其他概率、所述基础参数。
10.可选地，针对所述多个候选框中的任一候选框，所述基础参数包括所述候选框的中心点的坐标位置、长度、宽度和角度，所述角度为所述候选框的上边界与所述图像的水平线的夹角且所述角度的正负取决于所述候选框的上边界相对于所述图像的水平线的转动方向，所述预设卷积神经网络结构的输出层包括并列的第一卷积层和第二卷积层，其中，所述第一卷积层输出的特征图对应于所述左边概率、所述右边概率和所述其他概率，所述第二卷积层输出的特征图对应于所述坐标位置、所述长度、所述宽度和所述角度。
11.可选地，所述预设卷积神经网络结构被训练时采用的损失函数为：其中，l1为所述第一卷积层的损失函数，l2为所述第二卷积层的损失函数，f对应于所述第一卷积层输出的特征图，f
ijk
表示所述第一卷积层输出的特征图中第i行第j列的候选框的第k维的概率，p
ijk
表示所述第一卷积层输出的特征图中第i行第j列的候选框的第k维的预设概率，x
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的横坐标且大小与i相等，y
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的纵坐标且大小与j相等，表示所述第二卷积层输出的特征图中第i行第j列的候选框
的中心点的预设横坐标，表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的预设纵坐标，δx
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的横坐标的修正值，δy
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的纵坐标的修正值，w
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的长度，表示所述第二卷积层输出的特征图中第i行第j列的候选框的预设长度，δw
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的长度的修正值，h
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的宽度，表示所述第二卷积层输出的特征图中第i行第j列的候选框的预设宽度，δh
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的宽度的修正值，θ
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的角度，表示所述第二卷积层输出的特征图中第i行第j列的候选框的预设角度，所述第一卷积层和所述第二卷积层输出的特征图分别具有m*n个候选框。
12.相应地，本发明实施例的另一方面提供一种用于检测文本的装置，该装置包括：候选框信息获得模块，用于将待检测文本的图像输入到预设卷积神经网络结构中，以得到所述图像被拆分成的多个候选框中的每一候选框的候选框信息，其中，针对所述多个候选框中的任一候选框，所述候选框信息包括所述候选框的左边概率、所述候选框的右边概率、所述候选框的其他概率以及所述候选框的基础参数，其中，所述左边概率为所述候选框位于所述图像中的待检测文本区域的左边界的概率，所述右边概率为所述候选框位于所述待检测文本区域的右边界的概率，所述其他概率为所述候选框位于所述待检测文本区域中除所述左边界和所述右边界外的其他位置的概率；边框确定模块，用于针对所述多个候选框中的任一候选框，基于该候选框的所述左边概率、所述右边概率和所述其他概率，确定该候选框位于所述左边界、所述右边界还是所述其他位置，以确定该候选框为左边框、右边框还是其他边框；以及行文本区域检测框确定模块，用于针对任一所述左边框，根据所述左边框的基础参数确定配对右边框；以及基于所述左边框的基础参数以及所述配对右边框的基础参数，确定一行文本区域检测框，所述行文本区域检测框用于框选所述图像中从所述左边框至所述配对右边框的处于一行的所有文字。
13.可选地，所述候选框的基础参数包括所述候选框的中心点的坐标位置以及所述候选框的长度和宽度，针对任一所述左边框，所述行文本区域检测框确定模块基于所述左边框的基础参数以及所述配对右边框的基础参数，确定所述行文本区域检测框包括：基于左边中心点、右边中心点、所述左边框的所述长度和所述宽度以及所述配对右边框的所述长度和所述宽度，确定所述行文本区域检测框，其中，所述左边中心点为所述左边框的中心点，所述右边中心点为所述配对右边框的中心点。
14.可选地，针对任一所述左边框，以所述左边中心点和所述右边中心点确定第一线段，在所述第一线段的左侧延长所述左边框的所述长度的一半，并且在所述第一线段的右侧延长所述配对右边框的所述长度的一半，得到第二线段，将所述第二线段作为所述行文本区域检测框的中心线，所述行文本区域检测框的长度为所述第二线段的长度，所述行文本区域检测框的宽度为所述左边框的所述宽度和所述配对右边框的所述宽度的均值。
15.可选地，所述候选框的基础参数包括所述候选框的中心点的坐标位置，针对任一
所述左边框，所述行文本区域检测框确定模块确定配对右边框包括：分别计算所有所述右边框中的每一所述右边框的中心点的所述坐标位置与所述左边框的中心点的所述坐标位置之间的距离值；以及通过比较确定出所有所述距离值中的最小距离值，其中，所述最小距离值对应的所述右边框为所述配对右边框。
16.可选地，针对所述多个候选框中的任一候选框，所述基础参数还包括所述候选框的角度，所述角度为所述候选框的上边界与所述图像的水平线的夹角且所述角度的正负取决于所述候选框的上边界相对于所述图像的水平线的转动方向；针对任一所述左边框，所述配对右边框还满足以下条件：所述配对右边框的所述角度与所述左边框的所述角度的差值的绝对值小于预设角度值。
17.可选地，所述预设卷积神经网络结构中的预设值个彼此相邻的卷积层输出的特征图在通道维上进行融合，被融合的预设值个卷积层中任意相邻两个卷积层之间没有池化层，所述预设卷积神经网络结构中输出层为卷积层，所述输出层输出的特征图对应于所述左边概率、所述右边概率、所述其他概率、所述基础参数。
18.可选地，针对所述多个候选框中的任一候选框，所述基础参数包括所述候选框的中心点的坐标位置、长度、宽度和角度，所述角度为所述候选框的上边界与所述图像的水平线的夹角且所述角度的正负取决于所述候选框的上边界相对于所述图像的水平线的转动方向，所述预设卷积神经网络结构的输出层包括并列的第一卷积层和第二卷积层，其中，所述第一卷积层输出的特征图对应于所述左边概率、所述右边概率和所述其他概率，所述第二卷积层输出的特征图对应于所述坐标位置、所述长度、所述宽度和所述角度。
19.可选地，所述预设卷积神经网络结构被训练时采用的损失函数为：
[0020][0021]
其中，l1为所述第一卷积层的损失函数，l2为所述第二卷积层的损失函数，f对应于所述第一卷积层输出的特征图，f
ijk
表示所述第一卷积层输出的特征图中第i行第j列的候选框的第k维的概率，p
ijk
表示所述第一卷积层输出的特征图中第i行第j列的候选框的第k维的预设概率，x
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的横坐标且大小与i相等，y
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的纵坐标且大小与j相等，表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的预设横坐标，表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的预设纵坐标，δx
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的横坐标的修正值，δy
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的纵坐标的修正值，w
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的长度，表示所述第二卷积层输出的特征图中第i行第j列的候选框的预设长度，δw
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的长度的修正值，h
ij
表示所述第二
卷积层输出的特征图中第i行第j列的候选框的宽度，表示所述第二卷积层输出的特征图中第i行第j列的候选框的预设宽度，δh
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的宽度的修正值，θ
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的角度，表示所述第二卷积层输出的特征图中第i行第j列的候选框的预设角度，所述第一卷积层和所述第二卷积层输出的特征图分别具有m*n个候选框。
[0022]
此外，本发明实施例的另一方面还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述的方法。
[0023]
另外，本发明实施例的另一方面还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述的方法。
[0024]
通过上述技术方案，只需要基于所确定出的左边框和右边框即可确定出行文本区域检测框，无需依据待检测文本的图像中待检测文本区域的除左边框和右边框外的其他边框，减少了需要计算的参数，降低了计算量，节省了时间，减轻了耗时现象，提高了计算速度。
[0025]
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0026]
附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：
[0027]
图1是本发明一实施例提供的用于检测文本的方法的流程图；
[0028]
图2是本发明另一实施例提供的预设卷积神经网络结构的结构示意图；以及
[0029]
图3是本发明另一实施例提供的用于检测文本的装置的结构框图。
[0030]
附图标记说明
[0031]
1候选框信息获得模块2边框确定模块
[0032]
3行文本区域检测框确定模块
具体实施方式
[0033]
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。
[0034]
在本发明中，在未作相反说明的情况下，使用的方位词如“上、下、左、右”通常是指以图像或候选框的中心点为基准点进行划分的，左边界指的是在中心点左侧的边界，右边界指的是在中心点右侧的边界，上边界指的是在中心点上侧的边界，左边框指的是位于图像中的待检测文本区域的左边界的候选框，右边框指的是位于图像中的待检测文本区域的右边界的候选框。
[0035]
本发明实施例的一个方面提供用于检测文本的方法。
[0036]
图1是本发明一实施例提供的用于检测文本的方法的流程图。如图1所示，该方法包括以下内容。
[0037]
在步骤s10中，将待检测文本的图像输入到预设卷积神经网络结构中，以得到图像
被拆分成的多个候选框中的每一候选框的候选框信息，其中，针对多个候选框中的任一候选框，候选框信息包括候选框的左边概率、候选框的右边概率、候选框的其他概率以及候选框的基础参数，其中，左边概率为候选框位于图像中的待检测文本区域的左边界的概率，右边概率为候选框位于待检测文本区域的右边界的概率，其他概率为候选框位于待检测文本区域中除左边界和右边界外的其他位置的概率，待检测文本区域为图像中待检测文本覆盖的区域。
[0038]
在步骤s11中，针对多个候选框中的任一候选框，基于该候选框的左边概率、右边概率和其他概率，确定该候选框位于左边界、右边界还是其他位置，以确定该候选框为左边框、右边框还是其他边框。例如，针对任一候选框，根据左边概率、右边概率和其他概率中的最大者确定出该候选框是左边框、右边框还是其他边框。例如，某一候选框，左边概率、右边概率和其他概率中的最大的是左边概率，则确定该候选框位于待检测文本区域的左边界，该候选框为左边框。
[0039]
在步骤s12中，针对任一左边框，根据左边框的基础参数确定配对右边框，配对右边框为距离左边框最近的右边框。例如，可以通过计算坐标位置之间的距离来确定出配对右边框。可选地，针对多个候选框中的任一候选框，基础参数包括候选框的中心点的坐标位置，即候选框的中心点在图像中的坐标位置。针对任一左边框，确定配对右边框可以根据以下内容来确定。针对任一左边框，分别计算所有右边框中的每一右边框的中心点的坐标位置与左边框的中心点的坐标位置之间的距离值。其中，所有右边框为在步骤s11中确定出的所有右边框。通过比较确定出所有距离值中的最小距离值，其中，最小距离值对应的右边框为配对右边框。比较所有距离值的大小，最小的距离值即为最小距离值，该最小距离值为哪一右边框的中心点的坐标位置和左边框的中心点的坐标位置之间的距离值，该右边框即为配对右边框。可选地，在本发明实施例中，以图像为基准建立坐标系，候选框的中心点的坐标位置为候选框的中心点在图像中的坐标位置。
[0040]
在步骤s13中，针对任一左边框，基于左边框的基础参数及配对右边框的基础参数，确定一行文本区域检测框，行文本区域检测框用于框选图像中从左边框至配对右边框的处于一行的所有文字。可选地，针对任一左边框，可以是以左边中心点和右边中心点为基础确定出行文本区域检测框。其中，左边中心点为左边框的中心点，右边中心点为配对右边框的中心点。此外，还可以是确定出左边框的其他基准点和配对右边框的其他基准点，例如，左边框的上边界的中心点或者左边框的下边界的中心点，配对右边框的上边界的中心点或者配对右边框的下边界的中心点，等等，以确定出的左边框的其他基准点和配对右边框的其他基准点为基础，确定出行文本区域检测框。
[0041]
通过上述技术方案，只需要基于所确定出的左边框和右边框即可确定出行文本区域检测框，无需依据待检测文本的图像中待检测文本区域的除左边框和右边框外的其他边框，减少了需要计算的参数，降低了计算量，节省了时间，减轻了耗时现象，提高了计算速度。
[0042]
可选地，在本发明实施例中，候选框的基础参数包括候选框的中心点的坐标位置以及候选框的长度和宽度，针对任一左边框，基于左边框的基础参数和配对右边框的基础参数确定行文本区域检测框包括：基于左边中心点、右边中心点、左边框的长度和宽度以及配对右边框的长度和宽度，确定行文本区域检测框，其中，左边中心点为左边框的中心点，
右边中心点为配对右边框的中心点。可选地，在本发明实施例中，针对任一左边框，以左边中心点和右边中心点确定第一线段，在第一线段的左侧延长左边框的长度的一半，并且在第一线段的右侧延长配对右边框的长度的一半，得到第二线段，将第二线段作为行文本区域检测框的中心线，行文本区域检测框的长度为第二线段的长度，行文本区域检测框的宽度为左边框的宽度和配对右边框的宽度的均值。具体地，针对任一左边框，将左边中心点和右边中心点连接成线，得到中心点连线，也就是确定出第一线段；根据左边框的长度和配对右边框的长度将中心点连线向外扩充，从左边中心点向外扩充左边框长度的一半，从右边中心点向外扩充配对右边框长度的一半，得到第二线段；然后将左边框和配对右边框的宽度的均值作为文本区域的宽度，即可得到完整的行文本区域检测框。此外，在本发明实施例中，针对任一左边框，还可以是将左边中心点和右边中心点的连线的连线长度加左边框的长度或者加配对右边框的长度的作为行文本区域检测框的长度。另外，在本发明实施例中，针对任一左边框，还可以是左边框的宽度或者右边框的宽度作为行文本区域检测框的宽度。
[0043]
可选地，在本发明实施例中，在确定配对右边框时还可以考虑角度问题，以准确确定出倾斜的一行文本。具体地，针对多个候选框中的任一候选框，基础参数还包括候选框的角度，角度为候选框的上边界与图像的水平线的夹角且角度的正负取决于候选框的上边界相对于图像的水平线的转动方向。例如，可以设置，针对任一候选框，当候选框的上边界相对于图像的水平线的转动方向为逆时针转动时，角度为正；当候选框的上边界相对于图像的水平线的转动方向为顺时针转动时，角度为负。也可以是，针对任一候选框，当候选框的上边界相对于图像的水平线的转动方向为顺时针转动时，角度为正；当候选框的上边界相对于图像的水平线的转动方向为逆时针转动时，角度为负。针对任一左边框，配对右边框还满足以下条件：配对右边框的角度与左边框的角度的差值的绝对值小于预设角度值。通过在检测文本时，加入角度的特征，实现了自然场景下任意角度的文本行检测。
[0044]
可选地，在本发明实施例中，预设卷积神经网络结构中的预设值个彼此相邻的卷积层输出的特征图在通道维上进行融合，被融合的预设值个卷积层中任意相邻两个卷积层之间没有池化层，预设卷积神经网络结构中输出层为卷积层，输出层输出的特征图对应于左边概率、右边概率、其他概率、基础参数。通过卷积层融合，使得预设卷积神经网络结构在学习左边概率、右边概率和其他概率时考虑不同的感受野，使得预设卷积神经网络结构确定出的左边概率、右边概率和其他概率更加准确。可选地，在本发明实施例中，可以根据具体情况设置预设值和/或进行融合的预设值个彼此相邻的卷积层在预设卷积神经网络结构中的位置。
[0045]
可选地，在本发明实施例中，针对多个候选框中的任一候选框，基础参数包括候选框的中心点的坐标位置、候选框的长度和宽度以及候选框的角度，角度为候选框的上边界与图像的水平线的夹角且角度的正负取决于候选框的上边界相对于图像的水平线的转动方向，预设卷积神经网络结构的输出层包括并列的第一卷积层和第二卷积层，其中，第一卷积层输出的特征图对应于左边概率、右边概率和其他概率，第二卷积层输出的特征图对应于坐标位置、长度、宽度和角度。
[0046]
可选地，在本发明实施例中，预设卷积神经网络结构被训练时采用的损失函数为：
其中，l1为第一卷积层的损失函数，l2为第二卷积层的损失函数，f对应于第一卷积层输出的特征图，f
ijk
表示第一卷积层输出的特征图中第i行第j列的候选框的第k维的概率，p
ijk
表示第一卷积层输出的特征图中第i行第j列的候选框的第k维的预设概率，x
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的横坐标且大小与i相等，y
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的纵坐标且大小与j相等，表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的预设横坐标，表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的预设纵坐标，δx
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的横坐标的修正值，δy
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的纵坐标的修正值，w
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的长度，表示第二卷积层输出的特征图中第i行第j列的候选框的预设长度，δw
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的长度的修正值，h
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的宽度，表示第二卷积层输出的特征图中第i行第j列的候选框的预设宽度，δh
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的宽度的修正值，θ
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的角度，表示第二卷积层输出的特征图中第i行第j列的候选框的预设角度，第一卷积层和第二卷积层输出的特征图分别具有m*n个候选框。在本发明实施例中，卷积层输出的特征图具有m*n个候选框，也就是特征图中的候选框包括m行和n列；以图像为基础建立坐标系，行和列确定一个具体的候选框，因此，在本发明实施例中，行相当于候选框的中心点的横坐标，列相当于候选框的中心点的纵坐标，行和列表示候选框的中心点的坐标位置。
[0047]
可选地，在本发明实施例中，预设卷积神经网络结构可以是任何满足本发明实施例中对预设卷积神经网络结构的限定的卷积神经网络结构。下面以resnet 50卷积神经网络为例，对本发明实施例进行示例性介绍。其中，相比于传统resnet 50卷积神经网络，在本发明实施例中使用的resnet50卷积神经网络做了一些改进，参见图2所示的结构示意图。如图2所示，将待检测文本的图像输入到resnet 50卷积神经网络，图像为从卷积层1输入到resnet 50卷积神经网络。在第二组卷积层的位置进行融合，对卷积层2-1、卷积层2-2和卷积层2-3输出的特征图(feature map)在通道维上进行融合(concat)，卷积层2-1、卷积层2-2和卷积层2-3中任意相邻的两个卷积层之间没有池化层。将融合后的特征图继续输入到resnet 50卷积神经网络后面的卷积层及除卷积层外的其它层。卷积层5-3为未做改进前的resnet 50卷积神经网络的最后一个卷积层，卷积层5-3输出的特征图记为f(x,y)∈r
m*n*2048
，其中，x和y表示特征图中的候选框的中心点的坐标位置。在未做改进前，在resnet 50卷积神经网络中，卷积层5-3后面为全连接层；做改进后，将resnet 50卷积神经网络的全
连接层用卷积层6-1和卷积层6-2代替，卷积层6-1输出的特征图为m*n*3的特征图，卷积层6-2输出的特征图为m*n*5的特征图。其中，m*n*3特征图的三个通道维分别代表对应的小候选框位于输入的图像中待检测文本区域的左边界、右边界以及待检测文本区域中除左边界和右边界外的其他位置的概率；m*n*5特征图用于回归小候选框的中心点的坐标位置、小候选框的长度和宽度(x,y,w,h)以及角度θ。将卷积层6-1输出的特征图经过softmax回归处理，损失函数使用交叉熵损失函数。卷积层6-2输出的特征图使用回归损失函数，loss函数计算公式如下：其中，l1为卷积层6-1的损失函数，l2为卷积层6-2的损失函数，f对应于卷积层6-1输出的特征图，f
ijk
表示卷积层6-1输出的特征图中第i行第j列的候选框的第k维的概率，p
ijk
表示卷积层6-1输出的特征图中第i行第j列的候选框的第k维的预设概率，x
ij
表示卷积层6-2输出的特征图中第i行第j列的候选框的中心点的横坐标且大小与i相等，y
ij
表示卷积层6-2输出的特征图中第i行第j列的候选框的中心点的纵坐标且大小与j相等，表示卷积层6-2输出的特征图中第i行第j列的候选框的中心点的预设横坐标，表示卷积层6-2输出的特征图中第i行第j列的候选框的中心点的预设纵坐标，δx
ij
表示卷积层6-2输出的特征图中第i行第j列的候选框的中心点的横坐标的修正值，δy
ij
表示卷积层6-2输出的特征图中第i行第j列的候选框的中心点的纵坐标的修正值，w
ij
表示卷积层6-2输出的特征图中第i行第j列的候选框的的长度，表示卷积层6-2输出的特征图中第i行第j列的候选框的预设长度，δw
ij
表示卷积层6-2输出的特征图中第i行第j列的候选框的长度的修正值，h
ij
表示卷积层6-2输出的特征图中第i行第j列的候选框的宽度，表示卷积层6-2输出的特征图中第i行第j列的候选框的预设宽度，δh
ij
表示卷积层6-2输出的特征图中第i行第j列的候选框的宽度的修正值，θ
ij
表示卷积层6-2输出的特征图中第i行第j列的候选框的角度，表示卷积层6-2输出的特征图中第i行第j列的候选框的预设角度，卷积层6-1和卷积层6-2输出的特征图分别具有m*n个候选框。利用resnet 50卷积神经网络的输出结果可以得到图像上所有文本区域中左边框和右边框的中心点的坐标位置、左边框和右边框的长度和宽度(x,y,h,w)以及角度θ。对于每一个左边框，寻找其右边相同或相似角度(误差在15度内)最近的右边框，也就是配对右边框。针对任一左边框及与其最近的右边框，取左边框的和右边框的中心点，将两个中心点连接成线，根据左边框和右边框的长度将中心点连线向外扩充对应长度(对应边框宽度的一半)，然后将左边框和右边框宽度的均值作为文本区域的高度，即可得到完整的文本区域检测框。另外，在本发明实施例中，在进行融合时，优选采用低卷积层进行融合，因为低层卷积层提取的特征图像的边缘、纹理和颜色等信息更适合学习相对位置和角度，而高层卷积层所提取的特征会更加抽象。而且，进行融合的卷积层之间不能有池化层，因为特征维度不一样，不能进行融合。此外，将卷积层6-1输出的特征图经过
softmax回归处理是因为交叉熵刻画的是两个概率分布之间的距离，然而神经网络的输出却不一定是一个概率分布，softmax将神经网络的输出变成了一个概率分布。
[0048]
在本发明实施例中，对于文字行检测，实际上只需要定位出其最左端和最右端的候选框，利用左右两端文本就可以框出整行文本。在本发明实施例提供的技术方案中，通过将文本行拆分成小候选框进行检测，但与以前的方法不同的是，在本发明实施例中提出了一种基于相对位置和角度信息的自然场景文本检测系统，通过loss函数及不同感受野(卷积层融合)的隐藏层学习特征图上每个点对应的候选框在图像中的相对位置信息和角度信息，因为感受野代表了卷积神经网络每一层输出的特征图上的候选框在输入图片上映射的区域大小，通常后一层的感受野要比前一层的感受野更大，即后一层特征图上候选框对应输入图片上映射的区域要比前一层特征图更大。假设前一层特征图上某个候选框对应的输入图片区域为文本行上的一个小候选框，那后一层特征图上该候选框在输入图片上映射的区域即为小候选框及周边区域，因此利用前一层特征图学习小候选框的位置和置信度，而后一层特征图可以学习小候选框在文本行中的相对位置(最左端、中间或最右端)和文本行的角度信息，通过文本行两端的检测框和角度信息可以得到完整的文本行检测框，本方法适用于自然场景下任意角度的文本行检测。
[0049]
综上所述，本发明实施例提供的技术方案考虑到实际预测文本行位置只需要得到左右两端的候选框，通过loss函数和不同感受野的隐藏层学习小候选框在文本行中的相对位置信息，解决了预测多个候选框会造成参数过多以及耗时问题，很大程度上提高了文本检测的速度，同时加入了文本行的角度特征学习，实现了自然场景下任意角度的文本行检测。
[0050]
相应地，本发明实施例的另一方面还提供一种用于检测文本的装置。
[0051]
图3是本发明另一实施例提供的用于检测文本的装置的结构框图。如图3所示，该装置包括候选框信息获得模块1、边框确定模块2和行文本区域检测框确定模块3。其中，候选框信息获得模块1用于将待检测文本的图像输入到预设卷积神经网络结构中，以得到图像被拆分成的多个候选框中的每一候选框的候选框信息，其中，针对多个候选框中的任一候选框，候选框信息包括候选框的左边概率、候选框的右边概率、候选框的其他概率以及候选框的基础参数，其中，左边概率为候选框位于图像中的待检测文本区域的左边界的概率，右边概率为候选框位于待检测文本区域的右边界的概率，其他概率为候选框位于待检测文本区域中除左边界和右边界外的其他位置的概率；边框确定模块2用于针对多个候选框中的任一候选框，基于该候选框的左边概率、右边概率和其他概率，确定该候选框位于左边界、右边界还是其他位置，以确定该候选框为左边框、右边框还是其他边框；行文本区域检测框确定模块3用于针对任一左边框，根据左边框的基础参数确定配对右边框；以及基于左边框的基础参数以及配对右边框的基础参数，确定一行文本区域检测框，行文本区域检测框用于框选图像中从左边框至配对右边框的处于一行的所有文字。
[0052]
可选地，在本发明实施例中，候选框的基础参数包括候选框的中心点的坐标位置以及候选框长度和宽度，针对任一左边框，行文本区域检测框确定模块基于左边框的基础参数以及配对右边框的基础参数，确定行文本区域检测框包括：基于左边中心点、右边中心点、左边框的长度和宽度以及配对右边框的长度和宽度，确定行文本区域检测框，其中，左边中心点为左边框的中心点，右边中心点为配对右边框的中心点。
[0053]
可选地，在本发明实施例中，针对任一左边框，以左边中心点和右边中心点确定第一线段，在第一线段的左侧延长左边框的长度的一半，并且在第一线段的右侧延长配对右边框的长度的一半，得到第二线段，将第二线段作为行文本区域检测框的中心线，行文本区域检测框的长度为第二线段的长度，行文本区域检测框的宽度为左边框的宽度和配对右边框的宽度的均值。
[0054]
可选地，在本发明实施例中，候选框的基础参数包括候选框的中心点的坐标位置，针对任一左边框，行文本区域检测框确定模块确定配对右边框包括：分别计算所有右边框中的每一右边框的中心点的坐标位置与左边框的中心点的坐标位置之间的距离值；以及通过比较确定出所有距离值中的最小距离值，其中，最小距离值对应的右边框为配对右边框。
[0055]
可选地，在本发明实施例中，针对多个候选框中的任一候选框，基础参数还包括候选框的角度，角度为候选框的上边界与图像的水平线的夹角且角度的正负取决于候选框的上边界相对于图像的水平线的转动方向；针对任一左边框，配对右边框还满足以下条件：配对右边框的角度与左边框的角度的差值的绝对值小于预设角度值。
[0056]
可选地，在本发明实施例中，预设卷积神经网络结构中的预设值个彼此相邻的卷积层输出的特征图在通道维上进行融合，被融合的预设值个卷积层中任意相邻两个卷积层之间没有池化层，预设卷积神经网络结构中输出层为卷积层，输出层输出的特征图对应于左边概率、右边概率、其他概率、基础参数。
[0057]
可选地，在本发明实施例中，针对多个候选框中的任一候选框，基础参数包括候选框的中心点的坐标位置、长度、宽度和角度，角度为候选框的上边界与图像的水平线的夹角且角度的正负取决于候选框的上边界相对于图像的水平线的转动方向，预设卷积神经网络结构的输出层包括并列的第一卷积层和第二卷积层，其中，第一卷积层输出的特征图对应于左边概率、右边概率和其他概率，第二卷积层输出的特征图对应于坐标位置、长度、宽度和角度。
[0058]
可选地，在本发明实施例中，预设卷积神经网络结构被训练时采用的损失函数为：其中，l1为第一卷积层的损失函数，l2为第二卷积层的损失函数，f对应于第一卷积层输出的特征图，f
ijk
表示第一卷积层输出的特征图中第i行第j列的候选框的第k维的概率，p
ijk
表示第一卷积层输出的特征图中第i行第j列的候选框的第k维的预设概率，x
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的横坐标且大小与i相等，y
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的纵坐标且大小与j相等，表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的预设横坐标，表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的预设纵坐标，δx
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的横坐标的修正值，δy
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的中心点的纵坐标的修正值，w
ij
表示第二卷积层输出的
特征图中第i行第j列的候选框的长度，表示第二卷积层输出的特征图中第i行第j列的候选框的预设长度，δw
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的长度的修正值，h
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的宽度，表示第二卷积层输出的特征图中第i行第j列的候选框的预设宽度，δh
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的宽度的修正值，θ
ij
表示第二卷积层输出的特征图中第i行第j列的候选框的角度，表示第二卷积层输出的特征图中第i行第j列的候选框的预设角度，第一卷积层和第二卷积层输出的特征图分别具有m*n个候选框。
[0059]
本发明实施例提供的用于检测文本的装置的具体工作原理及益处与本发明实施例提供的用于检测文本的方法的具体工作原理及益处相似，这里将不再赘述。
[0060]
所述用于检测文本的装置包括处理器和存储器，上述候选框信息获得模块、边框确定模块和行文本区域检测框确定模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0061]
处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现减少需要计算的参数、降低计算量、节省时间、减轻耗时现象、提高计算速度。
[0062]
存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
[0063]
本发明实施例提供了一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述实施例中所述的方法。
[0064]
本发明实施例的另一方面还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述实施例中所述的方法。
[0065]
本发明实施例的另一方面还提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现上述实施例中所述的方法。本文中的设备可以是服务器、pc、pad、手机等。
[0066]
本发明实施例的另一方面还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述实施例中所述的方法。
[0067]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0068]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0069]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0070]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0071]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0072]
存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
[0073]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0074]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0075]
以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李琳
技术所有人：北京贝壳时代网络科技有限公司
我是此专利的发明人

上一篇：基于动态图的群体识别方法和系统与流程
上一篇：一种营销活动协调控制处理方法和系统

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。