用于检测文本的方法和装置与流程

文档序号:30581833发布日期:2022-06-29 12:41阅读:来源:国知局

技术特征:
1.一种用于检测文本的方法,其特征在于,该方法包括:将待检测文本的图像输入到预设卷积神经网络结构中,以得到所述图像被拆分成的多个候选框中的每一候选框的候选框信息,其中,针对所述多个候选框中的任一候选框,所述候选框信息包括所述候选框的左边概率、所述候选框的右边概率、所述候选框的其他概率以及所述候选框的基础参数,其中,所述左边概率为所述候选框位于所述图像中的待检测文本区域的左边界的概率,所述右边概率为所述候选框位于所述待检测文本区域的右边界的概率,所述其他概率为所述候选框位于所述待检测文本区域中除所述左边界和所述右边界外的其他位置的概率;针对所述多个候选框中的任一候选框,基于该候选框的所述左边概率、所述右边概率和所述其他概率,确定该候选框位于所述左边界、所述右边界还是所述其他位置,以确定该候选框为左边框、右边框还是其他边框;以及针对任一所述左边框,根据所述左边框的基础参数确定配对右边框;以及基于所述左边框的基础参数以及所述配对右边框的基础参数,确定一行文本区域检测框,所述行文本区域检测框用于框选所述图像中从所述左边框至所述配对右边框的处于一行的所有文字。2.根据权利要求1所述的方法,其特征在于,所述候选框的基础参数包括所述候选框的中心点的坐标位置以及所述候选框的长度和宽度,所述针对任一所述左边框,基于所述左边框的基础参数以及所述配对右边框的基础参数,确定所述行文本区域检测框包括:基于左边中心点、右边中心点、所述左边框的所述长度和所述宽度以及所述配对右边框的所述长度和所述宽度,确定所述行文本区域检测框,其中,所述左边中心点为所述左边框的中心点,所述右边中心点为所述配对右边框的中心点。3.根据权利要求2所述的方法,其特征在于,针对任一所述左边框,以所述左边中心点和所述右边中心点确定第一线段,在所述第一线段的左侧延长所述左边框的所述长度的一半,并且在所述第一线段的右侧延长所述配对右边框的所述长度的一半,得到第二线段,将所述第二线段作为所述行文本区域检测框的中心线,所述行文本区域检测框的长度为所述第二线段的长度,所述行文本区域检测框的宽度为所述左边框的所述宽度和所述配对右边框的所述宽度的均值。4.根据权利要求1-3中任一项所述的方法,其特征在于,所述候选框的基础参数包括所述候选框的中心点的坐标位置,针对任一所述左边框,确定配对右边框包括:分别计算所有所述右边框中的每一所述右边框的中心点的所述坐标位置与所述左边框的中心点的所述坐标位置之间的距离值;以及通过比较确定出所有所述距离值中的最小距离值,其中,所述最小距离值对应的所述右边框为所述配对右边框。5.根据权利要求4所述的方法,其特征在于,针对所述多个候选框中的任一候选框,所述基础参数还包括所述候选框的角度,所述角度为所述候选框的上边界与所述图像的水平线的夹角且所述角度的正负取决于所述候选框的上边界相对于所述图像的水平线的转动方向;
针对任一所述左边框,所述配对右边框还满足以下条件:所述配对右边框的所述角度与所述左边框的所述角度的差值的绝对值小于预设角度值。6.根据权利要求1所述的方法,其特征在于,所述预设卷积神经网络结构中的预设值个彼此相邻的卷积层输出的特征图在通道维上进行融合,被融合的预设值个卷积层中任意相邻两个卷积层之间没有池化层,所述预设卷积神经网络结构中输出层为卷积层,所述输出层输出的特征图对应于所述左边概率、所述右边概率、所述其他概率、所述基础参数。7.根据权利要求6所述的方法,其特征在于,针对所述多个候选框中的任一候选框,所述基础参数包括所述候选框的中心点的坐标位置、长度、宽度和角度,所述角度为所述候选框的上边界与所述图像的水平线的夹角且所述角度的正负取决于所述候选框的上边界相对于所述图像的水平线的转动方向,所述预设卷积神经网络结构的输出层包括并列的第一卷积层和第二卷积层,其中,所述第一卷积层输出的特征图对应于所述左边概率、所述右边概率和所述其他概率,所述第二卷积层输出的特征图对应于所述坐标位置、所述长度、所述宽度和所述角度。8.根据权利要求7所述的方法,其特征在于,所述预设卷积神经网络结构被训练时采用的损失函数为:其中,l1为所述第一卷积层的损失函数,l2为所述第二卷积层的损失函数,f对应于所述第一卷积层输出的特征图,f
ijk
表示所述第一卷积层输出的特征图中第i行第j列的候选框的第k维的概率,p
ijk
表示所述第一卷积层输出的特征图中第i行第j列的候选框的第k维的预设概率,x
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的横坐标且大小与i相等,y
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的纵坐标且大小与j相等,表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的预设横坐标,表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的预设纵坐标,δx
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的横坐标的修正值,δy
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的中心点的纵坐标的修正值,w
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的长度,表示所述第二卷积层输出的特征图中第i行第j列的候选框的预设长度,δw
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的长度的修正值,h
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的宽度,表示所述第二卷积层输出的特征图中第i行第j列的候选框的预设宽度,δh
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的宽度的修正值,θ
ij
表示所述第二卷积层输出的特征图中第i行第j列的候选框的角度,表示所述第二卷积层输出的特征图中第i行第j列的候选框的预设角度,所述第一卷
积层和所述第二卷积层输出的特征图分别具有m*n个候选框。9.一种机器可读存储介质,其特征在于,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1-8中任一项所述的方法。10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-8中任一项所述的方法。

技术总结
本发明实施例提供一种用于检测文本的方法和装置,属于计算机视觉领域。该方法包括:将待检测文本的图像输入到预设卷积神经网络结构中,以得到图像被拆分成的多个候选框中的每一候选框的候选框信息;针对多个候选框中的任一候选框,基于该候选框的左边概率、右边概率和其他概率,确定该候选框位于左边界、右边界还是其他位置,以确定该候选框为左边框、右边框还是其他边框;以及针对任一左边框,根据左边框的基础参数确定配对右边框;以及基于左边框的基础参数和配对右边框的基础参数,确定一行文本区域检测框。藉此,实现减轻了耗时现象,提高了计算速度。提高了计算速度。提高了计算速度。


技术研发人员:李琳
受保护的技术使用者:北京贝壳时代网络科技有限公司
技术研发日:2022.03.30
技术公布日:2022/6/28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1