一种面向细长文本的自然场景文字检测方法、系统及介质

文档序号:31078200发布日期:2022-08-09 21:59阅读:93来源:国知局
一种面向细长文本的自然场景文字检测方法、系统及介质

1.本发明涉及计算机视觉技术领域,尤其涉及一种面向细长文本的自然场景文字检测方法、系统及介质。


背景技术:

2.随着互联网图像的数量爆炸性增长,人们对于智能场景图像处理应用的需求也在逐步增加,其中需求最大的应用之一是自然场景文字图像中的文字精确检测,自然场景文字图像中,含有许多文档图像、字幕电影拍照图像、包装说明文字图像等文字高度较小、文本行长度大的相较难以准确检测的文本图像。
3.目前主流的自然场景文字检测算法均基于深度学习,这些方法主要可以分为基于分割的检测方法以及基于回归的检测方法。基于分割的文字检测方法通过逐像素地预测文本概率并聚合为文本行,这类方法对于细长文本行通常会聚合为破碎的文字段,难以形成完整文本行预测结果;基于回归的方法则通常倾向于生成较为粗糙的文本框,造成文本行末端文字的漏检或是一个文本包围框中包含了其他文本行的文字的现象。


技术实现要素:

4.为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种面向细长文本的自然场景文字检测方法、系统及介质。
5.本发明所采用的技术方案是:
6.一种面向细长文本的自然场景文字检测方法,包括以下步骤:
7.获取图像,采用resnet50网络作为主干网络,提取图像的特征,并通过特征金字塔网络提取图像的多尺度信息;
8.对于特征金字塔网络的每个特征层级输出,预测对应尺度上文本区域的置信度;对置信度大于阈值的像素点位置预测文本组件的高度和方向几何特征,不同尺度上的文本组件通过非极大值抑制滤除重叠的文本组件;
9.对于特征金字塔网络的每个特征层级输出,预测对应尺度上文本行中心区域的置信度,对置信度大于阈值的连通区域,找到置信度最高的像素点位置,预测对应尺度的文本中心线的傅里叶近似表示参数矢量,并通过快速傅里叶文本中心线后处理变换得到文本行中心线的预测点序列;
10.通过预测的文本中心线查找文本行路径上的文本组件,串接并聚合得到文本包围框。
11.进一步地,所述自然场景文字检测方法还包括以下步骤:
12.计算文本包围框置信度;
13.其中,文本包围框置信度为文本行中心线置信度与文本组件平均置信度的加权和;文本行中心线置信度为中心线上各点的文本行区域置信度的平均值,文本组件平均置信度为文本中心线路径上的文本组件的平均置信度。
14.进一步地,所述文本组件为文本行矩形区块,文本组件的参数如下:
15.每个文本组件由全局参数α和参数组(x
p
,y
p
,t,b,θ)确定,其中α表示文本组件纵横比,x
p
表示文本区域点的横坐标,y
p
表示文本区域点的纵坐标,t表示预测位置点(x
p
,y
p
)到文本组件顶边的距离,b表示预测位置点(x
p
,y
p
)到文本组件底边的距离,θ表示文本组件底边与x轴的正方向的夹角;
16.在网络训练时,对于每个文本行的文本区域上的像素位置(x
p
,y
p
)都会生成一个对应的文本组件监督标签,该文本组件的t由点(x
p
,y
p
)到文本行上长边的最短距离确定,b则由点(x
p
,y
p
)到文本行下长边的最短距离确定,θ则由文本行中心线上到点(x
p
,y
p
)距离最近的一点的法线方向与y轴正方向的夹角确定。
17.进一步地,在网络训练时,所述文本组件监督标签根据文本组件高度h=t+b分配到不同的特征金字塔输出层级中进行网络的监督学习。
18.进一步地,在网络训练时,预测的文本组件与监督标签根据giou计算损失:
[0019][0020]
其中,iou表示求两个区域的交并比,c表示预测文本组件b
pred
和真实文本组件b
gt
的最小闭包区域,area()算子表示求区域面积。
[0021]
进一步地,文本行的中心区域由文本行区域向内缩进文本行平均字符高度的0.3倍距离得到。
[0022]
进一步地,在网络训练时,所述文本中心线的傅里叶近似表示参数矢量的监督标签生成方法如下:
[0023]
对文本真实包围框的上下两条长边分别进行等间隔采样为n点序列,利用两条长边点序列求取文本行中心线点序列,并映射到复平面上得到文本行中心线复平面点序列x=[x1+y1*i,x2+y2*i,

,xn+yn*i];
[0024]
文本行中心线复平面点序列x与中心线反向点序列拼接得到文本行中心线闭合曲线复平面点序列x'=[x1+y1*i,x2+y2*i,

,xn+yn*i,xn+yn*i,

,x2+y2*i,x1+y1*i];
[0025]
文本行中心线闭合曲线序列x'通过傅里叶变换并保留k个低频分量得到文本行中心线的傅里叶近似表示参数,由此不同长度的文本中心线可通过k个傅里叶复参数表示,通过拆分傅里叶复参数的实部和虚部,得到该文本行中心线的傅里叶近似表示实数矢量。
[0026]
进一步地,所述文本中心线后处理变换,包括:
[0027]
将傅里叶近似表示实数矢量中的对应实部和虚部组合为复向量,然后通过快速傅里叶变换得到文本行中心线的预测点序列。
[0028]
进一步地,所述通过预测的文本中心线查找文本行路径上的文本组件,串接并聚合得到文本包围框,包括:
[0029]
对所有特征金字塔层级预测得到的文本组件进行非极大值抑制滤除重叠的文本组件,将与文本中心线相交的文本组件连接为文本行包围框,若有多条文本中心线与同一个文本组件相交,则将与这些文本中心线相交的所有文本组件相连接,获得并输出最终的文本包围框预测。
[0030]
本发明所采用的另一技术方案是:
[0031]
一种面向细长文本的自然场景文字检测系统,包括:
[0032]
至少一个处理器;
[0033]
至少一个存储器,用于存储至少一个程序;
[0034]
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
[0035]
本发明所采用的另一技术方案是:
[0036]
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
[0037]
本发明的有益效果是:本发明预测多尺度的文本组件以及文本行中心线,并根据文本行中心线采样点序列逐步连接文本组件,从而构建文本包围框,对于自然场景下的细长文本行图像能够更加准确地定位和检测文本。
附图说明
[0038]
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
[0039]
图1是本发明实施例中一种面向细长文本的自然场景文字检测方法的步骤流程图;
[0040]
图2是本发明实施例中文本组件的示意图。
[0041]
图3是本发明实施例中一种面向细长文本的自然场景文字检测方法的流程示意图;
[0042]
图4是本发明实施例中文本中心区域的示意图。
具体实施方式
[0043]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0044]
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0045]
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0046]
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体
含义。
[0047]
本发明主要针对已有文字检测器对于细长文本行的检测出现的问题,设计包括文本组件和文本中心线的多层次的回归预测模型,构建文本包围框并求取更准确的文本包围框置信度,达到对于细长文本行更精确的预测效果。
[0048]
如图1和图3所示,本实施例提供一种面向细长文本的自然场景文字检测方法,该方法能够预测多尺度的文本组件以及文本行中心线,并根据文本行中心线采样点序列逐步连接文本组件,从而构建文本包围框,并通过文本行中心线计算文本包围框的置信度,相较于单个像素点的文本行置信度更准确,使得对于自然场景下的细长文本行图像能够更加准确地定位和检测文本。该方法具体包括以下步骤:
[0049]
s1、获取图像,采用resnet50网络作为主干网络,提取图像的特征,并通过特征金字塔网络提取图像的多尺度信息。
[0050]
图像多尺度融合特征提取:利用带有可变形卷积层的resnet50作为主干网络提取图像特征,并通过特征金字塔网络结构提取图像的多尺度信息。
[0051]
s2、对于特征金字塔网络的每个特征层级输出,预测对应尺度上文本区域的置信度;对置信度大于阈值的像素点位置预测文本组件的高度和方向几何特征,不同尺度上的文本组件通过非极大值抑制滤除重叠的文本组件。
[0052]
多尺度文本组件预测:对于特征金字塔网络的每个特征层级输出,预测对应尺度上文本区域的置信度,对置信度大于阈值的像素点位置预测文本组件的高度和方向几何特征,不同尺度上的文本组件通过非极大值抑制滤除重叠且低质量的文本组件。步骤s3中文本组件为文本行矩形区块,其构成参数、在网络训练过程中其监督标签及损失函数描述如下:
[0053]
s21、参见图2,每个文本组件由全局参数α和参数组(x
p
,y
p
,t,b,θ)确定,其中α表示文本组件纵横比,x
p
表示文本区域点的横坐标,y
p
表示文本区域点的纵坐标,t表示(x
p
,y
p
)到文本组件顶边的距离,b表示(x
p
,y
p
)到文本组件底边的距离,θ表示文本组件底边与x轴的正方向的夹角。
[0054]
s22、在网络训练时,对于每个文本行的文本区域上的像素位置(x
p
,y
p
)都会生成一个对应的文本组件监督标签,该文本组件的t由点(x
p
,y
p
)到文本行上长边的最短距离确定,b则由点(x
p
,y
p
)到文本行下长边的最短距离确定,θ则由到文本行中心线上到点(x
p
,y
p
)距离最近的一点的法线方向与y轴的夹角正方向确定。
[0055]
s23、在网络训练时,文本组件监督标签会根据文本组件高度h=t+b分配到不同的特征金字塔输出层级中进行网络的监督学习。
[0056]
s24、在网络训练时,预测的文本组件与监督标签根据giou计算损失:
[0057][0058]
其中,iou表示求两个区域的交并比,c表示预测文本组件b
pred
和真实文本组件b
gt
的最小闭包区域,area()算子表示求区域面积。
[0059]
s3、对于特征金字塔网络的每个特征层级输出,预测对应尺度上文本行中心区域的置信度图,对置信度大于阈值的连通区域找到置信度最高的像素点位置预测对应尺度的文本中心线的傅里叶近似表示参数,并通过快速傅里叶变换得到文本行中心线的点序列。
[0060]
文本中心线预测:对于特征金字塔网络的每个特征层级输出,预测对应尺度上文本行中心区域的置信度图,对置信度大于阈值的连通区域找到置信度最高的像素点位置预测对应尺度的文本中心线的傅里叶近似表示参数矢量,并通过快速傅里叶变换得到文本行中心线的点序列。步骤s3中文本行中心线的傅里叶表示矢量在网络训练时的监督标签生成及在网络推理时文本中心线后处理变换描述如下:
[0061]
s31、在网络训练时,对文本真实包围框的上下两条长边分别进行等间隔采样为n点序列,并利用两条长边点序列求取文本行中心线点序列,并映射到复平面上得到文本行中心线复平面点序列x=[x1+y1*i,x2+y2*i,

,xn+yn*i],文本行中心线复平面点序列x与中心线反向点序列拼接得到文本行中心线闭合曲线复平面点序列x'=[x1+y1*i,x2+y2*i,

,xn+yn*i,xn+yn*i,

,x2+y2*i,x1+y1*i]。文本行中心线闭合曲线序列x'通过傅里叶变换并保留k个低频分量得到文本行中心线的傅里叶近似表示参数,由此不同长度的文本中心线可通过固定长度k的傅里叶参数矢量进行表示。
[0062]
s32、在网络推理时,将傅里叶近似表示实数矢量中的对应实部和虚部组合为复向量,然后通过快速傅里叶变换得到文本行中心线的预测点序列。
[0063]
s4、通过预测的文本中心线查找文本行路径上的文本组件,串接并聚合得到文本包围框。
[0064]
构建文本包围框:对于文本中心线所有特征金字塔层级输出预测得到的文本组件进行非极大值抑制滤除重叠的文本组件后,将与文本中心线相交的文本组件连接为文本行包围框,若有多条文本中心线与同一个文本组件相交,则将与此些文本中心线相交的所有文本组件相连接,从而得到最终的文本包围框预测输出。
[0065]
s5、计算文本包围框置信度。
[0066]
计算文本包围框置信度:文本包围框为文本行中心线置信度与文本组件平均置信度的加权和。其中,文本行中心线置信度为中心线上各点的文本行区域置信度的平均值,文本组件平均置信度为文本中心线路径上的文本组件的平均置信度。
[0067]
综上所述,本实施例方法相对于现有技术,具有如下优点及有益效果:
[0068]
(1)本实施例方法包含文本组件和文本中心线的多层次回归预测,能够让模型在保持对局部信息的关注的同时加强远距离特征信息的关联,提高模型对长文本行的预测准确度。
[0069]
(2)本实施例方法通过文本中心线各点预测文本包围框置信度,相较于单点位置预测的置信度更高。
[0070]
(3)本实施例方法采用giou损失函数对文本组件的预测进行监督,使得预测的文本包围框更紧凑。
[0071]
本实施例还提供一种面向细长文本的自然场景文字检测系统,包括:
[0072]
特征提取模块,用于获取图像,采用resnet50网络作为主干网络,提取图像的特征,并通过特征金字塔网络提取图像的多尺度信息;
[0073]
组件预测模块,用于对于特征金字塔网络的每个特征层级输出,预测对应尺度上文本区域的置信度;对置信度大于阈值的像素点位置预测文本组件的高度和方向几何特征,不同尺度上的文本组件通过非极大值抑制滤除重叠且低质量的文本组件;
[0074]
中心线预测模块,用于对于特征金字塔网络的每个特征层级输出,预测对应尺度
上文本行中心区域的置信度图,对置信度大于阈值的连通区域找到置信度最高的像素点位置预测对应尺度的文本中心线的傅里叶近似表示参数矢量,并通过快速傅里叶变换得到文本行中心线的点序列;
[0075]
文本中心线后处理模块,用于将预测的文本中心线傅里叶近似表示参数矢量变换为文本中心。
[0076]
包围框构建模块,用于通过预测的文本中心线查找文本行路径上的文本组件,串接并聚合得到文本包围框。
[0077]
本实施例的一种面向细长文本的自然场景文字检测系统,可执行本发明方法实施例所提供的一种面向细长文本的自然场景文字检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
[0078]
本实施例还提供一种面向细长文本的自然场景文字检测系统,包括:
[0079]
至少一个处理器;
[0080]
至少一个存储器,用于存储至少一个程序;
[0081]
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所示方法。
[0082]
本实施例的一种面向细长文本的自然场景文字检测系统,可执行本发明方法实施例所提供的一种面向细长文本的自然场景文字检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
[0083]
本技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
[0084]
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种面向细长文本的自然场景文字检测方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
[0085]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0086]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及
其等同方案的全部范围来决定。
[0087]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0088]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0089]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0090]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0091]
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
[0092]
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0093]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1