一种基于自适应特征选择和尺度损失函数的文本检测方法

文档序号:25373886发布日期:2021-06-08 16:56阅读:151来源:国知局
一种基于自适应特征选择和尺度损失函数的文本检测方法

1.本发明计算机视觉、文本检测的技术领域,尤其涉及一种基于自适应特征选择和尺度损失函数的文本检测方法。


背景技术:

2.文字是表达信息的重要方式,其广泛存在于自然场景图像中,例如随处可见的路标、车标、商品名称等,文本相较于自然场景中其他的内容(例如:树木、行人)可以传达更丰富的信息,准确地识别图像中的文本将有助于场景的分析与理解,而文本检测作为文本识别的重要前提,显得更为重要。
3.文本检测技术在智能交通系统、视障人群导盲、图像/视频检索等方面的重要应用促使文本检测方法成为计算机视觉的一个研究热点。目前大部分文本检测方面的研究都是基于深度学习的,这些方法主要分为两种:第一种是基于回归的方法,另外一种是基于分割的方法。基于回归的方法一般来说是对一般的目标检测方法的改进,来成功的定位矩形或者四边形边界框的文本。但这类方法对于弯曲文本的检测效果不好。而基于分割的文本检测方法对任意形状的文本可以进行检测,但准确率有待进一步地提高。
4.目前,大多数的文本检测算法仍然存在三个局限性。第一,传统的卷积只有固定的感受野,无法适应文本的多种形状,对任意形状文本的检测效果不太好。第二,自然场景中有很多和文本长得类似的物体,例如栏杆、圆盘等,这会对模型的拟合产生难度,容易有很多非文本的物体被检测成文本,造成误检。第三,由于拍摄的角度和文本实例本身大小差距带来的文本尺度多样性也给检测带来了极大的难度,过小或者过大的文本很难同时被检测出。
5.因此,针对上诉的三个局限性,需要提出一种新的文本检测模型,使得网络可以适应任意的文本形状,能检测不同大小的文本。同时,还能提取更加丰富、准确的特征,有效减少误检。


技术实现要素:

6.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
7.鉴于上述现有文本检测过程中存在的问题,提出了本发明。
8.因此,本发明解决的技术问题是:传统的卷积只有固定的感受野,无法适应文本的多种形状,对任意形状文本的检测效果较差;传统卷积在检测自然场景时,会对模型的拟合产生难度,容易有很多非文本的物体被检测成文本,造成误检;过小或者过大的文本无法同时被检测出。
9.为解决上述技术问题,本发明提供如下技术方案:利用主干网络获取图像中的文本特征,并通过特征金字塔网络进行基础特征的提取;利用自适应特征选择,从所述基础特
征中提取更具有代表性的特征信息;利用渐进式扩张算法将所述具有代表性的特征信息进行分割、扩展,并获得最终检测结果。
10.作为本发明所述的基于自适应特征选择和尺度损失函数的文本检测方法的一种优选方案,其中:所述利用主干网络获取图像中的文本特征包括,所述主干网络选取可形变卷积网络,在网络的最后三个阶段,使用3*3的可形变卷积代替一般的卷积,以适应物体的几何形状。
11.作为本发明所述的基于自适应特征选择和尺度损失函数的文本检测方法的一种优选方案,其中:所述通过特征金字塔网络进行基础特征的提取包括,将所述获取的文本特征c2、c3、c4、c5通过特征金字塔网络,得到不同尺度的特征图p2、p3、p4、p5,且每个尺度特征的通道数为256,再将p3、p4、p5分别经过2、4、8倍上采样得到和p2相同尺寸的特征图,最后将这4个相同尺寸的特征图进行连接操作得到后续处理的基本特征x,且x的尺寸是输入原图的1/4,所述基本特征的通道数是1024。
12.作为本发明所述的基于自适应特征选择和尺度损失函数的文本检测方法的一种优选方案,其中:所述提取更具有代表性的特征信息包括,利用自适应特征选择模块,增强文本相关的特征,抑制与文本无关的特征,将所述从特征金字塔网络中获取的基础特征设置为:
13.x=[x1,x2,

,x
c
],x∈r
c
×
h
×
w
[0014]
其中:c为特征图的通道数,h、w分别为特征图的高度和宽度,利用全局平均池化操作,计算所述基本特征的通道中每一个通道的特征图中所有像素的特征的平均值,输出代表相应通道特征图的值:
[0015]
z=[z1,z2,

,z
c
]
t
[0016]
使用两个全连接层捕捉不同通道间的权重,两个全连接之后的输出公式为:
[0017]
v=σ(w2δ(w1z))
[0018]
其中:σ、δ分别为relu和sigmoid操作,并且z∈r
c
,为了减少参数,第一个全连接层的通道被减少到r设置为16,根据所述基本特征x上应用通道权重来得到自适应特征的计算公式如下所示:
[0019][0020]
将特征x和相加来得到特征图f。
[0021]
作为本发明所述的基于自适应特征选择和尺度损失函数的文本检测方法的一种优选方案,其中:所述利用渐进式扩张算法获得最终检测结果包括,为了将靠的很近的文本区分开,将所述具有代表性的特征信息作为输入特征图进行投影,产生多个分割结果,并利用渐进扩展算法将规模最小的分割结果逐步扩展为规模最大的分割结果的完整形状,以获得最终的检测结果。
[0022]
作为本发明所述的基于自适应特征选择和尺度损失函数的文本检测方法的一种优选方案,其中:还包括利用损失函数对主干网络、自适应特征选择以及渐进式扩张算法进行训练,在网络的训练过程中,还需要生成不同的标签来指导损失函数进行优化。
[0023]
作为本发明所述的基于自适应特征选择和尺度损失函数的文本检测方法的一种优选方案,其中:所述生成不同的标签包括,所述渐进尺度扩张产生了多个分割结果,需要有与所述多个分割结果对应的标签,所述标签的计算公式为:
[0024][0025]
其中:p
n
为文本区域的原始标签多边形,d
i
为原始多边形需要向内缩小的长度,s(p
n
)为多边形p
n
的面积,c(p
n
)为多边形p
n
的周长,而r
i
的公式表示为:
[0026][0027]
其中:m为最小的收缩率,并且其值的范围是(0,1],n为分割的总数,对于每个缩小的多边形p
i
,将p
i
内部的像素设置为1,其余的地方设置为0,一张图中的多个多边形均进行相同的操作便可以得到标签g
i

[0028]
作为本发明所述的基于自适应特征选择和尺度损失函数的文本检测方法的一种优选方案,其中:所述损失函数包括,利用一种针对文本实例的尺度感知的损失函数,将给不同大小的文本赋予不同的权重,解决小文本实例的丢失问题,所述损失函数计算公式如下所示:
[0029]
l=(1

α)l
s
+αl
h
[0030]
其中:l
s
为缩小的分割图的损失,l
h
为关于文本比例信息的损失,α为平衡l
s
和l
h
的权重。
[0031]
作为本发明所述的基于自适应特征选择和尺度损失函数的文本检测方法的一种优选方案,其中:所述文本实例还包括,使用文本实例的近似高度来设计不同文本的权重,在计算不同数据集中文本实例的高度时,需要设置不同的公式来进行计算,根据所述文本实例的高度,计算同一图像中所有文本实例的平均高度b为:
[0032][0033]
其中:q为同一图像中文本实例的数量,h
i
为第i个文本实例的近似高度。
[0034]
作为本发明所述的基于自适应特征选择和尺度损失函数的文本检测方法的一种优选方案,其中:所述文本实例和损失函数包括,不同的文本实例对所述损失函数会产生不同的影响,因此需要给不同的文本实例t
i
分配不同的权重μ
i
,所述权重μ
i
的计算公式为:
[0035][0036]
对于非文本像素,权重设置为0,确定每个像素的权重后,反映文本比例信息的损失l
h
可表示为:
[0037]
l
h
=1

dice(s
n
·
m
·
μ,g
n
·
m
·
μ)
[0038]
其中:m为由“在线难例挖掘(ohem)”选择的训练掩码,μ为每个图像的权重矩阵,s
n
是规模最大的分割结果,g
n
为对应的标签。
[0039]
本发明的有益效果:本发明将可形变卷积应用到具有一定几何变形的文本上,使得网络可以适应任意的文本形状,能检测不同大小的文本;还能提取更加丰富、准确的特征,解决了图像中文本尺度变化较大的问题,有效减少误检。
附图说明
[0040]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0041]
图1为本发明第一个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的基本流程示意图;
[0042]
图2为本发明第一个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的整体网络结构示意图;
[0043]
图3为本发明第一个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的普通卷积和可形变卷积的示意图;
[0044]
图4为本发明第一个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的训练标签生成的示意图;
[0045]
图5为本发明第一个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的在icdar2017

mlt数据集中文本尺度差异较大的示意图;
[0046]
图6为本发明第一个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的icdar2015和icdar2017

mlt数据集上损失函数高度的计算示意图;
[0047]
图7为本发明第一个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的ctw1500数据集上损失函数高度的计算示意图;
[0048]
图8为本发明第一个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的尺度损失函数上为不同大小的文本实例分配不同的权重的示意图;
[0049]
图9为本发明第二个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的在icdar2015和ctw1500数据集上在损失函数部分选择不同参数α的验证结果示意图;
[0050]
图10为本发明第二个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的在ctw1500数据集上选择两种不同方式来进行尺度损失函数高度设计的验证结果示意图;
[0051]
图11为本发明第二个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的在icdar2015数据集上进行检测的效果示意图;
[0052]
图12为本发明第二个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的在ctw1500数据集上进行检测的效果示意图;
[0053]
图13为本发明第二个实施例提供的基于自适应特征选择和尺度损失函数的文本检测方法的在icdar2017

mlt数据集上进行检测的效果示意图。
具体实施方式
[0054]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0055]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0056]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0057]
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0058]
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0059]
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0060]
实施例1
[0061]
参照图1~8,为本发明的一个实施例,提供了一种基于自适应特征选择和尺度损失函数的文本检测方法,包括:
[0062]
s1:利用主干网络获取图像中的文本特征,并通过特征金字塔网络进行基础特征的提取。其中需要说明的是,
[0063]
参照图2,为了得到适应几何变化的文本特征,主干网络选取可形变卷积网络resnet50,将resnet50的conv2_x到conv5_x的特征送进特征金字塔网络(fpn)来得到基础特征,在网络的最后三个阶段(conv3_x到conv5_x),使用3*3的可形变卷积代替一般的卷积,以适应物体的几何形状,参照图3为一般卷积和可形变卷积,其中图3(a)为一般卷积使用固定尺寸的滤波器,它在预定义的矩形采样网格上进行操作,不能适应文本几何结构变化大的特点;图3(b)是可形变卷积,每个网格点都会在一个可学习的偏移量的基础上进行调整,能够适应物体的几何形状。
[0064]
将resnet50的输出结果c2、c3、c4、c5通过特征金字塔网络,得到不同尺度的特征图p2、p3、p4、p5,且每个尺度特征的通道数为256,再将p3、p4、p5分别经过2、4、8倍上采样得到和p2相同尺寸的特征图,最后将这4个相同尺寸的特征图进行连接操作得到后续处理的基本特征x,且x的尺寸是输入原图的1/4,基本特征的通道数是1024。
[0065]
s2:利用自适应特征选择,从基础特征中提取更具有代表性的特征信息。其中需要说明的是,
[0066]
从主干网络获取的基础特征不仅包含文本信息,还会包含非文本信息和一些背景信息,为了提取更具有代表性的特征,利用自适应特征选择模块,增强文本相关的特征,抑制与文本无关的特征,将从特征金字塔网络中获取的基础特征设置为:
[0067]
x=[x1,x2,

,x
c
],x∈r
c
×
h
×
w
[0068]
其中:c为特征图的通道数,h、w分别为特征图的高度和宽度,利用全局平均池化操作,计算基本特征的通道中每一个通道的特征图中所有像素的特征的平均值,将基本特征的通道中第c个通道的输出设定为z
c
,z
c
的计算公式如下所示:
[0069][0070]
其中:x
c
(i,j)为第c个通道对应的特征图x
c
在(i,j)位置上的特征值,因此代表相应通道特征图的值为:
[0071]
z=[z1,z2,

,z
c
]
t
[0072]
使用两个全连接层捕捉不同通道间的权重,两个全连接之后的输出公式为:
[0073]
v=σ(w2δ(w1z))
[0074]
其中:σ、δ分别为relu和sigmoid操作,并且z∈r
c
,为了减少参数,第一个全连接层的通道被减少到r设置为16,根据基本特征x上应用通道权重来得到自适应特征的计算公式如下所示:
[0075][0076]
将特征x和相加来得到特征图f。
[0077]
s3:利用渐进式扩张算法将具有代表性的特征信息进行分割、扩展,并获得最终检测结果。其中需要说明的是,
[0078]
一般基于分割的文本检测方法的很难将靠的很近的文本区分开,本发明使用一种渐进扩展算法,将具有代表性的特征信息作为输入特征图投影到n个分支中,产生多个分割结果(s1,s2,

,s
n
‑1,s
n
),其中s1是规模最小的分割结果,s
n
是规模最大的分割结果,利用渐进扩展算法将规模最小的分割结果s1逐步扩展为规模最大的分割结果s
n
中的完整形状,以获得最终的检测结果。
[0079]
进一步的是,利用损失函数对主干网络、自适应特征选择以及渐进式扩张算法进行训练,在网络的训练过程中,还需要生成不同的标签来指导损失函数进行优化。
[0080]
生成不同的标签包括,参照图4,渐进尺度扩张产生了多个分割结果(s1,s2,

,s
n
‑1),需要有与多个分割结果对应的标签(g1,g2,

,g
n
‑1),标签的计算公式为:
[0081][0082]
其中:p
n
为文本区域的原始标签多边形,d
i
为原始多边形需要向内缩小的长度,s
(p
n
)为多边形p
n
的面积,c(p
n
)为多边形p
n
的周长,而r
i
的公式表示为:
[0083][0084]
其中:m为最小的收缩率,并且其值的范围是(0,1],n为分割的总数,对于每个缩小的多边形p
i
,将p
i
内部的像素设置为1,其余的地方设置为0,一张图中的多个多边形均进行相同的操作便可以得到标签g
i

[0085]
损失函数包括,损失函数对训练一个模型是非常重要的,对文本检测来说,一个好的损失函数不仅应捕获未检测出的文本区域,而且还应考虑文本尺度信息,如前,文本实例的大小可能相差很大,例如,图5中文本“50”的大小比图中的所有其他单词大得多,而文本实例“save up to”非常小,在计算损失函数时,如果将相同的权重应用于所有正像素,则显然,比例较大的文本区域将比比例较小的文本区域计算的更多,这对于小文本实例不公平,并且可能导致小文本实例的丢失,为了解决这个问题,本发明提出了一种新颖的针对文本实例的尺度感知的损失函数,将给不同大小的文本赋予不同的权重,损失函数计算公式如下所示:
[0086]
l=(1

α)l
s
+αl
h
[0087]
其中:l
s
为缩小的分割图的损失,l
h
为关于文本比例信息的损失,α为平衡l
s
和l
h
的权重,缩小的分割图的损失函数l
s
表示如下:
[0088][0089]
其中:dice(*,*)为用来衡量分割的结果和标签之间的差距的损失函数,(s1,s2,

,s
n
‑1)为缩小的文本区域的分割图的映射,s
n
为完整的文本区域的分割图的结果,p为在s
n
中忽略非文本区域的像素掩码,像素(x,y)处的p值由下面公式计算可得到:
[0090][0091]
其中s
n,x,y
为像素(x,y)在分割图s
n
中的值。
[0092]
更进一步的是,文本字体大小是文本实例的最具代表性的特征,但是,很难获得文本实例中所有字符的准确大小,因此,本发明使用文本实例的近似高度来设计不同文本的权重,由于不同的数据集具有不同的标签格式,因此必须设置不同的公式来估计不同数据集中文本实例的高度,以icdar2015和icdar2017

mlt数据集为例,在数据集中每个文本区域的标签格式如图6所示,它是具有四个顶点的四边形0(x0,y0),1(x1,y1),2(x2,y2),3(x3,y3),高度的计算方式也在图6中展示,将顶点3的纵坐标y3和顶点0的纵坐标y0相减得到h0、顶点2纵坐标y2和顶点1的纵坐标y1相减得h1,两个值再取平均,则可以将h
i
表示为:
[0093][0094]
参照图7,ctw1500数据集中的文本区域被标记为具有14个点的多边形,0(x0,y0),1(x1,y1),
……
,12(x
12
,y
12
),13(x
13
,y
13
),近似高度表示为h
i
,将顶点12的纵坐标y
12
和顶点1的纵坐标y1相减得到h1、顶点11的纵坐标y
11
和顶点2的纵坐标y2相减得到h2、顶点10的纵坐
标y
10
和顶点3的纵坐标y3相减得到h3、顶点9的纵坐标y9和顶点4的纵坐标y4相减得到h4、顶点8纵坐标y8和顶点5的纵坐标y5相减得h5,五个值再取平均,则可以将h
i
表示为:
[0095][0096]
还有其他方法可以估算文本的高度,例如,欧几里得距离,其公式如下所示:
[0097][0098]
但是,欧几里得距离计算的高度较差,在获得了每个文本实例的近似高度后,将同一图像中所有文本实例的平均高度表示为b:
[0099][0100]
其中:q为同一图像中文本实例的数量,参照图8,本发明为第i个文本实例t
i
中的每个像素分配权重u
i
,t1、t2、t3、t4表示图像中的不同文本实例,u1、u2、u3、u4表示四个文本实例的相应权重,为t1内的所有像素分配了相同的值u1,其中u
i
的计算公式如下所示:
[0101][0102]
可以发现文本实例的权重与文本实例的高度成反比,文本实例的尺寸越小,其权重就越大,对于非文本像素,权重设置为0,进而计算每个图像的权重矩阵,并表示为μ,确定每个像素的权重后,反映文本比例信息的损失l
h
可表示为:
[0103]
l
h
=1

dice(s
n
·
m
·
μ,g
n
·
m
·
μ)
[0104]
其中:m为由“在线难例挖掘(ohem)”选择的训练掩码,通过给不同的文本实例t
i
不同的权重μ
i
,使每个文本实例对损失函数都有相同的贡献。
[0105]
实施例2
[0106]
参照图9~13,为本发明另一个实施例,为对本方法中采用的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
[0107]
在本实验中使用的数据集包括icdar2015、scut

ctw1500、icdar2017

mlt数据集,在进行实验时首先在数据集icdar2015和scut

ctw1500上进行消融实验来验证本发明的多个模块的有效性;最后,将多个模块进行结合,在icdar2015、scut

ctw1500、icdar2017

mlt数据集上进行验证,并和最先进的方法进行对比。
[0108]
icdar2015:是一个常用的英文文本检测数据集,包含1000张训练图片和500张测试图片,将原始的1000张训练图片分成800张训练图片和200张验证图片来进行后续的对比实验;scut

ctw1500:是一个具有1000张训练图片和500张测试图片的具有挑战性的弯曲文本检测数据集,同样的,在对比实验中该数据集的1000张训练图片也被分成800张和200张
分别进行测试和验证;icdar2017

mlt:是一个大型的多语言文本检测数据集,该数据集包含7200张训练图片,1800张验证图片,和9000张测试图片,本实施例中将7200张训练图片和1800张验证图片合并进行训练。
[0109]
为了保障实验的公正性,本实施例对实验进行设置:本发明中,将resnet50作为主干网络,并在imagenet上进行了预训练,在训练阶段,使用随机梯度下降法,衰减率为5
×
10
‑4,动量为0.9,并且使用两种训练方法:直接训练,在三个数据集上训练600个epoch,初始学习率为0.001,批大小为16,然后在200和400个epoch时将学习率除以10;对于icdar2015和scut

ctw1500数据集,在icdar2017

mlt数据集上进行微调,将学习率调整策略为初始学习率lr0=0.0001和p=0.9,为了增强训练数据,使用以下数据增强方法:从[0.5,1.0,2.0,3.0]中选择缩放因子对图像进行随机缩放;随机选择图像,然后水平翻转;图像以

10
°
和10
°
之间的角度进行随机旋转;将先前变换的图像随机裁剪成640
×
640的大小。
[0110]
为了证明本发明提出的可形变卷积,自适应特征选择和尺度感知损失的有效性,本实施例对icdar2015和ctw1500数据集进行了消融实验,并与基准方法psenet进行了比较,为了确定平衡l
s
和l
h
的权重值α,对icdar2015数据集和ctw1500数据集进行了实验,选取800张图片作为训练图像,200张作为验证图像,将权重值α从0开始变化,以0.1的步长增加到1,进行实验,在实验时,由于当α=0和α=1时f1

measure的值非常小,因此仅将α的f1

measure值从0.1绘制到0.9,以便α可以清楚地显示出来。
[0111]
icdar2015数据集以及ctw1500的实验结果参照图9所示,可以看出,损失函数的参数变化对icdar2015数据集和ctw1500数据集的结果有很大的影响,当两个数据集的α=0.2时,可获得最佳结果,因此,在此使用α=0.2,即l=0.8l
s
+0.2l
h
作为损失函数公式。
[0112]
为了给具有不同比例的文本分配不同的权重,利用本发明以及欧几里得距离两种方法,来估计ctw1500数据集中的文本的高度,这两个估计高度的性能参照图10,其中实线为本发明所得结果,虚线欧几里得距离所得结果,可以看出,本发明仅使用y坐标来计算的高度比用欧几里得距离来计算高度的效果好,并且计算量更少。
[0113]
为了验证本发明的有益效果,从可形变卷积、自适应特征选择以及尺度相关的损失函数方面进行验证,选取一般卷积psenet与本发明进行对比,其结果如下表1所示:
[0114]
表1:在ctw1500和icdar2015数据集上对比实验结果。
[0115]
[0116][0117]
可以看出,对于可形变卷积,其结果显示在表1的第二行,在表1中,“p”“r”“f”分别代表“precision”“reall”和“f1

measure”,表1的第一行显示了psenet的结果,可以发现在icdar2015数据集上f1

measure的值提高了0.36%,在ctw1500数据集上提高了2.57%,与icdar2015数据集相比,ctw1500数据集的改进更多,这是因为ctw1500数据集是弯曲的文本数据集,其中文本的变形很大,因此可形变卷积在这种数据集上更有效。
[0118]
对于自适应特征选择模块,表1第三行显示了基于psenet的自适应特征选择模块的结果,与psenet相比,本发明在icdar2015数据集的f1

measure值提高了0.86%,而ctw1500的f1

measure提高了0.82%。
[0119]
对于尺度相关的损失函数,由上述说明,本实施例选取l=0.8l
s
+0.2l
h
作为损失函数,为了验证本发明提出的损失函数是否有效,本实施例替换了psenet方法中的原始损失函数,结果显示在表1的第四行中,从表1的实验结果中,可以看出尺度相关的损失函数使icdar2015数据集提高了2.23%,ctw1500数据集上的改进为2.79%,有了明显提高。
[0120]
另一方面,本实施例还结合了可形变卷积和提出的自适应特征选择模块来测试,其结果显示在表1的第五行中,与psenet相比,在icdar2015数据集上提高了1.11%,而在ctw1500数据集上则提高了2.78%。
[0121]
最后为本发明的实验结果,显示在表1的最后一行中,与基线相比,icdar2015数据集的f1

measure提高了3.57%,而ctw1500数据集的f1

measure提高了3.77%。
[0122]
更进一步的是,本实施例还从三个方面将本发明与现有最新方法进行了比较:定向文本,弯曲文本和多语言文本。
[0123]
对于定向文本检测:为了验证本发明检测定向文本的能力,本实施例对icdar2015数据集进行了实验,在测试阶段,依照psenet,将图像的长边设置为2240,并根据原始图像的比例调整短边,并且使用单尺度测试,“pre”表示模型是从头开始训练还是在icdar2017

mlt上进行微调,实验结果如下表2所示:
[0124]
表2:icdar2015上实验结果。
[0125]
方法preprffpsctpnn74.251.660.97.1eastn83.673.578.213.2psenetn81.4979.6880.571.6pixellinkn82.981.782.37.3oursn87.3681.1784.151.3seglinky73.176.875.0

sstdy80.273.976.97.7wordsupy79.377.078.2

cornery94.170.780.73.6textboxes++y87.276.781.711.6rrdy85.67982.26.5mcny728076

textsnakey84.980.482.61.1psenety88.2682.1985.121.6crafty89.884.386.9

saey88.385.086.6

oursy89.8786.3388.061.3
[0126]
可以看出,在没有对icdar2017

mlt进行预训练的情况下,本方法实现了f1

measure84.15%,与psenet相比提高了3.58%,与pixellink相比提高了1.85%,在icdar2017

mlt上进行预训练后,与psenet相比增加了2.94%,无论是从头训练还是在icdar2017

mlt上进行微调,本发明方法的实验结果都超越了其他方法,对于测试集,在1080ti gpu设备上平均检测速度为1.3fps。
[0127]
对于曲线文本检测:为了证明所提出方法的形状鲁棒性,本实施例在ctw1500数据集上进行了实验,按照psenet中的测试设置,将输入图像的长边设置为1280,并在测试阶段根据宽高比调整短边的大小,pre”列表示结果是通过从头训练还是在icdar2017

mlt上进行微调来获得的,其实验结果如下表3所示:
[0128]
表3:ctw1500上实验结果。
[0129]
方法preprffpsctpnn60.453.856.97.14eastn78.749.160.421.2seglinkn42.340.440.810.7tlocn77.469.873.413.3psenetn80.675.678.03.9oursn84.0178.5981.213.1textsnakey67.985.375.61.1psenety84.879.782.23.9saey82.777.880.13oursy84.9482.3783.633.1
[0130]
可以看出,与其他方法相比,本发明方法在f1

measure上达到了最佳性能,在没有对icdar2017

mlt进行预训练的情况下,本发明达到了f1

measure的81.21%,与psenet相比提高了3.21%,ctw1500为83.63%,与psenet相比提高了1.43%,无论是从头训练还是微调,本发明的方法在ctw1500上的检测效果都很好。
[0131]
对于多语言文本检测:icdar2017

mlt数据集是多语言数据集,该数据集中图像的分辨率非常高,文本相对较小,毫无疑问,该数据集对于训练和测试而言是一个巨大的挑战,因为ic17数据集中的图片包含太多小文本,并且此数据集中的图像尺寸差距相对较大,在测试期间,将长边小于或等于2048个像素的图像放大2倍,将长于2048个像素的图像的长边设置为4480,并按比例调整短边,本实施例训练该数据集而没有在其他任何文本检测数
据集进行预训练,本发明方法与其他方法的比较结果如下表4所示:
[0132]
表4:icdar2017

mlt上实验结果。
[0133][0134][0135]
可以看出,本发明方法达到了f1

measure74.44%,与传统方法相比提高了3.54%,结果表明,本发明方法对于多语言文本的检测是很好的。
[0136]
另外参照图11、图12、图13,为一些测试图片的结果,从这些图片中可以直观的看出本发明对弯曲文本、尺度变化比较大的文本检测效果都非常好。
[0137]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1