本发明涉及文字检测,具体涉及一种基于对比学习特征增强的场景文字检测方法与装置。
背景技术:
1、基于深度学习的场景文字检测模型在实际检测中,由于场景文字的多变性以及文字固有的极端长宽比和大小,会出现例如背景误检、文字漏检等多种情况,尤其是对于复杂样本如同一行文字不同颜色,不同字体的情况,以及字母与数字混合的情况来说更难以检测。目前场景文字检测的方法通常通过增加模型的复杂度或者加深网络层数来构建更加复杂的文字检测其来缓解以上的这些情况,但是这些方法均会导致实际应用中场景文字检测的检测效率降低。
技术实现思路
1、针对场景文字检测任务中的现有问题,本发明公开了一种基于对比学习特征增强的场景文字检测方法及装置,在尽可能保证推理速度的同时提升检测效果,提高检测精度。本发明主要通过使用跨图像有监督区域级对比学习的方法来强化文字检测模型的底层图像特征抽取能力。为了使得骨干网络抽取出的特征更加适应文字目标实体的特性,本发明还设计了一个特征精炼层来进一步微调骨干网络抽取出的特征。通过这些操作,实现场景文字检测模型在保证模型整体检测速度的同时,实现对于背景误检、复杂文字目标的正确检测的相关纠正。
2、为实现上述目标,本发明的技术方案包括以下内容。
3、一种基于对比学习特征增强的场景文字检测方法,包括:
4、构建训练图片集和场景文字检测模型;其中,所述训练图片集包括若干张训练图片和对应的标签图,场景文字检测模型包括特征提取模块、特征融合模块和检测头模块;
5、基于场景文字检测模型对训练图片进行文字检测,并结合对应的标签图,获得文字检测损失ltext;
6、抽取所述特征融合模块输出的视觉特征图f,并基于文字特性进行微调后,结合对应的标签图实施文字特征、背景特征和文本邻接区域特征的抽取和聚合,且对聚合特征进行对比学习的拉近和推远,以得到对比学习损失lcontrast;
7、根据所述文字检测损失ltext和所述对比学习损失lcontrast进行反向传播,得到训练后的场景文字检测模型;
8、基于训练后的场景文字检测模型获取待检测图片的预测概率图y后,对所述预测概率图y进行后处理,得到待检测图片中的文字位置。
9、进一步地,抽取所述特征融合模块输出的视觉特征图f,并基于文字特性进行微调,包括:
10、抽取所述特征融合模块输出的视觉特征图f;
11、将视觉特征图f输入到映射头中进行特征维度的压缩;
12、将压缩之后的特征输入到特征精炼模块中,得到基于文字特性进行微调后的精炼特征f*;其中,所述特征精炼模块由多个text msca模块级联组成,每一text msca模块的网络结构包括:一个a×a的初步映射的卷积层;卷积核尺度为1×a,1×b,1×c以及1×d卷积层,以及对应的翻转90度的卷积核尺度为a×1,b×1,c×1,d×1的卷积层;以及一个卷积核为1×1的通道融合层,a、b、c、d为自然数,且a<b<c<d。
13、进一步地,所述结合对应的标签图实施文字特征、背景特征和文本邻接区域特征的抽取和聚合,包括:
14、通过标签图的指引,抽取特征精炼图f*上文字特征、背景特征和文本邻接区域特征的像素位置;
15、通过全局平均池化的方式对各像素位置上的文字特征、背景特征或文本邻接区域特征加以聚合,得到聚合特征。
16、进一步地,所述方法还包括:将抽取文字特征、背景特征和文本邻接区域特征以及聚合特征输入到记忆库中进行更新。
17、进一步地,所述对比学习损失其中,r表示的是当前计算的锚特征,r+表示的是和特征r对应相同类别的正样本特征,r-表示的是和特征r对应不同类别的负样本特征,且负样本特征r-中包含了文字邻接区域的特征以及背景特征,τ表示温度系数,mr表示的是一组正样本的集合。
18、进一步地,所述后处理包括:对文字区域进行过滤和捕获以及形状重塑。
19、一种基于对比学习特征增强的场景文字检测装置,包括:
20、构建模块,用于构建训练图片集和场景文字检测模型;其中,所述训练图片集包括若干张训练图片和对应的标签图,场景文字检测模型包括特征提取模块、特征融合模块和检测头模块;
21、文字检测损失计算模块,用于基于场景文字检测模型对训练图片进行文字检测,并结合对应的标签图,获得文字检测损失ltext;
22、对比学习损失计算模块,用于抽取所述特征融合模块输出的视觉特征图f,并基于文字特性进行微调后,结合对应的标签图实施文字特征、背景特征和文本邻接区域特征的抽取和聚合,且对聚合特征进行对比学习的拉近和推远,以得到对比学习损失lcontrast;
23、反向传播模块,用于根据所述文字检测损失ltext和所述对比学习损失lcontrast进行反向传播,得到训练后的场景文字检测模型;
24、预测模块,用于基于训练后的场景文字检测模型获取待检测图片的预测概率图y后,对所述预测概率图y进行后处理,得到待检测图片中的文字位置。
25、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的基于对比学习特征增强的场景文字检测方法。
26、一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令在被执行时实现上述任一项所述的基于对比学习特征增强的场景文字检测方法。
27、与现有的方法相比,本发明提出了一个跨图像有监督对比学习来辅助场景文字检测任务的方法,该方法旨在训练过程中参与计算优化模型,从特征增强的角度来实现模型的底层优化。在推理过程中,对比模块不参与场景文字检测的前向计算,因而并不会对推理的效率产生影响。实验证明,该方法有效地解决了面对复杂文字目标检测中存在的一系列复杂情况及问题,并在不增加额外计算时间的基础上显著提升了模型的性能。
1.一种基于对比学习特征增强的场景文字检测方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,抽取所述特征融合模块输出的视觉特征图f,并基于文字特性进行微调,包括:
3.如权利要求2所述的方法,其特征在于,所述结合对应的标签图实施文字特征、背景特征和文本邻接区域特征的抽取和聚合,包括:
4.如权利要求3所述的方法,其特征在于,所述方法还包括:将抽取文字特征、背景特征和文本邻接区域特征以及聚合特征输入到记忆库中进行更新。
5.如权利要求1所述的方法,其特征在于,所述对比学习损失其中,r表示的是当前计算的锚特征,r+表示的是和特征r对应相同类别的正样本特征,r-表示的是和特征r对应不同类别的负样本特征,且负样本特征r-中包含了文字邻接区域的特征以及背景特征,τ表示温度系数,mr表示的是一组正样本的集合。
6.如权利要求1所述的方法,其特征在于,所述后处理包括:对文字区域进行过滤和捕获以及形状重塑。
7.一种基于对比学习特征增强的场景文字检测装置,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于对比学习特征增强的场景文字检测方法。
9.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令在被执行时实现权利要求1至7中任一项所述的基于对比学习特征增强的场景文字检测方法。