一种双流场景文本图像分割方法、装置及存储介质

文档序号:34811915发布日期:2023-07-19 13:51阅读:19来源:国知局
一种双流场景文本图像分割方法、装置及存储介质

本发明涉及模式识别与人工智能,尤其涉及一种双流场景文本图像分割方法、装置及存储介质。


背景技术:

1、随着深度神经网络的发展,光学字符识别等文本相关任务已经取得重大突破。特别是在场景文本中,街景、招牌等拍照图像中的文字可以被快速准确地定位识别,从而高效便捷地进行数字化处理。然而,由于背景噪声复杂的原因,给光学字符识别系统带来极大的干扰,有时无法取得可靠的结果。而且,最近出现的很多细粒度的文本任务,比如:文本编辑、文本擦除等,都需要二值化的分割掩码图片作为辅助信息。基于深度学习的语义分割方法在分割性能和对各种通用场景的鲁棒性上都取得了很大的进步,但场景文本具有其特殊难点。大部分文本都出现在复杂的背景中,有时它们的纹理甚至十分接近;场景文本在图片中的位置分布是不均匀的,一些小文本容易被忽略;非凸的场景文本的尺度变化十分剧烈,形状变化多样。前述深度学习语义分割方法在场景文本上往往表现不佳。


技术实现思路

1、为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于:

2、本发明所采用的技术方案是:

3、一种双流场景文本图像分割方法,包括以下步骤:

4、获取场景文本图像以及对应的二值化图像进行分割标注,获得输入图像;

5、构建基于transformer和密集空洞卷积的双流文本分割网络,提取输入图像的全局注意力特征和局部细节特征,并将提取的两种特征融合为文本分割特征;

6、设计识别增强网络,采用文本语义信息来引导双流文本分割网络关注文本所在区域,以增强所述文本分割特征;

7、搭建空间与通道双重感知的解码器,将经过增强的文本分割特征动态地上采样,得到输出二值化分割图像;

8、计算输出二值化分割图像和标注的二值化图像之间的损失,根据计算的损失训练整个神经网络。

9、进一步地,所述双流文本分割网络包括全局网络和局部网络;

10、所述提取输入图像的全局注意力特征和局部细节特征,并将提取的两种特征融合为文本分割特征,包括:

11、全局网络使用swin transformer网络提取输入图像的全局注意力特征;

12、局部网络使用resnet卷积网络提取输入图像的局部细节特征;

13、将全局注意力特征与局部细节特征相结合,作为文本分割特征。

14、进一步地,所述局部网络使用resnet卷积网络提取输入图像的局部细节特征,包括:

15、设计横纵双向的密集链接空洞卷积模块,以适应多尺度的场景文本;其中密集连接的空洞卷积层,在水平和竖直方向上分别进行空洞率为d的空洞卷积,在保持分辨率的条件下,增加感受野尺寸r为:

16、r=(d-1)×(k-1)+k

17、式中,k为等效卷积核;

18、在级联n个空洞卷积层后,获得多种长宽比的局部感受野,以更贴近尺度变化多样的局部细节特征fl。

19、进一步地,所述设计识别增强网络,采用文本语义信息来引导双流文本分割网络关注文本所在区域,以增强所述文本分割特征,包括:

20、根据标注中的坐标位置从场景文本图像中切分出文本行图像;

21、使用预训练好的识别器处理文本行图像,得到文本行注意力热图;按照原坐标将获得的文本行注意力热图放到全零的特征图中,得到整幅图像的文本注意力热图;

22、对融合得到的文本分割特征和整幅图像的文本注意力热图进行多头注意力机制计算,以引导双流文本分割网络关注文本注意力热图中的文本区域特征,获得增强后的文本分割特征;

23、文本分割特征通过u-net结构对整幅图像的文本注意力热图进行预测,采用均方误差损失函数进行监督,从而摆脱前向推理阶段对坐标位置标注的依赖。

24、进一步地,经过高级文本语义信息增强的文本分割特征的计算公式如下:

25、

26、其中,wk和wv表示文本分割特征经过1×1卷积层得到的key和value特征图,wq表示文本注意力热图经过1×1卷积层得到的queue特征图。

27、进一步地,所述搭建空间与通道双重感知的解码器,将经过增强的文本分割特征动态地上采样,得到输出二值化分割图像,包括:

28、a1、空间内容感知:通过一个基于卷积的空间内容编码器,根据每个空间位置的内容预测一个重组核,一共c*rh*rw个,c、h、w分别为通道数、高和宽,r为上采样倍数;每个位置的重组核都对该位置邻域内的特征进行加权,重组为上采样后的特征图,使上采样不再依赖像素间距离而是空间中的内容信息;

29、a2、通道内容感知:合并特征图的长宽维度,与原特征图的转置矩阵逐元素相乘,经过一个基于自适应平均池化的通道内容聚合器后得到k*k的通道注意力图;

30、a3、以步骤a2中得到的通道注意力图作为为卷积核权重,对经过步骤a1上采样后的特征图进行深度可分离卷积,得到双重感知上采样的输出特征;

31、a4、重复执行步骤a1-a3,逐步增加特征图的长和宽,同时降低通道数,直到特征图尺寸与输入图像一致,获得输出二值化分割图像。

32、进一步地,所述损失的计算公式为:

33、lce=-∑islog(ig)

34、其中,is表示输出二值化分割图像,ig表示标注的二值化图像。

35、进一步地,所述获取场景文本图像以及对应的二值化图像进行分割标注,获得输入图像这一步骤,还包括数据增广的步骤:

36、对输入图像进行数据增广操作,以增加训练数据的多样性;

37、其中,所述数据增广操作包括随机裁剪、随机尺度变换、随机角度旋转、对比度变换或者水平翻转中的至少一种。

38、本发明所采用的另一技术方案是:

39、一种双流场景文本图像分割装置,包括:

40、至少一个处理器;

41、至少一个存储器,用于存储至少一个程序;

42、当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。

43、本发明所采用的另一技术方案是:

44、一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

45、本发明的有益效果是:本发明通过双流文本分割网络,有效地结合了全局注意力特征和局部多尺度特征,能够解决场景文本在图片中分布不均和尺度、形状变化多样的问题,提高文本图像分割性能。



技术特征:

1.一种双流场景文本图像分割方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种双流场景文本图像分割方法,其特征在于,所述双流文本分割网络包括全局网络和局部网络;

3.根据权利要求2所述的一种双流场景文本图像分割方法,其特征在于,所述局部网络使用resnet卷积网络提取输入图像的局部细节特征,包括:

4.根据权利要求1所述的一种双流场景文本图像分割方法,其特征在于,所述设计识别增强网络,采用文本语义信息来引导双流文本分割网络关注文本所在区域,以增强所述文本分割特征,包括:

5.根据权利要求4所述的一种双流场景文本图像分割方法,其特征在于,经过高级文本语义信息增强的文本分割特征的计算公式如下:

6.根据权利要求1所述的一种双流场景文本图像分割方法,其特征在于,所述搭建空间与通道双重感知的解码器,将经过增强的文本分割特征动态地上采样,得到输出二值化分割图像,包括:

7.根据权利要求1所述的一种双流场景文本图像分割方法,其特征在于,所述损失的计算公式为:

8.根据权利要求1所述的一种双流场景文本图像分割方法,其特征在于,所述获取场景文本图像以及对应的二值化图像进行分割标注,获得输入图像这一步骤,还包括数据增广的步骤:

9.一种双流场景文本图像分割装置,其特征在于,包括:

10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。


技术总结
本发明公开了一种双流场景文本图像分割方法、装置及存储介质,其中方法包括:获取场景文本图像以及对应的二值化图像进行分割标注,获得输入图像;构建双流文本分割网络,提取输入图像的全局注意力特征和局部细节特征,并将提取的两种特征融合为文本分割特征;采用文本语义信息来引导双流文本分割网络关注文本所在区域,以增强文本分割特征;将经过增强的文本分割特征动态地上采样,得到输出二值化分割图像;计算输出二值化分割图像和标注的二值化图像之间的损失,根据计算的损失训练整个神经网络。本发明能够解决场景文本在图片中分布不均和尺度、形状变化多样的问题,提高文本图像分割性能,可广泛应用于模式识别与人工智能技术领域。

技术研发人员:金连文,任峪瑾,曲晨帆
受保护的技术使用者:华南理工大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1