一种基于笔划区域分割策略的视觉文本检测方法

文档序号:36215748发布日期:2023-11-30 08:50阅读:34来源:国知局
一种基于笔划区域分割策略的视觉文本检测方法

本发明涉及视觉文本检测技术,特别是涉及一种基于笔划区域分割策略的视觉文本检测方法。


背景技术:

1、现实复杂场景中的视觉文本检测技术旨在从输入图像中为每个文本实例标记任意形状的封闭区域,该技术已被广泛应用于多媒体信号处理领域的相关任务,包括图像文本编辑、光学字符识别(ocr)以及图像文本翻译。随着卷积神经网络(cnns)模型的蓬勃发展,当前主流的文本检测器主要是从计算机视觉领域中的目标检测或目标分割框架扩展而来的,主要包括基于回归的文本检测方法和基于分割的文本检测方法。基于回归的文本检测方法通常基于通用的目标检测器,其通过预测锚盒或像素点的偏移量来定位文本框。虽然上述策略在一定程度上是有效的,但此类方法往往伴随复杂的锚盒配置策略和精细的后处理流程,这限制了它们表示任意形状文本的能力,并阻碍了其在现实场景中的大规模应用。基于分割的文本检测方法通常结合像素级预测和后处理步骤从分割预测得到的文本区域中提取文本实例。与基于回归的文本检测方法相比,基于分割的文本检测方法往往能够更加准确地定位任意形状的文本实例。然而,此类方法[4,12]通常需要耗时的后处理步骤,并且其难以有效辨别和分离出互相靠近的多个文本实例。

2、最近,该研究领域提出了一些混合的文本检测方法来结合上述两类方法的核心思想。混合文本检测方法通常先进行像素级的分割预测来搜索潜在的文本区域,并在此基础上采用边界框回归策略来指导最终的文本检测结果。在该研究分支中,deepreg从文本区域的像素中预测出偏移量,以指导多方向的文本框回归预测。之后,一些工作尝试利用图神经网络(gnn)的强大功能,通过对文本区域进行建模和推理来提高文本检测性能。其中,graphtext引入了深度关系推理图网络作为文本检测框架中的后端网络模块。此外,strokenet首先预测每个文本区域的多级表示,然后执行基于层次化关系图网络模型的结构推理。

3、然而,传统的方法通常难以精确定位任意形状的文本实例,也难以有效辨别、分离出互相靠近的多个文本实例的情况。

4、需要说明的是,在上述背景技术部分公开的信息仅用于对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本发明的主要目的在于克服上述背景技术的缺陷,提供一种基于笔划区域分割策略的高精度视觉文本检测方法。

2、为实现上述目的,本发明采用以下技术方案:

3、一种基于笔划区域分割策略的视觉文本检测方法,包括如下步骤:

4、s1、通过基于卷积神经网络的前端处理模块,针对输入的文本图像执行特征提取和多级区域预测;所述前端处理模块包括主干图像特征提取网络、文本区域预测网络和笔划区域预测网络,通过一系列堆叠在特征金字塔主干图像特征提取网络之上的卷积层来执行与文本区域相关的多级预测;

5、s2、依据文本区域的多级预测结果提取文本级和笔划级的区域候选框,各候选框所表示的图像区域作为图节点组成多个局部图结构,进而构建层次化的局部图结构;

6、s3、通过基于图神经网络的后端处理模块,在各个局部图执行基于多级图节点的节点特征聚合和关系推理,推断不同级别图节点之间的关系并进行链接预测,根据各个文本级节点之间的链接关系将节点进行分组进而组成整体的文本实例检测结果。

7、进一步地,步骤s1中,所述多级预测包括:得到每个文本实例对应的文本级矩形区域的分类置信度;每个文本实例内文本旋转角度、中心线位置等相关文本级属性的回归预测;以及每个文本区域的预测边界框内对应笔划级的字符分割预测。

8、进一步地,步骤s1中,所述依据文本区域的多级预测结果提取文本级和笔划级的区域候选框,包括:根据文本区域的多级预测结果提取对应的多级候选矩形框,只包含文本级或笔划级节点的局部图为同构图,而同时包含文本级和笔划级节点的局部图为异构图。

9、进一步地,步骤s1中,所述文本区域预测网络预测与文本实例区域相关的属性,其中包括:预测文本区域tr和文本中心区域tcr的分类概率预测,然后进行h1、h2、cosθ和sinθ的回归值预测,h1和h2分别表示当前像素到tr上边缘和tr下边缘的距离,文本实例高度尺度h是h1和h2之和,θ指示文本实例的方向信息;预测得到tr潜在区域的基础上估计tr对应的文本中心线;使用2个通道的特征输出来指导tr和tcr的分类概率预测;训练时,第一个特征通道用于预测背景,第二个通道用于预测前景即文本实例;测试时,取第二个特征通道的前景预测结果进行后续处理;其中,分别采用1个特征通道的输出来预测各个回归属性值。

10、进一步地,步骤s1中,所述笔划区域预测网络将各个文本区域中的字符内容与复杂背景分离,其中,结合图像低级语义和高级语义信息来生成文本区域中精细的笔划分割表示,以指导后续的文本检测过程;

11、优选地,所述笔划区域预测网络包括两个阶段的预测过程;

12、1)从主干网络获取到的输入图像的高级特征表示中提取与文本相关的特征;具体地,从输入图像中裁剪出tr的外部矩形otr,并利用全局池化层结合连续的卷积层来提取从主干网络获取的otr区域特征;利用若干池化层和多层感知器网络以及相关的非线性激活函数来计算输入图像的通道注意力特征图,以辨别和度量主干网络中的不同网络层对文本区域表示的相对贡献;在此期间,将提取到的输入特征图上采样到与输入图像相同的分辨率大小,然后将其乘以得到的通道注意力特征图从而实现对输入图像的语义信息蒸馏操作;由此,获得文本图像语义表示;

13、2)精细建模文本区域的笔划表示,通过从正交方向上引入正交卷积网络来增强细粒度的笔划字符分割表示;具体地,将文本区域外接矩形otr的3通道rgb原始输入特征作为补充的低级图像语义信息,并将其与获得的文本图像语义表示相融合;优选地,引入卷积核大小为1×7和7×1的正交卷积层来计算沿空间方向的注意力系数,再将得到的注意力值乘以融合后的文本特征图。

14、进一步地,所述前端处理模块使用带有笔划级别分割图注释作为标签的数据集以及均方误差损失函数来预训练所述笔划区域预测网络。

15、进一步地,步骤s3中,先初始化节点特征及其连接结构,具体包括:

16、初始化节点特征:采用两种互补的特征表示,包括几何嵌入和内容嵌入,用于文本级和笔划级节点的特征初始化;对于几何嵌入,将预测的各个区域候选框的几何属性编码到高维空间中;对于内容嵌入,通过将针对各个区域候选框几何相关属性的预测特征图发送到rroi-align层来获取各个图节点的内容特征;将得到的两种特征嵌入连接起来形成最终的图节点特征表示;优选地,在生成局部图网络时通过减去中心节点的特征来归一化所有节点的初始特征表示;

17、邻接矩阵生成:各个局部图网络形成的拓扑结构被编码在邻接矩阵a∈rn×n中,其中a(c,n)=1,如果在局部图中的中心节点c和其每个邻居节点n之间存在连接;优选地,生成邻接矩阵的方法具体包括:

18、针对同构图,包括同构的笔划级图网络和文本级图网络的构造;对于仅包含笔划级图节点的同构笔划图,采用基于欧几里德距离的knn最近邻算法,并选择每个中心节点的8个最近邻节点作为中心节点的1跳邻居节点从而形成邻接矩阵as;对于仅包含文本级图节点的同构文本图,采用的邻接矩阵构建方式与同构笔划图的区别在于同构文本图中各个中心节点只保留4个距其最近的直接邻居节点,以形成相应的矩阵at;

19、针对异构的文本图网络,同时包含文本和笔划两种级别的图节点;根据提取得到的各个区域候选框的中心位置之间的欧氏距离来构建此类型的图网络;具体地,每个文本级区域候选框都视为异构文本图的中心节点,采用该中心节点1跳和2跳邻域范围内的连接关系来生成异构图的邻接矩阵ah;中心节点的1跳邻域包含4个距其最近的文本级图邻居节点,而其2跳邻域包含额外的4个距其最近的笔划级图邻居节点。

20、进一步地,步骤s3中,所述后端处理模块通过层次化的图神经网络推理模型,在生成的多个局部图网络中执行节点的关系推理和链接预测;其中,基于图神经网络的推理过程包括如下三个阶段:

21、首先,采用加权平均的方式来聚合和更新由注意力机制引导的笔划级节点特征;加权过程中的权重信息来自两部分,包括归一化后的邻接矩阵as和图注意力网络gat中推导出的任意两个图节点v和u之间的注意系数αv,u;第一阶段的加权聚合过程描述为:

22、

23、其中,σ为激活函数,w为可训练的权重参数,sk表示笔划级图节点k的特征;

24、

25、是来自as,fuse(·)表示特征线性组合函数;

26、如果笔划级图节点的中心落在文本级图节点的区域中,则将笔划级节点的更新表示合并到对应的文本级节点表示中;

27、第二阶段通过堆叠两个transformer编码器模块来融合两级图节点的特征;具体地,引入的transformer编码器通过捕捉笔划-笔划、笔划-文本以及文本-文本节点之间的注意力系数,来建模和推理异构图节点之间的层次化结构关系,表示为:

28、

29、其中,表示t层的所有文本(t)节点特征和笔划(s)节点特征;attention(·)为transformer中的注意力计算操作,q、k、v分别代表查询矩阵、键矩阵和值矩阵,wq(,k,v)为可训练的权重参数;

30、使用包含扩大邻域范围的图推理网络,对于每个文本级图节点,在所设计图网络的第一层聚合其仅包含文本邻居节点的1跳邻居节点的特征表示,随后在后续层聚合其同时包含文本邻居和笔划邻居节点的2跳邻居的信息;期间,采用动态图卷积来自适应调整异构图的网络结构,描述为:

31、p=σ(mt,s,at,s(g(ht,s))w)

32、其中w是可训练的权重矩阵,g(·)表示图网络上传统的信息聚合过程,mt,s和at,s分别表示引入的动态图网络中的跨层遮蔽矩阵和跨跳注意力矩阵;

33、优选地,跨层遮蔽矩阵mt,s进一步划分为m′s、m′t和m′t,s,分别表示笔划级图节点之间的自掩蔽矩阵、文本级图节点之间的自掩蔽矩阵,以及笔划级和文本级图节点之间的互掩蔽矩阵;笔划级别图节点的遮蔽结果最终基于m′s和m′t,s的线性组合和固定阈值的比较,而文本级别图节点的遮蔽结果最终基于m′t和m′t,s的线性组合和固定阈值的比较;

34、通过完成上述三个阶段,将最后一个图网络层的输出用于文本图节点之间链接关系的预测和文本实例边界框回归值的定位。

35、优选地,训练过程中采用图模型预测结果与对应真实类别标签之间的交叉熵损失来指导整个检测框架的学习过程。

36、优选地,根据图节点的分类和链接预测结果,文本级节点通过宽度优先搜索方法进行分组,并通过最小路径算法进行排序。

37、优选地,通过依次连接排序后的文本节点对应的候选框中顶部和底部的中点来获得任意形状文本实例的边界。

38、一种计算机可读存储介质,所述计算机程序由处理器执行时,实现所述的基于笔划区域分割策略的视觉文本检测方法。

39、本发明具有如下有益效果:

40、本发明提出一种基于笔划区域分割策略的视觉文本检测方法,能够有效实现高精度的视觉文本检测。首先,通过引入轻量级的笔划分割预测网络,作为对当前主流文本检测器仅能实现文本区域预测的有效补充,从而实现检测模型对于文本区域的多级(文本级、笔划级)表示。期间,可引入一个视觉图像数据集(scenetext),其每个图像样本中的文本实例都标注有笔划级别的分割标签,即二值化笔划字符分割图。该数据集将通过预训练检测框架中基于卷积神经网络的前端处理模块来提升检测框架对于文本区域多级表示的预测准确性。同时,通过引入图神经网络模型,作为所构建的文本检测框架中的后端处理模块,能够有效针对前端处理模块预测得到的文本区域的各个部分执行特征聚合和关系推理,使得改进后的图模型可以更好地适应文本检测任务场景。本发明的检测方法在视觉文本检测研究领域广泛采用的标准评估数据集上进行了实验,验证了本发明方法的有效性、高精度和良好的泛化能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1