基于多级分离特征增强和空间注意力的标签文本检测方法

文档序号:34938041发布日期:2023-07-28 10:58阅读:37来源:国知局
基于多级分离特征增强和空间注意力的标签文本检测方法

本发明属于目标检测,具体涉及一种基于多级分离特征增强和空间注意力的标签文本检测方法。


背景技术:

1、文本检测是指在包含文本的自然场景图像中标记出文本所在区域,如检测广告牌中的文字区域等。此外,文本检测在场景理解、自动驾驶和人机交互等计算机视觉任务中具有重要的实际应用价值,由此引发了研究者的广泛关注与研究。然而,复杂的图片背景以及多变的文本形态极大地增加了该任务的挑战性。工厂在流动生产线传输工业产品的过程中,在对产品装箱并贴完工业标签后,将货箱运送至发运区。尽管工人对产品信息都有所记录,但仍然避免不了因为工人疏忽而导致标签信息与实际要求信息不匹配的情况。一旦发生此种情况,就会导致一连串的产品发运错误,后期需要耗费相当高的成本进行排查,严重影响货物管理和生产效率。

2、针对上述问题,为了提高发运产品的准确性,利用文本检测技术精准检测产品标签中的文本。然而,将文本检测技术应用于该问题场景需要克服以下困难:(1)工厂环境复杂存在光照昏暗,遮挡物等情况,工业标签具有文字量大、文字语言种类不一、文字密集等特点,且由于工业产品形状各异使得货箱的大小不一,工业标签的贴放位置也不一,因此需要网络保证较高的准确率。(2)工业生产线处于运动的状态,但架设摄像头的位置和角度是固定不变的,因此,为了不影响流水线的正常运行,在保证较高的准确率的同时,还需要在一定的时间内完成检测及其他任务。


技术实现思路

1、为解决以上技术问题,本发明提出了一种基于多级分离特征增强和空间注意力的标签文本检测方法,在检测速度满足基本要求的情况下,达到了可观的精确性。

2、第一方面,本发明提供基于多级分离特征增强和空间注意力的标签文本检测方法,包括以下步骤:

3、步骤(1)、对工业产品进行拍摄,获取工业产品标签文本图像,并对所述工业产品标签文本图像进行预处理;

4、步骤(2)、将预处理后的文本图像放入多级分离增强resnet模型(resnet50hs-block),获得充分的感受野,得到多尺度特征图;

5、所述resnet50 hs-block以resnet50网络为骨架,用多级分离模块hierarchical-split block替换原有3×3卷积模块;

6、所述多级分离模块hierarchical-split block通过split操作将接收到的特征图在通道维度上划分成4组,每一组特征图xi拥有相等的通道宽度w,i=1,2,3,4;第1组保留原输入特征图x1;第2组对输入特征图x2先进行卷积操作conv、批量归一化操作、通过relu激活函数增加网络非线性化,得到y2,再对y2进行split操作将其划分为两部分y2,1和y2,2,输出y2,1;第3组将y2,2与输入特征图x3进行concat拼接,然后对拼接后特征图进行卷积操作conv、批量归一化操作、通过relu激活函数增加网络非线性化,得到y3,然后再将y3进行split操作将其划分为两部分,输出y3,1,并将y3,2与下一组输入特征图进行concat拼接;第4组将y3,2与输入特征图x4进行concat拼接,然后对拼接后特征图进行卷积操作conv、批量归一化操作、通过relu激活函数增加网络非线性化;最后将4组的输出进行concat拼接,得到多尺度特征图;

7、yi的计算公式如下:

8、

9、其中由于第1组不做split操作,故y1,2=0;

10、步骤(3)、采用双分支设计思想,将resnet50 hs-block输出的多尺度特征图分别送入基于空间注意力的特征融合模块saffmg和渐进式融合的特征金字塔模块cfpem,提取多尺度的特征信息;

11、所述基于空间注意力的特征融合模块saffmg,用以提取多尺度的特征信息,具体是:

12、对所述resnet50 hs-block输出的不同尺度的特征映射经过上采样和叠加操作后被缩放成相同的分辨率,得到特征映射然后将上述特征映射x1进行串接,再通过一次3×3的卷积得到中间特征将中间特征m输入到空间注意力模块spatial attention中,计算空间注意力权重根据空间注意力权重对n个特征映射加权,获取融合特征

13、所述空间注意力模块spatial attention对输入特征分别进行最大池化操作和平均池化操作,之后进行concat拼接,再对拼接后的特征与原输入特征再次融合,接着做一次卷积,得到空间注意力权重

14、所述渐进式融合的特征金字塔模块cfpem包括特征金字塔增强模块fpem和特征融合模块ffm;特征金字塔增强模块fpem由两个阶段组成,分别为升尺度增强和降尺度增强;升尺度增强的输出阶段,将当前模块的输入与降尺度增强产生的特征进行逐元素相加得到结果;特征融合模块ffm将特征金字塔增强模块fpem的所有结果进行特征融合;

15、步骤(4)、将基于空间注意力的特征融合模块saffmg和渐进式融合的特征金字塔模块cfpem输出的特征图经过简单的拼接和卷积操作后,经预轻量级的检测头head测得到对应的实例向量、文本区域、文本核;将实例向量、文本区域、文本核通过融合背景的像素聚合算法pa获得最终的检测结果;具体是:

16、将不同的实例向量作为不同的聚类,其文本核即为聚类中心,文本区域内的像素即为待聚类样本;在同一文本行内,为了引导像素走向相应的文本核,两者之间的距离应该最小化;

17、在训练阶段,聚类损失函数的公式为:

18、

19、

20、

21、其中,n表示文本行的数量,ri表示第i个文本区域,ki表示文本行ri对应的内核,表示文本像素r与文本核ki之间的距离,relu函数用来保证计算非负,表示像素r对应的实例向量,表示文本核ki对应的实例向量,λclu则是值为0.5的常数;

22、聚类中心需要保证足够的区分度,因此,文本核的实例向量需要与相邻的文本核保持一定的距离;在此基础上,引入对背景像素的区分,辨识损失函数如下:

23、

24、

25、

26、其中,pbg表示背景像素的实例向量,表示文本内核与背景向量之间的距离,表示文本核ki与kj之间的距离,λdis则是值为3的常数。

27、第二方面,本发明提供基于多级分离特征增强和空间注意力的标签文本检测系统,包括:

28、图像采集及预处理模块,用于获取工业产品标签文本图像,并对所述工业产品标签文本图像进行预处理;

29、resnet50 hs-block模块,用于对预处理后的文本图像提取多尺度特征图;

30、基于空间注意力的特征融合模块saffmg,用以提取多尺度的特征信息f;

31、渐进式融合的特征金字塔模块cfpem,用以提取多尺度的融合特征信息;

32、融合模块,用于基于空间注意力的特征融合模块saffmg和渐进式融合的特征金字塔模块cfpem输出的特征图经过拼接和卷积操作,得到最终特征;

33、轻量级的检测头head,根据最终特征测得到对应的实例向量、文本区域、文本核;

34、输出模块,用于将实例向量、文本区域、文本核通过融合背景的像素聚合算法pa获得最终的检测结果。

35、第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行所述的方法。

36、第四方面,本发明提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的方法。

37、本发明的有益效果是:

38、本发明提出双分支概念,引入基于空间注意力的特征融合模块saffmg和渐进式融合的特征金字塔模块cfpem,用以实现动态融合不同尺度的特征,以适应工厂环境错综复杂,使解码特征融合的过程中充分利用不同层级不同尺度特征的空间和全局信息。

39、本发明在提取多尺度特征时,使用多级分离模块hierarchical-split block改进resnet50网络残差块中的传统3×3卷积,在保持相当计算量的情况下提升精确性。

40、本发明方法适用各种复杂工厂环境,以及不受限工业标签形状、位置不一,采用的网络模型准确率显著高于现有模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1