一种融合局部和全局信息的混合神经网络方法与系统

文档序号:37925157发布日期:2024-05-11 00:04阅读:9来源:国知局
一种融合局部和全局信息的混合神经网络方法与系统

本发明涉及计算机视觉领域,具体为一种融合局部和全局信息的混合神经网络方法与系统。


背景技术:

1、卷积神经网络(cnn)和视觉transformer(vits)是计算机视觉的核心技术。虽然卷积神经网络具有鲁棒性,并广泛应用于传统的计算机视觉任务中,但vits代表了视觉transformer的新兴趋势。卷积神经网络通过局部依赖关系捕获图像的局部特征,计算效率高,特别是在处理大规模图像数据时。利用自注意的vit可以全局捕获输入图像序列之间的关系。尽管如此,计算token之间的相似性需要大量的计算资源,并且计算注意力矩阵的复杂性增加了二次,这导致在处理大规模序列时需要进行大量的计算。


技术实现思路

1、本发明提供了一种融合局部和全局信息的混合神经网络方法,包括以下步骤:

2、s1、设计局部大核卷积块(llcb)和全局视觉transformer块(gvtb)作为混合神经网络的主要构建块,实现神经网络在图像处理任务中高效捕获图像的局部和全局特征,获得更全面的信息;

3、s2、llcb引入大核卷积注意力(lkca)来有效地捕获特征映射的局部特征,lkca的核心为一个7×7的大核卷积;

4、s3、gvtb引入轻量级跨头自注意力(lchsa)来增强注意力头部之间的交互,提取特征图的全局信息,并通过降低自注意k和v的维度来降低计算复杂度;

5、s4、堆叠多个llcb和gvtb网络模块构成了神经网络summnet,summnet即为一种融合局部和全局信息的混合神经网络方法,summnet包括四个阶段,每个阶段由llcb和gvtb组成,阶段与阶段之间进行图像的下采样操作,形成金字塔结构。

6、优选的,s1中的局部大核卷积块(llcb),llcb由大核卷积注意力(lkca)和mlp两个关键模块组成,给定输入图像,,其中,h和w为输入图像的高和宽, c为嵌入维数,将其输入到llcb中,可用以下过程来表示:,。

7、优选的,s1中的全局视觉transformer块(gvtb),gvtb由动态位置嵌入(dpe)、轻量级跨头自注意力(lchsa)和mlp三个关键模块组成,给定输入图像,将其输入到gvtb中,可用以下过程来表示:,,。

8、优选的,s3中的gvtb引入轻量级跨头自注意力(lchsa)来增强注意力头部之间的交互,提取特征图的全局信息,并通过降低自注意k和v的维度来降低计算复杂度;给定输入图像输入到lchsa中,首先获取进行自注意力操作的q、k、v:,,,conv( )表示使用卷积来降低图像的空间维度,其中卷积核为k, w为对应的线性投影参数;使用两个线性层来增强头部之间的相互作用,使模型能够学习捕捉多个注意力头部中的不同关系和特征:,计算图像的注意力图:,最后attention的输出再与输入图像x相加:。

9、优选的,s4中的神经网络summnet,summnet包括四个阶段,每个阶段由llcb和gvtb组成,阶段与阶段之间进行图像的下采样操作,形成金字塔结构,与传统的浅层部署卷积层、深层部署transformer的网络结构不同,smmnet的每个阶段都充分结合了llcb和gvtb,每个阶段都充分考虑到全局和局部信息并进行信息交互,同一阶段llcb部署在gvtb的前面。

10、本发明还提供一种融合局部和全局信息的混合神经网络系统,其特征在于,包括:局部特征提取模块,通过使用大核卷积有效地捕获特征映射的局部细节特征;全局特征提取模块,轻量级的跨头自注意被用于捕获远程依赖关系,同时减少key和value的维度以降低自注意操作的计算复杂度;堆叠模块,多个llcb模块和gvtb模块堆叠构成四阶段神经网络,即为一种融合局部和全局信息的混合神经网络系统。

11、与现有技术相比,本发明具有以下技术效果:

12、summnet是一种创新的、高效的多尺度信息处理方法,它将强大的卷积运算和transformer相结合,在每个阶段进行局部特征提取和全局语义捕获。summnet由llcb和gvtb两个主要部分组成;llcb使用lkca来增强局部信息的特征提取,而gvtb的目标是在lchsa的帮助下学习和捕获全局上下文特征的表示。这两个构建的协同作用使summnet能够在不同的尺度上关注局部和全局信息,为综合信息处理提供了强大的工具。



技术特征:

1.一种融合局部和全局信息的混合神经网络方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法,其特征在于,s1中的局部大核卷积块(llcb),llcb由大核卷积注意力(lkca)和mlp两个关键模块组成,给定输入图像,,其中,h和w为输入图像的高和宽,c为嵌入维数,将其输入到llcb中,可用以下过程来表示:,。

3.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法,其特征在于,s1中全局视觉transformer块(gvtb),gvtb由动态位置嵌入(dpe)、轻量级跨头自注意力(lchsa)和mlp三个关键模块组成,给定输入图像,将其输入到gvtb中,可用以下过程来表示:,,。

4.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法,其特征在于,s3中的gvtb引入轻量级跨头自注意力(lchsa)来增强注意力头部之间的交互,提取特征图的全局信息,并通过降低自注意k和v的维度来降低计算复杂度;给定输入图像输入到lchsa中,首先获取进行自注意力操作的q、k、v:,,,conv( )表示使用卷积来降低图像x的空间维度,其中卷积核为k, w为对应的线性投影参数;使用两个线性层来增强头部之间的相互作用,使模型能够学习捕捉多个注意力头部中的不同关系和特征:,计算图像的注意力图:,最后attention的输出再与输入图像x相加:。

5.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法,其特征在于,s4中的神经网络summnet,summnet包括四个阶段,每个阶段由llcb和gvtb组成,阶段与阶段之间进行图像的下采样操作,形成金字塔结构,与传统的浅层部署卷积层、深层部署transformer的网络结构不同,smmnet的每个阶段都充分结合了llcb和gvtb,每个阶段都充分考虑到全局和局部信息并进行信息交互,同一阶段llcb部署在gvtb的前面。

6.一种融合局部和全局信息的混合神经网络系统,其特征在于,包括:局部特征提取模块,通过使用大核卷积有效地捕获特征映射的局部细节特征;全局特征提取模块,轻量级的跨头自注意被用于捕获远程依赖关系,同时减少key和value的维度以降低自注意操作的计算复杂度;堆叠模块,多个llcb模块和gvtb模块堆叠构成四阶段神经网络,即为一种融合局部和全局信息的混合神经网络系统。


技术总结
本发明提出了一种融合局部和全局信息的混合神经网络方法与系统,涉及计算机视觉领域。本发明设计局部大核卷积块(LLCB)和全局视觉Transformer块(GVTB)作为混合神经网络SUMMNet的主要构建块,LLCB引入大核卷积注意力(LKCA)来有效地捕获特征映射的局部特征;GVTB引入轻量级跨头自注意力(LCHSA)来增强注意力头部之间的交互,提取特征图的全局信息,并通过降低自注意K和V的维数来降低计算复杂度;LLCB和GVTB的协同使SUMMNet能够在不同的尺度上关注局部和全局信息,高效的进行图像处理。

技术研发人员:李忠涛,李雅其,郭庆北,赵光龙,张玉璘
受保护的技术使用者:济南大学
技术研发日:
技术公布日:2024/5/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1