本发明涉及计算机视觉领域,具体为一种融合局部和全局信息的混合神经网络方法与系统。
背景技术:
1、卷积神经网络(cnn)和视觉transformer(vits)是计算机视觉的核心技术。虽然卷积神经网络具有鲁棒性,并广泛应用于传统的计算机视觉任务中,但vits代表了视觉transformer的新兴趋势。卷积神经网络通过局部依赖关系捕获图像的局部特征,计算效率高,特别是在处理大规模图像数据时。利用自注意的vit可以全局捕获输入图像序列之间的关系。尽管如此,计算token之间的相似性需要大量的计算资源,并且计算注意力矩阵的复杂性增加了二次,这导致在处理大规模序列时需要进行大量的计算。
技术实现思路
1、本发明提供了一种融合局部和全局信息的混合神经网络方法,包括以下步骤:
2、s1、设计局部大核卷积块(llcb)和全局视觉transformer块(gvtb)作为混合神经网络的主要构建块,实现神经网络在图像处理任务中高效捕获图像的局部和全局特征,获得更全面的信息;
3、s2、llcb引入大核卷积注意力(lkca)来有效地捕获特征映射的局部特征,lkca的核心为一个7×7的大核卷积;
4、s3、gvtb引入轻量级跨头自注意力(lchsa)来增强注意力头部之间的交互,提取特征图的全局信息,并通过降低自注意k和v的维度来降低计算复杂度;
5、s4、堆叠多个llcb和gvtb网络模块构成了神经网络summnet,summnet即为一种融合局部和全局信息的混合神经网络方法,summnet包括四个阶段,每个阶段由llcb和gvtb组成,阶段与阶段之间进行图像的下采样操作,形成金字塔结构。
6、优选的,s1中的局部大核卷积块(llcb),llcb由大核卷积注意力(lkca)和mlp两个关键模块组成,给定输入图像,,其中,h和w为输入图像的高和宽, c为嵌入维数,将其输入到llcb中,可用以下过程来表示:,。
7、优选的,s1中的全局视觉transformer块(gvtb),gvtb由动态位置嵌入(dpe)、轻量级跨头自注意力(lchsa)和mlp三个关键模块组成,给定输入图像,将其输入到gvtb中,可用以下过程来表示:,,。
8、优选的,s3中的gvtb引入轻量级跨头自注意力(lchsa)来增强注意力头部之间的交互,提取特征图的全局信息,并通过降低自注意k和v的维度来降低计算复杂度;给定输入图像输入到lchsa中,首先获取进行自注意力操作的q、k、v:,,,conv( )表示使用卷积来降低图像的空间维度,其中卷积核为k, w为对应的线性投影参数;使用两个线性层来增强头部之间的相互作用,使模型能够学习捕捉多个注意力头部中的不同关系和特征:,计算图像的注意力图:,最后attention的输出再与输入图像x相加:。
9、优选的,s4中的神经网络summnet,summnet包括四个阶段,每个阶段由llcb和gvtb组成,阶段与阶段之间进行图像的下采样操作,形成金字塔结构,与传统的浅层部署卷积层、深层部署transformer的网络结构不同,smmnet的每个阶段都充分结合了llcb和gvtb,每个阶段都充分考虑到全局和局部信息并进行信息交互,同一阶段llcb部署在gvtb的前面。
10、本发明还提供一种融合局部和全局信息的混合神经网络系统,其特征在于,包括:局部特征提取模块,通过使用大核卷积有效地捕获特征映射的局部细节特征;全局特征提取模块,轻量级的跨头自注意被用于捕获远程依赖关系,同时减少key和value的维度以降低自注意操作的计算复杂度;堆叠模块,多个llcb模块和gvtb模块堆叠构成四阶段神经网络,即为一种融合局部和全局信息的混合神经网络系统。
11、与现有技术相比,本发明具有以下技术效果:
12、summnet是一种创新的、高效的多尺度信息处理方法,它将强大的卷积运算和transformer相结合,在每个阶段进行局部特征提取和全局语义捕获。summnet由llcb和gvtb两个主要部分组成;llcb使用lkca来增强局部信息的特征提取,而gvtb的目标是在lchsa的帮助下学习和捕获全局上下文特征的表示。这两个构建的协同作用使summnet能够在不同的尺度上关注局部和全局信息,为综合信息处理提供了强大的工具。
1.一种融合局部和全局信息的混合神经网络方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法,其特征在于,s1中的局部大核卷积块(llcb),llcb由大核卷积注意力(lkca)和mlp两个关键模块组成,给定输入图像,,其中,h和w为输入图像的高和宽,c为嵌入维数,将其输入到llcb中,可用以下过程来表示:,。
3.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法,其特征在于,s1中全局视觉transformer块(gvtb),gvtb由动态位置嵌入(dpe)、轻量级跨头自注意力(lchsa)和mlp三个关键模块组成,给定输入图像,将其输入到gvtb中,可用以下过程来表示:,,。
4.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法,其特征在于,s3中的gvtb引入轻量级跨头自注意力(lchsa)来增强注意力头部之间的交互,提取特征图的全局信息,并通过降低自注意k和v的维度来降低计算复杂度;给定输入图像输入到lchsa中,首先获取进行自注意力操作的q、k、v:,,,conv( )表示使用卷积来降低图像x的空间维度,其中卷积核为k, w为对应的线性投影参数;使用两个线性层来增强头部之间的相互作用,使模型能够学习捕捉多个注意力头部中的不同关系和特征:,计算图像的注意力图:,最后attention的输出再与输入图像x相加:。
5.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法,其特征在于,s4中的神经网络summnet,summnet包括四个阶段,每个阶段由llcb和gvtb组成,阶段与阶段之间进行图像的下采样操作,形成金字塔结构,与传统的浅层部署卷积层、深层部署transformer的网络结构不同,smmnet的每个阶段都充分结合了llcb和gvtb,每个阶段都充分考虑到全局和局部信息并进行信息交互,同一阶段llcb部署在gvtb的前面。
6.一种融合局部和全局信息的混合神经网络系统,其特征在于,包括:局部特征提取模块,通过使用大核卷积有效地捕获特征映射的局部细节特征;全局特征提取模块,轻量级的跨头自注意被用于捕获远程依赖关系,同时减少key和value的维度以降低自注意操作的计算复杂度;堆叠模块,多个llcb模块和gvtb模块堆叠构成四阶段神经网络,即为一种融合局部和全局信息的混合神经网络系统。