一种融合局部和全局信息的混合神经网络方法与系统

文档序号：37925157发布日期：2024-05-11 00:04阅读：9来源：国知局

本发明涉及计算机视觉领域，具体为一种融合局部和全局信息的混合神经网络方法与系统。

背景技术：

1、卷积神经网络(cnn)和视觉transformer(vits)是计算机视觉的核心技术。虽然卷积神经网络具有鲁棒性，并广泛应用于传统的计算机视觉任务中，但vits代表了视觉transformer的新兴趋势。卷积神经网络通过局部依赖关系捕获图像的局部特征，计算效率高，特别是在处理大规模图像数据时。利用自注意的vit可以全局捕获输入图像序列之间的关系。尽管如此，计算token之间的相似性需要大量的计算资源，并且计算注意力矩阵的复杂性增加了二次，这导致在处理大规模序列时需要进行大量的计算。

技术实现思路

1、本发明提供了一种融合局部和全局信息的混合神经网络方法，包括以下步骤：

2、s1、设计局部大核卷积块(llcb)和全局视觉transformer块(gvtb)作为混合神经网络的主要构建块，实现神经网络在图像处理任务中高效捕获图像的局部和全局特征，获得更全面的信息；

3、s2、llcb引入大核卷积注意力(lkca)来有效地捕获特征映射的局部特征，lkca的核心为一个7×7的大核卷积；

4、s3、gvtb引入轻量级跨头自注意力(lchsa)来增强注意力头部之间的交互，提取特征图的全局信息，并通过降低自注意k和v的维度来降低计算复杂度；

5、s4、堆叠多个llcb和gvtb网络模块构成了神经网络summnet，summnet即为一种融合局部和全局信息的混合神经网络方法，summnet包括四个阶段，每个阶段由llcb和gvtb组成，阶段与阶段之间进行图像的下采样操作，形成金字塔结构。

6、优选的，s1中的局部大核卷积块(llcb)，llcb由大核卷积注意力(lkca)和mlp两个关键模块组成，给定输入图像，，其中，h和w为输入图像的高和宽， c为嵌入维数，将其输入到llcb中，可用以下过程来表示：，。

7、优选的，s1中的全局视觉transformer块(gvtb)，gvtb由动态位置嵌入(dpe)、轻量级跨头自注意力(lchsa)和mlp三个关键模块组成，给定输入图像，将其输入到gvtb中，可用以下过程来表示：，，。

8、优选的，s3中的gvtb引入轻量级跨头自注意力(lchsa)来增强注意力头部之间的交互，提取特征图的全局信息，并通过降低自注意k和v的维度来降低计算复杂度；给定输入图像输入到lchsa中，首先获取进行自注意力操作的q、k、v：，，，conv( )表示使用卷积来降低图像的空间维度，其中卷积核为k, w为对应的线性投影参数；使用两个线性层来增强头部之间的相互作用，使模型能够学习捕捉多个注意力头部中的不同关系和特征：，计算图像的注意力图：，最后attention的输出再与输入图像x相加：。

9、优选的，s4中的神经网络summnet，summnet包括四个阶段，每个阶段由llcb和gvtb组成，阶段与阶段之间进行图像的下采样操作，形成金字塔结构，与传统的浅层部署卷积层、深层部署transformer的网络结构不同，smmnet的每个阶段都充分结合了llcb和gvtb，每个阶段都充分考虑到全局和局部信息并进行信息交互，同一阶段llcb部署在gvtb的前面。

10、本发明还提供一种融合局部和全局信息的混合神经网络系统，其特征在于，包括：局部特征提取模块，通过使用大核卷积有效地捕获特征映射的局部细节特征；全局特征提取模块，轻量级的跨头自注意被用于捕获远程依赖关系，同时减少key和value的维度以降低自注意操作的计算复杂度；堆叠模块，多个llcb模块和gvtb模块堆叠构成四阶段神经网络，即为一种融合局部和全局信息的混合神经网络系统。

11、与现有技术相比，本发明具有以下技术效果：

12、summnet是一种创新的、高效的多尺度信息处理方法，它将强大的卷积运算和transformer相结合，在每个阶段进行局部特征提取和全局语义捕获。summnet由llcb和gvtb两个主要部分组成；llcb使用lkca来增强局部信息的特征提取，而gvtb的目标是在lchsa的帮助下学习和捕获全局上下文特征的表示。这两个构建的协同作用使summnet能够在不同的尺度上关注局部和全局信息，为综合信息处理提供了强大的工具。

技术特征：

1.一种融合局部和全局信息的混合神经网络方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法，其特征在于，s1中的局部大核卷积块(llcb)，llcb由大核卷积注意力(lkca)和mlp两个关键模块组成，给定输入图像，，其中，h和w为输入图像的高和宽，c为嵌入维数，将其输入到llcb中，可用以下过程来表示：，。

3.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法，其特征在于，s1中全局视觉transformer块(gvtb)，gvtb由动态位置嵌入(dpe)、轻量级跨头自注意力(lchsa)和mlp三个关键模块组成，给定输入图像，将其输入到gvtb中，可用以下过程来表示：，，。

4.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法，其特征在于，s3中的gvtb引入轻量级跨头自注意力(lchsa)来增强注意力头部之间的交互，提取特征图的全局信息，并通过降低自注意k和v的维度来降低计算复杂度；给定输入图像输入到lchsa中，首先获取进行自注意力操作的q、k、v：，，，conv( )表示使用卷积来降低图像x的空间维度，其中卷积核为k, w为对应的线性投影参数；使用两个线性层来增强头部之间的相互作用，使模型能够学习捕捉多个注意力头部中的不同关系和特征：，计算图像的注意力图：，最后attention的输出再与输入图像x相加：。

5.根据权利要求1所述的一种融合局部和全局信息的混合神经网络方法，其特征在于，s4中的神经网络summnet，summnet包括四个阶段，每个阶段由llcb和gvtb组成，阶段与阶段之间进行图像的下采样操作，形成金字塔结构，与传统的浅层部署卷积层、深层部署transformer的网络结构不同，smmnet的每个阶段都充分结合了llcb和gvtb，每个阶段都充分考虑到全局和局部信息并进行信息交互，同一阶段llcb部署在gvtb的前面。

6.一种融合局部和全局信息的混合神经网络系统，其特征在于，包括：局部特征提取模块，通过使用大核卷积有效地捕获特征映射的局部细节特征；全局特征提取模块，轻量级的跨头自注意被用于捕获远程依赖关系，同时减少key和value的维度以降低自注意操作的计算复杂度；堆叠模块，多个llcb模块和gvtb模块堆叠构成四阶段神经网络，即为一种融合局部和全局信息的混合神经网络系统。

技术总结
本发明提出了一种融合局部和全局信息的混合神经网络方法与系统，涉及计算机视觉领域。本发明设计局部大核卷积块(LLCB)和全局视觉Transformer块(GVTB)作为混合神经网络SUMMNet的主要构建块，LLCB引入大核卷积注意力(LKCA)来有效地捕获特征映射的局部特征；GVTB引入轻量级跨头自注意力(LCHSA)来增强注意力头部之间的交互，提取特征图的全局信息，并通过降低自注意K和V的维数来降低计算复杂度；LLCB和GVTB的协同使SUMMNet能够在不同的尺度上关注局部和全局信息，高效的进行图像处理。

技术研发人员：李忠涛,李雅其,郭庆北,赵光龙,张玉璘
受保护的技术使用者：济南大学
技术研发日：
技术公布日：2024/5/10

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李忠涛,李雅其,郭庆北,赵光龙,张玉璘
技术所有人：济南大学
我是此专利的发明人

上一篇：一种兽医实验室废弃物处理设备的制作方法
上一篇：涤纶短纤生产用集束架的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。