基于自适应动态卷积网络的图像分类识别方法、装置和计算机设备

文档序号:29942668发布日期:2022-05-07 15:04阅读:99来源:国知局
1.本发明属于图形分类识别的领域,特别涉及一种基于自适应动态卷积网络的图像分类识别方法、装置和计算机设备。
背景技术
::2.图形分类与识别技术的目的搭建一个深度学习网络模型,通过输入图像经过深度学习网络后,输出图像的各类信息;广泛地应用那些基于图像分类识别任务,比如人脸识别领域,服装图像推荐领域,精确广告推送领域,衣着搭配推荐,游戏影视等各种领域,是计算机视觉中的一个活跃的研究课题。3.经典图形分类识别算法由两个连续但相对独立的阶段组成:图像特征提取和图像分类识别。根据特征提取的方式,可将目前的图像分类识别方法分为两类:一是基于传统的机器学习的方法;二是基于深度学习的方法。传统机器学习方法主要是通过手动提取图像特征,然后通过传统分类器分类,从而实现图像的分类识别。近年来,随着深度学习技术的发展,深度神经网络在图像识别方面取得了最先进的性能,可以实现自动提取图像特征,被广泛应用于图像分类识别,并取得了优于传统机器学习方法的成绩。4.现有技术中,深度卷积神经网络的设计主要基于统一的矩形卷积所搭建的网络,主要原因是矩形卷积对于图形的计算和存储更为方便和简单。但是,不同的图片,其图像特征有所不同,使用统一的矩形卷积,往往得到的模型表达能力不够强;并且得到的图像感受野也不符合人类视觉范围,也常常积累出很多冗余且无效的数据,导致网络结构臃肿,需要大量内存和运算算力。技术实现要素:5.基于现有技术存在的问题,本发明考虑到若是能够针对不同的输入图片,选择出相应的卷积核,那么则能快速准确地获取图像的特征。比如,圆形因素较多的图片,使用圆形卷积,矩形因素较多的图片,使用矩形卷积,圆弧椭圆因素较多的图片,使用椭圆卷积进行卷积计算;因此使用自适应的动态卷积核既能减少模型实际参数量,又能提升了深度学习神经网络的特征表达能力,从而提高图像识别和分类的精度,是目前较为崭新的研究方向。6.有鉴于此,针对使用统一使用3×3长方形卷积所带来的表达能力不足,参数冗余的问题,本发明提供一种基于自适应动态卷积网络的图像分类识别方法、装置和计算机设备,能够通过自适应动态卷积网络较好的获取图像的全局特征,并通过在网络中加入以自注意力机制的transformers块为基础的网络分支,获取图像局部位置的特征,结合前面动态卷积主干网络的全局特征进行融合,进一步增强了模型的图像特征的提取能力,并有效提升图像分类和特征识别的准确率。7.在本发明的第一方面,本发明提供了一种基于自适应动态卷积网络的图像分类识别方法,包括以下步骤:8.一种自适应动态卷积神经网络的分类识别方法,包括以下步骤:9.获取待测图像,将所述待测图像输入到预处理块进行预处理操作,得到待测图像的参数信息和浅层特征图;10.将待测图像的参数信息与原待测图像进行结合得到带有特征标注的图像数据;11.将图像数据输入到主干网络的自适应动态卷积网络中,按照对应的参数信息选择对应形状的卷积核,并经过多层的卷积操作后得到语义丰富的全局特征;12.将所述浅层特征图输入到分支网络中,提取出待测图像的局部特征;13.将所述局部特征与所述全局特征进行特征融合,并将融合特征输入到分类网络中,输出待测图像的分类识别信息。14.在本发明的第二方面,本发明提供了一种基于自适应动态卷积网络的图像分类识别装置,具体包括:15.图像采集单元,用于获取待测图像;16.图像处理单元,用于将所述待测图像输入到预处理块进行预处理操作,得到待测图像的参数信息和浅层特征图;17.卷积匹配单元,用于将待测图像的参数信息与原待测图像进行结合得到带有特征标注的图像数据;将图像数据输入到主干网络的自适应动态卷积网络中,按照对应的参数信息选择对应形状的卷积核;18.全局特征提取单元,用于将待测图像按照选择出的对应形状的卷积核经过多层的卷积操作后得到语义丰富的全局特征;19.局部特征提取单元,用于将所述浅层特征图输入到分支网络中,提取出待测图像的局部特征;20.全局局部特征融合单元,用于将所述局部特征和所述全局特征进行特征融合;21.图像分类识别单元,用于将融合特征输入到分类网络中,输出待测图像的分类识别信息。22.在本发明的第三方面,本发明还提供了一种计算机设备,包括至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如本发明第一方面所述的方法。23.本发明的有益技术效果:24.(1)本发明具有速度快、精度高的效果,能够对任意输入的图像进行分类识别得到结果。25.(2)本发明提出了一种自适应动态卷积网络,可根据不同图像的类型选择不同形状的卷积,从而更能动态提取图像的特征信息,提高分类精度。26.(3)本发明提出了一种新颖的兼顾全局-局部信息的特征提取架构,通过整体+局部的特征提取方式,保证了网络能够提取到不同类型的图形特征,增强了网络的特征表征能力,提高了图形的分类识别精度。附图说明27.图1为本发明的整体自适应动态卷积网络模型示意图;28.图2为本发明实施例提供一种基于自适应动态卷积网络的图像分类识别方法流程图;29.图3为本发明mbconv卷积结构示意图;30.图4为本发明的动态卷积块示意图;31.图5为本发明动态卷积块中圆形卷积核的示意图;32.图6为本发明动态卷积块中椭圆形卷积核的示意图;33.图7为本发明自适应动态卷积网络模型分支网络示意图;34.图8为本发明分支网络中注意力模块transformer示意图;35.图9为本发明实施例中整体操作流程示意图。具体实施方式36.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。37.图1为本发明的整体自适应动态卷积网络模型示意图,如图1所示,本发明中的整体自适应动态卷积网络模型主要包括主干动态卷积网络模型和分支网络;其中将原始待测图像输入到浅层特征提取块中提取出浅层特征,将所述浅层特征输入到分支网络中提取出局部特征;将浅层特征同分类器处理后输入到主干动态卷积网络模型中提取出全局特征;将局部特征和全局特征进行融合后,可以通过两层全连接层输出待测图像的分类识别结果。38.本发明的一种基于自适应动态卷积网络的图像分类识别方法,如图2所示,所述方法可以包括:39.101、获取待测图像,将所述待测图像输入到预处理块进行预处理操作,得到待测图像的参数信息和浅层特征图;40.在本发明实施例中,所述的图像分类识别方法,可以基于人工智能技术实现。该方法可以应用于对图像分类的场景中。例如,对建筑物图像分类、对动植物图像分类、对人体进行分类以及对细胞进行分类等,对服装图像分类、对人脸图像分类等等。通过将待测图像输入自适应动态卷积网络中,经过一系列处理,即可输出待测图像的分类识别信息,这里的分类识别信息包含图像种类以及图像特征等等。41.在本发明实施例中,所述预处理块分为浅层特征提取块和多任务分类器,浅层特征提取块由3个mbconv卷积块组成,每个卷积块有三层卷积核和一senet通道,第一层卷积核为1×1,通道数按照需求进行设置;中间层卷积核为3×3,步长为2,填充为1,进行下采样;最后一个卷积核为1×1,中间插入一个senet块结构如图3所示。经过浅层特征提取块后得到图像的浅层特征图,为后续分支网络提取图像局部信息做准备。42.多任务分类器由两个全连接层组成,主要作用是将残差网络提取的浅层特征(纹理,形状,边缘信息等)进行初步分类,按照图形纹理中占比最多的形状得到一个形状概率标签的分类,记为li(i=1,2,3,4),依次代表圆形,椭圆形,长方形,正方形,可以为后续选择不同形状的卷积核做准备。43.102、将待测图像的参数信息与原待测图像进行结合得到带有特征标注的图像数据;44.在本发明实施例中,需要将待测图像的参数信息与该待测图像进行结合,使得该待测图像具有特征标注,该特征标注能够反映该待测图像的形状信息;也即是将所述标签概率信息加入到原待测图像的文本标签中,使原待测图像带有形状信息,该形状信息表示为该图像的纹理,边缘,形状中因素占比最多的形状,即为圆形、椭圆形、长方形或正方形。45.103、将图像数据输入到主干网络的自适应动态卷积网络中,按照对应的参数信息选择对应形状的卷积核,并经过多层的卷积操作后得到语义丰富的全局特征;46.在本发明实施例中,需要将预处理后的标签信息与原待测图像相结合输入主干网络的自适应动态卷积网络中,按照对应的参数信息选择对应形状的卷积核,得到语义丰富的全局特征,为后续的分类识别做准备;47.在本发明实施例中,预处理后的待测图像附带有其参数信息,输入到动态卷积块后,可以通过该参数信息确定选择出对应形状的卷积核,动态卷积块的结构如图4所示。48.相比于传统的图片分类识别算法,本发明采用以动态卷积块为基础所搭建的神经网络以缩减模型大小且提高模型精度,下面阐述一下动态卷积块中关于圆形卷积核以及椭圆卷积核感受野的计算方式,通过一个输入特征图且长方形卷积核中特殊的方形卷积核本实施例可以得到单个j的输出的浅层特征图[0049][0050]对应的,本实施例可以通过圆形卷积核或椭圆卷积核得到的浅层特征图:[0051][0052]由于圆形或椭圆核的感受野包含分数位置,因此要采用双线性插值获取近似正方形感受野内的采样值,其中t表示方形感受野中的任意(分数)位置,b(s,j+r)是个双线性插值的变换矩阵。本发明的这种结构实现了方形卷积核向椭圆卷积核转变的过程,对于图形的卷积操作更能获取到图形的特征。[0053]其中双线性差值的公式如下:[0054]在x方向进行线性插值得到:[0055][0056][0057]在y方向进行线性插值得到:[0058][0059]最后得到结果f(x,y):[0060][0061]因此在动态卷积核中的圆形卷积核的构造如下,将方形卷积经过双线性差值得到,具体操作以3×3方形卷积为例:将3×3个格子抽象为9个点,以方形卷积的中心点为圆卷积核中心并建立坐标系,以中心点至一边点的长度为半径;因此由圆形公式x2+y2=r2,(x,y)代表点在坐标系的位置,r表示圆的半径,圆形卷积四个点的位置相对中心点的位置为剩余的5个点位置与原方形卷积核相同;而所选择的圆形卷积核的大小也可根据需求改成5×5,7×7等大小。在本发明实施例中采用如图5所示的3×3方形卷积核,经过双线性插值(bilinearinterpolation)后,得到对应的圆形卷积核。[0062]动态卷积核中椭圆卷积核的构造如下,将长方形卷积经过双线性差值得到,具体以3×4长方形卷积核为例:将3×4个格子抽象为12个点,以长方形卷积的中心点并建立坐标系,以长方形卷积核长的一半为长轴a,以宽的一半为短轴b;因此由椭圆形公式椭圆形卷积四个角点的位置相对中心点的位置为其中由于中间的两点在卷积过程中很难获取图形的边界纹理等特征信息,为减少计算参数两量,因此取消掉。剩余的6个点位置与原长方形卷积核相同。在本发明实施例中采用如图6所示的3×4长方形卷积核,经过双线性插值(bilinearinterpolation)后,得到对应的椭圆形卷积核。[0063]动态卷积核中的正方形卷积,本文经过在vgg网络结构的调整实验中发现,2×2正方形卷积核结构实验效果较好,因此选择使用。[0064]动态卷积核中的长方形卷积,本文经过在vgg网络结构的调整实验中发现,1×3长方形卷积核结构实验效果较好,因此选择使用。[0065]104、将所述浅层特征图输入到分支网络中,提取出待测图像的局部特征;[0066]在本发明实施例中,分支网络由2个自注意力机制transformer结构块和2个mbconv结构块串行组成,其中自注意力transformer结构块分为编码器和解码器,结构如图8所示,左边部分为编码器分为三个部分:输入部分、注意力机制、前馈神经网络。输入部分分为embedding和为位置嵌入,embedding是将信息切分为某个维度字向量,位置嵌入是采用如下公式得到:[0067]pe(pos,2i)=sin(pos/10002i/dmodel)[0068]pe(pos,2i+1)=cos(pos/10002i/dmodel)[0069]i表示字符编码的位置,通过将切分得到的字节与位置编码相融合便得到输入部分。而注意力机制的公式如下:[0070][0071]其中,q代表查询向量,k代表键向量,v代表值向量。图中的muti-headattention是将多个注意力模块连接起来形成多头注意力机制。而前馈神经网络由输入经过一个全连接层和一个norm层,其中输入加残差连接norm层组成。[0072]右边部分为解码器,结构由两个多头注意力机制和一个前馈神经网络组组成。mbconv卷积由一个瓶颈结构组成,由一个1×1、3×3、1×1卷积块组成,中间加入了一个senet结构,结构如图3所示。而本发明实施例中之所以选择mbconv,是因为mbconv与transformers的ffn模块都使用了“invertedbottleneck”设计,即将输入的通道大小扩展4倍,然后将之映射回原来的通道大小,这样可以使用残差连接,除了使用了“invertedbottleneck”,深度卷积核自注意力可以表示为一个预先定义好的感受野的数值加权和,卷积需要一个固定的卷积核,从局部感受野中获取信息:[0073][0074]其中xi,分别是i位置的输入和输出,表示i的相邻区域。[0075]为了比较,自注意力的感受野涵盖所有的空间位置,根据一对点(xi,yi)的归一化后的相似度来计算权值:[0076][0077]其中,代表全局位置空间信息。mbconv与自注意力的优缺点如下:[0078]首先,深度卷积核wi-j是一个与输入无关的静态参数,而注意力权重动态地依赖于输入的表征,自注意力可以很容易地获取不同空间位置的相互关系,但是,这种灵活性也带来了容易过拟合的风险,尤其是当数据有限时。[0079]其次,给定一对空间点(i,j),相应的卷积权重wi-j只关心二者的相对偏移,而不是i或j的具体数值,这通常是指平移等价性,可以在有限的数据集上提升泛化性,因为使用了绝对位置embedding,标准vit缺少该特性。[0080]最后,感受野大小也是自注意力和卷积的最根本区别,一般而言,较大的感受野能提供更多的语义信息,模型能力就更强。因此,人们将自注意力应用在视觉领域的关键原因就是,它能提供全局感受野。但是,较大的感受野需要非常多的计算量。以全局感受野为例,复杂度相对于空间大小是指数的,这就限制了它的应用范围。因此结合两种模块的优点,能更好的提取出图形的局部特征信息,经过softmax规划后得到:[0081][0082]最后选择c-c-t-t模式,即选择两个mbconv模块后接入rel-attention模块和ffn模块,具体构造图如图7所示。[0083]105、将所述局部特征和所述全局特征进行特征融合,并将融合特征输入到分类网络中,输出待测图像的分类识别信息。[0084]经过主干网络和分支网络的特征提取后,再连接一个全局池化层和全连接层构成分类网络,将待测图像的融合特征输入到分类网络中,就能够输出待测图像的分类识别信息。[0085]因此本发明的核心在于提出了一个非传统形状静态的卷积核,即自适应动态卷积核,对于图形来说,大部分的图形都并非正方形的形状,而且带有各种弧度的图形,因此针对不同的图像,使用不同形状的卷积核对图形进卷积扫描计算,就更能贴合原图形的特征,能够更好的提取出明显且有效的图像全局特征元素,利用这些特征元素,结合由分支网络所检测出来的图像局部关键点的特征进行融合,最终输入到分类器中,能更好地得出图像分类及属性特征的相关结果。在本发明中,若未特意强调说明,本发明的神经网络模型可以采用传统的vgg模型结构,也可以选择轻量级模型mobilenet结构进行搭建,本领域技术人员可以根据本发明的整体实施例和附图进行适应性理解。[0086]考虑到本发明最终获得的卷积神经网络模型需要经过训练后,才能用于图像分类识别,因此,图9给出了本发明优选实施例的一种基于自适应动态卷积网络的图像分类识别方法流程图。如图9所示,所述方法包括:搭建出自适应动态卷积网络,将数据集输入预处理块进行预处理得到图形参数信息和浅层特征图;将图形参数信息与原待测图结合输入至主干网络继续进行处理,提取全局特征;将预处理得到的浅层特征图经过分支网络继续进行处理,提取局部特征;将全局特征和局部特征融合后,使用全局池化层和全连接层构成的分类网络,完成对数据集的图像分类识别,在这个过程中,需要联合优化求解两条支路的交叉熵损失函数,对由全局支路和局部支路所构成的卷积神经网络进行迭代训练至收敛,保存训练好的卷积神经网络模型。[0087]其中,本发明所采用的数据集为imagenet数据集,该数据集imagenet由kaggle,anthonygoldbloom2010年在墨尔本创立的,主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台)继续维护。[0088]imagenet是一项持续的研究工作,旨在为世界各地的研究人员提供易于访问的图像数据库。目前imagenet中总共有14197122幅图像,总共分为21841个类别(synsets),大类别包括:amphibian、animal、appliance、bird、covering、device、fabric、fish、flower、food、fruit、fungus、furniture、geologicalformation、invertebrate、mammal、musicalinstrument、plant、reptile、sport、structure、tool、tree、utensil、vegetable、vehicle、person。[0089]对于目标的属性,目前标注过的synsets大约有400种,对于每一个synset,包含25种属性:a.颜色:黑色,蓝色,棕色,灰色,绿色,橙色,粉红色,红色,紫罗兰色,白色,黄色;b.图案(pattern):斑点,条纹;c.形状:长,圆形,长方形,方形;d.纹理(texture):毛茸茸,光滑,粗糙,有光泽,金属色等等。[0090]在本发明的一些实施例中,所述分类网络可以使用adam优化器进行训练调节,经过多轮训练后,神经网络趋于稳定,迭代过程结束,得到训练好的卷积神经网络模型,在本发明一些实施例中,由于本发明采用了神经网络对图像进行处理,而神经网络的模型精度会影响图像分类识别的效果,因此,本发明还利用了数据集对模型进行训练,使得训练后的模型能够完成本发明对图像分类识别的需求。[0091]本发明实施例还提供了一种基于自适应动态卷积网络的图像分类识别装置,所述装置包括:[0092]图像采集单元,用于获取待测图像;[0093]图像处理单元,用于将所述待测图像输入到预处理块进行预处理操作,得到待测图像的参数信息和浅层特征图;[0094]卷积匹配单元,用于将待测图像的参数信息与原待测图像进行结合得到带有特征标注的图像数据;将图像数据输入到主干网络的自适应动态卷积网络中,按照对应的参数信息选择对应形状的卷积核;[0095]全局特征提取单元,用于将待测图像按照选择出的对应形状的卷积核经过多层的卷积操作后得到语义丰富的全局特征;[0096]局部特征提取单元,用于将所述浅层特征图输入到分支网络中,提取出待测图像的局部特征;[0097]全局局部特征融合单元,用于将所述局部特征和所述全局特征进行特征融合;[0098]图像分类识别单元,用于将融合特征输入到分类网络中,输出待测图像的分类识别信息。[0099]本发明实施例还提供了一种计算机设备,包括至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行一种基于自适应动态卷积网络的图像分类识别方法。[0100]可以理解的是,本发明的一种基于自适应动态卷积网络的图像分类识别方法、装置和计算机设备的部分特征可以相互引用,例如方法中的全局支路对应系统的全局模块等等,本领域常规技术人员可以根据本发明实施例进行相应的理解和实施,本发明不再一一赘述。[0101]在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。[0102]在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。[0103]尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1