本申请涉及模型设计,特别是涉及一种模型优化方法、图像处理方法及相关装置。
背景技术:
1、结构重参数化(structural re-parameterization)指的是首先构造一系列结构(一般用于训练),并将其参数等价转换为另一组参数(一般用于推理),从而将这一系列结构等价转换为另一系列结构。深度可分离卷积(depthwise separable convolution)是卷积神经网络中对标准的卷积计算进行改进所得到的算法,旨在解耦标准卷积在空间和通道维度上的计算过程,可大大减少卷积计算所需要的参数量,弥补算法在有限计算资源设备上的部署问题。
2、上述两项技术主要应用在部署设备资源有限,但又需要保持高算法性能部署的场景,大致表现为训练过程利用丰富的计算资源以获取高性能大模型,随后通过结构重参数化技术,将大模型中部分结构权重(参数量大)用等价计算替换为简单结构权重(参数量小),最终将小模型部署在设备端使用。理论上,替换过程最优可至无损,且替换后可直接部署,无需微调。但是,发明人发现现有的网络的量化损失较大。
技术实现思路
1、本申请提供一种模型优化方法、图像处理方法及相关装置,可以降低网络的量化损失。
2、为达到上述目的,本申请提供一种模型优化方法,该方法包括:
3、利用训练图像集对多分支骨干网络进行训练,得到训练后的多分支骨干网络的模型参数,其中,所述多分支骨干网络包括至少一个多分支单元,所述多分支单元包括多个并行的支路、将所述多个并行的支路的输出进行融合的融合层、以及对所述融合层的输出进行归一化处理的归一化层,其中,至少部分支路包括卷积层;
4、将至少部分所述多分支单元中的所述多个并行的支路、所述融合层和所述归一化层融合为融合卷积层,所述融合卷积层的参数是通过结构重参数化技术合并所述多个并行的支路、所述融合层和所述归一化层的参数得到的;
5、将所述多分支骨干网络中的至少部分所述多分支单元替换成对应的所述融合卷积层,得到优化后的轻量化网络。
6、在一实施例中,每个多分支单元中的至少部分所述支路的结构不相同。
7、在一实施例中,每个多分支单元中的多个并行支路包括直连支路和/或1*1的卷积支路;
8、其中,所述直连支路和所述1*1的卷积支路中未设置有归一化层。
9、在一实施例中,所述将至少部分所述多分支单元中的所述多个并行的支路、所述融合层和所述归一化层融合为融合卷积层,包括:
10、将每个所述多分支单元中的各个支路转化为各个第一卷积层;
11、通过结构重参数化技术将每个所述多分支单元的转换后的多个所述第一卷积层和所述融合层进行融合,得到一个第二卷积层;
12、通过结构重参数化技术将每个所述多分支单元的所述第二卷积层和所述归一化层融合,得到所述融合卷积层。
13、在一实施例中,所述利用训练图像集对多分支骨干网络进行训练,得到训练后的多分支骨干网络的模型参数,包括:
14、利用所述多分支骨干网络对所述训练图像集进行处理,基于所述多分支骨干网络的输出特征计算网络损失;
15、利用所述网络损失并通过后向传播方法计算出所述多分支单元中多个所述支路各自的梯度;
16、基于各个所述支路的梯度和梯度更新权重,优化各个所述支路的参数。
17、在一实施例中,所述方法还包括:
18、利用每个所述多分支单元的参数计算正则化损失;
19、所述利用所述网络损失并通过后向传播方法计算出所述多分支单元中多个并行的支路各自的梯度,包括:
20、利用所述网络损失和所述正则化损失,计算出每个所述多分支单元中多个所述支路各自的梯度。
21、在一实施例中,所述多分支单元中至少部分所述支路的梯度更新权重不相同,所述支路的梯度更新权重与所述支路的重要性相关。
22、为达到上述目的,本申请还提供一种图像处理方法,该方法包括:
23、确定待处理图像;
24、将所述待处理图像输入图像处理模型,以得到待处理图像的处理结果,其中,所述图像处理模型包括利用上述的模型优化方法优化的轻量化网络。
25、为达到上述目的,本申请还提供一种电子设备,该电子设备包括相互连接的处理器和存储器,所述存储器用于存储指令/程序数据,所述处理器用于执行所述指令/程序数据以实现上述的方法的步骤。
26、为达到上述目的,本申请还提供一种计算机可读存储介质,其用于存储指令/程序数据,指令/程序数据能够被执行以实现上述方法。
27、本申请利用训练图像集对多分支骨干网络进行训练,得到训练后的多分支骨干网络的模型参数,并且通过结构重参数化技术将多分支骨干网络中的多分支单元中的多个并行的支路、融合层和归一化层融合成一个融合卷积层,减小网络的参数量,以便实现在低算力设备上部署智能算法,并且通过归一化层将融合卷积层的参数限定到区间范围内,调整多分支重参数化后的参数分布,使得融合卷积层的参数分布相对较为均匀,降低了模型的量化损失。
1.一种模型优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的模型优化方法,其特征在于,每个多分支单元中的至少部分所述支路的结构不相同。
3.根据权利要求2所述的模型优化方法,其特征在于,每个多分支单元中的多个并行支路包括直连支路和/或1*1的卷积支路;
4.根据权利要求1所述的模型优化方法,其特征在于,所述将至少部分所述多分支单元中的所述多个并行的支路、所述融合层和所述归一化层融合为融合卷积层,包括:
5.根据权利要求1所述的模型优化方法,其特征在于,所述利用训练图像集对多分支骨干网络进行训练,得到训练后的多分支骨干网络的模型参数,包括:
6.根据权利要求5所述的模型优化方法,其特征在于,所述方法还包括:
7.根据权利要求5所述的模型优化方法,其特征在于,所述多分支单元中至少部分所述支路的梯度更新权重不相同,所述支路的梯度更新权重与所述支路的重要性相关。
8.一种图像处理方法,其特征在于,所述方法包括:
9.一种电子设备,其特征在于,所述电子设备包括相互连接的处理器和存储器,所述存储器用于存储指令/程序数据,所述处理器用于执行所述指令/程序数据以实现权利要求1-8任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有指令/程序数据,其特征在于,所述指令/程序数据被执行时实现权利要求1-8中任一项所述方法的步骤。