本发明属于模型优化领域,具体涉及卷积神经网络预训练模型的卷积核激活值正则化方法和系统。
背景技术:
1、卷积神经网络(convolutional neural network,cnn)是一类包含卷积计算并且含有深层次结构的深度神经网络。卷积神经网络隐含层中的卷积层与池化层交替连接,这些隐含层构成了卷积神经网络的核心模块,高层一般由全连接层构成。卷积神经网络目前在图片分类、相似图搜索、医学图像等领域都有着广泛的应用。
2、然而,尽管卷积神经网络具有强大图像数据处理能力,但在研究人员看来,它仍然有很大的优化空间,如设计不同的网络结构、设计不同的损失函数、使用设计更为复杂的优化器等。
3、近年来,卷积核激活值正则化方法的进展主要集中在模型量化、模型剪枝、模型蒸馏、网络结构设计、损失函数设计等方面,对预训练卷积神经网络模型的卷积核激活值进行正则处理的技术方向仍处于空白阶段。
4、模型量化通过将模型参数的精度降低到较低的位数,可以显著减少计算和存储资源的使用,而对模型性能的影响相对较小;模型剪枝通过去除不必要的连接和节点来减小模型的规模,从而降低资源需求;模型蒸馏通过将大型模型的知识转移给小型模型,以提高小型模型的性能。此外,通过网络结构设计可以使得模型在手机等低算力设备上进行模型的推理过程;针对数据的分布情况可以设计针对性的损失函数,使得模型可以更好地收敛。虽然这些技术对模型进行了一定程度的优化,但是并没有从卷积核激活值的角度出发,也并没有考虑到卷积核激活值对图像分类等下游任务的影响。
技术实现思路
1、本发明要克服现有技术的上述缺点,提供基于卷积神经网络预训练模型的卷积核激活值正则化方法和系统。
2、本发明从卷积神经网络模型卷积核产生的激活值的重要程度出发,设计了一种基于卷积神经网络预训练模型的卷积核激活值正则化方法。该方法的核心思想是分析卷积神经网络预训练模型中卷积核产生激活值的重要程度,并通过其重要程度对激活值进行进一步的正则化处理,得到新的激活值,并使用新的激活值代替原先的激活值,从而提升卷积神经网络预训练模型的性能。
3、基于卷积神经网络预训练模型的卷积核激活值正则化方法,包括以下步骤:
4、s1.预训练卷积神经网络模型。
5、给定任意的卷积神经网络模型(如alexnet或resnet),使用交叉熵损失函数在某个图像分类数据集(如cifar10或cifar100)上训练至模型收敛,得到一个预训练权重;该权重将作为下面步骤中模型的初始化。
6、s2.计算卷积核产生的激活值的重要程度。
7、s2.1使用预训练权重初始化卷积神经网络模型。
8、使用和步骤s1中相同的卷积神经网络,并使用步骤s1中得到的预训练权重初始化卷积神经网络模型;
9、s2.2获取卷积核激活值对应分布的均值和方差。
10、在卷积神经网络中,通过卷积核和批归一化层之后的卷积核激活值呈高斯分布。对于卷积神经网络第l层卷积层上的卷积核k,其激活值对应的高斯分布的均值设为μk,标准差设为σk,这两个参数值在第l层卷积层之后的批归一化层的模型参数中直接获取;
11、s2.3计算卷积核产生激活值的重要程度。
12、对于单张图像,该图像在第l层卷积层的卷积核k上产生的激活值设为ak;如果激活值ak越靠近对应卷积核k的均值μk,这个激活值需要给予较大的权重;如果激活值ak越远离卷积核k的均值μk,则该激活值需要给予较小的权重;根据该形式下的卷积核激活值重要程度的定义,可以使用高斯函数积分的变体计算激活值的重要程度:如果激活值小于等于均值,则取高斯函数在激活值位置的积分;如果激活值大于均值,则取激活值关于均值对称位置的积分;公式化表述如下:
13、对于单张图像在卷积核k上产生的激活值ak,如果ak≤μk,则权重值wk的计算公式如下:
14、
15、其中,μk为卷积核k的均值,σk为卷积核k的方差,exp代表以自然常数e为底的指数函数,π代表圆周率;上述表达式可以使用误差函数简化:
16、
17、其中,ak代表卷积核k产生的激活值,μk为卷积核k的均值,σk为卷积核k的方差,erf代表误差函数;
18、对于单张图像在卷积核k产生的激活值ak,如果ak>μk,权重值wk为激活值ak关于均值μk对称位置的高斯函数积分,计算公式如下:
19、
20、综上所述,单张图像在卷积核k上产生的激活值的重要程度如下:
21、
22、s3.正则化处理卷积核产生的激活值,产生新的激活值,使用新的激活值代替原先的激活值。
23、单张图像在第l层卷积层的卷积核k上产生的激活值为ak,对其正则化处理之后的新激活值为wk*ak,并使用新激活值代替原先的激活值,其中wk是通过公式(4)计算得到的激活值ak的重要程度。之后使用交叉熵损失函数,并通过反向传播算法更新模型参数,从而提升模型的性能。
24、本发明的创新点是:从预训练的卷积神经网络模型权重中直接提取卷积核激活值对应分布的均值和方差,不需要给原始的卷积神经网络模型添加其他的模块,不增加模型的参数量;激活值的权重通过高斯函数对应的积分进行计算。
25、本发明的工作原理是:当卷积核产生的激活值越靠近卷积核对应分布的均值,则说明该激活值是一个处于合理范围的值,并且其重要程度较高;如果激活值越远离卷积核对应分布的均值,则说明该激活值是一个异常值,其重要程度较低。通过计算激活值的重要程度,可以对激活值进行正则化处理,使用正则化处理之后的激活值代替原先的激活值,使得卷积神经网络更加关注有关特征,并过滤无关特征。
26、本发明的优点是:本方法不需要为卷积神经网络模型添加额外的模块,不会增加模型的参数量;经过本方法处理之后的新激活值能够更加关注和图像分类任务有关的特征,同时抑制无关特征。
1.基于卷积神经网络预训练模型的卷积核激活值正则化方法,包括以下步骤:
2.如权利要求1所述的基于卷积神经网络预训练模型的卷积核激活值正则化方法,其特征在于:步骤s1所述的卷积神经网络模型是alexnet或resnet。
3.如权利要求1所述的基于卷积神经网络预训练模型的卷积核激活值正则化方法,其特征在于:步骤s1所述的图像分类数据集是cifar10或cifar100。