深度学习网络模型优化方法、装置及相关设备与流程

文档序号:17625153发布日期:2019-05-10 23:34阅读:195来源:国知局
深度学习网络模型优化方法、装置及相关设备与流程

本发明涉及深度学习技术领域,具体涉及一种深度学习网络模型优化方法、装置、计算机装置和计算机可读存储介质。



背景技术:

人工智能机器学习领域中,深度学习网络模型的应用已经非常广泛。然而,深度学习网络模型在实战部署时往往会由于底层平台处理的效率受限引起各种问题,例如实时性差、处理能力不足等。因此,需要一种对深度学习网络模型的进行优化的方法,提高深度学习网络模型的执行效率和计算速度,提升深度学习网络模型在实际应用中的体验。



技术实现要素:

鉴于以上内容,有必要提出一种深度学习网络模型优化方法、装置、计算机装置和计算机可读存储介质,其可以提高深度学习网络模型的卷积层的执行效率,加速卷积层的计算速率,从而提升整个深度学习网络模型的执行效率。

本申请的第一方面提供一种深度学习网络模型优化方法,所述方法包括:

获取深度学习网络模型的卷积层的输入数据,所述输入数据具有宽度、高度、通道数三个维度;

根据所述卷积层的卷积核的大小确定每个向量计算周期所述输入数据的加载次数;

在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,得到所述预定区域的向量数据;

将所述预定区域的向量数据与所述卷积核对应相乘并累加,得到所述预定区域的向量输出。

另一种可能的实现方式中,所述深度学习网络模型为mobilenet网络模型。

另一种可能的实现方式中,所述每个向量计算周期所述输入数据的加载次数等于所述卷积核的宽度与高度的乘积。

另一种可能的实现方式中,所述向量位宽根据所述输入数据的数据点的位数确定。

另一种可能的实现方式中,所述方法还包括:

根据所述输入数据不同区域的向量输出生成初始输出特征图。

另一种可能的实现方式中,所述方法还包括:

对所述初始输出特征图进行逐点卷积,得到目标输出特征图。

本申请的第二方面提供一种深度学习网络模型优化装置,所述装置包括:

获取单元,用于获取深度学习网络模型的卷积层的输入数据,所述输入数据具有宽度、高度、通道数三个维度;

确定单元,用于根据所述卷积层的卷积核的大小确定每个向量计算周期所述输入数据的加载次数;

加载单元,用于在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,得到所述预定区域的向量数据;

计算单元,用于将所述预定区域的向量数据与所述卷积核对应相乘并累加,得到所述预定区域的向量输出。

另一种可能的实现方式中,所述深度学习网络模型为mobilenet网络模型。

另一种可能的实现方式中,所述每个向量计算周期所述输入数据的加载次数等于所述卷积核的宽度与高度的乘积。

另一种可能的实现方式中,所述向量位宽根据所述输入数据的数据点的位数确定。

另一种可能的实现方式中,所述装置还包括:

生成单元,用于根据所述输入数据不同区域的向量输出生成初始输出特征图。

另一种可能的实现方式中,所述装置还包括:

处理单元,用于对所述初始输出特征图进行逐点卷积,得到目标输出特征图。

本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述深度学习网络模型优化方法。

本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述深度学习网络模型优化方法。

本发明获取深度学习网络模型的卷积层的输入数据,所述输入数据具有宽度、高度、通道数三个维度;根据所述卷积层的卷积核的大小确定每个向量计算周期所述输入数据的加载次数;在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,得到所述预定区域的向量数据;将所述预定区域的向量数据与所述卷积核对应相乘并累加,得到所述预定区域的向量输出。

本发明深度学习网络模型优化方法每个向量计算周期在输入数据的通道维度上加载预定次数的向量数据,在通道数足够的情况下,能够避免出现了向量位宽不足的问题。加载的向量数据分别与对应的卷积核对应相乘并累加,计算1个通道维度的向量输出,共计消耗9次加载和9次乘法累加,指令数目并未增加,但在网络深度加深后大大提升了小尺寸特征图的计算的效率,几乎没有任何浪费的情况。特别是在卷积的步长不为1的情况下,优化性能优势更为明显。

本发明深度学习网络模型优化方法可以大大提高深度学习网络模型的卷积层的执行效率,加速所述卷积层的计算速率,从而提升整个深度学习网络模型的执行效率,满足深度学习网络模型在实际应用场景中的实时性需求,使深度学习网络模型适用于服务器端、pc终端、智能终端等设备。

附图说明

图1是本发明实施例一提供的深度学习网络模型优化方法的流程图。

图2是本发明实施例二提供的深度学习网络模型优化装置的结构图。

图3是本发明实施例三提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

优选地,本发明的深度学习网络模型优化方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字处理器(digitalsignalprocessor,dsp)、嵌入式设备等。

所述计算机装置可以是,但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,平板电脑、智能手机、个人数字助理(personaldigitalassistant,pda)、智能穿戴式设备等。

实施例一

图1是本发明实施例一提供的深度学习网络模型优化方法的流程图。所述深度学习网络模型优化方法应用于计算机装置。所述深度学习网络模型优化方法对深度学习网络模型的卷积层的执行效率进行优化,加速所述卷积层的计算速率,从而提升整个深度学习网络模型的执行效率,满足深度学习网络模型在实际应用场景中的实时性需求。

在本实施例中,所述深度学习网络模型优化方法应用于mobilenet网络模型中。mobilenet是为移动和嵌入式设备提出的高效模型。mobilenet基于流线型架构(streamlined),使用深度可分离卷积(depthwiseseparableconvolutions)来构建轻量级深度神经网络。深度可分离卷积包括深度卷积(depthwiseconvolution)和逐点卷积(pointwiseconvolution)两部分,能够大幅度降低参数量和计算量。所述深度学习网络模型优化方法用在mobilenet的深度卷积中。可以理解,所述深度学习网络模型优化方法应用于其他网络模型中。

如图1所示,所述深度学习网络模型优化方法具体包括以下步骤:

101:获取深度学习网络模型的卷积层的输入数据,所述输入数据具有宽度、高度、通道数三个维度。

所述卷积层可以位于所述深度学习网络模型的中层或高层。

所述输入数据可以是原始数据(例如原始图像)经过多次卷积后得到的特征图(featuremap)。所述输入数据具有三个维度,即宽度、高度、通道数。例如,所述输入数据的大小为32*32*64,即宽度为32,高度为32,通道数为64。又如,所述输入数据的大小为16*16*128,即宽度为16,高度为16,通道数为128。再如,所述输入数据的大小为8*8*256,即宽度为8,高度为8,通道数为256。

在本实施例中,所述卷积层可以是mobilenet网络模型的深度卷积网络层。

102:根据所述卷积层的卷积核的大小确定每个向量计算周期所述输入数据的加载次数。

每个向量计算周期所述输入数据的加载次数由所述卷积层的卷积核的大小确定。在本实施例中,每个向量计算周期所述输入数据的加载次数等于所述卷积核的宽度与高度的乘积。例如,所述卷积层的卷积核的大小为3*3,即宽度为3,高度为3,则所述加载次数为3*3=9。又如,所述卷积层的卷积核的大小为5*5,即宽度为5,高度为5,则所述加载次数为5*5=25。

103:在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,得到所述预定区域的向量数据。

加载得到的所述向量数据的个数等于所述加载次数。例如,所述加载次数为9,则加载得到9个向量数据。

在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,每次取预定的宽度和高度,保持宽度和高度不变,按照所述向量位宽取预定通道数的所述输入数据的数据点进行加载。所述预定的宽度、高度和通道数由所述预定区域确定。例如,假设所述输入数据的宽度为32,高度为32,通道数为64,所述输入数据的数据点表示为xi,j,k(i=0,1,2,...,31,j=0,1,2,...,31,k=0,1,2,...,31),向量位宽为32,每个向量计算周期的加载次数为9,则可以第1次加载x0,0,0,x0,0,1,x0,0,2,...,x0,0,31,得到向量数据v00=(x0,0,0,x0,0,1,x0,0,2,...,x0,0,31);第2次加载x0,1,0,x0,1,1,x0,1,2,...,x0,1,31,得到向量数据v01=(x0,1,0,x0,1,1,x0,1,2,...,x0,1,31);第3次加载x0,2,0,x0,2,1,x0,2,2,...,x0,2,31,得到向量数据v02=(x0,2,0,x0,2,1,x0,2,2,...,x0,2,31);第4次加载x1,0,0,x1,0,1,x1,0,2,...,x1,0,31,得到向量数据v03=(x1,0,0,x1,0,1,x1,0,2,...,x1,0,31);第5次加载x1,1,0,x1,1,1,x1,1,2,...,x1,1,31,得到向量数据v04=(x1,1,0,x1,1,1,x1,1,2,...,x1,1,31);第6次加载x1,2,0,x1,2,1,x1,2,2,...,x1,2,31,得到向量数据v05=(x1,2,0,x1,2,1,x1,2,2,...,x1,2,31);第7次加载x2,0,0,x2,0,1,x2,0,2,...,x2,0,31,得到向量数据v06=(x2,0,0,x2,0,1,x2,0,2,...,x2,0,31);第8次加载x2,1,0,x2,1,1,x2,1,2,...,x2,1,31,得到向量数据v07=(x2,1,0,x2,1,1,x2,1,2,...,x2,1,31);第9次加载x2,2,0,x2,2,1,x2,2,2,...,x2,2,31,得到向量数据v08=(x2,2,0,x2,2,1,x2,2,2,...,x2,2,31)。

加载所述输入数据是将所述输入数据加载至计算机装置的内存。所述向量位宽就是所述计算机装置支持向量计算的位宽,即所述计算机装置进行向量计算的并发数。在本实施例中,所述向量位宽可以是16、32或者64。

在本实施例中,所述向量位宽可以根据所述输入数据的数据点的位数确定。所述输入数据的数据点的位数是指每个数据点占用存储空间的位数,即比特数。在本实施例中,所述输入数据的数据点的位数越多,则所述向量位宽越小。例如,若所述输入数据的数据点的位数为16位(即2个字节),则所述向量位宽取16。若所述输入数据的数据点的位数为8位(即1个字节),则所述向量位宽取32。

可以按照预定运算策略确定每个向量计算周期对应的所述预定区域,目标是经过多个向量计算周期(即重复步骤103-104)计算出所述卷积层的卷积运算所需要的所有向量输出。

在本实施例中,可以对所述输入数据的边缘进行填充,在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载填充后的所述输入数据预定区域的数据点,得到所述预定区域的向量数据。

104:将所述预定区域的向量数据与所述卷积核对应相乘并累加,得到所述预定区域的向量输出。

例如,所述卷积核的大小为3*3,所述卷积核的数据点为f0,0,f0,1,f0,2,f1,0,f1,1,f1,2,f2,0,f2,1,f2,2,9次加载得到的向量数据为(v00,v01,v02,v03,v04,v05,v06,v07,v08),则向量输出为(x0,0,0*f0,0+x0,1,0f0,1+x0,2,0*f0,2+x1,0,0*f1,0+x1,1,0*f1,1+x1,2,0*f1,2+x2,0,0*f2,0+x2,1,0*f2,1+x2,2,0*f2,2),(x0,0,1*f0,0+x0,1,1*f0,1+x0,2,1*f0,2+x1,0,1*f1,0+x1,1,1*f1,1+x1,2,1*f1,2+x2,0,1*f2,0+x2,1,1*f2,1+x2,2,1*f2,2),(x0,0,2*f0,0+x0,1,2*f0,1+x0,2,2*f0,2+x1,0,2*f1,0+x1,1,2*f1,1+x1,2,2*f1,2+x2,0,2*f2,0+x2,1,2*f2,1+x2,2,2*f2,2),...,(x0,0,31*f0,0+x0,1,31*f0,1+x0,2,31*f0,2+x1,0,31*f1,0+x1,1,31*f1,1+x1,2,31*f1,2+x2,0,31*f2,0+x2,1,31*f2,1+x2,2,31*f2,2)共32个数。

实施例一的深度学习网络模型优化方法获取深度学习网络模型的卷积层的输入数据,所述输入数据具有宽度、高度、通道数三个维度;根据所述卷积层的卷积核的大小确定每个向量计算周期所述输入数据的加载次数;在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,得到所述预定区域的向量数据;将所述预定区域的向量数据与所述卷积核对应相乘并累加,得到所述预定区域的向量输出。

现有的深度学习网络模型的向量计算处理,通常都是在宽度方向上做向量并发计算。例如,在做3*3的卷积时,一般先加载输入数据的一个向量位宽的向量数据va,然后通过向量指令左移1次和左移2次分别得到2个向量数据vb和vc,然后将向量数据va、vb、vc与卷积核对应相乘并累加,得到卷积核第1行的3个系数的乘法累加值。也就是说,通过1次加载、2次移位、3次乘法累加得到卷积核第1行的3个系数的乘法累加值。如果要完成输入数据的一个3*3区域的卷积,则需要3次加载、6次移位、9次乘法累加。执行的指令数目虽不多,但是随着网络层不断加深,特征的尺寸(即输入数据的宽度和高度)会逐步缩小,可能会远小于向量位宽,因此会造成大量的浪费,一次向量计算只有部分的数据有用,计算效率大打折扣。例如,输入数据的宽度为8,当在宽度方向上做向量位宽为32的向量并发计算时,一次向量计算只能加载8个输入数据的数据点,因此一次向量计算有24个数据不可用。另外一方面,在卷积计算的步长不为1的情况下,在宽度方向上做向量并发计算会对输入数据的每个数据点进行计算,因此会存在多算不需要的特征点的情况,导致计算效率成倍降低。

而实施例一的深度学习网络模型优化方法每个向量计算周期在输入数据的通道维度上加载预定次数(例如9次)的向量数据(例如v00,v01,v02,v03,v04,v05,v06,v07,v08),在通道数足够的情况下,能够避免出现一次向量计算只有部分的数据有用的问题。例如,输入数据的通道数为64,向量位宽为32,当在宽度方向上做向量位宽为32的向量并发计算时,一次向量计算可以加载32个输入数据的数据点,不存在不可用数据。加载的向量数据分别与对应的卷积核(例如3*3卷积核)对应相乘并累加,计算1个通道维度的向量输出的指令数目并未增加(例如3*3的卷积核共计消耗9次加载和9次乘法累加),但在网络深度加深后大大提升了小尺寸特征图(即输入数据)的计算的效率,几乎没有任何浪费的情况(一般网络模型加深后通道维度都是向量位宽的整数倍)。特别是在卷积的步长不为1的情况下,优化性能优势更为明显。

实施例一的深度学习网络模型优化方法可以大大提高深度学习网络模型的卷积层的执行效率,加速卷积层的计算速率,从而提升整个深度学习网络模型的执行效率,满足深度学习网络模型在实际应用场景中的实时性需求,使深度学习网络模型适用于服务器端、pc终端、智能终端等设备。

实施例一的所述深度学习网络模型优化方法可以用于图像处理、语音处理、文本处理等应用中。

为了验证本发明深度学习网络模型优化方法的有效性,分别利用优化前和优化后的深度学习网络模型对不同尺寸的输入数据进行了对比试验,试验结果如表1所示。

表1优化前后的比较

根据表1可知,对深度学习网络模型进行优化后,向量计算的时间显著降低,并且通道数越大,优化效果越佳。在步长不为1的情况下,优化的性能优势更为明显。

在另一实施例中,所述深度学习网络模型优化方法还可以包括:根据所述输入数据不同区域的向量输出生成初始输出特征图。重复上述步骤103-104,加载所述输入数据不同区域的数据点,得到所述输入数据不同区域的向量数据,将所述输入数据不同区域的向量数据与所述卷积核对应相乘并累计,就可以得到所述输入数据不同区域的向量输出。根据所述输入数据不同区域的向量输出即可生成所述初始输出特征图。

在另一实施例中,所述深度学习网络模型优化方法还可以包括:对所述初始输出特征图进行逐点卷积,得到目标输出特征图。逐点卷积是利用大小为1*1的卷积核进行传统的卷积,对所述初始输出特征图进行融合。

实施例二

图2为本发明实施例二提供的深度学习网络模型优化装置的结构图。如图2所示,所述深度学习网络模型优化装置10可以包括:获取单元201、确定单元202、加载单元203、计算单元204。

获取单元201,用于获取深度学习网络模型的卷积层的输入数据,所述输入数据具有宽度、高度、通道数三个维度。

所述卷积层可以位于所述深度学习网络模型的中层或高层。

所述输入数据可以是原始数据(例如原始图像)经过多次卷积后得到的特征图(featuremap)。所述输入数据具有三个维度,即宽度、高度、通道数。例如,所述输入数据的大小为32*32*64,即宽度为32,高度为32,通道数为64。又如,所述输入数据的大小为16*16*128,即宽度为16,高度为16,通道数为128。再如,所述输入数据的大小为8*8*256,即宽度为8,高度为8,通道数为256。

在本实施例中,所述卷积层可以是mobilenet网络模型的深度卷积网络层。

确定单元202,用于根据所述卷积层的卷积核的大小确定每个向量计算周期所述输入数据的加载次数。

每个向量计算周期所述输入数据的加载次数由所述卷积层的卷积核的大小确定。在本实施例中,每个向量计算周期所述输入数据的加载次数等于所述卷积核的宽度与高度的乘积。例如,所述卷积层的卷积核的大小为3*3,即宽度为3,高度为3,则所述加载次数为3*3=9。又如,所述卷积层的卷积核的大小为5*5,即宽度为5,高度为5,则所述加载次数为5*5=25。

加载单元203,用于在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,得到所述预定区域的向量数据。

加载得到的所述向量数据的个数等于所述加载次数。例如,所述加载次数为9,则加载得到9个向量数据。

在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,每次取预定的宽度和高度,保持宽度和高度不变,按照所述向量位宽取预定通道数的所述输入数据的数据点进行加载。所述预定的宽度、高度和通道数由所述预定区域确定。例如,假设所述输入数据的宽度为32,高度为32,通道数为64,所述输入数据的数据点表示为xi,j,k(i=0,1,2,...,31,j=0,1,2,...,31,k=0,1,2,...,31),向量位宽为32,每个向量计算周期的加载次数为9,则可以第1次加载x0,0,0,x0,0,1,x0,0,2,...,x0,0,31,得到向量数据v00=(x0,0,0,x0,0,1,x0,0,2,...,x0,0,31);第2次加载x0,1,0,x0,1,1,x0,1,2,...,x0,1,31,得到向量数据v01=(x0,1,0,x0,1,1,x0,1,2,...,x0,1,31);第3次加载x0,2,0,x0,2,1,x0,2,2,...,x0,2,31,得到向量数据v02=(x0,2,0,x0,2,1,x0,2,2,...,x0,2,31);第4次加载x1,0,0,x1,0,1,x1,0,2,...,x1,0,31,得到向量数据v03(x1,0,0,x1,0,1,x1,0,2,...,x1,0,31);第5次加载x1,1,0,x1,1,1,x1,1,2,...,x1,1,31,得到向量数据v04=(x1,1,0,x1,1,1,x1,1,2,...,x1,1,31);第6次加载x1,2,0,x1,2,1,x1,2,2,...,x1,2,31,得到向量数据v05=(x1,2,0,x1,2,1,x1,2,2,...,x1,2,31);第7次加载x2,0,0,x2,0,1,x2,0,2,...,x2,0,31,得到向量数据v06=(x2,0,0,x2,0,1,x2,0,2,...,x2,0,31);第8次加载x2,1,0,x2,1,1,x2,1,2,...,x2,1,31,得到向量数据v07=(x2,1,0,x2,1,1,x2,1,2,...,x2,1,31);第9次加载x2,2,0,x2,2,1,x2,2,2,...,x2,2,31,得到向量数据v08=(x2,2,0,x2,2,1,x2,2,2,...,x2,2,31)。

加载所述输入数据是将所述输入数据加载至计算机装置的内存。所述向量位宽就是所述计算机装置支持向量计算的位宽,即所述计算机装置进行向量计算的并发数。在本实施例中,所述向量位宽可以是16、32或者64。

在本实施例中,所述向量位宽可以根据所述输入数据的数据点的位数确定。所述输入数据的数据点的位数是指每个数据点占用存储空间的位数,即比特数。在本实施例中,所述输入数据的数据点的位数越多,则所述向量位宽越小。例如,若所述输入数据的数据点的位数为16位(即2个字节),则所述向量位宽取16。若所述输入数据的数据点的位数为8位(即1个字节),则所述向量位宽取32。

可以按照预定运算策略确定每个向量计算周期对应的所述预定区域,经过多个向量计算周期计算出所述卷积层的卷积运算所需要的所有向量输出。

在本实施例中,可以对所述输入数据的边缘进行填充,在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载填充后的所述输入数据预定区域的数据点,得到所述预定区域的向量数据。

计算单元204,用于将所述预定区域的向量数据与所述卷积核对应相乘并累加,得到所述预定区域的向量输出。

例如,所述卷积核的大小为3*3,所述卷积核的数据点为f0,0,f0,1,f0,2,f1,0,f1,1,f1,2,f2,0,f2,1,f2,2,9次加载得到的向量数据为(v00,v01,v02,v03,v04,v05,v06,v07,v08),则向量输出为(x0,0,0*f0,0+x0,i,0*f0,1+x0,2,0*f0,2+x1,0,0*f1,0+x1,1,0*f1,1+x1,2,0*f1,2+x2,0,0*f2,0+x2,1,0*f2,1+x2,2,0*f2,2),(x0,0,1*f0,0+x0,1,1*f0,1+x0,2,1*f0,2+x1,0,1*f1,0+x1,1,1*f1,1+x1,2,1*f1,2+x2,0,1*f2,0+x2,1,1*f2,1+x2,2,1*f2,2),(x0,0,2*f0,0+x0,1,2*f0,1+x0,2,2*f0,2+x1,0,2*f1,0+x1,1,2*f1,1+x1,2,2*f1,2+x2,0,2*f2,0+x2,1,2*f2,1+x2,2,2*f2,2),...,(x0,0,31*f0,0+x0,1,31*f0,1+x0,2,31*f0,2+x1,0,31*f1,0+x1,1,31*f1,1+x1,2,31*f1,2+x2,0,31*f2,0+x2,1,31*f2,1+x2,2,31*f2,2)共32个数。

实施例二的深度学习网络模型优化装置10获取深度学习网络模型的卷积层的输入数据,所述输入数据具有宽度、高度、通道数三个维度;根据所述卷积层的卷积核的大小确定每个向量计算周期所述输入数据的加载次数;在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,得到所述预定区域的向量数据;将所述预定区域的向量数据与所述卷积核对应相乘并累加,得到所述预定区域的向量输出。

现有的深度学习网络模型的向量计算处理,通常都是在宽度方向上做向量并发计算。例如,在做3*3的卷积时,一般先加载输入数据的一个向量位宽的向量数据va,然后通过向量指令左移1次和左移2次分别得到2个向量数据vb和vc,然后将向量数据va、vb、vc与卷积核对应相乘并累加,得到卷积核第1行的3个系数的乘法累加值。也就是说,通过1次加载、2次移位、3次乘法累加得到卷积核第1行的3个系数的乘法累加值。如果要完成输入数据的一个3*3区域的卷积,则需要3次加载、6次移位、9次乘法累加。执行的指令数目虽不多,但是随着网络层不断加深,特征的尺寸(即输入数据的宽度和高度)会逐步缩小,可能会远小于向量位宽,因此会造成大量的浪费,一次向量计算只有部分的数据有用,计算效率大打折扣。例如,输入数据的宽度为8,当在宽度方向上做向量位宽为32的向量并发计算时,一次向量计算只能加载8个输入数据的数据点,因此一次向量计算有24个数据不可用。另外一方面,在卷积计算的步长不为1的情况下,在宽度方向上做向量并发计算会对输入数据的每个数据点进行计算,因此会存在多算不需要的特征点的情况,导致计算效率成倍降低。

而实施例二的深度学习网络模型优化装置10每个向量计算周期在输入数据的通道维度上加载预定次数(例如9次)的向量数据(例如v00,v01,v02,v03,v04,v05,v06,v07,v08),在通道数足够的情况下,能够避免出现一次向量计算只有部分的数据有用的问题。例如,输入数据的通道数为64,向量位宽为32,当在宽度方向上做向量位宽为32的向量并发计算时,一次向量计算可以加载32个输入数据的数据点,不存在不可用数据。加载的向量数据分别与对应的卷积核(例如3*3卷积核)对应相乘并累加,计算1个通道维度的向量输出的指令数目并未增加(例如3*3的卷积核共计消耗9次加载和9次乘法累加),但在网络深度加深后大大提升了小尺寸特征图(即输入数据)的计算的效率,几乎没有任何浪费的情况(一般网络模型加深后通道维度都是向量位宽的整数倍)。特别是在卷积的步长不为1的情况下,优化性能优势更为明显。

实施例二的深度学习网络模型优化装置10可以大大提高深度学习网络模型的卷积层的执行效率,加速卷积层的计算速率,从而提升整个深度学习网络模型的执行效率,满足深度学习网络模型在实际应用场景中的实时性需求,使深度学习网络模型适用于服务器端、pc终端、智能终端等设备。

实施例二的深度学习网络模型优化装置10可以用于图像处理、语音处理、文本处理等应用中。

在另一实施例中,所述深度学习网络模型优化装置10还可以包括:生成单元,用于根据所述输入数据不同区域的向量输出生成初始输出特征图。加载单元203加载所述输入数据不同区域的数据点,得到所述输入数据不同区域的向量数据,计算单元204将所述输入数据不同区域的向量数据与所述卷积核对应相乘并累计,就可以得到所述输入数据不同区域的向量输出。根据所述输入数据不同区域的向量输出即可生成所述初始输出特征图。

在另一实施例中,所述深度学习网络模型优化装置10还可以包括:处理单元,用于对所述初始输出特征图进行逐点卷积,得到目标输出特征图。逐点卷积是利用大小为1*1的卷积核进行传统的卷积,对所述初始输出特征图进行融合。

实施例三

本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述道路识别方法实施例中的步骤,例如图1所示的步骤101-104:

101,获取深度学习网络模型的卷积层的输入数据,所述输入数据具有宽度、高度、通道数三个维度;

102,根据所述卷积层的卷积核的大小确定每个向量计算周期所述输入数据的加载次数;

103,在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,得到所述预定区域的向量数据;

104,将所述预定区域的向量数据与所述卷积核对应相乘并累加,得到所述预定区域的向量输出。

或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的单元201-204:

获取单元201,用于获取深度学习网络模型的卷积层的输入数据,所述输入数据具有宽度、高度、通道数三个维度;

确定单元202,用于根据所述卷积层的卷积核的大小确定每个向量计算周期所述输入数据的加载次数;

加载单元203,用于在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,得到所述预定区域的向量数据;

计算单元204,用于将所述预定区域的向量数据与所述卷积核对应相乘并累加,得到所述预定区域的向量输出。

实施例四

图3为本发明实施例四提供的计算机装置的示意图。所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机程序40,例如深度学习网络模型优化程序。所述处理器30执行所述计算机程序40时实现上述深度学习网络模型优化方法实施例中的步骤,例如图1所示的步骤101-104:

101,获取深度学习网络模型的卷积层的输入数据,所述输入数据具有宽度、高度、通道数三个维度;

102,根据所述卷积层的卷积核的大小确定每个向量计算周期所述输入数据的加载次数;

103,在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,得到所述预定区域的向量数据;

104,将所述预定区域的向量数据与所述卷积核对应相乘并累加,得到所述预定区域的向量输出。

或者,所述处理器30执行所述计算机程序40时实现上述装置实施例中各模块/单元的功能,例如图2中的单元201-204:

获取单元201,用于获取深度学习网络模型的卷积层的输入数据,所述输入数据具有宽度、高度、通道数三个维度;

确定单元202,用于根据所述卷积层的卷积核的大小确定每个向量计算周期所述输入数据的加载次数;

加载单元203,用于在所述输入数据的通道维度上按照所述加载次数和预定的向量位宽加载所述输入数据预定区域的数据点,得到所述预定区域的向量数据;

计算单元204,用于将所述预定区域的向量数据与所述卷积核对应相乘并累加,得到所述预定区域的向量输出。

示例性的,所述计算机程序40可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器30执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序40在所述计算机装置1中的执行过程。例如,所述计算机程序40可以被分割成图2中的获取单元201、确定单元202、加载单元203、计算单元204,各单元具体功能参见实施例二。

所述计算机装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图3仅仅是计算机装置1的示例,并不构成对计算机装置1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器30也可以是任何常规的处理器等,所述处理器30是所述计算机装置1的控制中心,利用各种接口和线路连接整个计算机装置1的各个部分。

所述存储器20可用于存储所述计算机程序40和/或模块/单元,所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元,以及调用存储在存储器20内的数据,实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中,应该理解到,所揭露的计算机装置和方法,可以通过其它的方式实现。例如,以上所描述的计算机装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。计算机装置权利要求中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1