一种模型压缩训练方法、装置、电子设备和存储介质与流程

文档序号:37550946发布日期:2024-04-08 13:59阅读:9来源:国知局
一种模型压缩训练方法、装置、电子设备和存储介质与流程

所属的技术人员能够理解,本技术的各个方面可以实现为系统、方法或程序产品。因此,本技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。与上述方法实施例基于同一发明构思,本技术实施例中还提供了一种电子设备。在一种实施例中,该电子设备可以是服务器,如图1所示的服务器120。在该实施例中,电子设备的结构可以如图14所示,包括存储器1401,通讯模块1403以及一个或多个处理器1402。存储器1401,用于存储处理器1402执行的计算机程序。存储器1401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。存储器1401可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,ram);存储器1401也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd);或者存储器1401是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器1401可以是上述存储器的组合。处理器1402,可以包括一个或多个中央处理单元(central processing unit,cpu)或者为数字处理单元等等。处理器1402,用于调用存储器1401中存储的计算机程序时实现上述模型压缩训练方法。通讯模块1403用于与终端设备和其他服务器进行通信。本技术实施例中不限定上述存储器1401、通讯模块1403和处理器1402之间的具体连接介质。本技术实施例在图14中以存储器1401和处理器1402之间通过总线1404连接,总线1404在图14中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1404可以分为地址总线、数据总线、控制总线等。为便于描述,图14中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。存储器1401中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本技术实施例的模型压缩训练方法。处理器1402用于执行上述的模型压缩训练方法,如图2所示。在另一种实施例中,电子设备也可以是其他电子设备,如图1所示的终端设备110。在该实施例中,电子设备的结构可以如图15所示,包括:通信组件1510、存储器1520、显示单元1530、摄像头1540、传感器1550、音频电路1560、蓝牙模块1570、处理器1580等部件。通信组件1510用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(wireless fidelity,wifi)模块,wifi模块属于短距离无线传输技术,电子设备通过wifi模块可以帮助用户收发信息。存储器1520可用于存储软件程序及数据。处理器1580通过运行存储在存储器1520的软件程序或数据,从而执行终端设备110的各种功能以及数据处理。存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1520存储有使得终端设备110能运行的操作系统。本技术中存储器1520可以存储操作系统及各种应用程序,还可以存储执行本技术实施例模型压缩训练方法的计算机程序。显示单元1530还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface,gui)。具体的,显示单元1530可以包括设置在终端设备110正面的显示屏1532。其中,显示屏1532可以采用液晶显示器、发光二极管等形式来配置。显示单元1530可以用于显示本技术实施例中的模型压缩训练相关的界面、模型应用相关的界面等。显示单元1530还可用于接收输入的数字或字符信息,产生与终端设备110的用户设置以及功能控制有关的信号输入,具体的,显示单元1530可以包括设置在终端设备110正面的触控屏1531,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。其中,触控屏1531可以覆盖在显示屏1532之上,也可以将触控屏1531与显示屏1532集成而实现终端设备110的输入和输出功能,集成后可以简称触摸显示屏。本技术中显示单元1530可以显示应用程序以及对应的操作步骤。摄像头1540可用于捕获静态图像,用户可以将摄像头1540拍摄的图像通过应用发布。摄像头1540可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1580转换成数字图像信号。终端设备还可以包括至少一种传感器1550,比如加速度传感器1551、距离传感器1552、指纹传感器1553、温度传感器1554。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。音频电路1560、扬声器1561、传声器1562可提供用户与终端设备110之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出。终端设备110还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出至通信组件1510以发送给比如另一终端设备110,或者将音频数据输出至存储器1520以便进一步处理。蓝牙模块1570用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块1570与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。处理器1580是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1520内的软件程序,以及调用存储在存储器1520内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1580可包括一个或多个处理单元;处理器1580还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1580中。本技术中处理器1580可以运行操作系统、应用程序、用户界面显示及触控响应,以及本技术实施例的模型压缩训练方法。另外,处理器1580与显示单元1530耦接。在一些可能的实施方式中,本技术提供的模型压缩训练方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本技术各种示例性实施方式的模型压缩训练方法中的步骤,例如,电子设备可以执行如图2中所示的步骤。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。本技术的实施方式的程序产品可以采用便携式紧凑盘只读存储器(cd-rom)并包括计算机程序,并可以在电子设备上运行。然而,本技术的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络包括局域网(lan)或广域网(wan)连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。此外,尽管在附图中以特定顺序描述了本技术方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。


背景技术:

1、模型压缩是一种缩小训练后的神经网络的技术。压缩的模型在使用少量计算资源的情况下,其性能通常与原始模型相似。

2、在相关技术中,语音、视频及图像等资源相关的资源处理模型,都可经过指导学习方案进行模型压缩。以语音处理为例,语音识别领域相关的指导学习方案,该包含一个大模型和一个较小的目标模型。相关的指导学习模型压缩方案期望是:将大模型的建模和表达能力尽可能地通过损失函数蒸馏到一个相对较小的目标模型上,但在实际应用中,目标模型一般由随机初始化的权重进行训练,指导学习虽然可以一定程度上将大模型的信息蒸馏过去,但这种信息的迁移能力有限,实际中往往识别效果损失较大,即使目标模型可以先用一个训练好的模型做权重初始化,但由于存在大模型和目标模型的不匹配,这种方式也难以带来较好的效果。

3、综上,如何有效解决大模型和目标模型之间的参数匹配,提高模型训练效果是亟待解决的。


技术实现思路

1、本技术实施例提供一种模型压缩训练方法、装置、电子设备和存储介质,用以提高模型训练效果。

2、本技术实施例提供的一种模型压缩训练方法,包括:

3、基于选取的第一样本资源,对待训练源网络进行训练,获得已训练源网络;所述已训练源网络至少由多个用于对多媒体资源进行解析的神经网络层堆叠而成;

4、采用至少一种压缩方式,对所述已训练源网络的第一网络参数进行压缩,并将相应的第一压缩结果作为待训练目标网络的第二网络参数;所述压缩方式包括:同一神经网络层内不同参数块之间的层内压缩,不同神经网络层之间的层间压缩;

5、将第二样本资源分别输入所述已训练源网络和所述待训练目标网络,获得所述已训练源网络输出的第一结果,及所述待训练目标网络输出的第二结果;

6、基于所述第二结果与相应的样本标签之间的差异,及所述第一结果与所述第二结果之间的差异,对所述待训练目标网络进行参数调整,获得已训练目标网络,并将所述已训练目标网络作为用于对待处理的多媒体资源进行相应解析的资源处理模型。

7、本技术实施例提供的一种模型压缩训练装置,包括:

8、第一训练单元,用于基于选取的第一样本资源,对待训练源网络进行训练,获得已训练源网络;所述已训练源网络至少由多个用于对多媒体资源进行解析的神经网络层堆叠而成;

9、压缩单元,用于采用至少一种压缩方式,对所述已训练源网络的第一网络参数进行压缩,并将相应的第一压缩结果作为待训练目标网络的第二网络参数;所述压缩方式包括:同一神经网络层内不同参数块之间的层内压缩,不同神经网络层之间的层间压缩;

10、第二训练单元,用于将第二样本资源分别输入所述已训练源网络和所述待训练目标网络,获得所述已训练源网络输出的第一结果,及所述待训练目标网络输出的第二结果;

11、所述第二训练单元,还用于基于所述第二结果与相应的样本标签之间的差异,及所述第一结果与所述第二结果之间的差异,对所述待训练目标网络进行参数调整,获得已训练目标网络,并将所述已训练目标网络作为用于对待处理的多媒体资源进行相应解析的资源处理模型。

12、可选的,每个神经网络层的网络参数可在至少一个维度进行等分;所述压缩方式包括层内压缩;所述压缩单元具体用于:

13、对于所述源网络中的至少一个神经网络层,分别执行以下操作:

14、对于一个神经网络层,将所述一个神经网络层对应的第一网络参数分别按照各个维度进行分块,获得多个参数块;

15、分别为每个参数块配置相应的加权系数;

16、将所述每个参数块,基于相应的加权系数进行块间加权累加。

17、可选的,每种网络结构的神经网络层包括相邻的至少两个;所述压缩方式包括层间压缩;所述压缩单元具体用于:

18、将具有相同网络结构的相邻神经网络层划分为同一集合;

19、对于每个集合,分别执行以下操作:

20、对于一个集合,为所述一个集合中的各个神经网络层分别配置相应的加权系数;

21、将所述各个神经网络层的第一网络参数,基于相应的加权系数进行层间加权累加。

22、可选的,将所述一个神经网络层对应的第一网络参数分别按照各个维度进行分块时,各个维度对应的分块次数一致。

23、可选的,所述第一网络参数包括权重参数;所述参数块包括权重参数块;

24、所述压缩单元具体用于:

25、对于各个权重参数块,分别按照行方向和列方向进行拆分,并分别为拆分得到的各个权重参数行和权重参数列设置一个加权系数;

26、所述将所述各个参数块,基于相应的加权系数进行块间加权累加,包括:

27、将所述各个权重参数块中对应位置的权重参数行,基于相应的加权系数进行块间行加权累加,以及,将所述各个权重参数块中对应位置的权重参数列,基于相应的加权系数进行块间列加权累加。

28、可选的,所述第一网络参数包括偏置参数;所述参数块包括偏置参数块;

29、所述压缩单元具体用于:

30、为各个偏置参数块,分别设置一个加权系数;

31、所述将所述各个参数块,基于相应的加权系数进行块间加权累加,包括:

32、将所述各个偏置参数块,基于相应的加权系数进行块间加权累加。

33、可选的,所述第一网络参数包括权重参数;

34、所述压缩单元具体用于:

35、对于各个神经网络层对应的权重参数,分别按照行方向和列方向进行拆分,并分别为拆分得到的各个权重参数行和权重参数列设置一个加权系数;

36、将所述各个神经网络层中对应位置的权重参数行,基于相应的加权系数进行层间行加权累加,以及,将所述各个神经网络层中对应位置的权重参数列,基于相应的加权系数进行层间列加权累加。

37、可选的,所述第一网络参数包括偏置参数;

38、所述压缩单元具体用于:

39、为所述各个神经网络层,分别设置一个加权系数;

40、将所述各个神经网络层中对应位置的偏置参数,基于相应的加权系数进行层间加权累加。

41、可选的,所述第二训练单元具体用于:

42、基于所述第二结果与相应的样本标签之间的差异,构建第一标签损失,以及,基于所述第一结果与所述第二结果之间的差异,构建第一相对熵损失;

43、联合所述第一标签损失与所述第一相对熵损失,将预配置的加权系数进行调整,获得目标加权系数,所述加权系数用于对所述第一网络参数进行压缩;

44、基于所述目标加权系数,采用至少一种压缩方式,对所述第一网络参数进行压缩,并基于相应的第二压缩结果获得所述已训练目标网络。

45、可选的,所述第二训练单元具体用于:

46、将所述第二压缩结果,作为已训练目标网络的目标第二网络参数,获得所述已训练目标网络;或者

47、联合所述第一标签损失与所述第一相对熵损失,对所述第二压缩结果再次进行调整,并将相应的第一调整结果作为已训练目标网络的目标第二网络参数,获得所述已训练目标网络。

48、可选的,在所述第二训练单元将所述已训练目标网络作为用于对待处理的多媒体资源进行相应解析的资源处理模型之前,所述装置还包括:

49、第三训练单元,用于将第三样本资源分别输入所述已训练源网络和所述已训练目标网络,获得所述已训练源网络输出的第三结果,及所述已训练目标网络输出的第四结果;

50、将所述第三结果与所述第四结果分别输入判别器网络,并基于所述判别器网络的输出,对所述已训练目标网络再次进行调整。

51、可选的,所述第三训练单元具体用于交替执行以下过程至少一轮:

52、将所述第三结果标记为真,并输入判别器网络,根据输出对所述判别器网络进行参数调整;以及,将所述第四结果标记为假,并输入待训练判别器,根据输出对所述判别器网络进行参数调整;

53、将所述第四结果输入所述判别器网络并标记为真,根据输出对所述已训练目标网络再次进行参数调整。

54、可选的,所述第三训练单元具体用于:

55、若输出与标记不符,则基于所述第四结果与相应的样本标签之间的差异,构建第二标签损失,以及,基于所述第三结果与所述第四结果之间的差异,构建第二相对熵损失;

56、联合所述第二标签损失与所述第二相对熵损失,对所述目标加权系数再次进行调整;

57、基于调整后的所述目标加权系数,采用至少一种压缩方式,对所述第一网络参数进行压缩,并基于相应的第三压缩结果对所述已训练目标网络再次进行参数调整。

58、可选的,所述基第三训练单元具体用于:

59、将所述第三压缩结果,作为再次调整后所述已训练目标网络的目标第二网络参数;或者

60、联合所述第二标签损失与所述第二相对熵损失,对所述第三压缩结果再次进行调整,并将相应的第二调整结果作为再次调整后所述已训练目标网络的目标第二网络参数。

61、本技术实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一种模型压缩训练方法的步骤。

62、本技术实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任意一种模型压缩训练方法的步骤。

63、本技术实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行上述任意一种模型压缩训练方法的步骤。

64、本技术有益效果如下:

65、本技术实施例提供了一种模型压缩训练方法、装置、电子设备和存储介质。在本技术实施过程中,首先对源网络单独进行训练,进而,在获得已训练源网络后,固定源网络的网络参数,并采用层间压缩与层内压缩中的至少一种,对源网络进行参数压缩,并将压缩结果作为待训练目标网络的初始网络参数,在此基础上进一步对目标网络进行参数调整即可。其中,源网络的参数量大于目标网络。本技术中,目标网络并非是随机初始化得到的,通过上述压缩方式,可以更有效利用到源网络的建模能力,使得源网络学到的信息尽可能在目标模型上得以保留且具备期望的压缩效果,有效保证源网络与目标网络之间的参数匹配,同时设计层内和层间的压缩可以达到较好压缩效果。

66、本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1