本公开总体上涉及深度神经网络(dnn,deep neural network),更具体地,涉及将神经进化增强多目标优化(nemo,neuroevolutionary-enhanced multi-objectiveoptimization)用于dnn的混合精度量化。
背景技术:
1、dnn接收输入,向输入中的各个方面/对象分配重要性(可学习的权重和偏置),并且生成输出。dnn广泛用于从计算机视觉到语音识别和自然语言处理的各种各样的人工智能应用。然而,许多dnn太大而无法被装配在具有有限计算资源的系统中,例如具有有限的存储器或有限的处理能力的系统中。
技术实现思路
1.一种用于优化混合精度量化的多个目标的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,所述多个gnn包括第一种类的gnn和第二种类的gnn,所述第一种类中的gnn具有第一神经元架构,所述第二种类中的gnn具有与第一神经元架构不同的第二神经元架构。
3.根据权利要求2所述的方法,其中,所述第一种类中的gnn具有不同的内部参数。
4.根据权利要求1-3中任一项所述的方法,其中,基于所述多个gnn生成多个新gnn包括:
5.根据权利要求1-3中任一项所述的方法,其中,评估所述多个gnn和所述多个新gnn的输出包括:
6.根据权利要求1-3中任一项所述的方法,其中,所述gnn被配置为接收所述第二dnn的序列图形作为输入,并且输出针对所述第二dnn中的每个对应层的位宽概率分布,所述位宽概率分布包括多个概率,所述多个概率中的各个概率对应不同位宽。
7.根据权利要求6所述的方法,其中,基于所述多个概率从所述位宽概率分布选择位宽,所述位宽将用于降低所述第二dnn中的对应层的可量化参数的精度。
8.根据权利要求1-3中任一项所述的方法,其中,所述序列中的可量化操作包括卷积,所述可量化操作的可量化参数包括权重。
9.根据权利要求1-3中任一项所述的方法,其中,所述序列中的可量化操作包括激活函数,所述可量化操作的可量化参数包括激活。
10.根据权利要求1-3中任一项所述的方法,其中,所述多个目标是从由最大化dnn的任务性能、最小化dnn的模型大小、以及最小化dnn的计算复杂度组成的组中选择的。
11.一个或多个非暂时性计算机可读介质,存储有指令,所述指令能够执行以执行用于优化混合精度量化的多个目标的操作,所述操作包括:
12.根据权利要求11所述的一个或多个非暂时性计算机可读介质,其中,所述多个gnn包括第一种类的gnn和第二种类的gnn,所述第一种类中的gnn具有第一神经元架构,所述第二种类中的gnn具有与第一神经元架构不同的第二神经元架构。
13.根据权利要求12所述的一个或多个非暂时性计算机可读介质,其中,所述第一种类中的gnn具有不同的内部参数。
14.根据权利要求11-13中任一项所述的一个或多个非暂时性计算机可读介质,其中,基于所述多个gnn生成多个新gnn包括:
15.根据权利要求11-13中任一项所述的一个或多个非暂时性计算机可读介质,其中,评估所述多个gnn和所述多个新gnn的输出包括:
16.根据权利要求11-13中任一项所述的一个或多个非暂时性计算机可读介质,其中,所述gnn被配置为接收所述第二dnn的序列图形作为输入,并且输出针对所述第二dnn中的每个对应层的位宽概率分布,所述位宽概率分布包括多个概率,所述多个概率中的各个概率对应不同位宽。
17.根据权利要求16所述的一个或多个非暂时性计算机可读介质,其中,基于所述多个概率从所述位宽概率分布选择位宽,所述位宽将用于降低所述第二dnn中的对应层的可量化参数的精度。
18.根据权利要求11-13中任一项所述的一个或多个非暂时性计算机可读介质,其中,所述序列中的可量化操作包括卷积,所述可量化操作的可量化参数包括权重。
19.根据权利要求11-13中任一项所述的一个或多个非暂时性计算机可读介质,其中,所述序列中的可量化操作包括激活函数,所述可量化操作的可量化参数包括激活。
20.根据权利要求11-13中任一项所述的一个或多个非暂时性计算机可读介质,其中,所述多个目标是从由最大化dnn的任务性能、最小化dnn的模型大小、以及最小化dnn的计算复杂度组成的组中选择的。
21.一种用于优化混合精度量化的多个目标的装置,所述装置包括:
22.根据权利要求21所述的装置,其中,所述多个gnn包括第一种类的gnn和第二种类的gnn,所述第一种类中的gnn具有第一神经元架构,所述第二种类中的gnn具有与第一神经元架构不同的第二神经元架构。
23.根据权利要求21或22所述的装置,其中,基于所述多个gnn生成多个新gnn包括:
24.根据权利要求21或22所述的装置,其中,评估所述多个gnn和所述多个新gnn的输出包括:
25.根据权利要求21或22所述的装置,其中,所述gnn被配置为接收所述第二dnn的序列图形作为输入,并且输出针对所述第二dnn中的每个对应层的位宽概率分布,所述位宽概率分布包括多个概率,所述多个概率中的各个概率对应不同位宽。