神经网络架构的优化方法、装置、计算机设备及存储介质与流程

文档序号:33797820发布日期:2023-04-19 10:32阅读:21来源:国知局
神经网络架构的优化方法、装置、计算机设备及存储介质与流程

本申请实施例涉及机器学习领域,特别涉及一种神经网络架构的优化方法、装置、计算机设备及存储介质。


背景技术:

1、神经架构搜索(neural architecture search,nas)是一种自动设计神经网络的技术,可以通过算法根据样本集自动设计出高性能的网络结构。可微神经网络搜索(differentiable architecture search,darts)作为nas的方法之一,通过构建通过连续松弛的搜索空间,提高了神经网络搜索的效率,被广泛应用于机器学习领域。

2、但是darts在搜索过程中会出现跳连(skip connection),随着搜索过程的进行,跳连会逐渐主导网络结构,导致搜索网络结构过程中参数优化不稳定,进而影响最后得到的网络模型精度。相关技术中,利用海瑟矩阵(hessian matrix)的特征值判定darts在优化过程中参数优化的稳定性。海瑟矩阵(hessian matrix)的特征值大则说明darts在搜索网络结构过程中参数优化不稳定。通过停止参数优化,或者正则化手段避免海瑟矩阵特征值变化幅度过大,进而保证darts在搜索网络结构过程中参数优化的稳定性。

3、上述技术方案存在的问题是,采用直接停止优化或者正则化手段仍未能有效解决搜索网络结构过程中参数优化不稳定问题。


技术实现思路

1、本申请实施例提供了一种神经网络架构的优化方法、装置、计算机设备及存储介质,能够降低神经网络架构的优化过程中参数优化的不稳定性,简化优化过程,提高神经网络模型的精度和泛化性能。所述技术方案如下:

2、一方面,本申请实施例提供了一种神经网络架构的优化方法,所述方法包括:

3、确定子网络,所述子网络为神经网络架构中的可微网络,所述子网络由至少两个节点以及连接节点的边构成,所述连接节点的边用于表征神经网络中的基本操作;

4、基于第一训练数据集,确定所述子网络在网络参数范围内的网络损失,所述网络参数范围是以网络参数为中心的参数范围,所述网络参数包括架构参数和模型参数,所述架构参数用于表征所述基本操作的权重,所述模型参数用于表征所述基本操作的操作方式;

5、通过优化所述网络参数以最小化所述网络损失,得到优化后的所述子网络。

6、另一方面,本申请实施例提供了一种神经网络架构的优化装置,所述装置包括:

7、第一构建模块,用于确定子网络,所述子网络为神经网络架构中的可微网络,所述子网络由至少两个节点以及连接节点的边构成,所述连接节点的边用于表征神经网络中的基本操作;

8、确定模块,用于基于第一训练数据集,确定所述子网络在网络参数范围内的网络损失,所述网络参数范围是以网络参数为中心的参数范围,所述网络参数包括架构参数和模型参数,所述架构参数用于表征所述基本操作的权重,所述模型参数用于表征所述基本操作的操作方式;

9、优化模块,用于通过优化所述网络参数以最小化所述网络损失,得到优化后的所述子网络。

10、另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的神经网络架构的优化方法。

11、另一方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的神经网络架构的优化方法。

12、另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面提供的神经网络架构的优化方法。

13、本申请提供的技术方案可以包括以下有益效果:

14、本申请实施例中,通过网络参数范围内所有参数确定相应的网络损失,优化网络参数,使得网络损失收敛在损失平坦区域。而相关技术中,通过某一网络参数确定网络损失,优化网络参数过程中,网络损失易产生较大的波动变化,使得网络损失收敛在损失尖峰区域,进而造成神经网络模型性能崩塌。相比于相关技术,本申请提供的技术方案通过确定网络参数范围内的网络损失,优化网络参数过程中,网络损失不会产生较大的波动变化,使得网络损失从损失尖峰区域收敛在损失平坦区域,进而降低神经网络模型性能的不稳定性,提高神经网络模型的精度和泛化性能。



技术特征:

1.一种神经网络架构的优化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于第一训练数据集,确定所述子网络在网络参数范围内的网络损失,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述第一训练数据集,通过锐度感知最小化方法确定所述子网络在所述网络参数范围内的所述网络损失,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述网络参数和范围尺寸,确定所述网络参数范围之后,还包括:

5.根据权利要求1至4任一所述的方法,其特征在于,所述通过优化所述网络参数以最小化所述网络损失,得到优化后的所述子网络,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于优化后的所述网络参数生成优化后的所述子网络,包括:

7.根据权利要求1至4任一所述的方法,其特征在于,所述通过优化所述目网络参数以最小化所述网络损失,得到优化后的所述子网络之后,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述目标网络模型采用u型神经网络架构,所述目标网络模型基于优化后的上采样子网络和下采样子网络构建得到。

9.根据权利要求7所述的方法,其特征在于,所述基于所述第一训练数据集对所述目标网络模型进行模型训练,得到训练后的所述目标网络模型之后,所述方法还包括:

10.一种神经网络架构的优化装置,其特征在于,所述装置包括:

11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的神经网络架构的优化方法。

12.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的神经网络架构的优化方法。

13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行实现如权利要求1至9任一所述的神经网络架构的优化方法。


技术总结
本申请实施例公开了一种神经网络架构的优化方法、装置、计算机设备及存储介质,属于机器学习领域。该方法包括:确定子网络,子网络为神经网络架构中的可微网络,子网络由至少两个节点以及连接节点的边构成,连接节点的边用于表征神经网络中的基本操作;基于第一训练数据集,确定子网络在网络参数范围内的网络损失,网络参数范围是以网络参数为中心的参数范围,网络参数包括架构参数和模型参数,架构参数用于表征基本操作的权重,模型参数用于表征基本操作的操作方式;通过优化网络参数以最小化网络损失,得到优化后的子网络。本申请实施例的方案能够减小神经网络架构的优化过程中参数优化的不稳定性,提高神经网络模型的精度和泛化性能。

技术研发人员:赵娟萍
受保护的技术使用者:OPPO广东移动通信有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1