一种神经网络训练方法

文档序号:6621403阅读:295来源:国知局
一种神经网络训练方法
【专利摘要】本发明实施例涉及人工智能和模式识别【技术领域】,尤其涉及一种神经网络训练方法,用以解决现有技术中训练过程收敛速度慢的问题。本发明实施例的方法包括:获取神经网络基于第k次迭代过程所使用的学习率对n个样本进行迭代后输出的n*m个标签值预测值;计算第一参数;其中,第i标签值的第一参数为所述n个样本的第i标签值预测值与第i标签值真实值之间的误差的平均值;根据所述第一参数调整所述神经网络的第k+1次迭代过程所使用的学习率。由于基于标签值的误差的情况,对下一次迭代过程的学习率进行调整,从而可引导训练过程以高效的方式快速向全局最优的方向进行收敛。
【专利说明】一种神经网络训练方法

【技术领域】
[0001]本发明涉及人工智能和模式识别【技术领域】,尤其涉及一种神经网络训练方法。

【背景技术】
[0002]深度神经网络是近几年来比较热的一个研究方向,它从仿生学的角度模拟人脑的分多层计算架构体系,是最接近人工智能的一个方向,它更能表征信号的最本质的不变特征。近几年在语音识别及图像处理领域,深度学习均取得了较好的结果。深度神经网络有很多模型,神经网络(Convolut1nal neural networks, Cnns)是其中一个重要的模型。
[0003]神经网络训练过程中的学习算法,用于对训练过程进行控制,引导训练过程向最优的方向收敛。如图1所示,从点A开始,向点B极值点收敛,在实际问题中,收敛过程中学习算法的学习率不是线性变化或者不变的。从图可看,不同的阶段,需要不同的学习率,而且学习率是非线性变化的,训练过程需要根据结果的变化对学习了进行调整,如在开始阶段,需要较大的学习率来获得较大步长,而在接近最优点时则需要较小的学习率和步长,否则无法快速收敛到最优。基于该过程分析可得出这样的结论,在训练过程中,学习率需要根据具体情况,进行提高和降低,以此来保证最终训练的到模型的效果和训练效率。
[0004]但传统的训练方法中学习率是固定值,或为线性调节的值,变化方向单一,变化规律单一,从而导致训练过程收敛速度慢、难以快速达到全局最优点。
[0005]综上所述,亟需一种神经网络训练方法,用以解决现有技术中训练过程收敛速度慢、难以快速达到全局最优点的问题。


【发明内容】

[0006]本发明实施例提供一种神经网络训练方法,用以解决现有技术中训练过程收敛速度慢、难以快速达到全局最优点的问题。
[0007]本发明实施例提供一种神经网络训练方法,包括以下步骤:
[0008]利用η个样本对神经网络进行迭代,在第k次迭代之后执行:
[0009]获取神经网络基于第k次迭代过程所使用的学习率对η个样本进行迭代后输出的n*m个标签值预测值;其中,每个样本对应m个标签值预测值,每个样本的m个标签值预测值包括第一标签值预测值至第m标签值预测值;其中,n、m、k均为正整数,k大于I ;
[0010]针对第一至第m标签值预测值中的每个标签值预测值,计算第一参数,其中,第i标签值的第一参数为所述η个样本的第i标签值预测值与第i标签值真实值之间的误差的平均值,i的取值范围为[l,m];
[0011]根据所述第一参数调整所述神经网络的第k+i次迭代过程所使用的学习率。
[0012]较佳的,所述根据第一参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率,包括:
[0013]根据所述第一参数计算第二参数;其中,第i标签的第二参数为所述第i标签值的第一参数的方差;
[0014]根据所述第一参数和第二参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
[0015]较佳的,所述根据第一参数和第二参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率,包括:
[0016]针对第一至第m标签值预测值中的每个标签值预测值,根据第k-Ι次迭代过程中计算得到的第一参数与第二参数以及第k次迭代过程中计算得到的第一参数与第二参数,计算第三参数和第四参数;其中,第三参数为第k-Ι次迭代与第k次迭代过程中每个标签值的第一参数的差值的平均值,所述第四参数为第k-Ι次迭代与第k次迭代过程中每个标签值的第二参数的差值的平均值;
[0017]根据所述第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率;或
[0018]根据所述第一参数、第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
[0019]较佳的,所述根据第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率,包括:
[0020]统计所述第二参数、第三参数、第四参数与相应阈值的比较结果,根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率;
[0021]所述根据第一参数、第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率包括:统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果,根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
[0022]较佳的,统计所述第二参数、第三参数、第四参数与相应阈值的比较结果,包括:
[0023]若所述第二参数小于第二阈值,则将第二计数器的数值加I ;
[0024]若所述第三参数小于第三阈值,且第四参数小于第四阈值,则将第三计数器的数值加I ;
[0025]根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率,具体包括:
[0026]若满足以下条件,则将所述神经网络的第k+Ι次迭代过程所使用的学习率调低,并将所述第二计数器清零:
[0027]所述第二计数器的数值不大于第二数值;且
[0028]所述第三计数器的数值小于第三数值。
[0029]较佳的,统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果,包括:
[0030]若所述第一参数小于第一阈值,则将第一计数器的数值加I ;
[0031]若所述第二参数小于第二阈值,则将第二计数器的数值加I ;
[0032]若所述第三参数小于第三阈值,且第四参数小于第四阈值,则将第三计数器的数值加I;
[0033]根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率,具体包括:
[0034]若满足以下条件,则将所述神经网络的第k+Ι次迭代过程所使用的学习率调低,并将所述第一计数器和所述第二计数器清零:
[0035]第一计数器的数值不大于第一数值,和/或所述第二计数器的数值不大于第二数值;且
[0036]所述第三计数器的数值小于第三数值。
[0037]较佳的,统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果,包括:
[0038]若所述第二参数小于第二阈值,则将第二计数器的数值加I ;
[0039]若所述第三参数小于第三阈值,且第四参数小于第四阈值,则将第三计数器的数值加I ;
[0040]根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率,具体包括:
[0041]若所述第三计数器的数值不小于第三数值,则将所述神经网络的第k+Ι次迭代过程所使用的学习率调高,并将所述第三计数器清零。
[0042]较佳的,统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果,包括:
[0043]若所述第一参数小于第一阈值,则将第一计数器的数值加I ;
[0044]若所述第二参数小于第二阈值,则将第二计数器的数值加I ;
[0045]若所述第三参数小于第三阈值,且第四参数小于第四阈值,则将第三计数器的数值加I ;
[0046]根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率,具体包括:
[0047]若所述第三计数器的数值不小于第三数值,则将所述神经网络的第k+Ι次迭代过程所使用的学习率调高,并将所述第三计数器清零。
[0048]较佳的,还包括:
[0049]若所述第二计数器的数值大于第二数值,所述第三计数器的数值小于第三数值,则结束训练过程。
[0050]较佳的,还包括:
[0051]若所述第一计数器的数值大于第一数值,所述第二计数器的数值大于第二数值,所述第三计数器的数值小于第三数值,则结束训练过程。
[0052]较佳的,
[0053]所述第一参数按下式计算:
[0054]ER, = Yj Uf(X)1-f )' η
[0055]所述第二参数按下式计算:
[0056]EK=I 7-(, U\x), - ER 丨 f / η
[0057]其中,j的取值范围为[1,η] ,η为样本个数;i的取值范围为为行答值的个数;4是一个样本的第i标签值真实值;f (X)i是4对应的第i标签值预测值I邑第
i标签值的第一参数;Ε\是第i标签值的第二参数;
[0058]所述第三参数按下式计算:

【权利要求】
1.一种神经网络训练方法,其特征在于,包括以下步骤: 利用η个样本对神经网络进行迭代,在第k次迭代之后执行: 获取神经网络基于第k次迭代过程所使用的学习率对η个样本进行迭代后输出的n*m个标签值预测值;其中,每个样本对应m个标签值预测值,每个样本的m个标签值预测值包括第一标签值预测值至第m标签值预测值;其中,n、m、k均为正整数,k大于I ; 针对第一至第m标签值预测值中的每个标签值预测值,计算第一参数,其中,第i标签值的第一参数为所述η个样本的第i标签值预测值与第i标签值真实值之间的误差的平均值,i的取值范围为[l,m]; 根据所述第一参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
2.如权利要求1所述的方法,其特征在于,所述根据第一参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率,包括: 根据所述第一参数计算第二参数;其中,第i标签的第二参数为所述第i标签值的第一参数的方差; 根据所述第一参数和第二参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
3.如权利要求2所述的方法,其特征在于,所述根据第一参数和第二参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率,包括: 针对第一至第m标签值预测值中的每个标签值预测值,根据第k-Ι次迭代过程中计算得到的第一参数与第二参数以及第k次迭代过程中计算得到的第一参数与第二参数,计算第三参数和第四参数;其中,第三参数为第k-Ι次迭代与第k次迭代过程中每个标签值的第一参数的差值的平均值,所述第四参数为第k-Ι次迭代与第k次迭代过程中每个标签值的第二参数的差值的平均值; 根据所述第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率;或 根据所述第一参数、第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
4.如权利要求3所述的方法,其特征在于,所述根据第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率,包括: 统计所述第二参数、第三参数、第四参数与相应阈值的比较结果,根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率; 所述根据第一参数、第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率包括:统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果,根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
5.如权利要求3所述的方法,其特征在于,统计所述第二参数、第三参数、第四参数与相应阈值的比较结果,包括: 若所述第二参数小于第二阈值,则将第二计数器的数值加I ; 若所述第三参数小于第三阈值,且第四参数小于第四阈值,则将第三计数器的数值加
I ; 根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率,具体包括: 若满足以下条件,则将所述神经网络的第k+1次迭代过程所使用的学习率调低,并将所述第二计数器清零: 所述第二计数器的数值不大于第二数值;且 所述第三计数器的数值小于第三数值。
6.如权利要求3所述的方法,其特征在于,统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果,包括: 若所述第一参数小于第一阈值,则将第一计数器的数值加I ; 若所述第二参数小于第二阈值,则将第二计数器的数值加I; 若所述第三参数小于第三阈值,且第四参数小于第四阈值,则将第三计数器的数值加I; 根据统计结果调整所述神经网络的第k+1次迭代过程所使用的学习率,具体包括: 若满足以下条件,则将所述神经网络的第k+1次迭代过程所使用的学习率调低,并将所述第一计数器和所述第二计数器清零: 第一计数器的数值不大于第一数值,和/或所述第二计数器的数值不大于第二数值;且 所述第三计数器的数值小于第三数值。
7.如权利要求3所述的方法,其特征在于,统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果,包括: 若所述第二参数小于第二阈值,则将第二计数器的数值加I; 若所述第三参数小于第三阈值,且第四参数小于第四阈值,则将第三计数器的数值加I; 根据统计结果调整所述神经网络的第k+1次迭代过程所使用的学习率,具体包括:若所述第三计数器的数值不小于第三数值,则将所述神经网络的第k+Ι次迭代过程所使用的学习率调高,并将所述第三计数器清零。
8.如权利要求3所述的方法,其特征在于,统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果,包括: 若所述第一参数小于第一阈值,则将第一计数器的数值加I ; 若所述第二参数小于第二阈值,则将第二计数器的数值加I ; 若所述第三参数小于第三阈值,且第四参数小于第四阈值,则将第三计数器的数值加I ; 根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率,具体包括:若所述第三计数器的数值不小于第三数值,则将所述神经网络的第k+Ι次迭代过程所使用的学习率调高,并将所述第三计数器清零。
9.如权利要求5或7所述的方法,其特征在于,还包括: 若所述第二计数器的数值大于第二数值,所述第三计数器的数值小于第三数值,则结束训练过程。
10.如权利要求6或8所述的方法,其特征在于,还包括: 若所述第一计数器的数值大于第一数值,所述第二计数器的数值大于第二数值,所述第三计数器的数值小于第三数值,则结束训练过程。
11.如权利要求3所述的方法,其特征在于, 所述第一参数按下式计算:
所述第二参数按下式计算:
其中,j的取值范围为[1,η], η为样本个数;i的取值范围为[1,m], m为标签值的个数A是一个样本的第i标签值真实值;f (X)i是A对应的第i标签值预测值;是第i标签值的第一参数;Ε\是第i标签值的第二参数; 所述第三参数按下式计算:
所述第四参数按下式计算:
其中,ERipre第k-1次迭代中的第i标签值的第一参数;EVipM是第k-1次迭代中第i标签值的第二参数;ERC是第三参数;EVC是第四参数。
【文档编号】G06N3/08GK104134091SQ201410360578
【公开日】2014年11月5日 申请日期:2014年7月25日 优先权日:2014年7月25日
【发明者】刘龙, 高伟杰, 周玉 申请人:海信集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1