一种神经网络训练方法

文档序号：6621403阅读：295来源：国知局

一种神经网络训练方法
【专利摘要】本发明实施例涉及人工智能和模式识别【技术领域】，尤其涉及一种神经网络训练方法，用以解决现有技术中训练过程收敛速度慢的问题。本发明实施例的方法包括：获取神经网络基于第k次迭代过程所使用的学习率对n个样本进行迭代后输出的n*m个标签值预测值；计算第一参数；其中，第i标签值的第一参数为所述n个样本的第i标签值预测值与第i标签值真实值之间的误差的平均值；根据所述第一参数调整所述神经网络的第k+1次迭代过程所使用的学习率。由于基于标签值的误差的情况，对下一次迭代过程的学习率进行调整，从而可引导训练过程以高效的方式快速向全局最优的方向进行收敛。
【专利说明】一种神经网络训练方法

【技术领域】
[0001]本发明涉及人工智能和模式识别【技术领域】，尤其涉及一种神经网络训练方法。

【背景技术】
[0002]深度神经网络是近几年来比较热的一个研究方向，它从仿生学的角度模拟人脑的分多层计算架构体系，是最接近人工智能的一个方向，它更能表征信号的最本质的不变特征。近几年在语音识别及图像处理领域，深度学习均取得了较好的结果。深度神经网络有很多模型，神经网络(Convolut1nal neural networks, Cnns)是其中一个重要的模型。
[0003]神经网络训练过程中的学习算法，用于对训练过程进行控制，引导训练过程向最优的方向收敛。如图1所示，从点A开始，向点B极值点收敛，在实际问题中，收敛过程中学习算法的学习率不是线性变化或者不变的。从图可看，不同的阶段，需要不同的学习率，而且学习率是非线性变化的，训练过程需要根据结果的变化对学习了进行调整，如在开始阶段，需要较大的学习率来获得较大步长，而在接近最优点时则需要较小的学习率和步长，否则无法快速收敛到最优。基于该过程分析可得出这样的结论，在训练过程中，学习率需要根据具体情况，进行提高和降低，以此来保证最终训练的到模型的效果和训练效率。
[0004]但传统的训练方法中学习率是固定值，或为线性调节的值，变化方向单一，变化规律单一，从而导致训练过程收敛速度慢、难以快速达到全局最优点。
[0005]综上所述，亟需一种神经网络训练方法，用以解决现有技术中训练过程收敛速度慢、难以快速达到全局最优点的问题。

【发明内容】

[0006]本发明实施例提供一种神经网络训练方法，用以解决现有技术中训练过程收敛速度慢、难以快速达到全局最优点的问题。
[0007]本发明实施例提供一种神经网络训练方法，包括以下步骤:
[0008]利用η个样本对神经网络进行迭代，在第k次迭代之后执行:
[0009]获取神经网络基于第k次迭代过程所使用的学习率对η个样本进行迭代后输出的n*m个标签值预测值；其中，每个样本对应m个标签值预测值，每个样本的m个标签值预测值包括第一标签值预测值至第m标签值预测值；其中，n、m、k均为正整数，k大于I ;
[0010]针对第一至第m标签值预测值中的每个标签值预测值，计算第一参数，其中，第i标签值的第一参数为所述η个样本的第i标签值预测值与第i标签值真实值之间的误差的平均值，i的取值范围为[l，m]；
[0011]根据所述第一参数调整所述神经网络的第k+i次迭代过程所使用的学习率。
[0012]较佳的，所述根据第一参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率，包括:
[0013]根据所述第一参数计算第二参数；其中，第i标签的第二参数为所述第i标签值的第一参数的方差；
[0014]根据所述第一参数和第二参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
[0015]较佳的，所述根据第一参数和第二参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率，包括:
[0016]针对第一至第m标签值预测值中的每个标签值预测值，根据第k-Ι次迭代过程中计算得到的第一参数与第二参数以及第k次迭代过程中计算得到的第一参数与第二参数，计算第三参数和第四参数；其中，第三参数为第k-Ι次迭代与第k次迭代过程中每个标签值的第一参数的差值的平均值，所述第四参数为第k-Ι次迭代与第k次迭代过程中每个标签值的第二参数的差值的平均值；
[0017]根据所述第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率；或
[0018]根据所述第一参数、第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
[0019]较佳的，所述根据第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率，包括:
[0020]统计所述第二参数、第三参数、第四参数与相应阈值的比较结果，根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率；
[0021]所述根据第一参数、第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率包括:统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果，根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
[0022]较佳的，统计所述第二参数、第三参数、第四参数与相应阈值的比较结果，包括:
[0023]若所述第二参数小于第二阈值，则将第二计数器的数值加I ;
[0024]若所述第三参数小于第三阈值，且第四参数小于第四阈值，则将第三计数器的数值加I ;
[0025]根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率，具体包括:
[0026]若满足以下条件，则将所述神经网络的第k+Ι次迭代过程所使用的学习率调低，并将所述第二计数器清零:
[0027]所述第二计数器的数值不大于第二数值；且
[0028]所述第三计数器的数值小于第三数值。
[0029]较佳的，统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果，包括:
[0030]若所述第一参数小于第一阈值，则将第一计数器的数值加I ;
[0031]若所述第二参数小于第二阈值，则将第二计数器的数值加I ;
[0032]若所述第三参数小于第三阈值，且第四参数小于第四阈值，则将第三计数器的数值加I;
[0033]根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率，具体包括:
[0034]若满足以下条件，则将所述神经网络的第k+Ι次迭代过程所使用的学习率调低，并将所述第一计数器和所述第二计数器清零:
[0035]第一计数器的数值不大于第一数值，和/或所述第二计数器的数值不大于第二数值；且
[0036]所述第三计数器的数值小于第三数值。
[0037]较佳的，统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果，包括:
[0038]若所述第二参数小于第二阈值，则将第二计数器的数值加I ;
[0039]若所述第三参数小于第三阈值，且第四参数小于第四阈值，则将第三计数器的数值加I ;
[0040]根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率，具体包括:
[0041]若所述第三计数器的数值不小于第三数值，则将所述神经网络的第k+Ι次迭代过程所使用的学习率调高，并将所述第三计数器清零。
[0042]较佳的，统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果，包括:
[0043]若所述第一参数小于第一阈值，则将第一计数器的数值加I ;
[0044]若所述第二参数小于第二阈值，则将第二计数器的数值加I ;
[0045]若所述第三参数小于第三阈值，且第四参数小于第四阈值，则将第三计数器的数值加I ;
[0046]根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率，具体包括:
[0047]若所述第三计数器的数值不小于第三数值，则将所述神经网络的第k+Ι次迭代过程所使用的学习率调高，并将所述第三计数器清零。
[0048]较佳的，还包括:
[0049]若所述第二计数器的数值大于第二数值，所述第三计数器的数值小于第三数值，则结束训练过程。
[0050]较佳的，还包括:
[0051]若所述第一计数器的数值大于第一数值，所述第二计数器的数值大于第二数值，所述第三计数器的数值小于第三数值，则结束训练过程。
[0052]较佳的，
[0053]所述第一参数按下式计算:
[0054]ER, = Yj Uf(X)1-f )' η
[0055]所述第二参数按下式计算:
[0056]EK=I 7-(, U\x), - ER 丨 f / η
[0057]其中，j的取值范围为[1，η] ,η为样本个数；i的取值范围为为行答值的个数；4是一个样本的第i标签值真实值；f (X)i是4对应的第i标签值预测值I邑第
i标签值的第一参数；Ε\是第i标签值的第二参数；
[0058]所述第三参数按下式计算:

【权利要求】
1.一种神经网络训练方法，其特征在于，包括以下步骤: 利用η个样本对神经网络进行迭代，在第k次迭代之后执行: 获取神经网络基于第k次迭代过程所使用的学习率对η个样本进行迭代后输出的n*m个标签值预测值；其中，每个样本对应m个标签值预测值，每个样本的m个标签值预测值包括第一标签值预测值至第m标签值预测值；其中，n、m、k均为正整数，k大于I ; 针对第一至第m标签值预测值中的每个标签值预测值，计算第一参数，其中，第i标签值的第一参数为所述η个样本的第i标签值预测值与第i标签值真实值之间的误差的平均值，i的取值范围为[l，m]；根据所述第一参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
2.如权利要求1所述的方法，其特征在于，所述根据第一参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率，包括: 根据所述第一参数计算第二参数；其中，第i标签的第二参数为所述第i标签值的第一参数的方差；根据所述第一参数和第二参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
3.如权利要求2所述的方法，其特征在于，所述根据第一参数和第二参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率，包括: 针对第一至第m标签值预测值中的每个标签值预测值，根据第k-Ι次迭代过程中计算得到的第一参数与第二参数以及第k次迭代过程中计算得到的第一参数与第二参数，计算第三参数和第四参数；其中，第三参数为第k-Ι次迭代与第k次迭代过程中每个标签值的第一参数的差值的平均值，所述第四参数为第k-Ι次迭代与第k次迭代过程中每个标签值的第二参数的差值的平均值；根据所述第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率；或根据所述第一参数、第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
4.如权利要求3所述的方法，其特征在于，所述根据第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率，包括: 统计所述第二参数、第三参数、第四参数与相应阈值的比较结果，根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率；所述根据第一参数、第二参数、第三参数、第四参数调整所述神经网络的第k+Ι次迭代过程所使用的学习率包括:统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果，根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率。
5.如权利要求3所述的方法，其特征在于，统计所述第二参数、第三参数、第四参数与相应阈值的比较结果，包括: 若所述第二参数小于第二阈值，则将第二计数器的数值加I ; 若所述第三参数小于第三阈值，且第四参数小于第四阈值，则将第三计数器的数值加
I ; 根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率，具体包括: 若满足以下条件，则将所述神经网络的第k+1次迭代过程所使用的学习率调低，并将所述第二计数器清零: 所述第二计数器的数值不大于第二数值；且所述第三计数器的数值小于第三数值。
6.如权利要求3所述的方法，其特征在于，统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果，包括: 若所述第一参数小于第一阈值，则将第一计数器的数值加I ; 若所述第二参数小于第二阈值，则将第二计数器的数值加I; 若所述第三参数小于第三阈值，且第四参数小于第四阈值，则将第三计数器的数值加I; 根据统计结果调整所述神经网络的第k+1次迭代过程所使用的学习率，具体包括: 若满足以下条件，则将所述神经网络的第k+1次迭代过程所使用的学习率调低，并将所述第一计数器和所述第二计数器清零: 第一计数器的数值不大于第一数值，和/或所述第二计数器的数值不大于第二数值；且所述第三计数器的数值小于第三数值。
7.如权利要求3所述的方法，其特征在于，统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果，包括: 若所述第二参数小于第二阈值，则将第二计数器的数值加I; 若所述第三参数小于第三阈值，且第四参数小于第四阈值，则将第三计数器的数值加I; 根据统计结果调整所述神经网络的第k+1次迭代过程所使用的学习率，具体包括:若所述第三计数器的数值不小于第三数值，则将所述神经网络的第k+Ι次迭代过程所使用的学习率调高，并将所述第三计数器清零。
8.如权利要求3所述的方法，其特征在于，统计所述第一参数、第二参数、第三参数、第四参数与相应阈值的比较结果，包括: 若所述第一参数小于第一阈值，则将第一计数器的数值加I ; 若所述第二参数小于第二阈值，则将第二计数器的数值加I ; 若所述第三参数小于第三阈值，且第四参数小于第四阈值，则将第三计数器的数值加I ; 根据统计结果调整所述神经网络的第k+Ι次迭代过程所使用的学习率，具体包括:若所述第三计数器的数值不小于第三数值，则将所述神经网络的第k+Ι次迭代过程所使用的学习率调高，并将所述第三计数器清零。
9.如权利要求5或7所述的方法，其特征在于，还包括: 若所述第二计数器的数值大于第二数值，所述第三计数器的数值小于第三数值，则结束训练过程。
10.如权利要求6或8所述的方法，其特征在于，还包括: 若所述第一计数器的数值大于第一数值，所述第二计数器的数值大于第二数值，所述第三计数器的数值小于第三数值，则结束训练过程。
11.如权利要求3所述的方法，其特征在于，所述第一参数按下式计算:
所述第二参数按下式计算:
其中，j的取值范围为[1，η], η为样本个数；i的取值范围为[1，m], m为标签值的个数A是一个样本的第i标签值真实值；f (X)i是A对应的第i标签值预测值；是第i标签值的第一参数；Ε\是第i标签值的第二参数；所述第三参数按下式计算:
所述第四参数按下式计算:
其中，ERipre第k-1次迭代中的第i标签值的第一参数；EVipM是第k-1次迭代中第i标签值的第二参数；ERC是第三参数；EVC是第四参数。
【文档编号】G06N3/08GK104134091SQ201410360578
【公开日】2014年11月5日申请日期:2014年7月25日优先权日:2014年7月25日
【发明者】刘龙, 高伟杰, 周玉申请人:海信集团有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘龙;高伟杰;周玉
技术所有人：海信集团有限公司
我是此专利的发明人

上一篇：批量进程处理方法和系统的制作方法
上一篇：基于掌纹和指横纹特征融合的身份识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。