一种模型训练方法及装置与流程

文档序号：26943020发布日期：2021-10-12 17:18阅读：来源：国知局

技术特征：
1.一种模型训练方法，其特征在于，包括：s1、确定待训练模型当前次的隐藏比例值；s2、基于所述当前次的隐藏比例值对所述待训练模型进行隐藏节点处理；s3、获取训练数据，将所述训练数据输入至经过处理的所述待训练模型中，对所述待训练模型进行训练；s4、判断是否达到训练停止条件，若是，则执行步骤s5，若否，则执行步骤s6；s5、停止训练；s6、复原所述待训练模型中的隐藏节点，继续执行步骤s1。2.根据权利要求1所述的模型训练方法，其特征在于，所述步骤s1、确定待训练模型当前次的隐藏比例值，包括：基于所述待训练模型当前次的训练轮数确定所述待训练模型所处的训练阶段；根据所述待训练模型所处的训练阶段确定所述待训练模型当前次的隐藏比例值。3.根据权利要求2所述的模型训练方法，其特征在于，所述基于所述待训练模型当前次的训练轮数确定所述待训练模型所处的训练阶段，包括：在所述待训练模型当前次的训练轮数大于零并小于等于第一预设阈值的情况下，确定所述待训练模型处于第一训练阶段；在所述待训练模型当前次的训练轮数大于第一预设阈值并小于等于第二预设阈值的情况下，确定所述待训练模型处于第二训练阶段；在所述待训练模型当前次的训练轮数大于第二预设阈值并小于等于第三预设阈值的情况下，确定所述待训练模型处于第三训练阶段。4.根据权利要求3所述的模型训练方法，其特征在于，所述根据所述待训练模型所处的训练阶段确定所述待训练模型当前次的隐藏比例值，包括：在所述待训练模型处于第一训练阶段的情况下，确定所述待训练模型当前次的隐藏比例值为0；在所述待训练模型处于第二训练阶段的情况下，基于所述待训练模型当前次的训练轮数、预设最大比例值、第一预设阈值和第二预设阈值确定所述待训练模型当前次的隐藏比例值；在所述待训练模型处于第三训练阶段的情况下，确定所述待训练模型当前次的隐藏比例值为所述预设最大比例值。5.根据权利要求1所述的模型训练方法，其特征在于，所述步骤s2，包括：基于所述当前次隐藏比例值和所述待训练模型中的全部节点数量确定所述待训练模型在当前次训练中隐藏节点的目标数量；随机选择所述待训练模型中目标数量的节点作为隐藏节点，并对所述隐藏节点进行隐藏处理。6.根据权利要求1所述的模型训练方法，其特征在于，所述待训练模型至少包括嵌入层、注意力层和线性层；所述步骤s3，包括：获取训练数据，所述训练数据包括训练样本数据和训练标签数据；将所述训练样本数据输入至经过隐藏处理的所述待训练模型的嵌入层中，通过所述嵌
入层中的未隐藏节点对所述训练样本数据进行处理，生成样本向量；将所述样本向量输入至所述注意力层中，通过所述注意力层中的未隐藏节点对所述样本向量进行处理，生成样本矩阵；将所述样本矩阵输入至所述线性层中，通过所述线性层中的未隐藏节点对所述样本矩阵进行处理，生成样本结果；基于所述样本结果和所述训练标签数据确定损失值并调整所述待训练模型中未隐藏节点的权重值，完成当前次训练。7.根据权利要求3所述的模型训练方法，其特征在于，所述步骤s4，包括：判断所述当前次的训练轮数是否大于或等于第三预设阈值，若是，则执行步骤s5，若否，则执行步骤s6。8.一种模型训练装置，其特征在于，包括：比例确定模块，被配置为确定待训练模型当前次的隐藏比例值；隐藏处理模块，被配置为基于所述当前次的隐藏比例值对所述待训练模型进行隐藏节点处理；模型训练模块，被配置为获取训练数据，将所述训练数据输入至经过处理的所述待训练模型中对所述待训练模型进行训练；条件判断模块，被配置为判断是否达到训练停止条件，若是，则执行训练停止模块，若否，则执行迭代训练模块；训练停止模块，被配置为停止训练；迭代训练模块，被配置为复原所述待训练模型中的隐藏节点，继续执行所述比例确定模块。9.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-7任意一项所述方法的步骤。10.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。

技术总结
本申请提供一种模型训练方法及装置。其中，所述方法包括：S1、确定待训练模型当前次的隐藏比例值；S2、基于所述当前次的隐藏比例值所述待训练模型进行隐藏节点处理；S3、获取训练数据，将所述训练数据输入至经过处理的所述待训练模型中对所述待训练模型进行训练；S4、判断是否达到训练停止条件，若是，则执行步骤S5，若否，则执行步骤S6；S5、停止训练；S6、复原所述待训练模型中的隐藏节点，继续执行步骤S1。本申请提供的模型训练方法及装置，有助于结合不同训练阶段的特点对模型进行适应性训练，防止模型过拟合，提高模型训练效果。提高模型训练效果。提高模型训练效果。

技术研发人员：李长亮王怡然
受保护的技术使用者：北京金山软件有限公司
技术研发日：2020.04.02
技术公布日：2021/10/11

完整全部详细技术资料下载

当前第2页1 2