一种卷积神经网络模型的训练方法与流程

文档序号：14155709阅读：268来源：国知局

本发明涉及目标检测技术领域，尤其是涉及一种卷积神经网络模型的训练方法。

背景技术：

随着计算机视觉技术的不断更新发展，目标检测技术在智能交通、图像检索、人脸识别多个领域有着重要的地位。近年发展越来越火热的深度学习作为一个更高效的工具帮助我们在目标检测领域进行研究和发现。

目前，深度学习在目标检测领域极大超越了传统视觉算法，深度学习在大数据下能够自主学习得到有效的特征，学习到的特征在数量和性能上远远超出了通过手工设计的算法特征。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：深度学习虽然有着超越传统视觉算法的性能优势，但是深度学习的缺点也是显而易见。使用深度学习的模型包含了大量的参数，带来了训练时计算量的大幅提升，降低了模型的计算效率，同时大量的计算增加了模型计算的误差率，降低了模型计算的准确率，且训练深度模型的庞大的计算量导致深度学习不能实时的运行在嵌入式或是手持设备中，这对于将深度学习技术应用于人们的日常生活带来了许多不便。因此，现有技术的卷积神经网络模型的训练方法存在模型准确率差、计算效率低的技术问题。

技术实现要素：

有鉴于此，本发明的目的在于提供一种卷积神经网络模型的训练方法，以缓解现有技术的卷积神经网络模型的训练方法存在的模型准确率差、计算效率低的技术问题。

本发明实施例提供了一种卷积神经网络模型的训练方法，该方法包括：初始模型训练步骤和卷积神经网络模型训练步骤；

初始模型训练步骤包括：

初始模型获取训练图像样本；

根据训练图像样本进行预训练，生成预训练初始模型；

根据预训练初始模型生成初始权重；

卷积神经网络模型训练步骤包括：

将初始权重配置在初始卷积神经网络模型中，生成卷积神经网络模型；

卷积神经网络模型获取训练图像样本；

设置卷积神经网络模型中各层的训练学习率，根据训练图像样本逐层生成对应于卷积神经网络模型的初级微调权重，根据初级微调权重逐层生成卷积神经网络模型的初级训练权重值，并将初级训练权重值配置在卷积神经网络模型中；

将loss层逐层添加至卷积神经网络模型中，并根据训练图像样本生成loss误差值，根据loss误差值逐层生成对应于卷积神经网络模型中训练学习率的调整因子，根据调整因子逐层生成卷积神经网络模型的训练权重值，并将训练权重值配置在卷积神经网络模型中；

迭代设置卷积神经网络模型中各层的训练学习率，直至卷积神经网络模型中各层均完成训练权重值的配置。

本发明实施例提供了第一种可能的实施方式，其中，初始权重包括：卷积核滤波器权值、偏置权值、全连接层权值和全连接层偏置权值。

本发明实施例提供了第二种可能的实施方式，其中，根据训练图像样本生成loss误差值，具体为：

根据训练图像样本的类别数据，采用移动平均数法逐层生成卷积神经网络模型中对应的loss函数的误差值。

本发明实施例提供了第三种可能的实施方式，其中，根据loss误差值逐层生成对应于卷积神经网络模型中训练学习率的调整因子，根据调整因子逐层生成卷积神经网络模型的训练权重值，并将训练权重值配置在卷积神经网络模型中，具体为：

将loss误差值与预设的损失阈值相比较，当loss误差值低于损失阈值时，生成对应于卷积神经网络模型当前层的训练学习率的调整因子，根据调整因子降低卷积神经网络模型中对应层的训练学习率，生成当前层中对应于调整后的训练学习率的训练权重值，并将训练权重值以初始权重的方式配置在卷积神经网络模型中的下一层。

本发明实施例带来了以下有益效果：本发明实施例所提供的卷积神经网络模型的训练方法，包括初始模型训练步骤和卷积神经网络模型训练步骤，其中，初始模型训练步骤包括：初始模型获取训练图像样本；根据训练图像样本进行预训练，生成预训练初始模型；根据预训练初始模型生成初始权重。卷积神经网络模型训练步骤包括：将初始权重配置在初始卷积神经网络模型中，生成卷积神经网络模型。卷积神经网络模型获取训练图像样本。设置卷积神经网络模型中各层的训练学习率，根据训练图像样本逐层生成对应于卷积神经网络模型的初级微调权重，根据初级微调权重逐层生成卷积神经网络模型的初级训练权重值，并将初级训练权重值配置在卷积神经网络模型中。将loss层逐层添加至卷积神经网络模型中，并根据训练图像样本生成loss误差值，根据loss误差值逐层生成对应于卷积神经网络模型中训练学习率的调整因子，根据调整因子逐层生成卷积神经网络模型的训练权重值，并将训练权重值配置在卷积神经网络模型中。迭代设置卷积神经网络模型中各层的训练学习率，直至卷积神经网络模型中各层均完成训练权重值的配置。至此，完成卷积神经网络模型的完整训练，该技术方案通过采用预先对空权重的卷积神经网络赋予初始值、每一层网络设置loss函数逐层训练、动态控制训练学习率三种技术手段相结合的方式，实现了卷积神经网络模型的逐层训练，提高了卷积神经网络模型计算的识别准确率，提升了模型的性能，同时使得模型的收敛速度增加，提高了卷积神经网络模型的计算效率，缓解了现有技术的卷积神经网络模型的训练方法存在的模型准确率差、计算效率低的技术问题。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种卷积神经网络模型的训练方法的流程图；

图2为本发明实施例提供的一种卷积神经网络模型的训练方法中，s240的具体方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，深度学习的模型包含了大量的参数，带来了训练时计算量的大幅提升，直接导致了模型计算时所需的计算成本增加，降低了模型的计算效率，同时大量的计算增加了模型计算的误差率，降低了模型计算的准确率，且训练深度模型的庞大的计算量导致深度学习不能实时的运行在嵌入式或是手持设备中，这对于将深度学习技术应用于人们的日常生活带来了许多不便，基于此，本发明实施例提供的卷积神经网络模型的训练方法，可以提高卷积神经网络模型的计算效率和计算准确率。

参见图1，本发明实施例提供的一种卷积神经网络模型的训练方法的流程图。本发明实施例提供的卷积神经网络模型的训练方法，包括：初始模型训练步骤和卷积神经网络模型训练步骤。

其中，本发明实施例提供的卷积神经网络模型的训练方法中，初始模型训练步骤具体包括如下步骤：

s110：初始模型获取训练图像样本，初始模型的图像样本获取模块获取训练图像样本，训练图像样本通常指具有一系列便于区分及统计的标识特征的目标检测图片。

s120：初始模型训练模块根据获取的训练图像样本对初始模型进行预训练，初始模型通过对训练图像样本进行识别，实现了初始模型的深度学习，生成对应的预训练初始模型。

s130：初始权重生成模块根据完成训练图像样本的预训练初始模型中的模型参数生成初始权重。进一步的，本发明实施例提供的卷积神经网络模型的训练方法中，初始权重包括：卷积核滤波器权值、偏置权值、全连接层权值和全连接层偏置权值。

进一步的，本发明实施例提供的卷积神经网络模型的训练方法中，卷积神经网络模型训练步骤具体包括如下步骤：

s210：卷积神经网络模型生成模块将上述步骤得到的初始权重配置在初始卷积神经网络模型中的第一层，生成卷积神经网络模型。s220：卷积神经网络模型中的训练图像样本获取模块获取训练图像样本。

s230：训练学习率配置模块用于设置卷积神经网络模型中各层的训练学习率，具体的，训练学习率配置模块设置卷积神经网络模型各层的初始的训练学习率，基于预设的训练学习率的卷积神经网络模型根据获取的训练图像样本进行深度学习训练，初级微调权重生成模块逐层生成对应于卷积神经网络模型的初级微调权重，根据初级微调权重逐层生成卷积神经网络模型的初级训练权重值，并将初级训练权重值配置在卷积神经网络模型中。具体的，初级微调权重生成模块根据卷积神经网络模型中第一层的初始的训练学习率和初始权重生成第一初级微调权重，进一步的，根据第一初级微调权重及初始权重生成卷积神经网络模型的第一初级训练权重值，将第一初级训练权重值配置在卷积神经网络模型的第一层中。

s240：loss层配置模块将包含loss函数的loss层逐层添加至卷积神经网络模型中，根据前述获得的训练图像样本生成loss误差值，loss误差值表征了识别训练图像样本的类别误差程度，loss层配置模块根据loss误差值逐层生成对应于卷积神经网络模型中训练学习率的调整因子，根据调整因子逐层调整对应于卷积神经网络模型中训练学习率，并根据调整后的训练学习率生成卷积神经网络模型的训练权重值，并将训练权重值配置在卷积神经网络模型中。

参见图2，本发明实施例提供的一种卷积神经网络模型的训练方法中，s240的具体方法的流程图。具体的，loss层配置模块将包含loss函数的loss层添加至卷积神经网络模型的第一层，根据前述获得的训练图像样本生成卷积神经网络模型第一层的loss误差值，loss层配置模块根据loss误差值逐层生成对应于卷积神经网络模型中第一层训练学习率的调整因子，并根据调整因子对第一层训练学习率进行调整，根据调整后的训练学习率生成卷积神经网络模型第一层的训练权重值，并将训练权重值作为初始权重配置在卷积神经网络模型中的第二层，以此类推，设置卷积神经网络模型中各层的初始权重。该技术方案通过采用对训练学习率的动态控制实现了训练模型收敛速度的提升，进而提高了模型的计算效率。

具体的，本发明实施例提供的卷积神经网络模型的训练方法中，根据训练图像样本生成loss误差值，具体为s241：loss层配置模块对训练图像样本的类别进行识别，生成对应的类别数据，并采用移动平均数法逐层生成卷积神经网络模型各层中对应的loss函数的误差值，即loss误差值。

具体的，本发明实施例提供的卷积神经网络模型的训练方法中，根据loss误差值逐层生成对应于卷积神经网络模型中训练学习率的调整因子，根据调整因子逐层生成卷积神经网络模型的训练权重值，并将训练权重值配置在卷积神经网络模型中，具体为s242：loss层配置模块将loss误差值与预设的损失阈值进行比较，当loss误差值在迭代周期期间低于损失阈值时，定义此时为“高原”，loss层配置模块生成对应于“高原”的卷积神经网络模型当前层的训练学习率的调整因子，通常采用减少常数因子的调整方式。s243：根据调整因子降低卷积神经网络模型中对应层的训练学习率。s244：生成当前层中对应于调整后的训练学习率的训练权重值，并将训练权重值以初始权重的方式配置在卷积神经网络模型中的下一层。具体的，loss层配置模块将卷积神经网络模型的第一层的loss误差值与预设的损失阈值进行比较，当第一层的loss误差值低于损失阈值时，生成对应于第一层的训练学习率的调整因子，loss层配置模块根据该调整因子降低第一层训练学习率，并根据调整后的训练学习率生成卷积神经网络模型第一层的训练权重值，并将第一层的训练权重值作为初始权重配置在卷积神经网络模型中的第二层，以此类推，设置卷积神经网络模型中各层的初始权重。

s250：采用前述方式对卷积神经网络模型中各层的训练学习率进行迭代设置，直至卷积神经网络模型中各层均完成训练权重值的配置，迭代的次数取决于卷积神经网络模型的层数，迭代设置后得到的卷积神经网络模型即为完成深度学习的卷积神经网络模型。

本发明实施例所提供的卷积神经网络模型的训练方法，包括初始模型训练步骤和卷积神经网络模型训练步骤，其中，初始模型训练步骤包括：初始模型获取训练图像样本；根据训练图像样本进行预训练，生成预训练初始模型；根据预训练初始模型生成初始权重。卷积神经网络模型训练步骤包括：将初始权重配置在初始卷积神经网络模型中，生成卷积神经网络模型。卷积神经网络模型获取训练图像样本。设置卷积神经网络模型中各层的训练学习率，根据训练图像样本逐层生成对应于卷积神经网络模型的初级微调权重，根据初级微调权重逐层生成卷积神经网络模型的初级训练权重值，并将初级训练权重值配置在卷积神经网络模型中。将loss层逐层添加至卷积神经网络模型中，并根据训练图像样本生成loss误差值，根据loss误差值逐层生成对应于卷积神经网络模型中训练学习率的调整因子，根据调整因子逐层生成卷积神经网络模型的训练权重值，并将训练权重值配置在卷积神经网络模型中。迭代设置卷积神经网络模型中各层的训练学习率，直至卷积神经网络模型中各层均完成训练权重值的配置。至此，完成卷积神经网络模型的完整训练，该技术方案通过采用预先对空权重的卷积神经网络赋予初始值、每一层网络设置loss函数逐层训练、动态控制训练学习率三种技术手段相结合的方式，实现了卷积神经网络模型的逐层训练，提高了卷积神经网络模型计算的识别准确率，提升了模型的性能，同时使得模型的收敛速度增加，提高了卷积神经网络模型的计算效率，缓解了现有技术的卷积神经网络模型的训练方法存在的模型准确率差、计算效率低的技术问题。

在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王曦
技术所有人：苏州天瞳威视电子科技有限公司
我是此专利的发明人

上一篇：用于切割、印刷或压印的设备和方法与流程
上一篇：壳代码检测的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。