一种继承具体应用模型的深度学习模型的训练方法和系统与流程

文档序号：17239270发布日期：2019-03-30 08:30阅读：382来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及人工智能领域，尤其涉及一种继承具体应用模型的深度学习模型的训练方法和系统。

背景技术：

以往，一个深度学习模型的训练，需要从零开始进行，耗时较长；例如，一个深度学习模型在进行具体应用中已经训练了30天，那么，如果训练数据集有优化或者参数有调整时，那么就都得从零开始重新训练。

技术实现要素：

本发明针对上述技术问题，提出一种继承具体应用模型的深度学习模型的训练方法和系统。

本发明所提出的技术方案如下：

本发明提出了一种继承具体应用模型的深度学习模型的训练方法，包括以下步骤：

步骤s1、找出与深度学习模型的待训练应用相关的具体应用模型；

步骤s2、自动采用具体应用模型中与其具体应用有关的深度学习模型参数值对深度学习模型进行初始化；

步骤s3、自动采用与待训练应用相关的训练数据训练初始化后的深度学习模型。

本发明上述的训练方法中，深度学习模型采用卷积神经网络模型、深度信念网络模型、深度玻尔兹曼机模型或堆叠自动编码器模型。

本发明上述的训练方法中，具体应用模型为采用该具体应用模型中与具体应用有关的特征值赋值于深度学习模型参数的深度学习模型。

本发明上述的训练方法中，对深度学习模型进行初始化的过程表示将具体应用模型中与其具体应用有关的深度学习模型参数值对深度学习模型中的深度学习模型参数赋值的过程。

本发明还提出了一种继承具体应用模型的深度学习模型的训练系统，包括以下步骤：

继承模块，用于找出与深度学习模型的待训练应用相关的具体应用模型；

初始化模块，用于自动采用具体应用模型中与其具体应用有关的深度学习模型参数值对深度学习模型进行初始化；

训练模块，用于自动采用与待训练应用相关的训练数据训练初始化后的深度学习模型。

本发明上述的训练系统中，深度学习模型采用卷积神经网络模型、深度信念网络模型、深度玻尔兹曼机模型或堆叠自动编码器模型。

本发明上述的训练系统中，具体应用模型为采用该具体应用模型中与具体应用有关的特征值赋值于深度学习模型参数的深度学习模型。

本发明上述的训练系统中，对深度学习模型进行初始化的过程表示将具体应用模型中与其具体应用有关的深度学习模型参数值对深度学习模型中的深度学习模型参数赋值的过程。

本发明的继承具体应用模型的深度学习模型的训练方法和系统，能够继承现有已经训练完成或者训练过程中的具体应用模型，通过训练系统去管理，并自动处理继承训练的相关工作，基本无需人工参与，从而加快训练速度，降低训练时间，例如图像分类，原有模型支持两种分类，在同样数据量的情况下，当需要新加一个分类进行识别，则最少可降低60％训练时间。本发明的继承具体应用模型的深度学习模型的训练方法和系统设计巧妙，实用性强。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1示出了本发明优选实施例的继承具体应用模型的深度学习模型的训练系统的功能模块方框图；

图2示出了采用如图1所示的训练系统进行训练的流程图。

具体实施方式

本发明所要解决的技术问题是：一个深度学习模型在进行具体应用的训练过程中，如果训练数据集有优化或者参数有调整时，那么就都得从零开始重新训练。本发明就该技术问题而提出的技术思路是：构造一种深度学习模型的训练方法和系统，使其能够继承现有已经训练完成或者训练过程中的具体应用模型。

为了使本发明的技术目的、技术方案以及技术效果更为清楚，以便于本领域技术人员理解和实施本发明，下面将结合附图及具体实施例对本发明做进一步详细的说明。

本发明提出了一种继承具体应用模型的深度学习模型的训练方法，包括以下步骤：

步骤s1、找出与深度学习模型的待训练应用相关的具体应用模型；

在本步骤中，深度学习的概念源于人工神经网络的研究；含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习模型可以采用卷积神经网络模型、深度信念网络模型、深度玻尔兹曼机模型和堆叠自动编码器模型等。

进一步地，深度学习模型中的深度学习模型参数没有赋予与任何具体应用有关的特征值，仅仅只具有初始值。采用与具体应用有关的训练数据导入深度学习模型，可以求得深度学习模型参数的与具体应用有关的特征值。具体应用模型即为采用该与具体应用有关的特征值赋值于深度学习模型参数的深度学习模型。

步骤s2、自动采用具体应用模型中与其具体应用有关的深度学习模型参数值对深度学习模型进行初始化；

在本步骤中，所述对深度学习模型进行初始化的过程表示将具体应用模型中与其具体应用有关的深度学习模型参数值对深度学习模型中的深度学习模型参数赋值的过程。

卷积神经网络模型的训练采用有监督训练方式。首先是向前传播，即输入x经过卷积神经网路后变为输出o，再将o与标签进行比较，然后以向后传播的方式，到将所得误差传播到每个节点，根据权值更新公式，更新相应的卷积核权值。在这里，当具体应用模型采用卷积神经网络模型时，最后更新得到的卷积核权值即为与具体应用有关的深度学习模型参数值。

深度信念网络模型是由多个受限制玻尔兹曼机叠加而成的深度网络，它通过无监督预训练和有监督微调来训练整个深度信念网络。预训练时用无标签数据单独训练每一层受限制玻尔兹曼机，通过自下而上的方式，将下层受限制玻尔兹曼机输出作为上层受限制玻尔兹曼机输入。当预训练完成后，网络会获得一个较好的网络初始值，但这还不是最优的。再采用有标签数据去训练网络，误差自顶向下传播，一般采用梯度下降法对网络进行微调。

在这里，当具体应用模型采用深度信念网络模型时，最后得到的对深度学习模型微调的参数即为与具体应用有关的深度学习模型参数值。

深度玻尔兹曼机模型和堆叠自动编码器模型的训练原理与前述两种深度学习模型类似，在这里，就不一一赘述。

步骤s3、自动采用与待训练应用相关的训练数据训练初始化后的深度学习模型。

进一步地，如图1所示，图1示出了本发明优选实施例的继承具体应用模型的深度学习模型的训练系统的功能模块方框图。本发明提出了一种继承具体应用模型的深度学习模型的训练系统，包括：

继承模块100，用于找出与深度学习模型的待训练应用相关的具体应用模型；

在这里，深度学习的概念源于人工神经网络的研究；含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习模型可以采用卷积神经网络模型、深度信念网络模型、深度玻尔兹曼机模型和堆叠自动编码器模型等。

初始化模块200，用于自动采用具体应用模型中与其具体应用有关的深度学习模型参数值对深度学习模型进行初始化；

在这里，所述对深度学习模型进行初始化的过程表示将具体应用模型中与其具体应用有关的深度学习模型参数值对深度学习模型中的深度学习模型参数赋值的过程。

在这里，当具体应用模型采用深度信念网络模型时，最后得到的对深度学习模型微调的参数即为与具体应用有关的深度学习模型参数值。

深度玻尔兹曼机模型和堆叠自动编码器模型的训练原理与前述两种深度学习模型类似，在这里，就不一一赘述。

训练模块300，用于自动采用与待训练应用相关的训练数据训练初始化后的深度学习模型。

如图2所示，图2示出了采用如图1所示的训练系统进行训练的流程图。由图2可以看出，本发明的深度学习模型的训练方法和系统实质上就是将深度学习模型的训练过程设计成能够以循环方式执行的技术。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵铭;林镇锋;易文峰;杨育;杨正刚;李小芬;徐文娟
技术所有人：深圳市康拓普信息技术有限公司
我是此专利的发明人

上一篇：横向场贴片天线阵微波加热炉的制作方法
上一篇：锅具及烹饪器具的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。