一种基于矩阵表示的分布式模型训练优化方法与流程

文档序号：22626806发布日期：2020-10-23 19:35阅读：来源：国知局

技术特征：

1.一种基于矩阵表示的分布式模型训练优化方法，其特征在于，方法包括以下步骤：

s1，节点配置，在子节点中搭建神经网络，通过前向传播获取参数，随机梯度下降算法更新参数，将节点搭建成完全二叉树集群的形式；

s2，消息上传，在不同的主机上搭建通讯协议，叶子节点将消息通过消息队列并行传输到根节点，并使用算法对神经网络中所有节点进行节点验证；

s3，模型上传，将模型文件分割成等份，并标注索引，开启线程采用并行io流的方式，通过模型队列将模型文件上传到根节点；

s4，安全检测，根节点首先对消息队列进行安全检查，确认安全后，从模型队列中取出模型文件，按照分割后的模型的索引号组建成完整的模型，将这个模型作为当前神经网络的隐含层进行迁移学习的训练。

2.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法，其特征在于，所述步骤s1中节点配置过程具体包括：

s101，设置一个管理者manger，在创建n个容器部署在不同的机器上面，将容器记为节点node，将数据集平分为n份，设置节点控制表；

s102，对数据集进行排序，并将排好序的前n个数据集子集分别送入node中，设置一个周期的时间片t；

s103，在子节点中搭建神经网络，通过前向传播取参数，并利用随机梯度下降算法更新参数，将节点搭建成完全二叉树的形式，每个树节点采用相同数据结构。

3.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法，其特征在于，所述步骤s2中消息上传具体包括：

s201，每个周期结束后，从叶子节点开始，以异步并行的方式向根节点报备消息；

s202，非叶子节点将收到的信息结合自身状态码、公钥和消息认证码，依次入队到消息队列中，并将消息上传到根据节点。

4.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法，其特征在于，所述步骤s3中模型上传过程具体包括：

s301，每两个周期结束后，子节点保存一次模型到模型队列中，队列元素后接有模型文件情况说明表，标注节点id，loss值等信息；

s302，进行模型周期性上传时，将模型文件分割成等份，并对每份模型文件标注索引；

s303，开启一定量的线程，每个线程为其分配的任务保存一个双向链式队列，将分割好的模型文件平均分配到双向链式队列中，采用并行io流的方式上传模型文件到根节点；

s304，线程每完成一个模型文件上传任务，从模型队列的队列头取出下一个任务开始执行，当某个线程完成其分配的任务时，从消息队列的队尾上取出一个任务执行，直至所有任务都执行完毕，所有队列清空。

5.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法，其特征在于，所述步骤s4中消息队列的安全检测过程具体包括：

s401，根节点接收到消息队列上传的消息后，通过签名聚合和密钥聚合的算法，对子节点进行安全检测；

s402，确认子节点安全后，根节点接收消息队列并取出自身队列的队尾元素，结合收到的消息队列组成新的队列上传到父节点，同时向父节点报备；

s403，父节点按照后续递归对遍历整个集群，找到最后一个节点，将其消息队列中的元素出队，查看状态码；

s404，根据状态码的状态，查询该状态码id，找到主机重启该容器，取出模型队列队尾存储的模型，待该主机重启容器完后，用取出的模型进行迁移学习继续训练，并清空队列元素。

6.根据权利要求5所述的一种基于矩阵表示的分布式模型训练优化方法，其特征在于，所述状态码的状态包括因网络延迟等不可靠因素而阻塞、文件传输的消息等待和正在运行三种状态。

技术总结
本发明公开了一种基于矩阵表示的分布式模型训练优化方法，方法包括：节点配置，在子节点中搭建神经网络，通过前向传播获取参数，随机梯度下降算法更新参数，将节点搭建成完全二叉树集群的形式；消息上传，在不同的主机上搭建通讯协议，子节点将消息通过消息队列并行传输到根节点，并对神经网络中的节点进行验证；模型上传，将模型文件分割成等份，并标注索引，采用并行IO流的方式将模型文件上传到根节点；安全检测，根节点对消息队列进行安全检查，确认安全后，从队列中取出模型文件，按照分割后的模型的索引号组成完整的模型，并将其作为当前神经网络的隐含层进行迁移学习的训练。通过本方案能大大减少分布式训练的耗时，并提高模型的训练效率。

技术研发人员：王彪;王亚强;曹亮
受保护的技术使用者：成都信息工程大学;成都成信高科信息技术有限公司
技术研发日：2020.07.24
技术公布日：2020.10.23

完整全部详细技术资料下载

当前第2页1 2