1.一种基于矩阵表示的分布式模型训练优化方法,其特征在于,方法包括以下步骤:
s1,节点配置,在子节点中搭建神经网络,通过前向传播获取参数,随机梯度下降算法更新参数,将节点搭建成完全二叉树集群的形式;
s2,消息上传,在不同的主机上搭建通讯协议,叶子节点将消息通过消息队列并行传输到根节点,并使用算法对神经网络中所有节点进行节点验证;
s3,模型上传,将模型文件分割成等份,并标注索引,开启线程采用并行io流的方式,通过模型队列将模型文件上传到根节点;
s4,安全检测,根节点首先对消息队列进行安全检查,确认安全后,从模型队列中取出模型文件,按照分割后的模型的索引号组建成完整的模型,将这个模型作为当前神经网络的隐含层进行迁移学习的训练。
2.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法,其特征在于,所述步骤s1中节点配置过程具体包括:
s101,设置一个管理者manger,在创建n个容器部署在不同的机器上面,将容器记为节点node,将数据集平分为n份,设置节点控制表;
s102,对数据集进行排序,并将排好序的前n个数据集子集分别送入node中,设置一个周期的时间片t;
s103,在子节点中搭建神经网络,通过前向传播取参数,并利用随机梯度下降算法更新参数,将节点搭建成完全二叉树的形式,每个树节点采用相同数据结构。
3.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法,其特征在于,所述步骤s2中消息上传具体包括:
s201,每个周期结束后,从叶子节点开始,以异步并行的方式向根节点报备消息;
s202,非叶子节点将收到的信息结合自身状态码、公钥和消息认证码,依次入队到消息队列中,并将消息上传到根据节点。
4.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法,其特征在于,所述步骤s3中模型上传过程具体包括:
s301,每两个周期结束后,子节点保存一次模型到模型队列中,队列元素后接有模型文件情况说明表,标注节点id,loss值等信息;
s302,进行模型周期性上传时,将模型文件分割成等份,并对每份模型文件标注索引;
s303,开启一定量的线程,每个线程为其分配的任务保存一个双向链式队列,将分割好的模型文件平均分配到双向链式队列中,采用并行io流的方式上传模型文件到根节点;
s304,线程每完成一个模型文件上传任务,从模型队列的队列头取出下一个任务开始执行,当某个线程完成其分配的任务时,从消息队列的队尾上取出一个任务执行,直至所有任务都执行完毕,所有队列清空。
5.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法,其特征在于,所述步骤s4中消息队列的安全检测过程具体包括:
s401,根节点接收到消息队列上传的消息后,通过签名聚合和密钥聚合的算法,对子节点进行安全检测;
s402,确认子节点安全后,根节点接收消息队列并取出自身队列的队尾元素,结合收到的消息队列组成新的队列上传到父节点,同时向父节点报备;
s403,父节点按照后续递归对遍历整个集群,找到最后一个节点,将其消息队列中的元素出队,查看状态码;
s404,根据状态码的状态,查询该状态码id,找到主机重启该容器,取出模型队列队尾存储的模型,待该主机重启容器完后,用取出的模型进行迁移学习继续训练,并清空队列元素。
6.根据权利要求5所述的一种基于矩阵表示的分布式模型训练优化方法,其特征在于,所述状态码的状态包括因网络延迟等不可靠因素而阻塞、文件传输的消息等待和正在运行三种状态。