联合学习系统中的语义学习的制作方法

文档序号:34119392发布日期:2023-05-11 03:06阅读:49来源:国知局
联合学习系统中的语义学习的制作方法


背景技术:

1、本发明总地涉及深度学习模型领域,具体涉及用于深度学习模型的联合学习(federated learning)。

2、在联合学习系统中,一组多个设备或多方一起工作以开发和协作地训练一个深度学习模型,例如预测模型,而不与参与模型训练的其他设备或各方共享或透露个体方的原始数据。因为处理的数据越多,模型将被训练得越好,所以使用多方及其数据进行深度学习训练将导致更好的训练和更好的模型。聚合器从各个设备或各方接收信息,并且编译或聚合该信息以微调深度学习模型。在一些情况下,聚合器对来自各方的信息求平均以便调整深度学习模型。在联合学习系统中,网络中的各种设备的数据可以用于训练模型,而无需设备通过云共享在个体计算设备或电话上的个体原始数据。聚合器可以将经调整的深度学习模型发送到各个设备,而无需这些设备从其他设备接收原始数据。因此,联合学习帮助实现个体设备的原始数据的私密性,同时仍允许多方一起工作以训练深度学习模型。联合学习防止对手还原数据变换以找到与特定方匹配的原始训练数据。

3、bonawitz等人的“towards federated learning at scale system design”描述了联合学习(“fl”)是一种分布式机器学习方法,其使得能够训练驻留在诸如移动电话的设备上的大量分散数据。bonawitz等人还说fl解决了数据的私密性、所有权和本地性(locality)的基本问题。

4、prakash等人的美国专利申请公开号2019/0138934a1公开了为了联合学习,每个客户端计算节点获取全局模型,使用其本地数据更新全局模型,并将更新的模型传送到中央服务器。然而,prakash等人公开了,应当基于异构计算节点所经历的网络条件和操作约束的知识,在异构计算节点之间平衡计算。

5、已知的联合学习系统具有的缺点是,它们是基于假设不同方对数据进行标记、不同方将使用相同的数据标记、以及不同方知道所有可能的数据类别而构建的。实际上,各方通常将不知道其它各方使用的标记。第一方可以给予样本的标记可能不同于第二方给予该样本的标记。例如,一些方可能认为兔子是宠物,而其他方可能认为兔子是食物。有时,诸如医院的各方不被允许提前共享他们的数据和标记。此外,可能出现不能很好地拟合静态模型结构的新样本。例如,在用于识别食物图片的模型中,当地的一方将理解诸如arepa(玉米饼)的当地食物,而分散在全世界的其他方则不理解该当地食物。更新模型结构需要重新训练所有本地模型,这将消耗大量时间和能量。


技术实现思路

1、根据一个示例性实施例,一种方法、计算机系统和计算机程序产品可以执行联合学习。聚合器可以从分布式计算设备接收集群信息。集群信息可以与分布式计算设备的样本数据中的所识别的集群有关。聚合器可以包括至少一个处理器。聚合器可以集成集群信息以定义类别。该集成可以包括识别所识别的集群中的任何冗余集群。类别的数量可以对应于来自分布式计算设备的集群的总数减去任何冗余集群。深度学习模型可以从聚合器发送到分布式计算设备。深度学习模型可以包括具有节点的输出层。节点可以对应于所定义的类别。聚合器可以接收由分布式计算设备执行的联合学习的一个或多个结果。联合学习可以训练深度学习模型。

2、利用该实施例,即使不同的各方对相同的样本类型给出不同的名称,也可以在深度学习系统中准确地且适当地代码化(codify)用于数据样本的标记。联合学习中的深度学习模型被定制为适应不同参与者的语义含义,使得参与者可以独立地使用其正确的唯一语义标记,同时仍然贡献于联合学习系统。

3、在附加的示例性实施例中,聚合器可以向分布式计算设备提供自动编码器。分布式计算设备的各个计算设备可以通过自动编码器运行各个计算设备的样本数据,以产生自动编码器输出。各个计算设备可以通过聚类算法运行自动编码器输出以从样本数据识别集群。可以将集群信息从分布式计算设备发送到聚合器。

4、利用该实施例,可以改进联合学习系统以具有改进的准确性,从而正确地识别馈送到系统中的数据样本的标记和类别。

5、另一示例性实施例可以附加地包括经由分布式计算设备中的计算设备根据计算设备的语义含义来命名类别中的类别的步骤。

6、利用该实施例,作为联合学习深度学习网络中的分布式计算设备的系统的一部分的个体参与方可以提供他们自己的语义定义,以便标记由网络中的其他参与方共享的组。

7、补充示例性实施例可以附加地包括在集群信息被发送到聚合器之前经由分布式计算设备匿名化集群信息的步骤。

8、利用该实施例,可以维护客户数据的私密性,使得各个方可以参与联合学习,而不暴露其私有客户和其他个体原始数据。

9、另一示例性实施例可以附加地包括在联合学习期间经由分布式计算设备中的第一计算设备检查新类别的步骤。该检查可以包括第一计算设备向自动编码器馈送新样本,以及执行异常检测以检测偏离类别的新样本。该偏离超过预定义阈值。

10、这样,可以以节省计算资源的加速方式将在联合学习期间出现的新类别添加到深度学习模型中。



技术特征:

1.一种用于联合学习的计算机实现的方法,所述方法包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,还包括:

4.根据权利要求1所述的方法,其中每个集群包括质心;

5.根据权利要求4所述的方法,其中如果两个集群的质心之间的距离小于预定义的阈值,则所述聚合器将所述两个集群定义为冗余的。

6.根据权利要求1所述的方法,还包括:

7.根据权利要求2所述的方法,还包括:

8.根据权利要求2所述的方法,还包括:

9.根据权利要求8所述的方法,其中所述顺序训练包括:

10.根据权利要求8所述的方法,其中所述初始自动编码器是预先训练的自动编码器。

11.根据权利要求2所述的方法,还包括:

12.根据权利要求11所述的方法,还包括:

13.根据权利要求2所述的方法,其中所述聚类算法是所述自动编码器的一部分。

14.一种用于利用语义学习增强的联合学习的计算机系统,所述计算机系统包括:

15.根据权利要求14所述的计算机系统,其中所述方法进一步包括:

16.根据权利要求15所述的计算机系统,其中所述自动编码器包括聚类算法。

17.根据权利要求14所述的计算机系统,其中每个集群包括质心;

18.根据权利要求17所述的计算机系统,其中如果两个集群的质心之间的距离小于预定义的阈值,则所述计算机系统将所述两个集群定义为冗余的。

19.根据权利要求15所述的计算机系统,其中所述方法还包括:

20.一种用于利用语义学习增强的联合学习的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有随其体现的程序指令,所述程序指令能够由处理器执行以使所述处理器执行一种方法,所述方法包括:


技术总结
提供了一种用于利用语义学习增强的联合学习的方法、计算机系统和计算机程序产品。聚合器可以从分布式计算设备接收集群信息。集群信息可以与分布式计算设备的样本数据中的所识别的集群有关。聚合器可以集成集群信息以定义类别。该集成可以包括识别所识别的集群中的任何冗余集群。类别的数量可以对应于来自分布式计算设备的集群的总数减去任何冗余集群。深度学习模型可以从聚合器发送到分布式计算设备。深度学习模型可以包括具有可以对应于所定义的类别的节点的输出层。聚合器可以接收由分布式计算设备执行的联合学习的结果。联合学习可以训练深度学习模型。

技术研发人员:V·P·帕斯托雷,周亦,N·巴拉卡尔多安杰尔,A·安瓦尔,S·毕安科
受保护的技术使用者:国际商业机器公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1