本公开涉及数据处理,尤其涉及一种多源异构业务数据库的数据挖掘方法及装置。
背景技术:
1、对于由多个业务分系统组成的多系统业务平台,或者是同行业的不同资源方而言,它们的本地业务数据通常是分布式存储在各自的本地数据库中,即数据源不同。不同数据源的数据通常存在数据异构的问题,由此就形成了多源异构数据库并行的情况。
2、通过联合学习训练是获得性能更优的业务模型的一种有效途径。但是,参与联合学习的各资源方为了保护自己的数据安全,通常都不愿意共享自己的数据。此外,不同数据源的数据本身存在数据异构的问题,若是各资源方直接采用各自本地数据参与联合学习训练,建立的模型无法很好地拟合各资源方的数据,得到的业务模型的性能也差强人意。
3、因此,亟需提供一种可在保护各资源方的数据安全的前提下,挖掘出各资源方中的相似业务数据,缓解由于数据异构所导致的联合训练得到的模型性能较差的问题。
技术实现思路
1、有鉴于此,本公开实施例提供了一种多源异构业务数据库的数据挖掘方法及装置,以在保护各资源方的数据安全的前提下,挖掘出各资源方中的相似业务数据,缓解由于数据异构所导致的联合训练得到的模型性能较差的问题。
2、本公开实施例的第一方面,提供了一种多源异构业务数据库的数据挖掘方法,包括:
3、第一业务端:
4、确定第二业务端;
5、当接收到第二业务端反馈的确认信息时,向第二业务端发送数据聚合策略;
6、使用数据聚合策略对本地业务数据进行聚类并得到第一聚类中心;
7、接收第二业务端基于数据聚合策略对本地数据进行聚类并得到的第二聚类中心;
8、对第一聚类中心和第二聚类中心进行聚合并得到聚合中心;
9、根据聚合中心对本地业务数据进行重新聚类,直至预设的迭代次数或聚合中心不再变化,得到挖掘数据集。
10、本公开实施例的第二方面,提供了一种多源异构业务数据库的数据挖掘装置,包括:
11、确定模块,被配置为确定第二业务端;
12、发送模块,被配置为当接收到第二业务端反馈的确认信息时,向第二业务端发送数据聚合策略;
13、聚类模块,被配置为使用数据聚合策略对本地业务数据进行聚类并得到第一聚类中心;
14、接收模块,被配置为接收第二业务端基于数据聚合策略对本地数据进行聚类并得到的第二聚类中心;
15、聚合模块,被配置为对第一聚类中心和第二聚类中心进行聚合并得到聚合中心;
16、重新聚类模块,被配置为根据聚合中心对本地业务数据进行重新聚类,直至预设的迭代次数或聚合中心不再变化,得到挖掘数据集。
17、本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
18、本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
19、本公开实施例与现有技术相比,其有益效果至少包括:本公开实施例提供的多源异构业务数据库的数据挖掘可应用于第一业务端,当第一业务端想要通过联合学习训练的方式性能更优的业务模型时,可以通过确定第二业务端;当接收到第二业务端反馈的确认信息时,向第二业务端发送数据聚合策略;使用数据聚合策略对本地业务数据进行聚类并得到第一聚类中心;接收第二业务端基于数据聚合策略对本地数据进行聚类并得到的第二聚类中心;对第一聚类中心和第二聚类中心进行聚合并得到聚合中心;根据聚合中心对本地业务数据进行重新聚类,直至预设的迭代次数或聚合中心不再变化,得到挖掘数据集,之后可使用经上述方法挖掘出来的挖局数据集中的业务数据参与联合学习训练获得业务模型。该方法可在保护各资源方(业务端)的数据安全的前提下,挖掘出各资源方中的相似业务数据,缓解由于数据异构所导致的联合训练得到的模型性能较差的问题。
1.一种多源异构业务数据库的数据挖掘方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,确定第二业务端,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述业务数据库拓扑结构图确定第二业务端,包括:
4.根据权利要求1所述的方法,其特征在于,使用所述数据聚合策略对本地业务数据进行聚类并得到第一聚类中心,包括:
5.根据权利要求4所述的方法,其特征在于,对所述第一聚类中心和所述第二聚类中心进行聚合并得到聚合中心,包括:
6.根据权利要求5所述的方法,其特征在于,根据所述聚合中心对所述本地业务数据进行重新聚类,直至预设的迭代次数或聚合中心不再变化,得到挖掘数据集,包括:
7.根据权利要求6所述的方法,其特征在于,根据所述欧氏距离值对所述本地业务数据进行重新聚类,直至预设的迭代次数或聚合中心不再变化,得到挖掘数据集,包括:
8.一种多源异构业务数据库的数据挖掘装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。