基于联邦蒸馏学习的多源不平衡信用数据融合方法及其系统

文档序号:33336341发布日期:2023-03-04 01:24阅读:27来源:国知局
基于联邦蒸馏学习的多源不平衡信用数据融合方法及其系统

1.本公开属于数据融合及隐私保护技术领域,具体涉及基于联邦蒸馏学习的多源不平衡信用数据融合方法及其系统。


背景技术:

2.随着互联网技术及智能设备的飞速发展,和个人、企业等相关经济、金融活动都以数字形式展现,且进入“大数据”时代。个人或者企业的经济活动数据是衡量个人或企业在经济活动中信用的最主要指标,在网络化和透明化的同时,数据安全和隐私也需要重点关注。我国《社会信用体系规划纲要(2014-2020)》明确指出:“逐步形成覆盖全部信用主体、所有信用信息类别、全国所有区域的信用信息网络”。互联网的发展促进评价信用的数据越来越多,评价维度越来越高,但是数据的非结构化、复杂多样性、数据非平衡性以及信用数据隐私性等导致客观、科学地评价个人或企业的信用变得困难。单一领域、模式、场景、生态下的信用评价体系不能准确刻画个人或企业信用,因此,开展电子商务、互联网金融等领域不平衡多源信用数据在保护隐私前提下高效融合并构建联合信用评价模型非常有必要。
3.然而,电子商务、互联网金融、城市信用、养老服务等领域的信用数据存在异构、样本不平衡等现象,因此需要中心服务器和客户端上的数据进行蒸馏学习,因此,如何在满足隐私保护的约束下实现每个客户端学习出适合的模型,是当前亟需解决的难题。


技术实现要素:

4.针对现有技术的不足,本公开的目的在于提供基于联邦蒸馏学习的多源不平衡信用数据融合方法及其系统,解决了背景技术提到的问题。
5.本公开的目的可以通过以下技术方案实现:
6.一种基于联邦蒸馏学习的不平衡多源信用数据融合系统,包括至少两个以上信用领域客户端,
7.所述客户端基于各自领域信用数据设置初始化预测模型;
8.所述客户端基于初始预测模型参数进行数据蒸馏,发送本地部分蒸馏数据到中心服务器;
9.所述中心服务器通过生成对抗网络gan产生模拟数据扩充客服端发送的蒸馏数据样本;
10.所述中心服务器利用扩充后的信用数据样本对初始化融合模型进行训练学习;
11.所述中心服务器初始化信用融合模型参数,并下发到各个客户端;
12.所述中心服务器下发生成对抗网络gan到各个客户端以扩充客户端训练数据,按照约束条件对客户端本地预测模型进行更新,直至获取满足客户端训练停止条件的融合模型。
13.优选的,所述客户端通过本地训练扩充后的数据构建融合模型来刻画本地数据分布,所述模型保留在客户端本地。
14.优选的,所述中心服务器下发的公有融合模型和客户端本地私有模型之间引入知识蒸馏进行信息交互,采用联合训练,让共享融合网络在训练过程中指导本地客户端网络的训练,而同时不受客户端网络的影响。
15.优选的,所述客户端进一步被配置为将所述本地扩充后的数据样本输入至融合模型进行处理,获得初始预测信息,通过计算损失函数对客户端融合模型进行参数调整。
16.优选的,所述中心服务端进一步被配置为根据所述至少两个客户端参数构建的融合模型,作为所述初始全局融合模型。
17.优选的,所述各个客户端按照对应关系及交叉关系策略将信用数据样本输入至融合模型进行处理,获得预测信息以进行参数调整,直至获得满足训练停止条件的所全局述融合模型。
18.根据本发明的又一方面,本发明提供了一种基于联邦知识蒸馏学习的不平衡多源信用数据融合方法,包括以下步骤:
19.每个客户端利用采集到的各领域信用数据进行模型训练作为本地私有模型,同时进行信用数据蒸馏,通过蒸馏的数据和学习率学习到新的参数,新的参数要求在原始信用数据集上表现好;
20.所述客户端将蒸馏后的信用数据上传到中心服务器,中心服务器利用对抗生成网络gan进行蒸馏后的不平衡信用数据扩充,对不平衡的信用数据的分布进行建模,无需指定分布的具体参数表示形式,通过不断将真实的某类小样本信用数据和模仿的信用数据进行区分来提升判别能力,从而直接输出新的平衡的信用数据样本;
21.中心服务器利用扩充后的平衡信用数据对初始化融合模型进行训练学习,并下发全局融合模型;
22.所述客户端在本地扩充后平衡的信用数据上采用所述全局平均输出向量和更新后的模型进行知识蒸馏,并在本地信用数据集上训练,将获取新的模型保留在客户端本地;
23.利用全局融合模型和本地更新的模型进行深度交互信息方法训练。
24.优选的,所述客户端与服务器之间传输模型平均输出向量或中心服务端的初始化模型。
25.优选的,所述客户端上传所有本地信用数据到中心服务端,并利用中心服务端所有信用数据更新训练本地模型;确定客户端模型的目标函数对应的梯度信息,降低损失函数,迭代地将其他客户端参数引入到当前客户端进行训练学习。
26.优选的,每个所述客户端上每个类别的logit向量平均处理
27.本公开的有益效果:
28.1.采用基于数据蒸馏方法,使用少量的信用数据训练出的模型性能和使用院士数据训练的模型性能基本一致;每个客户端上对本地信用数据进行蒸馏,然后将蒸馏后的数据发送到服务器,服务器基于所有蒸馏的数据进行联合训练,主要优点是蒸馏后的数据可以保护数据隐私,符合信用数据隐私保护原则;
29.2.利用联邦增强方法解决客户端中某类样本较少或缺失的问题,具体利用生成式对抗网络gan模拟扩充信用数据,对不平衡的信用数据的分布进行建模生成新的平衡的信用数据集,主要优点是可以客服客户端信用数据的非独立同分布问题,该方法可以在在信用数据隐私泄露和通信开销之间进行权衡取舍;
30.3.数据异构导致联邦聚合的模型可能会比本地数据训练的模型要差,本发明采用额外在本地客户端保留私有模型来客服这个问题,通过本地客户端私有模型部分来刻画本地扩充后的信用数据分布,同时在中心服务端公有模型和客户端私有模型之间引入知识蒸馏学习进行信息交互,相比只用本地数据训练出来的模型性能更好;
31.4.传统联邦学习最基本的过程分为客户端和服务器的融合模型迭代优化,本发明采用数据蒸馏、客户端在本地训练模型、中心服务端融合模型的方式,只通过部分数据传输实现模型训练,在不影响效果同时,减少传输次数,降低传输量,提高传输通讯效率
附图说明
32.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
33.图1是本公开实施例的基于联邦蒸馏学习的多源不平衡信用数据融合方法的流程示意图;
34.图2是本公开实施例的基于联邦蒸馏学习的多源不平衡信用数据融合系统的结构框图。
具体实施方式
35.下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
36.如图1所示,本发明基于联邦蒸馏学习的不平衡信用数据融合方法,通过联邦蒸馏学习算法为用户提供调用接口,在本实施例中,将联邦蒸馏学习算法命名为fddl,本发明信用联邦蒸馏学习方法的输入参数包括:不平衡信用数据集、联邦学习需求参数、gan及蒸馏学习需求参数、行数、列数、列号向量、联邦学习参数ε和由多个联邦学习参数ε组成的参数向量,通过联邦蒸馏学习算法fddl获得联邦蒸馏处理后的信用数据集。
37.其中,电子商务、互联网金融、城市信用等领域数据集都是收集到的关于个人或者企业的信用信息,具体包括姓名、年龄、年收入(企业年营业额)、贷款、职业、受教育水平、固定资产、违约情况等,信用数据集的每一行为一条信用数据,属于一个人或者一个企业,对信用数据集的每一行进行标号,记为行号;信用数据集的每一列为个人或者企业一个属性,例如收入,并对其进行编号,记为列号。
38.行数m代表了第m行的数据记录。
39.列数n代表了第n列的数据记录。
40.列号向量veci代表是一个列号的向量,可以为空,列号向量的上限是信用数据中个人或者企业的属性个数;
41.我们定义t个客户端具有不同的本地数据集d
t
,所有本地数据集是不同分布,以电子商务领域违约情况为例,正样本的数量远远大于负样本的数量,极度不均衡;
42.参见图1,一种基于联邦知识蒸馏学习的多源不平衡数据融合方法,整个训练过程
分为两部分分别是客户端和服务端,其具体包括步骤如下:
43.步骤1:各客户端在获取领域信用数据后,由于不平衡问题,根据本地客户端初始化参数模型,利用本地数据集训练一个生成对抗网络gan,同时利用蒸馏学习处理数据,将部分信用数据上传至中心服务器;
44.步骤1.1每个客户端利用本地数据集d
ti
生成一个对抗网络gi,并利用扩充后的数据集进行知识蒸馏学习,以获取部分具有隐私保护的数据上传至中心服务器;
45.步骤1.2中心服务器利用收集到每个客户端上传的少量蒸馏学习后的信用数据,同样利用生成对抗网络gan进行训练扩充数据作为共享数据集ds;
46.步骤2:中心服务器利用扩充后的信用数据ds对初始化融合模型进行训练;
47.步骤:2.1令当前轮次k=0,构造扩充数据集将其设置为一组参数parameter,获得梯度;
48.步骤2.2中心服务器利用gan扩充后的数据对融合的神经网络模型进行训练,初始化网络参数,并向所述客户端下发gs及参数;
49.步骤2.3所述客户端在收到初始参数后继续进行本地模型训练;
50.客户端保留本地训练模型,中心服务端训练获得共享融合模型,并继续使用蒸馏学习采用联合训练,让共享融合网络在训练过程中指导本地私有网络的训练,而同时不受本地私有网络的影响;
51.步骤2.4在本地联邦学习过程中,为快速更新算子而获得最优解,引入新常数项c3[0052][0053]
步骤2.5增加了一个新变量将先前所有的都保存起来作为一个种子池,从中挑选出一个优秀的种子作为即令通过所述公式可以避免在陷入局部最优,接着将最优模型纳入神经网络使用随机梯度下降法计算从而得到新的本地模型;
[0054]
在客户端本地私有模型和中心服务端共享融合模型进行蒸馏学习过程中,损失函数采用模仿损失,使得每个本地私有的预测类别与其他客户端的类别预测概率保持一致;
[0055][0056]
本发明还展示一种基于联邦蒸馏学习的多源不平衡信用数据融合系统,如图2所示,其包括:数据采集接口模块,提供调用接口获取各领域的信用数据集;本地gan、蒸馏学习及更新模块,用于获取信用数据集的联邦蒸馏学习及gan需求参数并根据中服务端下发模型进行本地更新;中心服务模块,包括接收模块,学习模块以及下发模块,接收模块用于根据客户端上传数据,学习模块根据上传数据、输入参数等进行gan学习以扩充数据,解决数据不平衡问题,下发模块则根据训练学习的融合模型下发gan及参数到客户端,让客户端进行本地学习训练融合模型。
[0057]
本发明的有益效果是:通过数据收集、蒸馏、学习和交互应用四个阶段,最终达到多源不平衡数据集融合的目的。
[0058]
本发明基于联邦蒸馏学习的多源不平衡信用数据融合方法,客户端上传的是部分
蒸馏数据而不是全部数据或者本地模型,解决了在信用领域数据的隐私保护问题,同时客户端在本地利用自有扩充数据进行模型构建,很好地保护客户端模型隐私;采用gan学习上传的部分或少量数据以满足隐私及联邦通信开销的问题,相比较于仅使用本地数据集训练预测模型,本发明充分利用了其他领域知识构建共享蒸馏模型指导本地私有模型训练和更新,极大地提高了模型的泛化性能;此外,通过学习通用的共享融合模型,可以迁移到其他领域进行信用评估。
[0059]
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0060]
以上显示和描述了本公开的基本原理、主要特征和本公开的优点。本行业的技术人员应该了解,本公开不受上述实施例的限制,上述实施例和说明书中描述的只是说明本公开的原理,在不脱离本公开精神和范围的前提下,本公开还会有各种变化和改进,这些变化和改进都落入要求保护的本公开范围内容。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1