基于联邦学习的样本评估方法及其装置、电子设备与流程

文档序号:36260414发布日期:2023-12-05 17:37阅读:37来源:国知局
基于联邦学习的样本评估方法及其装置与流程

本发明涉及人工智能领域及其他相关,具体而言,涉及一种基于联邦学习的样本评估方法及其装置、电子设备。


背景技术:

1、金融行业的业务数据量大,且各金融机构为了评估用户的业务风险,常常需要与第三方机构或其他金融机构进行合作,获取相关数据,在此基础上,隐私求交在金融行业得到广泛应用,通过隐私求交计算可以获取双方共有的交集数据,从而辅助金融机构对金融业务进行风险评估。

2、在隐私求交过程中,常常会遇到数据样本分布不均的问题,例如在非法资金转移等场景,正负样本的数量比通常是一个很高的值,由于隐私集合求交技术不支持带有重复数据的求交(例如,a集合元素为{a,b,b,c},b集合元素为{b,c,d},求交结果无法得到{b,b,c}),因此为了避免样本倾斜导致评估结果不准确的问题,需要对数据进行重采样,相关技术中,在基于隐私求交技术进行业务风险评估时,通过先将未重采样的样本数据进行求交,双方再通过互相同步重采样的样本权重,将交集结果按照权重进行重采样,之后基于重采样的交集数据进行业务评估,这种重采样方式会导致样本权重信息的泄露,从而泄露样本标签信息,导致用户关键信息的泄露。

3、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本发明实施例提供了一种基于联邦学习的样本评估方法及其装置、电子设备,以至少解决相关技术中,在基于隐私求交对样本进行评估时,对于存在样本倾斜的样本数据,将交集结果按照权重进行重采样,会导致将权重信息泄露给另一方,进而在评估过程中泄露样本的标签信息的技术问题。

2、根据本发明实施例的一个方面,提供了一种基于联邦学习的样本评估方法,包括:对数据请求方和数据提供方进行隐私求交处理,得到所述数据请求方的第一样本数据集合和所述数据提供方的第二样本数据集合;将所述第一样本数据集合和所述第二样本数据集合输入至评估模型,输出所述数据提供方对应的标签值集合,其中,所述评估模型采用联邦学习算法训练得到的,训练所述评估模型时根据所述数据提供方的每个样本的权重值更新模型参数并进行迭代训练,所述标签值集合包含每个样本对应的标签和标签值;基于所述标签值集合中每个样本的标签值对该样本进行评估,得到评估结果,其中,所述评估结果用于指示每个样本是否存在风险。

3、可选地,所述评估模型是预先训练得到的,训练所述评估模型的步骤包括:基于第一训练数据集合、第二训练数据集合和权重值集合计算损失函数值,并基于所述损失函数值和所述联邦学习算法更新第一初始模型参数和第二初始模型参数;基于更新后的所述第一初始模型和所述第二初始模型对所述评估模型进行迭代训练,在所述损失函数值小于等于损失函数阈值的情况下,终止迭代,得到所述评估模型,其中,所述评估模型中包含模型训练完成后的第一模型参数和第二模型参数。

4、可选地,所述损失函数值的计算公式为:其中,l为损失函数值,n为训练样本数量,wi为每个训练样本对应的权重值,yi为所述训练样本对应的标签值,xi为特征数据,所述特征数据包括:第一特征数据和第二特征数据,θ为模型参数,所述模型参数包括:所述第一模型参数和所述第二模型参数,hθ(xi)为x的映射值,

5、可选地,在训练所述评估模型之前,还包括:采集所述数据请求方和所述数据提供方在历史时间段内进行隐私求交处理得到的所述第一训练数据集合和所述第二训练数据集合,其中,所述第一训练数据集合是所述数据请求方对应的数据集合,所述第一训练数据集合至少包括:每个训练样本的标签值组成的标签值集合、第一特征数据集合、每个训练样本的权重值组成的所述权重值集合,所述第二训练数据集合至少包括:第二特征数据集合;为所述数据请求方中的每个所述训练样本配置第一初始模型参数,并为所述数据提供方中的每个所述训练样本配置第二初始模型参数。

6、可选地,对数据请求方和数据提供方进行隐私求交处理的步骤包括:确定发起隐私求交请求的对象,将该对象作为所述数据请求方,并将所述数据请求方请求提供数据的对象作为所述数据提供方;获取所述数据请求方提供的第一数据集和所述数据提供方提供的第二数据集,并基于加密密钥对所述第一数据集和所述第二数据集中的数据进行加密,得到第一加密数据集和第二加密数据集;对所述第一加密数据集和所述第二加密数据集进行求交集运算,得到所述第一样本数据集合和所述第二样本数据集合。

7、可选地,基于所述标签值集合中每个样本的标签值对该样本进行评估,得到评估结果的步骤,包括:基于每个样本的所述标签值确定该样本是否存在风险,在该样本存在风险的情况下,将该样本标记为风险样本;提取所述风险样本的所有特征数据,并基于所述风险样本和所述风险样本数据生成评估结果,将所述评估结果发送至业务人员使用的业务终端。

8、根据本发明实施例的另一方面,还提供了一种基于联邦学习的样本评估装置,包括:处理单元,用于对数据请求方和数据提供方进行隐私求交处理,得到所述数据请求方的第一样本数据集合和所述数据提供方的第二样本数据集合;输出单元,用于将所述第一样本数据集合和所述第二样本数据集合输入至评估模型,输出所述数据提供方对应的标签值集合,其中,所述评估模型是采用联邦学习算法并基于所述数据提供方的每个样本的权重值训练得到的,所述标签值集合包含每个样本对应的标签和标签值;评估单元,用于基于所述标签值集合中每个样本的标签值对该样本进行评估,得到评估结果。

9、可选地,所述评估模型是预先训练得到的,所述基于联邦学习的样本评估装置还包括:第一计算模块,用于基于第一训练数据集合、第二训练数据集合和权重值集合计算损失函数值,并基于所述损失函数值和所述联邦学习算法更新第一初始模型参数和第二初始模型参数;第一训练模块,用于基于更新后的所述第一初始模型和所述第二初始模型对所述评估模型进行迭代训练,在所述损失函数值小于等于损失函数阈值的情况下,终止迭代,得到所述评估模型,其中,所述评估模型中包含模型训练完成后的第一模型参数和第二模型参数。

10、可选地,所述损失函数值的计算公式为:其中,l为损失函数值,n为训练样本数量,wi为每个训练样本对应的权重值,yi为所述训练样本对应的标签值,xi为特征数据,所述特征数据包括:第一特征数据和第二特征数据,θ为模型参数,所述模型参数包括:所述第一模型参数和所述第二模型参数,hθ(xi)为x的映射值,

11、可选地,所述基于联邦学习的样本评估装置还包括:第一采集模块,用于采集所述数据请求方和所述数据提供方在历史时间段内进行隐私求交处理得到的所述第一训练数据集合和所述第二训练数据集合,其中,所述第一训练数据集合是所述数据请求方对应的数据集合,所述第一训练数据集合至少包括:每个训练样本的标签值组成的标签值集合、第一特征数据集合、每个训练样本的权重值组成的所述权重值集合,所述第二训练数据集合至少包括:第二特征数据集合;第一配置模块,用于为所述数据请求方中的每个所述训练样本配置第一初始模型参数,并为所述数据提供方中的每个所述训练样本配置第二初始模型参数。

12、可选地,所述处理单元包括:第一确定模块,用于确定发起隐私求交请求的对象,将该对象作为所述数据请求方,并将所述数据请求方请求提供数据的对象作为所述数据提供方;第一获取模块,用于获取所述数据请求方提供的第一数据集和所述数据提供方提供的第二数据集,并基于加密密钥对所述第一数据集和所述第二数据集中的数据进行加密,得到第一加密数据集和第二加密数据集;第一运算模块,用于对所述第一加密数据集和所述第二加密数据集进行求交集运算,得到所述第一样本数据集合和所述第二样本数据集合。

13、可选地,所述评估单元包括:第一标记模块,用于基于每个样本的所述标签值确定该样本是否存在风险,在该样本存在风险的情况下,将该样本标记为风险样本;第一提取模块,用于提取所述风险样本的所有特征数据,并基于所述风险样本和所述风险样本数据生成评估结果,将所述评估结果发送至业务人员使用的业务终端。

14、根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项基于联邦学习的样本评估方法。

15、根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项基于联邦学习的样本评估方法。

16、在本公开中,通过以下步骤:先对数据请求方和数据提供方进行隐私求交处理,得到数据请求方的第一样本数据集合和数据提供方的第二样本数据集合,然后将第一样本数据集合和第二样本数据集合输入至评估模型,输出数据提供方对应的标签值集合,其中,评估模型采用联邦学习算法训练得到的,训练评估模型时根据数据提供方的每个样本的权重值更新模型参数并进行迭代训练,标签值集合包含每个样本对应的标签和标签值,最后基于标签值集合中每个样本的标签值对该样本进行评估,得到评估结果,其中,评估结果用于指示每个样本是否存在风险。

17、在本公开中,在基于隐私求交技术对样本进行评估时,通过联邦学习算法构建评估模型,可以基于数据提供方的权重值计算每个样本的标签值,基于标签值评估样本是否存在风险,联邦算法使得求交计算的双方通过通信协议共享模型参数,而不是原始数据,从而保护了数据隐私,对于存在数据倾斜的样本,数据请求方不需要将每个样本及其权重值发送给另一方进行重采样,避免了权重值数据的泄露,从而保护了各样本对应用户的数据隐私,进而解决了相关技术中,在基于隐私求交对样本进行评估时,对于存在样本倾斜的样本数据,将交集结果按照权重进行重采样,会导致将权重信息泄露给另一方,进而在评估过程中泄露样本的标签信息的技术问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1