本公开涉及数据处理,尤其涉及一种基于隐私集合求交的数据处理方法及装置。
背景技术:
1、目前,在采用隐私集合求交技术进行用户数据查询时,查询方(例如电商)要获取与服务方(例如银行)的交集数据,首先需要查询本方用户标识信息(id,identity),并根据查询方的某些特征分组,计算对应聚合特征的分组统计值。此时,查询方和服务方需要先进行隐私集合求交,再基于交集id对聚合特征进行分组统计值计算。通常情况下,在隐私集合求交的过程中,服务方也会知晓交集id,导致数据安全性降低。另外,这种求交集的方式,分组特征只能来自查询方,适用场景较为局限。
2、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本公开的目的在于提供一种基于隐私集合求交的数据处理方法及装置,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据安全性降低的问题。
2、本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
3、根据本公开的第一方面,提供一种基于隐私集合求交的数据处理方法,包括:
4、基于查询方的第一用户数据和服务方的第二用户数据进行隐私集合求交,以使所述查询方获取交集数据;
5、根据所述交集数据生成掩码向量;
6、对所述第一用户数据或所述第二用户数据中的聚合特征进行标准化处理,得到所述聚合特征的标准化向量;
7、根据所述掩码向量和所述标准化向量确定所述第一用户数据或所述第二用户数据中所述聚合特征对应分组特征的统计值向量。
8、在本公开的一种示例性实施例中,在所述分组特征位于所述查询方的所述第一用户数据时,所述根据所述交集数据生成掩码向量包括:
9、所述查询方接收所述服务方发送的第二用户数据的数量n;
10、所述查询方从所述第一用户数据表中获取所述分组特征的取值的数量k;
11、所述查询方根据n、k以及所述交集数据生成所述分组特征的掩码向量矩阵。
12、在本公开的一种示例性实施例中,所述聚合特征对应分组特征的统计值向量包括所述聚合特征对应分组特征的计数向量以及所述聚合特征对应分组特征的标准化和值向量。
13、在本公开的一种示例性实施例中,在聚合特征位于所述服务方的第二用户数据时,所述根据所述掩码向量和所述标准化向量确定所述第一用户数据或所述第二用户数据中所述聚合特征对应分组特征的统计值向量包括:
14、所述服务方从所述第二用户数据中获取所述聚合特征的二值矩阵;
15、所述查询方和所述服务方采用秘密分享的矩阵乘法,计算所述二值矩阵和所述掩码向量矩阵的乘积,以在所述查询方返回所述聚合特征对应分组特征的计数向量;
16、所述查询方和所述服务方采用秘密分享的矩阵乘法,计算所述掩码向量矩阵和所述标准化向量的乘积,以在所述查询方返回所述聚合特征对应分组特征的标准化和值向量。
17、在本公开的一种示例性实施例中,所述聚合特征对应分组特征的统计值向量还包括所述聚合特征对应分组特征的均值向量,所述在查询方返回所述聚合特征对应分组特征的标准化和值向量后,所述方法还包括:
18、所述查询方分别将所述计数向量和所述标准化和值向量进行加密,得到加密后的计数向量和加密后的标准化和值向量,并返回至所述服务方;
19、所述服务方采用所述聚合特征的统计值对所述加密后的计数向量和所述加密后的标准化向量和值向量进行逆标准化,得到逆标准化结果,并将所述逆标准化结果返回至所述查询方;
20、所述查询方对所述逆标准化结果进行解密,得到解密结果;
21、所述查询方计算所述解密结果与所述计数向量的比值,并将所述比值作为所述均值向量。
22、在本公开的一种示例性实施例中,在聚合特征位于所述查询方的所述第一用户数据时,所述根据所述交集数据生成掩码向量包括:
23、所述查询方接收所述服务方发送的所述第二用户数据的数量n;
24、所述查询方根据n、所述交集数据以及所述聚合特征的取值生成所述聚合特征的掩码向量。
25、在本公开的一种示例性实施例中,在所述分组特征位于所述服务方的第二用户数据时,所述根据所述掩码向量和所述标准化向量确定所述第一用户数据或所述第二用户数据中所述聚合特征对应分组特征的统计值向量包括:
26、所述服务方从所述第二用户数据中获取所述分组特征的二值矩阵;
27、所述查询方和所述服务方采用秘密分享的矩阵乘法,计算所述二值矩阵和所述掩码向量的乘积,以在所述查询方返回所述聚合特征对应分组特征的计数向量;
28、所述查询方和所述服务方采用秘密分享的矩阵乘法,计算所述二值矩阵和所述标准化向量的乘积,以在所述查询方返回所述聚合特征对应分组特征的标准化和值向量。
29、在本公开的一种示例性实施例中,所述聚合特征对应分组特征的统计值向量还包括所述聚合特征对应分组特征的均值向量,所述在查询方返回所述聚合特征对应分组特征的标准化和值向量后,所述方法还包括:
30、所述查询方采用所述聚合特征的统计值对所述计数向量和所述标准化向量和值进行逆标准化,得到逆标准化结果;
31、所述查询方计算所述逆标准化结果和所述计数向量的比值,并将所述比值作为所述均值向量。
32、在本公开的一种示例性实施例中,在聚合特征位于所述服务方的所述第二用户数据时,所述根据所述交集数据生成掩码向量包括:
33、所述查询方接收所述服务方发送的所述第二用户数据的数量n;
34、所述查询方根据n以及所述交集数据生成所述掩码向量。
35、在本公开的一种示例性实施例中,在所述分组特征位于所述服务方的第二用户数据时,所述根据所述掩码向量和所述标准化向量确定所述第一用户数据或所述第二用户数据中所述聚合特征对应分组特征的统计值向量包括:
36、所述服务方从所述第二用户数据中获取所述分组特征的特征矩阵以及所述分组特征的二值矩阵;
37、所述查询方和所述服务方采用秘密分享的矩阵乘法,计算所述二值矩阵和所述掩码向量的乘积,以在所述查询方返回所述聚合特征对应分组特征的计数向量;
38、所述查询方和所述服务方采用秘密分享的矩阵乘法,计算所述标准化向量和所述特征矩阵的乘积,以在所述查询方返回所述聚合特征对应分组特征的标准化和值向量。
39、在本公开的一种示例性实施例中,所述聚合特征对应分组特征的统计值向量还包括所述聚合特征对应分组特征的均值向量,所述在查询方返回所述聚合特征对应分组特征的标准化和值向量后,所述方法还包括:
40、所述查询方对所述聚合特征对应分组特征的计数向量进行求和,得到求和结果;
41、所述查询方对所述求和结果和所述标准化和值向量分别进行加密,得到加密后的求和结果和加密后的标准化和值向量,并将所述加密后的求和结果和所述加密后的标准化和值向量返回至所述服务方;
42、所述服务方采用所述聚合特征的统计值对所述加密后的求和结果和所述加密后的标准化和值向量进行逆标准化,得到逆标准化结果,并将所述逆标准化结果返回至所述查询方;
43、所述查询方对所述逆标准化结果进行解密,得到解密结果;
44、所述查询方计算所述解密结果与所述计数向量的比值,并将所述比值作为所述均值向量。
45、根据本公开的第二方面,提供一种基于隐私集合求交的数据处理装置,包括:
46、交集数据获取模块,用于基于查询方的第一用户数据和服务方的第二用户数据进行隐私集合求交,以使所述查询方获取交集数据;
47、掩码向量生成模块,用于根据所述交集数据生成掩码向量;
48、标准化处理模块,用于对所述第一用户数据或所述第二用户数据中的聚合特征进行标准化处理,得到所述聚合特征的标准化向量;
49、统计值向量确定模块,用于根据所述掩码向量和所述标准化向量确定所述第一用户数据或所述第二用户数据中所述聚合特征对应分组特征的统计值向量。
50、根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
51、根据本公开的第四方面,提供一种电子设备,包括:
52、处理器;以及
53、存储器,用于存储所述处理器的可执行指令;
54、其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述方法的步骤。
55、本公开的实施例提供的技术方案可以包括以下有益效果:
56、综上所述,本公开提供的方法,一方面,只需查询方获取交集数据,即可计算所述聚合特征对应分组特征的统计值向量,大大提高了数据安全性;另一方面,无论分组特征位于查询方还是服务方,均可计算分组特征的统计值,使得本公开的方法能够适用更多场景。
57、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。