安全关联数据的方法及装置与流程

文档序号：37436428发布日期：2024-03-25 19:34阅读：7来源：国知局

本说明书一个或多个实施例涉及安全计算，尤其涉及安全关联数据的方法及装置。

背景技术：

1、两方数据关联是数据合作中的常见场景。例如，两个持有数据的数据方各有一个数据库表，两个表都有某个属性列(称为数据标识对应的主键列等)，在需要通过sql的join方法连接两方的表(即找出上述属性列对应的属性值集合的交集对应的数据)，然后进行计算(如，建模、统计)的情况下，涉及数据隐私问题。此时，持有数据的双方直接对外输出私有数据明文，可能导致传输过程中的数据泄漏和传输后被对方保存和非法扩散；并且，暴露交集列表也可能导致隐私泄露，如银行数据方暴露手机号码等标识的数据属性会导致自身持有用户的持有信息泄露等。

2、因此，两方数据关联可以采用安全多方计算方式进行。安全多方计算又称为多方安全计算，即多方共同计算出一个函数的结果，而不泄露这个函数各方的输入数据，计算的结果公开给其中的一方或多方。安全多方计算中，如何提高隐私保护程度、提高安全计算效率等问题，均为值得研究的技术问题。

技术实现思路

1、本说明书一个或多个实施例描述了一种安全关联数据的方法及装置，用以解决背景技术提到的一个或多个问题。

2、根据第一方面，提供一种安全关联数据的方法，由作为数据持有方的第一方，将本地的第一数据表中的数据，经由预定属性项与作为另一数据持有方的第二方持有的第二数据表进行关联；所述方法包括：针对所述第一数据表的预定属性项中添加若干混淆属性值，得到针对预定属性项的第一混淆集；利用所述第一混淆集与第二方进行交互，以供第二方得到第二混淆集；按照所述第一混淆集基于从所述第一数据表中读取的相关数据，得到第一关联数据；将所述第一关联数据与第二方提供的第二关联数据安全对齐，其中，所述第二关联数据由第二方基于按照所述第二混淆集从第二数据表中读取的相关数据确定，且非第二数据表中的数据通过预定方式填充。

3、在一个实施例中，所述预定属性项的属性值具有预定格式；所述在所述第一数据表的预定属性项中添加若干混淆属性值包括：按照所述预定格式生成若干混淆属性值。

4、在一个实施例中，所述针对所述第一数据表的预定属性项中添加若干混淆属性值，得到针对预定属性项的第一混淆集包括：针对所述第一数据表的预定属性项中添加若干混淆属性值；从所述第一数据表在所述预定属性项对应的各个属性值中确定若干本地属性值；根据所述若干混淆属性值和所述若干本地属性值确定所述第一混淆集。

5、在一个实施例中，所述利用所述第一混淆集与第二方进行交互，以供第二方得到第二混淆集包括：向第二方发送所述第一混淆集，以供第二方将所述第一混淆集作为所述第二混淆集。

6、在一个实施例中，所述将所述第一关联数据与第二方的第二关联数据安全对齐包括：按照预先与第二方约定的排序规则对所述第一关联数据排序。

7、在一个实施例中，所述排序规则包括：对所述混淆交集中预定属性项的属性值大小升序或降序排列。

8、在一个实施例中，所述第一关联数据中非第一数据表中的数据通过预定方式填充，且针对各条数据分别对应有是否从所述第一数据表中读取的真实数据的各个标志；所述将所述第一关联数据与第二方提供的第二关联数据安全对齐包括：利用各个标志，与第二方安全判定第一混淆集中的各个属性值对应的各条数据是否为有效数据，并得到判定结果的第一分片，其中，单个属性值对应的数据在满足以下条件的情况下为有效数据：在所述第一关联数据对应从所述第一数据表读取到的真实数据，且在所述第二关联数据中对应从所述第二数据表读取到的真实数据；与第二方执行安全乱序操作，得到乱序的融合数据表的第一分片，所述融合数据表包含所述第一关联数据和所述第二关联数据中的全部属性项；基于所述判定结果的第一分片与第二方持有的所述判定结果的第二分片，确定明文判定结果；根据所述明文判定结果从所述乱序的融合数据表的第一分片中筛除非有效数据。

9、在一个实施例中，单条数据对应的标志为0或1，其中，1表示是从所述第一数据表中读取的真实数据，0表示不是从所述第一数据表中读取的真实数据；所述利用各个标志，与第二方安全判定第一混淆集中的各个属性值对应的各条数据是否为有效数据，并得到判定结果的第一分片包括：针对单个标志，与第二方的相应标志执行安全与运算，得到所述单个标志对应的数据是否为有效数据的判定结果的第一分片。

10、在一个实施例中，所述根据所述判定结果从所述乱序的融合数据表的第一分片中筛除非有效数据包括：筛除对应的判定结果为0的各条数据。

11、在一个实施例中，所述基于所述判定结果的第一分片与第二方持有的所述判定结果的第二分片，确定明文判定结果包括：向第二方公开所述判定结果的第一分片，以供第二方利用所述判定结果的第一分片和第二分片确定所述明文判定结果，并接收第二方反馈的所述明文判定结果；或者，从第二方接收所述判定结果的第二分片，从而利用所述判定结果的第一分片和第二分片确定所述明文判定结果。

12、在一个实施例中，所述利用所述第一混淆集与第二方进行交互，以供第二方得到第二混淆集包括：与第二方执行隐私求交协议，从而在第二方得到所述第一混淆集与第二方在预定属性项的各个属性值的交集，作为所述第二混淆集。

13、在一个实施例中，所述将所述第一关联数据与第二方提供的第二关联数据安全对齐包括：与第二方安全执行基于全匿踪关联数据的协议，从而得到无预定属性项的融合数据表的第一分片，所述无预定属性项的融合数据表还在第二方对应有第二分片。

14、根据第二方面，提供一种安全关联数据的方法，由作为数据持有方的第二方，将本地的第二数据表中的数据，经由预定属性项与作为另一数据持有方的第一方持有的第一数据表进行关联；所述方法包括：与第一方进行交互，基于第一方提供的第一混淆集得到第二混淆集，其中，所述第一混淆集由第一方针对所述第一数据表的预定属性项的属性值添加若干混淆属性值得到；按照所述第二混淆集基于从所述第二数据表中读取的相关数据，得到第二关联数据，其中，非第二数据表中的数据通过预定方式填充；将所述第二关联数据与第一方提供的第一关联数据安全对齐，其中，所述第一关联数据由第一方基于按照所述第一混淆集从第一数据表中读取的相关数据确定。

15、在一个实施例中，所述与第一方进行交互，基于第一方提供的第一混淆集得到第二混淆集包括：将第一方发送的所述第一混淆集作为所述第二混淆集。

16、在一个实施例中，针对各条数据分别对应有是否从所述第二数据表中读取的真实数据的各个标志；所述将所述第二关联数据与第一方提供的第一关联数据安全对齐包括：利用各个标志，与第一方安全判定第一混淆集中的各个属性值对应的各条数据是否为有效数据，并得到判定结果的第一分片，其中，单个属性值对应的数据在满足以下条件的情况下为有效数据：在所述第一关联数据对应从所述第一数据表读取到的真实数据，且在所述第二关联数据中对应从所述第二数据表读取到的真实数据；与第一方执行安全乱序操作，得到乱序的融合数据表的第二分片，所述融合数据表包含所述第一关联数据和所述第二关联数据中的全部属性项；基于所述判定结果的第二分片与第一方持有的所述判定结果的第一分片，确定明文判定结果；根据所述明文判定结果从所述乱序的融合数据表的第二分片中筛除非有效数据。

17、在一个实施例中，所述与第一方进行交互，基于第一方提供的第一混淆集得到第二混淆集包括：与第一方执行隐私求交协议，从而得到所述第一混淆集与第二方在预定属性项的各个属性值的交集，作为所述第二混淆集。

18、在一个实施例中，将所述第二关联数据与第一方提供的第一关联数据安全对齐包括：与第一方安全执行基于全匿踪关联数据的协议，从而得到无预定属性项的融合数据表的第二分片，所述无预定属性项的融合数据表还在第一方对应有第一分片。

19、根据第三方面，提供一种安全关联数据的装置，设于作为数据持有方的第一方，用于将本地的第一数据表中的数据，经由预定属性项与作为另一数据持有方的第二方持有的第二数据表进行关联；所述装置包括：

20、混淆单元，配置为针对所述第一数据表的预定属性项中添加若干混淆属性值，得到针对预定属性项的第一混淆集；

21、安全交互单元，配置为利用所述第一混淆集与第二方进行交互，以供第二方得到第二混淆集；

22、数据获取单元，配置为按照所述第一混淆集基于从所述第一数据表中读取的相关数据，得到第一关联数据；

23、数据对齐单元，配置为将所述第一关联数据与第二方提供的第二关联数据安全对齐，其中，所述第二关联数据由第二方基于按照所述第二混淆集从第二数据表中读取的相关数据确定，且非第二数据表中的数据通过预定方式填充。

24、在一个实施例中，所述安全交互单元进一步配置为：向第二方发送所述第一混淆集，以供第二方将所述第一混淆集作为所述第二混淆集。

25、在一个实施例中，所述第一关联数据中非第一数据表中的数据通过预定方式填充，且针对各条数据分别对应有是否从所述第一数据表中读取的真实数据的各个标志；所述数据对齐单元进一步配置为：利用各个标志，与第二方安全判定第一混淆集中的各个属性值对应的各条数据是否为有效数据，并得到判定结果的第一分片，其中，单个属性值对应的数据在满足以下条件的情况下为有效数据：在所述第一关联数据对应从所述第一数据表读取到的真实数据，且在所述第二关联数据中对应从所述第二数据表读取到的真实数据；与第二方执行安全乱序操作，得到乱序的融合数据表的第一分片，所述融合数据表包含所述第一关联数据和所述第二关联数据中的全部属性项；基于所述判定结果的第一分片与第二方持有的所述判定结果的第二分片，确定明文判定结果；根据所述明文判定结果从所述乱序的融合数据表的第一分片中筛除非有效数据。

26、在一个实施例中，所述安全交互单元进一步配置为：与第二方执行隐私求交协议，从而在第二方得到所述第一混淆集与第二方在预定属性项的各个属性值的交集，作为所述第二混淆集。

27、在一个实施例中，所述数据对齐单元进一步配置为：与第二方安全执行基于全匿踪关联数据的协议，从而得到无预定属性项的融合数据表的第一分片，所述无预定属性项的融合数据表还在第二方对应有第二分片。

28、根据第四方面，提供一种安全关联数据的装置，设于作为数据持有方的第二方，用于将本地的第二数据表中的数据，经由预定属性项与作为另一数据持有方的第一方持有的第一数据表进行关联；所述装置包括：

29、安全交互单元，配置为与第一方进行交互，基于第一方提供的第一混淆集得到第二混淆集，其中，所述第一混淆集由第一方针对所述第一数据表的预定属性项的属性值添加若干混淆属性值得到；

30、数据获取单元，配置为按照所述第二混淆集基于从所述第二数据表中读取的相关数据，得到第二关联数据，其中，非第二数据表中的数据通过预定方式填充；

31、数据对齐单元，配置为将所述第二关联数据与第一方提供的第一关联数据安全对齐，其中，所述第一关联数据由第一方基于按照所述第一混淆集从第一数据表中读取的相关数据确定。

32、在一个实施例中，所述安全交互单元进一步配置为：将第一方发送的所述第一混淆集作为所述第二混淆集。

33、在一个实施例中，针对各条数据分别对应有是否从所述第二数据表中读取的真实数据的各个标志；所述数据对齐单元进一步配置为：利用各个标志，与第一方安全判定第一混淆集中的各个属性值对应的各条数据是否为有效数据，并得到判定结果的第一分片，其中，单个属性值对应的数据在满足以下条件的情况下为有效数据：在所述第一关联数据对应从所述第一数据表读取到的真实数据，且在所述第二关联数据中对应从所述第二数据表读取到的真实数据；与第一方执行安全乱序操作，得到乱序的融合数据表的第二分片，所述融合数据表包含所述第一关联数据和所述第二关联数据中的全部属性项；基于所述判定结果的第二分片与第一方持有的所述判定结果的第一分片，确定明文判定结果；根据所述明文判定结果从所述乱序的融合数据表的第二分片中筛除非有效数据。

34、在一个实施例中，所述安全交互单元进一步配置为：与第一方执行隐私求交协议，从而得到所述第一混淆集与第二方在预定属性项的各个属性值的交集，作为所述第二混淆集。

35、在一个实施例中，所述数据对齐单元进一步配置为：与第一方安全执行基于全匿踪关联数据的协议，从而得到无预定属性项的融合数据表的第二分片，所述无预定属性项的融合数据表还在第一方对应有第一分片。

36、根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面的方法。

37、根据第六方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面的方法。

38、通过本说明书实施例提供的方法和装置，在两个数据持有方基于预定属性项进行数据关联的业务场景下，为了保护数据隐私，可以由单个数据持有方各自对本地数据添加预定属性项上的混淆属性值，形成第一混淆集，然后利用第一混淆集与另一数据持有方交互，在另一数据持有方确定第二混淆集。进而，两方各自根据本地的混淆集读取本地数据，并对于本地不存在的属性值，可以填充假数据，从而形成关联数据。然后，两方进行数据对齐，完成数据关联，以便于进行后续业务处理。该技术构思可以适用于两个数据持有方通过预定属性项进行安全的数据关联过程，尤其适用于两方数据量不平衡业务场景，在两方数据量不平衡的情况下，可以由持有数据量少的一方生成第一混淆集。由于生成的混淆属性值，以及根据混淆集获取了假数据，从而可以提高隐私保护性能。

39、进一步地，两个数据持有方可以各自对本地的假数据进行标记，再经由安全计算过滤掉非有效数据，减少混淆数据导致的数据处理量增加，保证数据的真实性和有效性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李漓春,吴泽成,赵原,丁心康
技术所有人：蚂蚁区块链科技（上海）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。