多维范围查询的个性化本地差分隐私方法与装置

文档序号：37314007发布日期：2024-03-13 21:06阅读：47来源：国知局

本发明属于数据安全，更具体地，涉及一种多维范围查询的个性化本地差分隐私方法与装置。

背景技术：

1、近年来，随着智能移动设备和物联网的快速发展，数据融合已成为一种常见趋势，用于收集来自各种物联网设备的数据并为用户提供统一的分析结果。其中，多维范围查询是一种广泛应用的数据融合分析类型，用于对分布式用户的多维数据记录进行分析，计算指定查询间隔内记录的频率，并描述给定区域的数据密度。为了提供精细的数据分析结果并改善服务质量，服务提供商鼓励用户提交包含大量属性的记录，例如位置、年收入、购买历史等。然而，服务提供商并不可信，他们会对收集到的用户信息进行分析，并与用户背景信息联系起来，甚至能推测出用户的敏感信息，其中包括高度敏感的个人行为和偏好信息。因此，如何在提供多维范围查询功能的同时，有效保护用户记录中蕴含的隐私信息是当前面临的主要技术挑战。

2、目前大多数方案使用本地差分隐私(local differential privacy，ldp)算法来解决多维范围查询中的隐私泄露问题。目前针对ldp下的多维范围查询，需要考虑到数据属性之间的相关性，大多数方法都基于相关属性向用户记录中添加ldp噪声，并仅将带有噪声的数据发送给服务提供商，而不共享原始数据。在实际应用中，不同用户对不同属性具有不同的隐私要求，而现有的方法提供统一的隐私保护程度。接下来将介绍两种较经典的ldp下的多维范围查询方法：有研究将单属性查询范围建模成树状结构，对每个属性不同层次间隔注入噪声。同时，有学者提出混合粒度网格，用细粒度的单属性分布改进粗粒度的属性对边缘分布，加权推导出高维答案。

3、现有解决方案的局限性主要表现在：

4、(1)现有工作在实现个性化ldp时，通常需要用户根据隐私级别和属性相关性进行双重分组。然而，这样的分组方式可能导致许多组中的数据量较小且分散，这使得结果的可行性受到影响，因为足够多的用户参与是为了确保ldp方法的准确性。

5、(2)现有方案在收集到多个属性的数据时，由于不同用户的数据将受到不同程度的噪声注入，直接聚合导致噪声聚集问题。添加的噪声可能会导致数据的失真和不准确性，从而影响到多维范围查询的结果。因此，从统计学的角度来看，消除这些噪声是具有挑战性的。

技术实现思路

1、针对现有技术的以上缺陷或改进需求，本发明提供了一种多维范围查询的个性化本地差分隐私方法，其目的在于满足用户对不同属性的不同隐私要求的同时，又能在多维范围查询中提供高精度的结果。该方法能够有效保护用户上传的敏感信息，抵御背景推理攻击，并提高数据的效用性。在该发明中，通过优化网格粒度和重新扰动私有数据的方式，增加数据量以提高查询结果的可用性，而不需要额外消耗隐私预算或泄露隐私信息。同时，通过后处理方法，在不同隐私等级上推导和聚合查询结果，进一步提高准确性。

2、为实现上述目的，按照本发明的一个方面，提供了一种多维范围查询的个性化本地差分隐私方法，包括如下步骤：

3、(1)个性化参数设置：服务提供商创建不同粒度的空网格，对应不同隐私等级下不同属性对；将所有属性或属性对名称构成集合其中d表示属性个数，用户根据属性被分为组；一维/二维网格粒度被表示为其中m表示隐私预算等级个数，用户根据隐私等级分为m组；根据双分组的原则，用户一共被分为组；

4、(2)数据扰动：每个客户从属性对集合p中随机选择要上传的数据属性，表示为索引i，并根据其隐私偏好选择隐私预算等级；随后客户根据隐私等级对应的网格粒度对上传数据进行扰动，然后将扰动后的数据和隐私参数发送给服务提供商；

5、(3)数据再扰动：服务提供商在收集到客户发来的所有信息后，按照属性索引和隐私等级将用户划分为个组，然后以属性为主索引，每个组内包含m个隐私等级；根据再扰动公式，将隐私预算大于预设阈值的组内数据再扰动并补充到隐私预算低的组内；

6、(4)多维范围查询：针对任意λ维范围查询q，服务提供商首先利用与查询相关的每个一维或二维网格，获取对应的属性或属性对的查询区间的答案，然后建立最大熵优化模型推导出m个λ维答案；最后在每个隐私级别上，使用最大似然估计方法进一步优化加权系数，将各个隐私级别上的答案聚合，得到最终的多维范围查询结果。

7、本发明的一个实施例中，所述方法还包括：

8、(5)商业策略制定：卖方为制定商业策略，需要获得用户在某些属性上的分布情况，或者需要获得满足某些属性区间条件的人群占比，多次利用步骤(4)可以得到多个目标用户的信息；卖方根据这些信息来辅助制定策略，将制定的策略以个性化推荐或者优惠券的形式返回给服务提供商；服务提供商根据卖方提供的策略，对卖方的目标用户执行相应的商业策略；在满足客户个性化需求的同时实现卖方的商业策略。

9、本发明的一个实施例中，在所述步骤(1)中，服务商根据优化算法选择最优网格粒度，既能维持相关性信息，又可以将属性域控制在最佳大小范围内；服务提供商将网格相关参数p和g发送给客户，以供客户实现个性化需求。

10、本发明的一个实施例中，所述步骤(2)具体包括：

11、(2.1)用户从属性对集合p中随机选择一个索引i，以确定要上传的数据属性ai；然后客户n考虑网格粒度集合h和自身偏好，选择隐私等级m；如果索引i的大小是1，跳转到(2.2)；否则跳转到(2.3)；

12、(2.2)根据网格粒度g1,m，将相关属性的数据映射成一维网格范围内的数值其中是用户n在属性ai上的数据，|ωi|是属性ai的真实域大小；

13、(2.3)根据网格粒度g2,m，将相关属性对的数据映射成二维网格范围内的数值其中和是用户n在属性ai和aj上的数据；

14、(2.4)将映射后的值进行独热编码，然后根据优化一元编码扰动公式对每一位的值进行扰动；该扰动公式在高概率下保留真实值，而在低概率下将其翻转为逆值；

15、(2.5)客户将扰动后的数据和隐私相关参数发送给服务提供商。

16、本发明的一个实施例中，在所述步骤(2.4)中，所述独热编码就是将值v编码成比特串形式，其中第v个位置设为1，其他位置设为0。

17、本发明的一个实施例中，在所述步骤(2.5)中，所述隐私相关参数包括客户随机选择的索引i和客户根据自身偏好选择的隐私等级m。

18、本发明的一个实施例中，所述步骤(3)具体包括：

19、(3.1)针对属性对集合p中的每个索引进行分组，然后隐私等级以升序排序后依次增加数据量；假设当前的隐私等级为m，如果存在另一个隐私等级l使得l>m，则跳转到(3.2)；否则跳转到(3.3)；

20、(3.2)计算隐私等级l对应的网格粒度与隐私等级m对应的网格粒度的倍数θ＝(gk,l/gk,m)k，将隐私等级l对应的数据都按θ步长划分，并对每个部分执行按位或的操作，然后将它们拼接起来，形成与隐私等级m对应长度的数据；

21、(3.3)对压缩后的数据进行按位操作，根据再扰动公式对每一位进行扰动；该扰动公式在高概率下保留真实值，而在低概率下将其翻转为逆值；

22、(3.4)完成数据的补充后，针对不同的隐私预算和属性进行分组，统计频率并进行校正操作；

23、(3.5)采用norm-sub方法来消除负频率；服务提供商首先将所有负估计值转换为零，并计算正估计值与总估计值之间的总体差值；然后将总差除以正估计值的数量，得到平均差值；最后通过减去平均差值来更新每个正估计值；重复此过程直到所有估计值都为非负值。

24、本发明的一个实施例中，所述步骤(4)具体包括：

25、(4.1)服务提供商收到某个多维范围查询后，先将查询拆分成多个子查询；针对λ维查询，共有λ个一维查询和个二维查询；拆分后的查询若是一维查询，跳转到步骤(4.2)；若是二维查询，跳转到步骤(4.3)；

26、(4.2)针对任意一维查询，如果单元格完全包含在查询范围内，则将其噪声频率直接加到一维答案中；如果单元格部分包含在查询范围内，并且假设该单元格中的一维分布是均匀的，则按比例将其加到一维答案中；执行完毕之后跳转到步骤(4.5)；

27、(4.3)针对任意二维查询，服务提供商首先要找到相应的二维网格，以及对应的两个一维网格；然后使用权重更新方法来建立二维响应矩阵，以回答二维查询；

28、(4.4)响应矩阵的主要思想是利用三个网格的频率分布，使原本均匀分布的响应矩阵逐步逼近混合分布，通过使用更细粒度的一维网格来消除二维网格的粗糙性；根据得到的响应矩阵就可以直接得到细粒度的二维答案；

29、(4.5)将求解多维查询答案的过程建模成最大熵优化模型求解过程，将一维/二维答案作为模型的输入，多维答案作为模型的输出；建立一维/二维答案和多维答案之间的映射关系，执行迭代优化，当误差小于阈值时停止；

30、(4.6)在每个隐私等级下执行步骤(4.5)得到m个λ维查询答案，将不同隐私等级下的答案加权聚合；使用最大似然估计方法，得到优化后的权重系数，聚合后发送给卖方。

31、本发明的一个实施例中，所述步骤(4.3)具体包括：

32、首先，初始化一个大小为|ω||ω|的响应矩阵，其中|ω|表示某个属性的真实属性域的大小，响应矩阵中每个元素的大小为1/|ω||ω|；然后开始循环访问三个网格中的每个单元格，将对应的响应矩阵元素进行求和，根据单元格的频率，将加权值添加到每个元素中；这个过程一直迭代进行，直到响应矩阵中所有元素的变化之和小于阈值才停止。

33、按照本发明的另一方面，还提供了一种多维范围查询的个性化本地差分隐私装置，包括至少一个处理器和存储器，所述至少一个处理器和存储器之间通过数据总线连接，所述存储器存储能被所述至少一个处理器执行的指令，所述指令在被所述处理器执行后，用于完成所述的多维范围查询的个性化本地差分隐私方法。

34、总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

35、(1)本发明满足用户对不同属性的不同隐私偏好，同时在不影响ldp隐私保证的情况下确保多维范围查询的高精度；

36、(2)本发明在不提交额外数据的情况下巧妙地提高了准确性，因为服务器在较低隐私级别重新扰动接收到的噪声数据，以补充较高隐私级别组的数据量；

37、(3)本发明通过采用最大熵优化和最大似然方法在每个隐私级别导出多维范围查询的结果，并分别在所有隐私级别汇总结果，进一步提高了准确性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨天若,王美琪,何媛媛,邓贤君,胡淼,冯蔚
技术所有人：华中科技大学
我是此专利的发明人

上一篇：一种模块化多模式张拉移动机器人
上一篇：方舱医院的器械智能分配系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。