一种本地化差分隐私城市垃圾数据报告和隐私计算方法与流程

文档序号:18181352发布日期:2019-07-17 05:12阅读:305来源:国知局
一种本地化差分隐私城市垃圾数据报告和隐私计算方法与流程
本发明涉及信息安全隐私保护领域,尤其涉及一种本地化差分隐私城市垃圾数据报告和隐私计算方法。
背景技术
:随着传感器精度的不断提升以及移动智能设备的普及,以智能手机为代表的移动设备能随时随地地感知人和周边的环境信息,使人们可以及时地获取其所处环境的状况,更好地为人们及社会提供所需的服务,促进移动群体感知领域不断向前发展。移动群体感知为人们提供了一种新的感知世界的方式,能够使任何人都能通过移动终端执行感知任务参与到感知过程,并为人们提供各种服务。移动群体的应用中,感知参与用户的隐私能否得到保证是关系用户是否愿意参与感知任务的关键因素。传统加密方式存在计算开销大、基于匿名化的各种隐私保护方法不能抵抗背景知识攻击等不足之处,中心化差分隐私方法需要基于第三方数据收集者诚实可信,但是不会窃取或泄露用户的敏感信息的假设在实际应用中并不现实。而本地化差分隐私技术在继承中心化差分隐私技术定量化定义隐私攻击的基础上,将隐私保护的处理过程让每个用户独立完成,能够实现更彻底的隐私保护。随机响应技术是本地化差分隐私保护技术的主流扰动机制,随机响应需要的样本数据量巨大,在大部分的移动群体感知场景当中,参与用户的数据量非常有限,因此如何将随机响应技术应用在中小样本移动群体感知场景有待进一步的研究。技术实现要素:本发明的目的在于克服现有技术的不足,提供一种基于随机响应实现的本地化差分隐私城市垃圾数据报告和隐私计算方法。本发明在移动群体感知领域应用随机响应技术进行报告收集,对隐私数据进行聚合计算分析,得到隐私属性的联合分布,实现了对城市垃圾分布的监控。本发明的目的能够通过以下技术方案实现:一种本地化差分隐私城市垃圾数据报告和隐私计算方法,具体步骤包括:设置位置隐私参数及垃圾量等级隐私参数,计算隐私处理参数;用户通过定位垃圾点位置及判定垃圾点垃圾量等级数,得到用户的原始真实数据;对位置及垃圾量等级数据分别进行本地化差分隐私处理并上传到服务器;服务器接收用户上传数据并对数据进行统计及去噪处理;服务器对经过去噪处理后的数据进行聚合计算,得到各个位置的真实垃圾量等级,构成城市垃圾分布图。具体地,所述设置位置隐私参数及垃圾量等级隐私参数,计算隐私处理参数的步骤中,设定位置隐私保护参数∈1和垃圾量等级隐私参数∈2,并将参数公布给每个用户。通过布隆过滤器假阳率k,感知值集合m计算布隆过滤器长度l和哈希函数个数h,计算公式为:根据隐私参数∈1、∈2、垃圾点总数f及哈希函数个数h,计算隐私处理参数:r表示位置报告数,其计算公式为:p表示真实位置选中概率,其计算公式为:f表示位翻转概率,其计算公式为:具体地,所述用户通过定位垃圾点位置及判定垃圾点垃圾量等级数,得到用户的原始真实数据的步骤中,用户通过携带的移动智能设备定位垃圾点位置,并通过位置映射表得到该垃圾点的编号i。所述位置映射表由服务器提前为每个垃圾点的位置编号得到。用户通过自行判定,得到垃圾点垃圾量的等级数level,编号和垃圾等级数即为用户的原始真实数据<i,level>。具体地,所述对位置及垃圾量等级数据分别进行本地化差分隐私处理的步骤中,用户在本地进行本地化差分隐私处理,处理步骤为:初始化位置集合和上传结果集合生成一个(0,1)之间的随机数rand,结合隐私处理参数,对位置数据进行本地化差分隐私处理,使其满足位置隐私保护参数∈1;根据本地化差分隐私处理后得到的位置集合l,对垃圾量等级数据进行本地化差分隐私处理,计算用户的上传结果集r。更进一步地,所述生成一个(0,1)之间的随机数rand,结合隐私处理参数,对位置数据进行本地化差分隐私处理的步骤中,具体处理方法为:对随机数rand及真实位置选中概率p的大小关系进行判断:如果随机数rand小于p,则位置集合为真实位置i与除去i之外的位置集合中任意选择r-1个位置的并集,表示为:l={i}∪getrandomelements(f\{i},r-1)其中,函数getrandomelements(a,b)表示返回从集合a中随机选择b个元素的结果;如果随机数rand大于p,则位置集合为除去i之外的位置集合中任意选择r个位置的并集,表示为:l=getrandomelements(f,r)综上,随机数rand与真实位置选中概率p的大小判断关系的表示方式为:此处理方法能够保证用户的位置数据满足∈1-差分隐私。更进一步地,所述根据本地化差分隐私处理后得到的位置集合l,对垃圾量等级数据进行本地化差分隐私处理,计算用户的上传结果集r的步骤中,如果用户的真实位置i包含在l中,真实位置垃圾量的对应项为真实垃圾量等级leveli。此时对于位置集合l中的其他位置元素t,其垃圾量等级对应项则在垃圾量等级值集合中等概率随机选择一个等级level′t,随后对每一个垃圾量等级进行处理,具体处理方法为:采用h个哈希函数将垃圾量等级leveli或level′t映射到长度为l的布隆过滤器,得到一个长度为l的向量st;对于st中的每一位st[j],运行一个随机数生成函数得到一个(0,1)之间的随机数q,如果q<1-f/2,第j位保持不变,如果q>1-f/2,对第j位进行翻转,即原始值为0时,翻转为1;原始值为1时,翻转为0;得到st′;综上,对垃圾量等级数据进行处理的表示方式为:此处理方式保证用户的垃圾量等级感知数据满足∈2-差分隐私。将每个位置i和对应的处理过后的垃圾等级值s′i组合成对(i,s′i),加入到上传结果集合r,得到最后的上传结果集合r。具体地,所述服务器接收用户上传数据并对数据进行统计及去噪处理的步骤中,所述统计及去噪处理方法为:混合所有用户的上传数据z,提取上传报告中所有的位置数据,计算每个位置的真实报告个数ei,计算公式为:q=(r-p)/(f-1)ei=wili=wi/(pei+q(rn-ei))v=∑iliei=ei(pli+q(v-li)ei=ei/r其中,z表示用户上传数据,f表示垃圾点总数,p表示真实位置选择概率,r表示位置报告数,n表示用户数量,wi表示z中包含位置i的个数,i=1,...,f;每个上传位置i,服务器筛选出所有位置i的报告对数据集合di。假设di总共有ni条数据项,真实报告个数为ei,则噪声报告个数为ni-ei,对垃圾量等级数据集合s′i的每一位做如下统计:计算每一位为“1”的总数xi[j],xi[j]表示第i个位置的第j位,0≤j<l,组成一个向量xi,xi表示编号为i的位置收到的每一位为“1”的计数;xi的来源由四部分组成,如表1所示。表1在真实数据集中,假设原始垃圾量等级经过布隆过滤器后,总共有zi个“1”,其有(1-f/2)的概率保持为“1”,ei-zi个“0”,其有f/2的概率翻转为“1”;同理,假设噪声数据的原始垃圾量等级经过布隆过滤器后共有ui个“1”,其有(1-f/2)的概率保持为“1”;ni-ei-ui个“0”,共有f/2的概率翻转为“1”。因此下列等式成立:由于加入的噪声呈均匀分布,上式中的ui能够通过计算得到,因此,上式可推导得:由此求得原始真实的垃圾量等级在各个位上的“1”的个数组成的向量zi。由于步骤1的频率估计存在一定的误差,数据生成和处理过程也有一定的随机性,zi计算的值也存在一定的误差,因此需要一定的分析方法来得到位置i的真实垃圾量等级。具体地,所述服务器对经过去噪处理后的数据进行聚合计算,得到各个位置的真实垃圾量等级,构成城市垃圾分布图步骤中,将垃圾量等级的所有w个候选值通过布隆过滤器的h个哈希函数处理后,组成一个w·l的矩阵作为特征矩阵q,经过去噪处理得到的所有zi[j](0≤j<l)组成长度为l的向量zi,求解线性回归问题zi=a·q,向量a(1·w)中最大值所对应位置的垃圾量等级即为位置i的真实垃圾量等级。通过上述步骤能够计算出每个位置的真实垃圾量等级,从而得到城市垃圾量分布图。本发明相较于现有技术,具有以下的有益效果:1.本发明相较于基于物联网技术的智能垃圾桶,大大节省了硬件设施的部署成本、网络连接的通信开销和设备运维的人力资源,充分节约了社会资源;2.本发明不依赖可信的第三方服务器,数据完全由用户在移动端处理,更彻底地保证了用户的数据隐私安全;3.本发明在保证了聚合准确性的同时,大大减少了用户参与人数的最低限额,是现实可行的方案;4.本发明在提升速度同时保持了方案的安全性。附图说明图1是一种本地化差分隐私城市垃圾数据报告和隐私计算方法的流程图。图2是一种本地化差分隐私城市垃圾数据报告和隐私计算方法的结构示意图。图3是本发明实施例中垃圾量等级随机扰动的样例图。具体实施方式下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。实施例如图1、2所示分别为一种本地化差分隐私城市垃圾数据报告和隐私计算方法的流程图及结构图,所述方法的具体步骤包括:设置位置隐私参数及垃圾量等级隐私参数,计算隐私处理参数;用户通过定位垃圾点位置及判定垃圾点垃圾量等级数,得到用户的原始真实数据;对位置及垃圾量等级数据分别进行本地化差分隐私处理并上传到服务器;服务器接收用户上传数据并对数据进行统计及去噪处理;服务器对经过去噪处理后的数据进行聚合计算,得到各个位置的真实垃圾量等级,构成城市垃圾分布图。在本实施例中,假设城市某区域垃圾点个数总共为50个,垃圾量的等级有3个等级,分别为high、middle和low,设置位置的隐私参数为∈1=1.6,垃圾量等级的隐私参数∈2=1.9,布隆过滤器假阳率为0.1,则计算得到最优布隆过滤器长度哈希函数个数为隐私处理参数假设一个感知用户经过一个垃圾点时,要对该垃圾点的垃圾量进行报告:首先通过移动设备的gps传感器对当前垃圾点位置进行定位,然后通过提前设置的位置-编号表匹配到该垃圾点的编号,如该垃圾点的编号为12,用户通过对垃圾量的观察给定相应的垃圾量等级,如判定该垃圾点的真实垃圾量等级为middle,数据<12,middle>即为该感知参与用户的真实感知数据。根据上述计算的参数,用户在本地运行一个随机数生成函数生成一个随机数rand=0.67,由于0.67>0.486,该用户的位置集合为从集合{1,2,…11,13…,50}中随机选择8个位置作为上传位置,由于真实感知位置不在位置集合中,所以所有8个位置对应的垃圾量等级都从垃圾量等级集合中随机抽取决定。假设经过8次随机化选择后得到的数据集合为:{<1,middle>,<5,high>,<9,low>,<14,middle>,<21,low>,<23,high>,<36,low>,<41,middle>}。假设垃圾量等级经过布隆过滤器后得到对应的向量分别为{high:1000001001000,middle:0100000000011,low:1000001000001}。集合中对应的各个垃圾量等级经过布隆过滤器后的每一位通过生成的随机数和参数比较,小于0.58保持不变,大于0.58进行翻转,得到最终上传的集合为:{<1,0101010011011>,<5,1011100100110>,<9,0111000101011>,<14,1101000101011>,<21,1010111101010>,<23,0110101101010>,<36,1101010100111>,<41,0011011011010>}垃圾量等级随机扰动的样例图如图3所示。当服务器接收到所有感知用户的上传值后,对所有的位置项进行概率统计,能大致估计每个位置真实的报告个数,如服务器总共收到2000个用户发来的数据,其中位置数据共有2000×8=16000个,估计出真实位置为“1”的用户数为50个,实际收到的所有报告中包含位置为“1”的用户数为300个,由此推断所有为“1”的数据项中大约有250个数据项是噪声位置数据,噪声位置数据项的垃圾量等级是随机均匀选取的,由此可估算出每个垃圾量等级的噪声数据大约有250/3个,记为noise=(noise)·3。将垃圾量等级对应的原始布隆过滤器的值组合成一个矩阵q,表示为:将每一个位置的垃圾量等级数据筛选出来单独分析,如所有位置为“1”的垃圾量等级项,表示形式为:第0位第1位…第l位1010…………0110以列为单位进行求和,得到一个长度为l的向量(sum1,…,suml),记为x,根据方案中计算得到的噪声估计量,计算每个噪声等级原始为“1”的个数向量u,u=noise·a,根据统计计算的真实估计值、噪声值和计算公式,计算各个位原始为“1”的个数,为长度为l的向量z。求解线性回归方程问题z=a·q,向量a中最大值对应的垃圾量等级即为该位置的估计真实垃圾量等级。所有位置的垃圾量等级能够通过上述过程依次求出,从而得到城市该区域的垃圾量等级分布图。上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1