本发明属于隐私保护技术领域,涉及一种负调查重建正调查数据的方法,具体涉及一种传统的重建算法出现不合理数据时的处理方法。
背景技术:
信息大爆炸的时代,人们逐渐意识到个人隐私安全的重要性。为了满足人们日益增长的隐私保护的需求,越来越多的隐私保护的方法被提出,负调查就是其中的一种。负调查是信息负表示的一种应用,与传统调查相比,它可以有效的保护参与者的隐私,特别适用于敏感数据的收集。在传统的正调查中,不论是否涉及到敏感数据,参与者都需要选出符合自己实际情况的那个选项,而负调查与传统的正调查相反,参与者被要求在不符合自己实际情况的选项中选择一项。
负调查收集到的数据,并不是我们所需要的数据,我们需要的是从负调查重建出来的正调查的数据。目前大多的重建算法都是针对均匀负调查提出的,均匀负调查是指算法假设参与者是以等概率的可能性选择负选项。nstops重建算法是均匀负调查最基本的重建算法,但是nstops算法在重建的结果中可能出现负值,负值是不符合实际情况的,所以属于是不合理的数据。随后,针对负值问题,在nstops基础上提出了两种改进算法,称为nstops-i、nstops-ii。虽然这两种算法可以很好的处理负值问题,但是nstops-i迭代速度慢,效率低,nstops-ii不适用于选择概率为任意分布的负调查。
现实中的调查问卷往往是存在一些背景知识的,比如对于某些疾病的调查,医院往往知道该疾病的发病概率等。若将背景知识引入到负调查中,采用传统的重建算法,会出现与背景知识相违背的不合理数据。针对这类不合理数据,nstops-bk算法被提出,该算法证明了合理的利用背景知识可以有效的提高数据重建的精度。
负调查要求随机选择一个不符合自己情况的选项,调查过程中也可能存在人为偏好,这些都有可能造成负调查重建正调查数据时出现不合理的数据。显然,这些不合理的数据会影响重建正调查数据的精度,所以,合理的处理重建算法中的不合理数据对于提高数据重建精度非常重要。
技术实现要素:
为了解决上述技术问题,本发明提供了一种处理负调查中不合理数据的方法。
本发明所采用的技术方案是:一种处理负调查中不合理数据的方法,其特征在于,包括以下步骤:
步骤1:计算正调查的值;
步骤2:将不合理的数据进行调整;
步骤3:对于调整后的数据,计算由调整造成的差值分配到其他选项的比例;
步骤4:对于调整后得到的负调查的值,计算正调查的值。
作为优选,步骤1中,采用传统的nstops重建算法计算正调查的值为
作为优选,步骤2中,将不合理的数据进行调整,调整后负数据和正数据的关系为:
其中,ri表示负调查中每个选项的人数比例,xi表示调整后正调查的人数比例,并且r1+...+rc=1,x1+...+xc=1,△ri表示调整不合理的数据所带来的差值,pij代表在正调查中选择选项i的人在负调查中选择了选项j的概率,i=1、2、...、c,j=1、2、...、c;
对于均匀负调查:
作为优选,步骤3中,假设有n个选项是不合理的结果,将这n个选项的估计值
设负调查中选项i的比例为△ri,根据负调查的实施规则:
作为优选,步骤4中,对于调整后得到的负调查的值,重新利用nstops算法计算正调查的值xi:
xi=1-(c-1)(ri+△ri)
进一步得到计算xi的通式:
其中,
xs=xc+xc-1+…+xc-n+1,rs=rc+rc-1+…+rc-n+1。
本发明的有益效果在于:在负调查重建正调查数据的过程中,本发明既可以处理负值这一类不合理的数据,也可以处理与背景知识相违背的不合理数据,并且取得较高的重建精度。
附图说明
图1为本发明实施例的方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种处理负调查中不合理数据的方法,包括以下步骤:
步骤1:采用传统的nstops重建算法计算正调查的值;
假设参与调查的总人数为n,问题的选项个数为c,负调查中每个选项的人数比例为r={ri,ri,...,rc},相应的正调查的每个选项的人数比例为t={t1,t2,...,tc},pij代表在正调查中选择选项i的人在负调查中选择了选项j的概率,pij组成了矩阵p,因此:
已有的正调查数据重建的方法以及本文的算法都是以均匀负调查为背景,即:
传统的nstops重建方法,矩阵r,t,p满足关系:
r=tp
因此,矩阵t可以采用如下式子计算:
t=rp-1
根据以上公式,正数据的估计值可以用下面的式子计算:
步骤2:将不合理的数据进行调整;
本实施例以一个选项为例,即假设有一个选项的重建结果是不合理的数据。采用传统的nstops方法计算每个选项的正调查估计值
步骤3:对于调整后的数据,计算由调整造成的差值分配到其他选项的比例;
将差值△rc按相应的比例分配到其他选项时,首先计算△rc在正调查中其他选项的人数比例,设正调查中选项i的比例为
根据均匀负调查的生成规则,正调查中其他c-1个选项的
步骤4:对于调整后得到的负调查的值,重新利用nstops算法计算正调查的值。
使用调整后的负调查值重新采用nstops计算正调查的估计值:
xi=1-(c-1)(ri+△ri)
综上可得,除选项c,其他各选项的重建结果计算如下:
以上实例为仅有一个不合理数据时算法的计算过程,本发明适用于多个不合理数据的处理,并且能够取得较高的精确度。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。