本发明涉及信息安全,具体涉及一种具有差分隐私的数据流采样发布方法及系统。
背景技术:
1、随着信息技术的快速发展,现有的众多应用往往需要动态发布统计信息,以便用户参考或根据发信信息进行规划。例如,网络流量分析和车辆交通监控。对于网络流量分析,网站每天从用户的网络流量中收集信息数据,包括用户浏览网站时获得的单个浏览信息(点击次数、搜索次数等),网站的工作人员分析这些浏览信息,根据用户的喜好推荐商品;对于车辆交通监测,车辆监测仪器每天收集车辆位置和移动数据的信息,包括在实时交通信息系统中,系统根据区域内车辆上传的信息,分析每个区域的当前交通状况,帮助车辆更快地计划前往目的地的行程,预测未来的交通状况,进而有效避免交通堵塞造成的损失。
2、现有的上述实际应用程序在进行数据发布时通常采用数据流滑动窗口模型的方式,进行发布时模型需要更多地强调最近的数据,而非历史数据;在历史数据中,最近的数据可以更好地指示现有条件的趋势,并且需要快速处理这些数据。例如,购物app产品推荐时,更多的是以近阶段用户浏览数据,过时数据如超过3个月的数据在数据推荐会弃用。直接保留并发布用户的最新数据,会导致个人隐私数据的泄露,故需要研究在滑动窗口上发布数据的隐私问题,即如何在滑动窗口模型上执行快速数据处理和执行数据隐私释放的问题。
3、目前,无论是静态数据集还是动态数据流,都有许多关于数据发布的技术方案。然而,现有技术中提出的方法并不适用于数据流滑动窗口模型。具体的,在发布滑动窗口的直方图时,存在两个缺点:(1)现有的数据流方法对最近的元素关注较少,没有快速统计滑动窗口中的数据的方法;(2)现有的数据流直方图方法采用的数据流统计方法仅仅直接统计,并没有做噪音量化;(3)现有方法在构造直方图时需要扫描每个滑动窗口数据,造成了较高的运行开销和存储开销。
技术实现思路
1、本发明目的在于提供一种具有差分隐私的数据流采样发布方法及系统,该方法综合滑动窗口采样和数据实时发布,不仅实时关注最新数据,在用于数据流的差分隐私发布时,具有较低的运行开销和存储开销。
2、为达成上述目的,本发明提出如下技术方案:一种具有差分隐私的数据流采样发布方法,包括:
3、确定数据流中数据待发布直方图的区间;
4、对待发布直方图的所有区间,采用数据流采样草图结构eds对当前时刻滑动窗口内的数据进行采样,获取当前时刻的采样集合;
5、根据当前时刻的采样集合,获取当前时刻滑动窗口内所有区间的统计结果;
6、根据统计结果、预设的隐私预算,采用基于滑动窗口采样的自适应加噪直方图发布算法发布当前时刻滑动窗口的直方图;
7、其中,采用数据流采样草图结构eds对当前时刻滑动窗口内的数据进行采样的过程为:
8、定义一数据流ds、ds={e1,e2,...,et,...}(t≥0),滑动窗口的大小为w、当前时刻t的当前元素为et、当前窗口采样的中间集合s+、当前时刻的采样集合s、采样的中间集合大小s+、采样集合大小s、随机性增强因子b,令b=s+-s,则有
9、确定随机性增强因子b的一固定值,当数据流进入滑动窗口模型中,采用滑动窗口采样算法获得当前窗口采样的中间集合s+;再从采样的中间集合s+中随机选择s条数据,放入并生成采样集合s;
10、其中,滑动窗口采样算法在任一时刻获得当前窗口采样的中间集合s+的过程为,对于任一时刻的当前元素et∈ds做如下处理:
11、对于当前时刻t≤s+的当前元素et,将当前元素et直接放入采样中间集合s+;
12、对于当前时刻s+<t≤w的当前元素et,将当前元素et以(s+b)/t的概率插入采样中间集合s+;
13、对于当前时刻t>w的当前元素et,判断当前采样中间集合s+中最老元素是否过期;若该最老元素过期,则在当前采样中间集合s+删去该最老元素并插入当前元素et;若该最老元素未过期,则当前元素et不插入集合,保持当前采样中间集合s+不变。
14、进一步的,由当前窗口采样的中间集合s+生成采样集合s的过程为:
15、对于当前时刻t≤s+,采样集合s等于从当前窗口采样的中间集合s+中随机删除max(0,s+-s)个元素后的集合;
16、对于当前时刻s+<t≤w,采样集合s等于从当前窗口采样的中间集合s+中随机删除b个元素后的集合;
17、对于当前时刻t>w,采样集合s等于从当前窗口采样的中间集合s+中随机删除b个元素后的集合。
18、进一步的,定义自适应发布当前时刻滑动窗口直方图的总误差为errspf、数据流采样草图结构eds对当前时刻滑动窗口的采样误差为erreds、基于滑动窗口采样的自适应加噪直方图发布算法发布直方图的自适应加噪误差为errsn,则有errspf=errsn+erreds;
19、定义用户满意的发布当前时刻滑动窗口直方图的噪音误差为erruser,故存在errspf=erruser,erruser=errsn+erreds,errsn=erruser-erreds;
20、所述基于滑动窗口采样的自适应加噪直方图发布算法为根据用户满意的发布当前时刻滑动窗口直方图的噪音误差erruser与数据流采样草图结构eds对当前时刻滑动窗口的采样误差erreds的差值调整基于滑动窗口采样的自适应加噪直方图发布算法发布直方图的自适应加噪误差errsn。
21、进一步的,所述获取当前时刻滑动窗口内所有区间的统计结果的过程为:
22、从采样集合s中获取待发布直方图所有区间的采样结果,该采样结果记为gs;
23、根据采样结果gs计算当前时刻滑动窗口内所有区间的统计结果,该统计结果记为gw,
24、进一步的,所述自适应发布当前时刻滑动窗口直方图总误差errspf的过程如下:
25、获取当前时刻滑动窗口内所有区间的噪音结果其中,ε2表示为防止真实数据泄露添加的隐私预算;
26、计算总误差errspf,总误差errspf为当前时刻滑动窗口内所有区间的噪音结果与当前时刻滑动窗口内所有区间的真实数据之间的均方误差。
27、本发明另一技术方案在于公开一种具有差分隐私的数据流采样发布系统,该系统包括:
28、确定模块,用于确定数据流中数据待发布直方图的区间;
29、采样模块,用于对待发布直方图的所有区间,采用数据流采样草图结构eds对当前时刻滑动窗口内的数据进行采样,获取当前时刻的采样集合;
30、获取模块,用于根据当前时刻的采样集合,获取当前时刻滑动窗口内所有区间的统计结果;
31、发布模块,用于根据统计结果、预设的隐私预算,采用基于滑动窗口采样的自适应加噪直方图发布算法发布当前时刻滑动窗口的直方图;
32、其中,采样模块采用数据流采样草图结构eds对当前时刻滑动窗口内的数据进行采样的过程为:
33、定义一数据流ds、ds={e1,e2,...,et,...}(t≥0),滑动窗口的大小为w、当前时刻t的当前元素为et、当前窗口采样的中间集合s+、当前时刻的采样集合s、采样的中间集合大小s+、采样集合大小s、随机性增强因子b,令b=s+-s,则有
34、确定随机性增强因子b的一固定值,当数据流进入滑动窗口模型中,采用滑动窗口采样算法获得当前窗口采样的中间集合s+;再从采样的中间集合s+中随机选择s条数据,放入并生成采样集合s;
35、其中,滑动窗口采样算法在任一时刻获得当前窗口采样的中间集合s+的过程为,对于任一时刻的当前元素et∈ds做如下处理:
36、对于当前时刻t≤s+的当前元素et,将当前元素et直接放入采样中间集合s+;
37、对于当前时刻s+<t≤w的当前元素et,将当前元素et以(s+b)/t的概率插入采样中间集合s+;
38、对于当前时刻t>w的当前元素et,判断当前采样中间集合s+中最老元素是否过期;若该最老元素过期,则在当前采样中间集合s+删去该最老元素并插入当前元素et;若该最老元素未过期,则当前元素et不插入集合,保持当前采样中间集合s+不变。
39、进一步的,所述采样模块中由当前窗口采样的中间集合s+生成采样集合s的过程为:
40、对于当前时刻t≤s+,采样集合s等于从当前窗口采样的中间集合s+中随机删除max(0,s+-s)个元素后的集合;
41、对于当前时刻s+<t≤w,采样集合s等于从当前窗口采样的中间集合s+中随机删除b个元素后的集合;
42、对于当前时刻t>w,采样集合s等于从当前窗口采样的中间集合s+中随机删除b个元素后的集合。
43、进一步的,所述发布模块中采用基于滑动窗口采样的自适应加噪直方图发布算法发布当前时刻滑动窗口的直方图的过程为:
44、定义自适应发布当前时刻滑动窗口直方图的总误差为errspf、数据流采样草图结构eds对当前时刻滑动窗口的采样误差为erreds、基于滑动窗口采样的自适应加噪直方图发布算法发布直方图的自适应加噪误差为errsn,则有errspf=errsn+erreds;
45、定义用户满意的发布当前时刻滑动窗口直方图的噪音误差为erruser,故存在errspf=erruser,erruser=errsn+erreds,errsn=erruser-erreds;
46、根据用户满意的发布当前时刻滑动窗口直方图的噪音误差erruser与数据流采样草图结构eds对当前时刻滑动窗口的采样误差erreds的差值调整基于滑动窗口采样的自适应加噪直方图发布算法发布直方图的自适应加噪误差errsn。
47、进一步的,所述获取模块获取当前时刻滑动窗口内所有区间的统计结果的过程为:
48、从采样集合s中获取待发布直方图所有区间的采样结果,该采样结果记为gs;
49、根据采样结果gs计算当前时刻滑动窗口内所有区间的统计结果,该统计结果记为gw,
50、本发明还提出一种电子设备,该设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述的具有差分隐私的数据流采样发布方法。
51、由以上技术方案可知,本发明的技术方案获得了如下有益效果:
52、本发明提供一种具有差分隐私的数据流采样发布方法及系统与现有技术相比,为了降低每个时间戳的数据发布处理时间、减少空间开销,采用滑动窗口模型观察在大数据环境下的数据流中产生的最新元素;为了降低每个时间戳的数据发布处理时间,减少空间开销,提出通过数据流采样草图结构eds来快速处理每一个滑动窗口内的数据,基于有效的数据流采样草图结构eds能够对这些数据结果进行连续的处理;该数据结构能够快速的获得每一时刻中的滑动窗口内数据的采样集合,无需对当前时刻滑动窗口内的数据全部进行缓存,这样会大大降低的存储成本、近似存储每个滑动窗口;基于有效的数据流采样草图结构eds能够适用于滑动窗口模型,并可用于连续发布直方图,因此能使用较低的空间开销,估计出当前滑动窗口的计数值。
53、本发明进一步根据基于有效的数据流采样草图结构eds来自适应发布直方图发布方法,具体过程如下:根据滑动窗口模型的性质,并根据数据流采样草图结构eds的噪音结果与高斯噪音误差之间的量化关系,并根据用户满足的隐私误差来自适应添加相应的噪音值,这样可以显著提高数据结果查询效率和数据的计数效率,并提供了与差分隐私相同的隐私保障。
54、应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
55、结合实施例从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。