地理不可区分保护下的基于数据质量的签到激励机制方法与流程

文档序号:17834820发布日期:2019-06-05 23:25阅读:214来源:国知局
地理不可区分保护下的基于数据质量的签到激励机制方法与流程

本发明属于信息安全领域,尤其涉及一种地理不可区分保护下的基于数据质量的签到激励机制方法。



背景技术:

随着基于位置的服务(location-basedservices)和在线社交网络的不断发展,大量的基于位置的社交网络服务被创建,其中签到服务得到了大量的关注。签到服务(check-inaggregator),又称签到模式:位置服务在移动互联网的创新型业务,引入用户主动签到机制(check-in),围绕签到行为提供激励,探索本地化服务开拓及移动营销等商业模式,在此基础上聚合用户、开发者及广告主的产业链生态系统。在过去的几年里,“签到”无疑是最受追捧的科技热点之一,在各大科技新闻上,那些lbs创业企业如foursquare、gowalla、loopt、britekite等成为争相报道对象。业界巨头也快速跟进,yelp引入“签到”功能、facebook推出“facebookplaces”。

位置信息作为反映用户行为轨迹与生活习惯的重要信息,对于潜在客户的识别和精准化营销的开展,具有很大的商业价值。为了鼓励更多的用户参与到签到行为中,商家必须在激励设计的丰富、灵活、实用等方面下功夫。目前大部分的工作主要是服务器中心化的激励方案。王江雨等人采用任务积分规则,根据所参加用户的人数来随机分组,2-5人一组,用户可选择人数进行随机匹配。该方案的优点是抓住了用户的游戏心理,但未考虑到用户的隐私意愿

用户参与签到,就不可避免地涉及到位置隐私泄漏问题。现有的位置隐私保护技术主要分为两类,时空匿名技术:通过降低位置信息的时空粒度将用户所在的位置区域化,再结合用户的个性化需求显示用户所在的大概位置。但研究表明,这些模型并不能提供足够的安全保障。零隐私泄漏技术:采用密码学算法对位置信息加密产生密文空间,然后运用搜索技术计算。这种方法安全性很好,但是计算复杂度过高,实用性不强。

为解决签到服务中的隐泄露问题,谢喻霞提出了基于k匿名的奖励框架,当用户在一个地点签到时,他不仅将自己的真实位置,同时还包括其它k-1个假位置一起发送给签到服务器,因此,签到服务器不得不将这k个位置的签到激励返回给用户。虽然用户的隐私安全得到较好的保障,但这也增加的商家的费用输出。

在一些方案中,一个可信的第三方服务器被部署到用户和基于位置的社交网络服务器之间。但是,第三方服务器的使用会带来一些不足之处,例如,它只能提供有限的隐私保护,倾向于单点故障。如果太多用户同时请求位置服务,这将导致性能瓶颈和崩溃。除此之外,一旦攻击者掌握了第三方服务器,所有签到者的详细位置信息将被暴露。

综上所述,目前的签到激励工作中,主要存在俩处不足:首先,未建立完善的签到数据质量评估模型,缺乏对签到者签到行为的合理评估。其次,目前的签到激励工作未考虑签到者的隐私顾虑,不能为签到者提供个性化的隐私保护服务。

解决上述技术问题的难度和意义:

如何综合考虑到签到数据元素,建立完善的签到数据质量评估模型,从而提高用户参与签到的积极性;另一方面,如何将用户的隐私偏好在签到激励系统中实现,从而为用户提供个性化隐私保护服务。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种地理不可区分保护下的基于数据质量的签到激励机制方法。

本发明是这样实现的,一种地理不可区分保护下的基于数据质量的签到激励机制方法包括:

1)、构建地理不可区分保护下的激励机制系统框架;

2)、基于数据质量的激励机制:签到服务器从签到者那收集签到数据,利用数据分析工具,对签到数据质量进行评估、分析签到数据质量及内在商业价值;

3)、基于隐私保护的激励机制:在激励机制中加入地理不可区分方法。

进一步,系统框架包括:

用户使用手持签到设备签到,基于所述隐私保护,对实际签到数据进行扰乱处理,将扰乱处理后的签到信息传送至签到服务器中;服务器根据数据质量对用户支付报酬;

进一步,隐私保护包括:

隐私保护为一定半径内的隐私保护,即存在用户1与用户2,距离为r,若两用户上传给签到服务器的签到数据产生相似的观察信息,则认为用户1与用户2在半径r内享有隐私保护;基于此,隐私相似程度取决于用户1与用户2的实际距离,且用户位置扰乱后相似程度越小,隐私保护程度越高。

进一步,基于数据质量的激励机制包括:

签到服务器收集用户的签到信息,利用统计工具,挖掘其中的商业价值;因用户对于隐私保护的态度是不同的,发送的签到数据精确程度也会有所差异,因此对数据的有用性也会存在一定影响:

假定需要收集n位用户的签到信息,支付给每个签到者pi的报酬为ci,则签到服务器的费用输出为:

为鼓励更多的用户参与签到,对于每一位用户都会给予基本保留报酬m。然而,由于每一位用户的隐私倾向不一样,即隐私预算不一样,签到数据的真实程度也是不一样的,真实程度越高,相应的数据有用性越高,签到服务器给予用户的报酬会越多,采用分段支付报酬方式,对于签到者pi的报酬ci的计算如下:

设置阈值点a1,a2,a3,将有用性分为几个区间[0,a1],[a1,a2],[a2,a3],[a3,1],

因随隐私水平的增加(即隐私预算越小),数据有用性会急剧较少,所以在不同区间的权重大小设置为:k1<k2<k3。

针对不同的应用场景,签到服务器对于位置数据的有用性会有不同的需求,可利用有用性函数期望eμ表示,对参数k1,k2,k3,a1,a2,a3进行优化,使得在满足一定有用性函数期望eμ的情况下,得出最优组合参数k1,k2,k3,a1,a2,a3,使得签到服务器费用输出达到最小。

进一步,基于隐私保护的激励机制包括:

假如关心的区域内包括位置集l,那么一个概率性地理扰乱函数p满足ε-差分隐私当且仅当:

其中,p(l*|l)是将位置l扰乱成l*的概率,d(l1,l2)代表l1和l2之间的距离,ε是隐私预算,ε越小,隐私保护级别越高;

利用二维拉普拉斯机制,对用户的初始位置x0进行加噪音处理。采用从二维拉普拉斯分布中提取噪音,二维拉普拉斯分布:

因为二维laplace的pdf只与有关,则转化到极坐标系统下计算更方便。根据坐标之间的转化公式,得到原点为x0的极坐标拉普拉斯分布:

分别求得关于半径r和角度θ的边缘密度函数(目的是为了提取随机变量r和θ):

易看出dε(r,θ)=dε,r(r)·dε,θ(θ),因为半径和角度是独立的,则很容易分别从dε,r(r)和dε,θ(θ)提取它们:

提取角度θ:因为dε,θ(θ)是一个常量,直接在均匀分布[0,2π)产生随机数即可;

提取半径r:先求出关于变量r的累计分布函数:

上式表示随机点的半径落在[0,r)之间的概率,类似提取角度θ的方式,在均匀分布[0,1)产生随机数p,即概率;

可得有:w-1叫作兰伯特w函数,调用库函数可以算出;

令r=1-ε,假定隐私预算取值在0到1之间,隐私预算越小,意味着加入的扰动噪音会越多,数据的真实性会越差;通过隐私预算,将激励机制与地理不可区分有效地结合在一起。

步骤三中,签到数据质量评估包括:

签到数据由签到者通过手持智能移动终端自愿分享和上传,但由于个性化隐私设置,签到数据存在很大的不确定性,因此在将签到数据应用到具体的生产实践中前,需要建立位置签到数据的质量评估模型对其进行质量分析,根据位置签到数据的质量确定其适用范围,从时间准确度,位置精度俩个方面来构建签到数据质量评估模型,

对有用性函数μ(·)采用经验性假定:

(1)μ(·)是非负的;

(2)μ(·)是负相关于隐私水平r∈[0,1],即增加隐私水平,位置数据扰乱的程度会加深;

(3)μ(·)是一种凸函数,会随着隐私水平的增加减少的越来越快,即

假设μ(r,α)=α1-α2exp(α3r)符合以上假定,α1,α2,α3是曲线拟合参数,可通过最小化非线性二乘拟合残差求出:

其中τi是签到者上传签到信息的真实数据质量,则质量模型为:

签到者因为隐私顾虑,不会发送自己的真实签到数据,而是发送经过处理后的签到数据。签到服务器接受到用户的签到数据,首先比较签到者签到位置与标准poi位置之间距离,对于大于特定距离阈值的签到位置点进行一次过滤处理。对于过滤留下来的签到数据分别进行时间建模与距离量算。

预处理过程中,签到服务器将poi的空间位置作为标准值,将计算位置签到数据与poi对应点之间的距离如下所示:

式中,xi和yi分别表示位置签到数据i的俩个坐标,xr和yr分别表示poi两个坐标。对于dist不满足一定阈值的签到点进行过滤处理。

签到者发送签到时间,app将自动与真实签到时间比较,计算出时间误差。这里t是预先设定好的最长时间间隔。

距离量算即app将扰乱后的位置签到数据与实际位置数据比较,计算出它们之间的距离disti,然后计算平均值如下:

s表示用户的签到次数。因为本发明采用的地理不可区分机制设置了距离阈值d,故可令位置定位精度为:

本发明的另一目的在于提供一种所述地理不可区分保护下的签到激励机制方法的地理不可区分保护下的签到激励机制控制系统。

综上所述,本发明的优点及积极效果为:

传统的签到工作中,大多数未考虑到用户的隐私意愿,没有将隐私保护与签到有效结合在一起,这极大打击用户参与签到的积极性,本发明填补了这一空白。同时,在本发明中,用户可以根据自己的隐私意愿设置隐私预算,享受隐私个性化保护服务。这是目前的签到技术所不能提供的。

本发明提出一种基于签到数据质量的激励机制;将地理不可区分方法引入到签到激励工作中,有效地将隐私预算与数据质量结合起来,用户可以根据自己的隐私意愿设置隐私预算,从而实现用户隐私个性化保护服务;用户的签到记录扰乱工作在手持设备完成,克服了对可信赖的第三方平台的依赖,避免了单点故障,以及服务器性能瓶颈和崩溃;相对于基于k-匿名的激励机制,签到服务器的收购成本极大地减少。

在本发明中,用户可以根据自己的隐私意愿设置隐私预算,享受隐私个性化保护服务。这是目前的签到技术所不能提供的。

传统的签到工作中,大多数未考虑到用户的隐私意愿,没有将隐私保护与签到有效结合在一起,这极大打击用户参与签到的积极性,本发明填补了这一空白。

附图说明

图1是本发明实施例提供的地理不可区分保护下的基于数据质量的签到激励机制方法系统流程图。

图2是本发明实施例提供的地理不可区分保护下的基于数据质量的签到激励机制方法系统框架图。

图3是本发明实施例提供的在不同隐私预算下产生的噪音直方图。

图4是本发明实施例提供的二维拉普拉斯概率分布图。

图5是本发明实施例提供的数据有用性与隐私水平关系图。

图6是本发明实施例提供的个人激励与隐私预算关系图。

图7是本发明实施例提供的收购成本变化图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

目前的签到激励工作中,主要存在俩处不足:首先,未建立完善的签到数据质量评估模型,缺乏对签到者签到行为的合理评估。其次,目前的签到激励工作未考虑签到者的隐私顾虑,不能为签到者提供个性化的隐私保护服务。

为解决上述技术问题,下面结合具体方案对本发明作详细描述。

如图1所示,本发明实施例提供的地理不可区分保护下的基于数据质量的签到激励机制方法包括:

s101:签到者在手持设备完成位置数据的扰乱处理,将自身隐私预算、扰乱后的位置数据加入到签到信息中。

s102:将签到信息发送给签到服务器。

s103:签到服务器会对签到者的签到信息进行有用性评估。

s104:根据签到数据的有用程度,给予签到者相应的报酬。

在本发明实施例中,本发明实施例提供的地理不可区分保护下的签到激励机制方法进一步包括:

构建地理不可区分保护下的基于数据质量的激励机制系统框架。

基于数据质量的激励机制:签到服务器从签到者那收集签到数据,利用数据分析工具,对签到数据质量进行评估、分析签到数据质量及内在商业价值;

基于隐私保护的激励机制:在激励机制中加入地理不可区分方法。

在本发明实施例中,如图2所示本发明实施例提供的系统框架。

在本发明实施例中,用户使用手持签到设备签到,基于所述隐私保护,对实际签到数据进行扰乱处理,将扰乱处理后的签到信息传送至签到服务器中;服务器根据数据质量对用户支付报酬;

作为本发明的优选实施例,本发明实施例提供的隐私保护包括:

隐私保护为一定半径内的隐私保护,即存在用户1与用户2,距离为r,若两用户上传给签到服务器的签到数据产生相似的观察信息,则认为用户1与用户2在半径r内享有隐私保护;基于此,隐私相似程度取决于用户1与用户2的实际距离,且用户位置扰乱后相似程度越小,隐私保护程度越高。

作为本发明的优选实施例,本发明实施例提供的基于数据质量的激励机制包括:

签到服务器收集用户的签到信息,利用统计工具,挖掘其中的商业价值;因用户对于隐私保护的态度是不同的,发送的签到数据精确程度也会有所差异,因此对数据的有用性也会存在一定影响:

假定需要收集n位用户的签到信息,支付给每个签到者pi的报酬为ci,则签到服务器的费用输出为:

为鼓励更多的用户参与签到,对于每一位用户都会给予基本保留报酬m。然而,由于每一位用户的隐私倾向不一样,即隐私预算不一样,签到数据的真实程度也是不一样的,真实程度越高,相应的数据有用性越高,签到服务器给予用户的报酬会越多,采用分段支付报酬方式,对于签到者pi的报酬ci的计算如下:

设置阈值点a1,a2,a3,将有用性分为几个区间[0,a1],[a1,a2],[a2,a3],[a3,1],

因随隐私水平的增加(即隐私预算越小),数据有用性会急剧较少,所以在不同区间的权重大小设置为:k1<k2<k3。

针对不同的应用场景,签到服务器对于位置数据的有用性会有不同的需求,可利用有用性函数期望eμ表示,对参数k1,k2,k3,a1,a2,a3进行优化,使得在满足一定有用性函数期望eμ的情况下,得出最优组合参数k1,k2,k3,a1,a2,a3,使得签到服务器费用输出达到最小。

作为本发明的优选实施例,本发明实施例提供的基于隐私保护的激励机制包括:

假如关心的区域内包括位置集l,那么一个概率性地理扰乱函数p满足ε-差分隐私当且仅当:

其中,p(l*|l)是将位置l扰乱成l*的概率,d(l1,l2)代表l1和l2之间的距离,ε是隐私预算,ε越小,隐私保护级别越高;

利用二维拉普拉斯机制,对用户的初始位置x0进行加噪音处理。采用从二维拉普拉斯分布中提取噪音,二维拉普拉斯分布:

因为二维laplace的pdf只与有关,则转化到极坐标系统下计算更方便。根据坐标之间的转化公式,得到原点为x0的极坐标拉普拉斯分布:

分别求得关于半径r和角度θ的边缘密度函数(目的是为了提取随机变量r和θ):

易看出dε(r,θ)=dε,r(r)·dε,θ(θ),因为半径和角度是独立的,则很容易分别从dε,r(r)和dε,θ(θ)提取它们:

提取角度θ:因为dε,θ(θ)是一个常量,直接在均匀分布[0,2π)产生随机数即可;

提取半径r:先求出关于变量r的累计分布函数:

上式表示随机点的半径落在[0,r)之间的概率,类似提取角度θ的方式,在均匀分布[0,1)产生随机数p,即概率;

可得有:w-1叫作兰伯特w函数,调用库函数可以算出;

令r=1-ε,假定隐私预算取值在0到1之间,隐私预算越小,意味着加入的扰动噪音会越多,数据的真实性会越差;通过隐私预算,将激励机制与地理不可区分有效地结合在一起。

在本发明实施例中,步骤s103中,本发明实施例提供的签到数据质量评估包括:

签到数据由签到者通过手持智能移动终端自愿分享和上传,但由于个性化隐私设置,签到数据存在很大的不确定性,因此在将签到数据应用到具体的生产实践中前,需要建立位置签到数据的质量评估模型对其进行质量分析,根据位置签到数据的质量确定其适用范围,从时间准确度,数据定位精度俩个方面来构建签到数据质量评估模型,

对有用性函数μ(·)采用经验性假定:

(4)μ(·)是非负的;

(5)μ(·)是负相关于隐私水平r∈[0,1],即增加隐私水平,位置数据扰乱的程度会加深;

(6)μ(·)是一种凸函数,会随着隐私水平的增加减少的越来越快,即

假设μ(r,α)=α1-α2exp(α3r)符合以上假定,α1,α2,α3是曲线拟合参数,可通过最小化非线性二乘拟合残差求出:

其中τi是签到者上传签到信息的真实数据质量,则质量模型为:

签到者因为隐私顾虑,不会发送自己的真实签到数据,而是发送经过处理后的签到数据。签到服务器接受到用户的签到数据,首先比较签到者签到位置与标准poi位置之间距离,对于大于特定距离阈值的签到位置点进行一次过滤处理。对于过滤留下来的签到数据分别进行时间建模与距离量算。

预处理过程中,签到服务器将poi的空间位置作为标准值,将计算位置签到数据与poi对应点之间的距离如下所示:

式中,xi和yi分别表示位置签到数据i的俩个坐标,xr和yr分别表示poi两个坐标。对于dist不满足一定阈值的签到点进行过滤处理。

签到者发送签到时间,app将自动与真实签到时间比较,计算出时间误差。这里t是预先设定好的最长时间间隔。

距离量算即app将扰乱后的位置签到数据与实际位置数据比较,计算出它们之间的距离disti,然后计算平均值如下:

s表示用户的签到次数。因为本发明采用的地理不可区分机制设置了距离阈值d,故可令位置定位精度为:

下面结合仿真对本发明作进一步描述。

用户提交的签到数据包括为时间信息和位置信息,为防止用户个人信息的泄漏,分别对签到时间和签到位置进行一定的扰乱处理。

签到时间数据基本单位是1分钟,以数值形式在数据库中存储。故本发明采用拉普拉斯机制对其扰乱。为提供个性化隐私保护,用户可以根据自身喜好设置隐私预算,这里ε∈(0,1]。下图3表示在不同隐私预算下产生的噪音直方图。可以看出,随着隐私预算的增加,生成的噪音在不断减小。

利用二维拉普拉斯机制,对用户的初始位置x0添加噪音如图4所示。表示以x0(0,0)为中心点,ε=0.2,产生随机位置x的概率结果图。

通过分析杭州poi地址位置数据,模拟用户签到行为,首先进行数据拟合实验。然后,从个人激励与费用输出两个方面将工作和与本发明提出的激励机制进行对比。

数据拟合实验:用户在手持设备采用地理不可区分机制,将处理后的签到数据提交给签到服务器。服务器分析已保存用户的多次签到记录,计算出签到数据的有用性。根据本发明提出的质量公式,采用非线性二乘拟合,得到如图5示。图5中可以观察到,随着隐私保护水平越高,数据扰乱程度越深,数据的有用性会急剧下降。其次,通过观察拟合效果,验证了本发明提出的质量量化模型的合理性。

个人激励:考虑当前商家要收集n个人的签到信息。商家对于数据有用性的期望为eμ=0.5,利用本发明提出的组合参数优化分别求出k1,k2,k3,a1,a2,a3。得到签到者的奖励表达式ci。首先,根据个体参与者的个性化隐私设置,即隐私预算ε取值不一样。本实验采取1000人进行试验,给予签到者的基本工资m=0.8,可以求出k1=1.0,k2=2.0,k3=3.0,a1=0.45,a2=0.7,a3=0.8,可以得到以下关系图6个人激励与隐私预算关系图。

成本输出:接下来对比分析签到服务器费用输出在三种机制下的变化。如图7所示:随着收集的签到数据不断增多,lbsn服务器收购成本不断增加。其中,基于k-匿名的机制收购成本要远高于另外两种机制。任务积分机制下的收购成本会少于本发明提出的地理不可区分下的收购成本,但是它忽略了用户的个性化隐私设置需求。因此,本发明提出的机制在个性化隐私设置与成本输出方面做出了很好的权衡。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1