一种隐私保护方法、装置、设备及计算机存储介质与流程

文档序号:20578503发布日期:2020-04-29 01:18阅读:137来源:国知局
一种隐私保护方法、装置、设备及计算机存储介质与流程

本发明属于信息处理领域,尤其涉及一种隐私保护方法、装置、设备及计算机存储介质。



背景技术:

随着移动终端的普及和通信运营商网络技术的发展,运营商可以通过网络设备、业务应用系统、自有定位平台及用户上网日志获取用户的位置信息。位置信息实际上记录了用户的活动行为,可以从这些行为活动中继续挖掘出用户的意图、活动规律和潜在的兴趣爱好等重要信息。

随着大数据中轨迹数据应用越来越广泛,如智能交通系统,城市交通规划,城镇规划及基于位置的广告服务等应用都依赖于位置轨迹数据挖掘。为了保护用户的个人隐私,在轨迹数据发布之前需要首先删除个人识别信息,但是由于时间和空间位置属性,即使删除个人身份信息,轨迹数据仍然可以通过关联关系被识别出对应的身份信息。

因此,这就需要更加安全有效的方法来保护用户的个人隐私。



技术实现要素:

本发明实施例提供一种隐私保护方法、装置、设备及计算机存储介质,通过基于用户轨迹获得的平衡参数值和当前时刻的用户的位置概率向量,确定用户在当前时刻的匿名区域,提升了用户隐私的安全性。

第一方面,提供了一种隐私保护方法,该方法包括:获取多个用户的位置轨迹数据;根据多个用户的位置轨迹数据确定多个用户中的每一个用户的平衡参数值和每一个用户在第一时刻的位置概率向量;根据每一个用户的平衡参数值和每一个用户在第一时刻的位置概率向量,确定每一个用户在第一时刻的匿名区域。

在一种可能的实现中,根据多个用户的位置轨迹数据确定多个用户中的每一个用户的平衡参数值,包括:根据多个用户的位置轨迹数据确定至少一个个性化特征的相似度;根据至少一个个性化特征的相似度对多个用户的位置轨迹数据进行聚类,确定多个聚类簇;根据每个聚类簇的隐私需求指数值和服务质量指数值,确定每个聚类簇中每一个用户的平衡参数值。

这里,根据隐私需求指数值和服务质量指数值确定用户的平衡参数值,既能保证用户隐私需求,又能提升服务质量。

在一种可能的实现中,根据用户的位置轨迹数据确定至少一个个性化特征的相似度,包括:根据多个用户的位置轨迹数据确定至少一个轨迹的相似度;根据多个用户的隐私需求信息确定至少一个隐私需求信息的相似度;根据至少一个轨迹的相似度和至少一个隐私需求信息的相似度确定至少一个个性化特征的相似度。

这里,用户的轨迹相似性和隐私需求相似性对用户轨迹进行聚类,更加能满足聚类簇用户的隐私需求和服务质量需求。

在一种可能的实现中,根据多个用户的位置轨迹数据确定每一个用户在第一时刻的位置概率向量,包括:根据多个用户的位置轨迹数据,确定每一个用户的转移概率矩阵和每一个用户在第二时刻的位置概率向量;根据每一个用户的转移概率矩阵和每一个用户在第二时刻的位置概率向量,确定每一个用户在第一时刻的位置概率向量;其中,第二时刻在第一时刻之前。

在一种可能的实现中,获取用户的真实名,以及取余假名参数;根据用户的真实名和取余假名参数,确定用户的假名数据集;确定假名的假名使用周期,假名在假名数据集中;若假名的假名使用周期满足预设条件,对满足预设条件的假名进行更新操作。

这里,通过取余映射假名生成法,保证假名生成的唯一性,从而提高保护用户隐私的有效性。

在一种可能的实现中,确定假名的假名使用周期,包括:确定假名的假名使用时间和假名使用距离;根据假名的假名使用时间和假名使用距离,确定假名的假名使用周期。

根据用户发起查询请求时的假名使用时间和使用距离等特征,又增加了假名周期管理提升了假名的有效性,从而提高保护用户隐私的有效性。

在一种可能的实现中,根据每一个用户的平衡参数值和每一个用户在第一时刻的位置概率向量,确定每一个用户在第一时刻的匿名区域,包括:根据用户在第一时刻的位置概率向量,分别确定假名数据集中的每个假名对应的子匿名区域;根据平衡参数值从子匿名区域中,确定选中子匿名区域;根据选中子匿名区域,确定用户在第一时刻的匿名区域。

利用用户在上一时刻将要前往的转移概率矩阵与位置概率向量从而得到当前时刻用户转移移动概率,从高到低选取前平衡参数值个数的位置概率向量中的位置因素作为用户的匿名,从而避免了攻击者根据时间和空间的关联性来推测用户的真实信息,提升了用户隐私的安全性。

第二方面,提供了一种隐私保护装置,装置包括:获取模块,获取多个用户轨迹;计算模块,用于根据多个用户轨迹确定用户的平衡参数值;处理模块,用于根据多个用户轨迹确定用户在第一时刻的位置概率向量;匿名模块,用于根据用户的平衡参数值和用户在第一时刻的位置概率向量,确定用户在第一时刻的匿名区域。

第三方面,提供了一种设备,设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如本发明实施例提供的隐私保护方法。

第四方面,提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如本发明实施例提供的隐私保护方法。

基于本发明实施例提供的方法、装置、设备及计算机存储介质,能够基于用户轨迹获得的平衡参数值和当前时刻的用户的位置概率向量确定用户在当前时刻的匿名区域,这样,在用户发起位置服务请求时,就可以将匿名区域与用户的真实位置一起发送到位置服务器来进行位置服务,提升了用户隐私保护的安全性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种隐私保护方法流程示意图;

图2是本发明实施例提供的一种实现隐私保护方法的流程示意图;

图3是本发明实施例提供的一种隐私保护装置的结构示意图;

图4是本发明实施例提供的示例性硬件架构的示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

随着智能移动终端的普及和通信运营商网络技术的发展,运营商可以通过网络设备、业务应用系统、自有定位平台及用户上网日志获取用户的位置轨迹数据。用户的位置轨迹数据实际上记录了用户的活动行为,可以从这些行为活动中继续挖掘出用户的意图、活动规律和潜在的兴趣爱好等重要信息。

随着大数据中轨迹数据应用越来越广泛,如智能交通系统,城市交通规划,城镇规划及基于位置的广告服务等应用的准确性和及时性都受益于轨迹数据挖掘。在用户的位置轨迹数据发布之前需要首先删除个人识别信息,但是由于时间和空间位置属性,即使去掉个人身份信息,用户的位置轨迹数据仍能通过链接攻击被识别。

例如,在每个工作日都有条轨迹在早上的某个特定时间出发,一小时后到达另一位置,我们很容易就能推测出早上的起始点为家的位置,一小时后到达的是工作地点。攻击者所需做的就是在电话薄中查找家庭住址和工作地址并与轨迹相匹配,从而得到轨迹所对应的个人身份信息。

因此,简单的删除位置轨迹数据所对应的用户个人身份信息并不能保护用户个人隐私,这就需要设计更加可行有效的方法来保护用户的隐私。

基于此,本提案提出了一种隐私保护方法,降低现有方案的计算复杂度、信息损失度和提升隐私服务可用性及数据准确性,又增强位置隐私保护的安全性,提升被连续查询攻击和背景攻击的抵抗能力。提升对基于位置服务相关应用的用户的隐私安全保障。

下面首先对本发明实施例所提供的隐私保护方法进行描述。

图1所示为本发明一个实施例提供的隐私保护方法的流程示意图。如图1所示,该方法的执行主体是服务器,该方法可以包括s101-s103,具体如下所示:

s101,获取多个用户的位置轨迹数据。

s102,根据多个用户的位置轨迹数据确定多个用户中的每一个用户的平衡参数值和每一个用户在第一时刻的位置概率向量。

s103,根据每一个用户的平衡参数值和每一个用户在第一时刻的位置概率向量,确定每一个用户在第一时刻的匿名区域。

在s101中,位置轨迹数据为将不同的采集点对应的位置数据根据时间顺序连接起来形成的点集合。位置轨迹数据可以包括时间信息和与时间信息对应的位置信息,并且位置轨迹数据还包括用户的个人标识信息。

在本发明的实施例中,轨迹为在三维空间中,将不同的采集点根据时间顺序连接起来形成的点集合,记为:

t={userid,tid,(x1,y1,t1),(x2,y2,t2),…,(xn,yn,tn)}(1)

(t1<t2<…<tn)

其中,userid代表唯一用户,tid代表用户下的一条轨迹;

点(xi,yi,ti)(1≤i≤n)代表轨迹上的时空点;ti时刻的地理坐标为(xi,yi),xi和yi分别表示该点的经度及纬度值。至此,获取了多个用户的位置轨迹数据。

在s102中,根据多个用户的位置轨迹数据确定多个用户中的每一个用户的平衡参数值,包括:根据多个用户的位置轨迹数据确定至少一个个性化特征的相似度;根据至少一个个性化特征的相似度对多个用户的位置轨迹数据进行聚类,确定多个聚类簇;根据每个聚类簇的隐私需求指数值和服务质量指数值,确定每个聚类簇中每一个用户的平衡参数值。

在一个实施例中,根据用户的位置轨迹数据确定至少一个个性化特征的相似度,包括:根据多个用户的位置轨迹数据确定至少一个轨迹的相似度;根据多个用户的隐私需求信息确定至少一个隐私需求信息的相似度;根据至少一个轨迹的相似度和至少一个隐私需求信息的相似度确定至少一个个性化特征的相似度。

在一个实施例中,根据多个用户的位置轨迹数据确定至少一个轨迹的相似度,包括:根据用户的位置轨迹数据确定用户的兴趣区域,根据用户的兴趣区域进而确定不同用户之间的轨迹的相似度。由于兴趣区域代表用户的意图、活动规律和潜在的兴趣爱好等,兴趣区域是由相邻的兴趣点所划分的一个区域。从移动对象的隐私需求和攻击者的背景知识等角度来考虑兴趣区域,其中包含用户的位置轨迹数据的起始点和终止点,重要的停留点和转弯点。即根据用户的位置轨迹数据确定用户的兴趣区域,根据用户的兴趣区域进而确定不同用户之间的轨迹的相似度。

根据多个用户的位置轨迹数据确定用户之间至少一个轨迹的相似度,具体过程如下:

其中,simt为轨迹的相似度,其取值范围在[0,1]之间,值越接近1表示两条轨迹越相近,值越接近0则表示两条轨迹没有共同的兴趣区域。其中,e(tri)和e(trj)表示两条位置轨迹数据上的兴趣区域。

在一个实施例中,根据多个用户的隐私需求信息确定至少一个隐私需求信息的相似度,即根据不同用户的隐私需求来计算不同用户的隐私需求相似性。

根据多个用户的隐私需求信息确定至少一个隐私需求信息的相似度,这里,引入隐私需求pr的概念,隐私需求pr可以形式化地表示为pr=(k,eps,minpts)。

其中,k表示匿名参数,即是指某个用户在假名周期内对应真名和假名总计个数;eps表示邻域半径,用户当下所在位置loc的邻域是指在以loc为圆心,以eps为半径的区域中包含的位置对象的集合;minpts表示邻域密度阈值。以上3个参数均由用户自定义。例如某些用户对位置隐私安全要求高,则可以自定义。

根据多个用户的隐私需求信息确定至少一个隐私需求信息的相似度simpr,即根据不同用户的隐私需求来计算两条轨迹的隐私需求相似性,计算过程如下:

至此,得到了至少一个轨迹的相似度和至少一个隐私需求信息的相似度。

在一个实施例中,根据至少一个轨迹的相似度和至少一个隐私需求信息的相似度确定至少一个个性化特征的相似度。

在一个实施例中,根据下述中的至少一种来确定个性化特征的相似度:位置轨迹数据、隐私需求数据、活动时间数据等。可以理解的是,个性化特征用于表示不同用户之间在隐私保护相关方面的相似度。

在一个实施例中,确定至少一个个性化特征的相似度计算过程如下:

sim(tri,trj)=a*simt(tri,trj)+(1-a)*simpr(tri,trj)(4)

其中,sim(tri,trj)为个性化特征的相似度;a为调节控制用户隐私需求和服务质量,如用户更注重隐私需求则a值越接近0,如用户更注重服务质量则更接近1。至此,确定了用户之间的为个性化特征的相似度sim(tri,trj)。

其中,平衡参数值是隐私需求和服务质量之间最佳匿名平衡点。是利用个性化轨迹相似性,对用户的位置轨迹数据进行聚类,得到不同特征的簇,即对具有不同个性化轨迹特征位置轨迹数据的分类。根据分类后位置轨迹数据的用户的隐私需求和服务质量获得最佳匿名平衡点k,作为用户隐私模块k-匿名的依据,以保证用户隐私的安全性。k-匿名是指将用户的精确位置模糊为一个足够大的区域,该区域包括k个用户。

具体计算如下:

其中,pr表示隐私需求,pri表示簇内每个用户的隐私需求,ki表示第i个用户的匿名平衡点。

当隐私需求高于服务质量时,最佳匿名平衡点取自簇的隐私需求最小值,因为隐私需求值越小,代表隐私需求越高;当服务质量高于隐私需求时,最佳匿名平衡点取自簇的隐私需求的平均值。至此,得到了每个聚类簇中每一个用户的最佳匿名平衡点。

通过用户相似性进行聚类,避免了过度拟合,保证了隐私需求和服务质量的一个最佳平衡点。例如:如过度考虑隐私保护则会降低服务质量,如提高服务质量,则会降低隐私保护。根据隐私需求指数值和服务质量指数值确定用户的平衡参数值,既能保证用户隐私需求,又能提升服务质量。

接着,在进行用户假名替换的隐私保护前,需要根据用户的个性化特征的相似度对用户的轨迹进行聚类,考虑用户隐私需求和服务质量之间最佳匿名平衡关系,对用户进行密度聚类,直至所有用户轨迹都被聚类完成。

根据簇内用户的隐私需求和服务质量计算平衡参数值,即最佳平衡点k。当簇内用户的隐私需求高于服务质量时,最佳匿名平衡点取自簇的隐私需求最小值;当簇内用户服务质量高于隐私需求时,最佳匿名平衡点取自簇的隐私需求的平均值。根据簇内用户的隐私需求和服务质量计算平衡参数值的具体算法可以参见前文的公式(5)。

至此,得到了每一簇内用户的最佳匿名平衡点,可以理解的是,每一簇内的用户的最佳匿名平衡点是一致的。

这里,根据轨迹的相似度和隐私需求的相似度,确定的一个个性化特征的相似度来对用户轨迹聚类,更加能满足聚类簇用户的隐私需求和服务质量需求。

接下来,将根据每一簇内用户的最佳匿名平衡点和用户的位置概率向量确定用户的匿名区域。即根据每一个用户的平衡参数值和每一个用户在的位置概率向量,确定每一个用户的匿名区域。根据上文可以确定用户的平衡参数值,那么接下来需要确定用户的位置概率向量。

在一个实施例中,根据多个用户的位置轨迹数据确定每一个用户在第一时刻的位置概率向量,包括:根据多个用户的位置轨迹数据,确定每一个用户的转移概率矩阵和每一个用户在第二时刻的位置概率向量;根据每一个用户的转移概率矩阵和每一个用户在第二时刻的位置概率向量,确定每一个用户在第一时刻的位置概率向量;其中,第二时刻在第一时刻之前。

首先,根据多个用户的位置轨迹数据。确定每一个用户的转移概率矩阵,即根据轨迹序列关系生成转移概率矩阵。例如,将用户历史活动区域划分成n个兴趣区域集合为q={q1,q2,…,qn},根据用户历史轨迹序列生成序列转移集合v={v1,v2,…,vn}。

其中,

表示为qi兴趣区域到q2兴趣区域的观察数量,观察数量表示用户的历史数据中,从q1转移到q2的用户数量。

用户的转移概率矩阵tm生成过程如下:

tm=[tmij]n×n(6)

其中,tmij表示为qi兴趣区域到q2兴趣区域的概率值,nqi表示qi到其他兴趣区域的观察数量。用户的转移概率矩阵会根据用户每天的轨迹序列进行更新。

其次,根据多个用户的位置轨迹数据,确定每一个用户在第二时刻的位置概率向量,第二时刻为历史时刻。例如,在第二时刻,即t时刻用户所处的兴趣区域为qk,分析当前各个兴趣区域用户的分布得到集合et={eq1,eq2,…,eqn}

其中,eq1为t时刻兴趣区域q1的用户数,则t时刻用户位置概率向量pt计算过程如下所示:

其中,et为t时刻兴趣区域分布用户数量。

至此,确定了每一个用户的转移概率矩阵和每一个用户在第二时刻的位置概率向量。

在根据多个用户的位置轨迹数据确定多个用户中的每一个用户的平衡参数值和每一个用户在第一时刻的位置概率向量之后,根据每一个用户的平衡参数值和每一个用户在第一时刻的位置概率向量,确定每一个用户在第一时刻的匿名区域,即执行s102之后,执行s103。

在s103中,根据每一个用户的平衡参数值和每一个用户在第一时刻的位置概率向量,确定每一个用户在第一时刻的匿名区域,包括:根据用户在第一时刻的位置概率向量,分别确定假名数据集中的每个假名对应的子匿名区域;根据平衡参数值从子匿名区域中,确定选中子匿名区域;根据选中子匿名区域,确定用户在第一时刻的匿名区域。

根据用户t时刻所在兴趣区域为qk的位置概率向量与用户转移概率矩阵tm,得到用户t+1时刻的位置概率向量

根据隐私需求和服务质量之间最佳匿名平衡点k,即平衡参数值,与t+1时刻的位置概率向量结合。具体计算过程如下:

其中,表示一个概率向量,tm表示转移矩阵;表示用户下一步的转移概率向量。

选取中向量因素对应的概率值最高的k个兴趣区域作为选中匿名子区域。也就是说,在用户在第一时刻的位置概率向量中的选中子匿名区域是指位置概率最高的k个位置对应的兴趣区域。当用户发起位置服务时,将用户真实位置和k-1个匿名同时发送到位置服务器进行位置服务,提升了用户隐私保护的安全性。

利用用户在上一时刻将要前往的转移概率矩阵与位置概率向量从而得到当前时刻用户转移移动概率,从高到低选取前平衡参数值个数的位置概率向量中的位置因素作为用户的匿名,从而避免了攻击者根据时间和空间的关联性来推测用户的真实信息,提升了用户隐私的安全性。

在一个实施例中,获取用户的真实名,以及取余假名参数;根据用户的真实名和取余假名参数,确定用户的假名数据集;确定假名的假名使用周期,假名在假名数据集中;若假名的假名使用周期满足预设条件,对满足预设条件的假名进行更新操作。

当用户发起查询请求时,对查询用户进行假名映射并替换真实用户,假名替换将真实用户轨迹分解成多个假名用户的分段轨迹,将一个真实的用户轨迹信息,分解成多段并且这些多段信息为多个假名。也可以理解为将一个用户分解成多个用户的多段轨迹。提升了用户位置隐私安全保护。

采用取余映射法进行假名生成以保证假名生成的唯一性,具体过程如下:

userid′i=(a*useridi+b)(modc)(12)

其中,useridi为真实用户唯一标识,userid′i为映射的假名用户,a、b和c都为常数,常数需要满足如下条件:

gcd(b,c)=1(13)

c(mod4)=0(14)

(a-1)(mod4)=0(15)

a<c,b<c(16)

a>0,b>0(17)

依据条件(14)-(18)保证生成假名用户唯一性,即多个真实用户对应的多个假名用户都是彼此唯一的。这里,通过“取余映射假名生成法”,保证假名生成的唯一性,从而提高保护用户隐私的有效性。

在一个实施例中,确定假名的假名使用周期,包括:确定假名的假名使用时间和假名使用距离;根据假名的假名使用时间和假名使用距离,确定假名的假名使用周期。

其中,假名使用距离是指假名出现的距离,例如,将从家到医院的距离分成多段距离,每段距离替换若干个假名,假名对应的轨迹距离会跟真名对应的轨迹距离一起被服务器接收。即根据用户发起查询请求时用户所处于的交通方式、区域、假名使用时间和使用距离等特征,对生成的假名采取个性化生存周期管理,若假名的假名使用周期满足预设条件,对满足预设条件的假名进行更新操作。具体实现过程如下:

α+β=1(19)

t≥∑k=1[t(i,k)-t(i,k-1)](20)

s≥∑k=1[s(i,k)-s(i,k-1)](21)

其中,为用户假名周期其值范围为[0,1],当假名周期为0表示为此假名新生成,为1表示此用户假名已到期需要别替换;α为位置区域特征参数值范围为[0,1],其值越小该区域用户访问频率和次数越多,说明此段时间对生成假名周期影响小,反之亦然;β为用户交通特征参数值范围为[0,1],当用户乘坐速度较快交通工具时β值越接近0,说明此种情况距离对假名周期影响小,反之亦然。t表示假名累计使用时间,s表示假名累计使用距离。

根据用户发起查询请求时的假名使用时间和使用距离等特征,确定假名周期管理来对失效假名进行替换操作,提升了假名的有效性,从而提高保护用户隐私的有效性。

综上,根据本发明的实施例,一方面,通过“取余映射假名生成法”,保证假名生成的唯一性,并且利用假名切割了真实用户与其位置轨迹数据之间的联系,又增加了假名周期管理提升了假名的有效性,从而达到保护用户id隐私的目的。

另一方面,还通过用户的位置轨迹的相似度和隐私需求的相似度对用户的位置轨迹进行聚类,根据每个聚类簇内的用户隐私需求和服务质量的特征,计算出隐私需求和服务质量之间的平衡参数值,既保证用户隐私需求,又提升服务质量。利用用户在上一时刻将要前往的转移概率矩阵与用户的位置概率向量从而得到当前时刻用户位置概率向量,从高到低选取前平衡参数值个数的位置概率向量中的位置因素作为用户的匿名,从而避免了攻击者根据时间和空间的关联性来推测用户的真实信息,提升了用户隐私的安全性。

图2是本发明实施例提供的一种实现隐私保护方法的流程示意图;如图2所示,包括:

首先,利用假名生成和假名周期管理,来切割真实用户与用户的位置轨迹数据之间的联系,并且对用户的假名进行假名周期管理。

当用户发起查询请求时,判断用户是否已用假名替换,如果用户没有进行假名替换,则对查询用户进行假名映射并替换真实用户,假名替换将真实用户轨迹分解成多个假名用户的分段轨迹,提升了用户位置隐私安全保护。这里使用“取余映射法”进行假名生成以保证假名生成的唯一性,以保证生成假名用户唯一性。

如果用户已经进行了假名替换,则判断假名周期是否已失效,如果失效,则对用户进行假名的替换。判断假名周期是否失效是根据用户发起查询请求时用户所处于的交通方式、区域、假名使用时间和使用距离等特征,对生成的假名采取个性化生存周期管理,对假名周期失效的假名进行替换操作。

这样,恶意的攻击者虽然可能从服务器端得到用户的准确位置信息,但不能准确地将位置信息与用户的真实信息联系起来,增加了定位某个具体用户的难度。从而达到保护用户隐私的目的。

然后,在进行用户隐私保护前,需要对用户的位置轨迹数据进行个性化隐私保护。即根据用户的轨迹相似性和隐私需求相似性对用户轨迹进行聚类,考虑用户隐私需求和服务质量之间最佳匿名平衡关系,将用户轨迹的兴趣点进行密度聚类得到不同簇,根据用户的轨迹相似性和隐私需求相似性对用户进行聚类,直至所有用户轨迹都被聚类完成。

根据簇内用户自己选定的隐私需求和服务质量计算最佳平衡点k,即当簇内用户的隐私需求高于服务质量时,最佳匿名平衡点取自簇的隐私需求最小值;当簇内用户服务质量高于隐私需求时,最佳匿名平衡点取自簇的隐私需求的平均值。至此,得到了每一簇内用户的最佳匿名平衡点,可以理解的是,每一簇内的用户的最佳匿名平衡点是一致的。

最后,根据最佳匿名平衡点对用户进行隐私保护,先基于用户的位置轨迹数据生成用户转移矩阵和移动概率向量,根据用户转移矩阵和移动概率向量计算用户下一时刻转移概率向量,根据用户下一时刻转移概率向量中的向量因素,从高到低选取k-1高概率作为用户的k-匿名区域。

由此,根据轨迹序列关系生成转移概率矩阵,再对全量地用户历史兴趣点进行聚类生产移动概率向量,利用用户在上一时刻将要前往的转移移动矩阵与转移概率向量从而得到当前用户转移移动概率,从高到低选取前k-1转移位置概率位置作为用户的k-匿名,从而避免了攻击者根据时间和空间的关联性来推测用户的真实信息。

图3是本发明实施例提供的隐私保护装置300的结构示意图;如图3所示,该装置可以包括:

获取模块310,获取多个用户轨迹。

计算模块320,用于根据多个用户轨迹确定用户的平衡参数值。

计算模块320具体可以用于根据多个用户的位置轨迹数据确定至少一个个性化特征的相似度;根据至少一个个性化特征的相似度对多个用户的位置轨迹数据进行聚类,确定多个聚类簇;根据每个聚类簇的隐私需求指数值和服务质量指数值,确定每个聚类簇中每一个用户的平衡参数值。

计算模块320具体可以用于根据多个用户的位置轨迹数据确定至少一个轨迹的相似度;根据多个用户的隐私需求信息确定至少一个隐私需求信息的相似度;根据至少一个轨迹的相似度和至少一个隐私需求信息的相似度确定至少一个个性化特征的相似度。

处理模块330,用于根据多个用户轨迹确定用户在第一时刻的位置概率向量。

处理模块330具体可以用于根据多个用户的位置轨迹数据,确定每一个用户的转移概率矩阵和每一个用户在第二时刻的位置概率向量;根据每一个用户的转移概率矩阵和每一个用户在第二时刻的位置概率向量,确定每一个用户在第一时刻的位置概率向量;其中,第二时刻在第一时刻之前。

匿名模块340,用于根据用户的平衡参数值和用户在第一时刻的位置概率向量,确定用户在第一时刻的匿名区域。

匿名模块340具体可以用于根据每一个用户的平衡参数值和每一个用户在第一时刻的位置概率向量,确定每一个用户在第一时刻的匿名区域,包括:根据用户在第一时刻的位置概率向量,分别确定假名数据集中的每个假名对应的子匿名区域;根据平衡参数值从子匿名区域中,确定选中子匿名区域;根据选中子匿名区域,确定用户在第一时刻的匿名区域。

匿名模块340还可以用于获取用户的真实名,以及取余假名参数;根据用户的真实名和取余假名参数,确定用户的假名数据集;确定假名的假名使用周期,假名在假名数据集中;若假名的假名使用周期满足预设条件,对满足预设条件的假名进行更新操作。

匿名模块340还可以用于确定假名的假名使用时间和假名使用距离;根据假名的假名使用时间和假名使用距离,确定假名的假名使用周期。

该实施例提供的隐私保护装置的各个模块可以实现图1所示实例中的方法,实现图1所示实例方法的技术效果,为简洁描述,在此不再赘述。

图4示出了本发明实施例提供的隐私保护方法的硬件结构示意图。

处理设备可以包括处理器401以及存储有计算机程序指令的存储器402。

上述处理器401可以包括中央处理器(centralprocessingunit,cpu),或者特定集成电路(applicationspecificintegratedcircuit,asic),或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(harddiskdrive,hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus,usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在综合网关容灾设备的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。在特定实施例中,存储器402包括只读存储器(rom)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。

处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现上述图1-图2所示实施例中的任意一种隐私保护方法。

在一个示例中,处理设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。

通信接口403,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线410包括硬件、软件或两者,将隐私保护设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。

该处理设备可以执行本发明实施例中的隐私保护方法,从而实现结合图1-图2所示实例所描述的隐私保护方法。

另外,结合上述实施例中的隐私保护方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意隐私保护的方法。

需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为软件方式,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。

以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1