基于移位的发布轨迹个性化隐私保护方法

文档序号:26006238发布日期:2021-07-23 21:24阅读:78来源:国知局
基于移位的发布轨迹个性化隐私保护方法

本发明涉及数据挖掘与信息安全的交叉技术领域,特别涉及一种轨迹数据发布前的身份隐私保护方法。



背景技术:

随着定位技术和无线通信技术的成熟,基于位置的服务(locationbasedservices,lbs)越来越受到人们的青睐。在lbs中包括三个主要对象:用户、可信的匿名服务器(serversforanonymity,sa)和位置服务提供者(locationbasedserviceprovider,lsp)。用户将带有主体的隐私需求的位置服务请求(localservicerequest,lsr)发送给sa。sa根据隐私保护要求处理收到的lsr,然后将处理过的lsr发送给lsp。sa在接收用户的lsr的过程中积累了大量的轨迹数据。对轨迹数据的分析可以揭示有用的知识,但也会威胁到轨迹主体的隐私。轨迹数据在发布到第三方进行分析之前,需要对其进行隐私保护,这被称为面向发布的轨迹隐私保护,如图1中的阴影部分所示。

一些轨迹数据带有个性化隐私需求,例如,一些用户在导航服务期间将gps精度设置为高水平。另一些人则控制gps的精度随着时空位置的变化而变化,有时用户会允许gps服务的精确性来提高导航精度,但在敏感的时空位置时则降低gps精度。根据提出需求的对象来划分,发布轨迹的个性化隐私保护分为两类。

第一类,轨迹主体设置个性化隐私需求

一些数据中的轨迹由轨迹主体设置了不同的匿名需求k。对于这类数据,通常将轨迹k-匿名方法扩展到个性化轨迹隐私保护应用中,以轨迹身份作为隐私保护对象,通过轨迹的聚簇-重构矿浆匿名化轨迹,抵抗对身份链接的攻击。一种轨迹聚簇策略是:首先按照轨迹间的距离对轨迹进行聚类,然后选择聚类中匿名需求最高的层次作为聚类的隐私层次。另一种聚簇策略首先选取轨迹数据中匿名要求最高的轨迹为中心对轨迹进行聚类,然后逐渐扩展簇容量,直到其容量不低于中心的隐私要求。这两种方法都将簇内轨迹的匿名需求的最大值作为簇的匿名需求,使得其它轨迹的匿名处理超出了要求,并没有提高有效的隐私水平,同时这种策略造成了严重的信息损失。

第二类,轨迹发布者设置个性化隐私要求

由于轨迹体和时空位置的不同,每个轨迹点可能会有不同的隐私要求。然而,在大多数轨迹数据中,轨迹主体没有设定自己的隐私需求。数据发布者需要根据数据本身的特点设定隐私需求,并完成隐私保护。对整个数据设置相同的隐私需求无疑是最方便快捷的。但是,轨迹数据具有明显的不均匀的时空分布特性,对不同的轨迹点设置个性化的隐私需求,无疑会提高隐私保护的效果,减小不必要的数据损失。

轨迹点的个性化隐私保护通常基于其语义属性的分类树。首先对轨迹上所有采样点的语义属性进行标注,建立分类树。然后提取出敏感的驻点、拐点等隐私位置。最后通过选择合适的替换节点或区域来扰动或泛化,实现轨迹点的个性化隐私保护。

与第一类方法相比,这种方法放弃了轨迹的匿名性,无法抵抗对身份链接的攻击,只能根据不同的隐私要求泛化轨迹点的具体位置,并保证推断原始位置的概率不超过一定的阈值。但这种方法大大降低了数据失真。语义属性分类树是归类的基础,它是通过数据分析或主观判断得到的。然而,轨迹的隐私性是轨迹主体的客观要求,不应该仅仅由采集器根据地图上轨迹的语义和分布特征进行设置。主观性是这类方法的一个缺点。

总之,现有的基于轨迹匿名的个性化隐私保护方法无法解决维度灾难,这势必会造成大量的数据失真。基于轨迹点的泛化方法通常使用轨迹点的语义属性来设置其隐私等级,但都是主观指派的。因此,语义属性往往会导致对隐私需求层次的评估和轨迹点的隐私保护处理出现较大的误差。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的目的在于提出一种基于移位的发布轨迹个性化隐私保护方法。

为达到上述目的,本发明实施例提出了基于移位的发布轨迹个性化隐私保护方法,包括以下步骤:步骤s1,构建个性化隐私需求框架;步骤s2,基于所述个性化隐私需求框架,获取轨迹数据,将每个轨迹点pi按照时间分量排序;步骤s3,在所述每个轨迹点pi自身周围时间范围内,比较相邻点间的距离,以确定可移位关系,进而构建轨迹点可移位关系网络;步骤s4,在所述轨迹点可移位关系网络下实施基于移位的轨迹点扰动策略,对所述每个轨迹点进行脱敏和匿名。

本发明实施例的基于移位的发布轨迹个性化隐私保护方法,克服了轨迹个性化k-匿名隐私保护造成的隐私水平偏高以及泛化结果失真严重的问题,也克服了轨迹点个性化隐私保护中隐私需求主观定义的缺点。

另外,根据本发明上述实施例的基于移位的发布轨迹个性化隐私保护方法还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,所述个性化隐私需求框架为个性化位置服务请求lsr,具体为:<tid,rno,{t,x,y},k,{dt,dx,dy},co>,其中,tid为用户身份标识,rno为当前请求的记录号;{t,x,y}为服务请求的时空位置,{dt,dx,dy}为敏感阈值,co为位置服务请求内容,k为匿名阈值;规定当p移位到p*时,必须在p*附近至少有k个相邻个体,以实现p的匿名性;规定以{t,x,y}为中心,以{dt,dx,dy}为半径的时空范围为p的敏感区域,p需扰动到这个范围之外才能脱敏。

进一步地,在本发明的一个实施例中,所述步骤s3具体包括:在所述轨迹数据中为每个轨迹点pi寻找满足脱敏要求的备选位移轨迹点p',要求p'与pi之间的距离符合di≤|pi-p'|≤dmax,其中,dmax为预设最大失真距离;搜索能被位移到所述备选位移轨迹点p'并满足脱敏阈值dj要求的脱敏轨迹点pj,其中,p'与pj之间的距离符合dj≤|p'-pj|≤dmax;将所述脱敏轨迹点pj加入集合pj中,若所述集合pj满足|pj|≥ki,其中,ki为pi的匿名阈值,则将所述每个轨迹点pi移位到所述备选位移轨迹点p'的位置,进而构建成所述轨迹点可移位关系网络。

进一步地,在本发明的一个实施例中,所述轨迹点可移位关系网络为轨迹点有向关系网络,其中,所述轨迹点有向关系网络的节点为轨迹点,所述轨迹点有向关系网络的边为将有向边缘起点上的轨迹点替换为有向边缘终点上的轨迹点的路径,所述轨迹点有向关系网络中每个节点的入度为以当前节点为备选位移轨迹点的个数。

进一步地,在本发明的一个实施例中,所述步骤s4中的基于移位的轨迹点扰动策略具体为:选择一个入度|pj|≥ki的邻居p'作为pi的移位轨迹点,通过将pi的tidi移位到p',形成新的轨迹点在所述新的轨迹点的位置发布轨迹记录,所述轨迹记录为<tidi,tid′,{t′,x′,y′}>,实现匿名。

进一步地,在本发明的一个实施例中,当邻居p'的入度|pj|<ki时,则p'不满足匿名,需迭代找到所述轨迹数据中同时满足所述步骤s3中两个距离要求的轨迹点,直至找到满足的轨迹点;若一直迭代不到同时满足所述步骤s3中两个距离要求的轨迹点,则通过删除tidi实现匿名,所述轨迹记录为

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1是本发明一个实施例的基于位置的服务lbs与轨迹数据发布的隐私保护示意图;

图2是本发明一个实施例的基于移位的发布轨迹个性化隐私保护方法的流程图;

图3是本发明一个实施例的在轨迹点上设置了个性化脱敏阈值的轨迹示意图;

图4是本发明一个实施例的轨迹点之间的可位移关系图;

图5是本发明一个实施例的轨迹点的距离关系和个性化脱敏要求示意图;

图6是本发明一个实施例的轨迹点关系网络示意图;

图7是本发明一个实施例的发布的轨迹点数据和的匿名性。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于移位的发布轨迹个性化隐私保护方法。

图2是本发明一个实施例的基于移位的发布轨迹个性化隐私保护方法的流程图。

如图2所示,该基于移位的发布轨迹个性化隐私保护方法包括以下步骤:

在步骤s1中,构建个性化隐私需求框架。

进一步地,个性化隐私需求框架为个性化位置服务请求lsr,可以定义为:<tid,rno,{t,x,y},k,{dt,dx,dy},co>,其中,tid为用户身份标识,rno为当前请求的记录号;{t,x,y}为服务请求的时空位置,co为位置服务请求内容,k为匿名阈值,{dt,dx,dy}为敏感阈值,k和{dt,dx,dy}都是轨迹主体对于当前位置的隐私需求。

当p移位到p*时,为了实现p的k-匿名性,必须在p*附近至少有k个相邻个体。k≤1为无隐私保护要求,此时,即使轨迹主体设置脱敏阈值(d>0),恢复的可能性(1/k)也没有意义。k>1为轨迹主体需要保护的轨迹点匿名水平不低于k。

以{t,x,y}为中心,以{dt,dx,dy}为半径的时空范围为p的敏感区域,p必须扰动到这个范围之外才能脱敏。也就是说,{dt,dx,dy}是使轨迹点达到脱敏要求的最小扰动距离。

需要说明的是,脱敏阈值d是一种距离关系,即p*应与原位置p保持一定距离;匿名阈值k是一种结构关系,即从p*中识别出p的原始位置的概率不大于1/k。

具体地,如图2所示,每个轨迹点pi都有特定的敏感度阈值di,不能将轨迹点的移位分配到深灰的敏感区域。轨迹发布者定义了一个最大的失真距离,并用dmax表示。轨迹点的移位不能超过最外侧虚线的范围。即使没有脱敏需求(d=0),它只表明p的位移范围是[0,dmax]。本发明只用dmax来表示它在空间维度上的分量,而时间维度上的分量可以用dmax/v来表示,其中,v为轨迹速度。pi的匿名阈值ki在此没有标记,ki为通过移位轨迹点推断pi位置的概率不应大于1/ki。

在步骤s2中,基于个性化隐私需求框架,获取轨迹数据,将每个轨迹点pi按照时间分量排序。

在步骤s3中,在每个轨迹点pi自身周围时间范围内,比较相邻点间的距离,以确定可移位关系,进而构建轨迹点可移位关系网络。

进一步地,步骤s3采取两个步骤来寻找满足pi脱敏和匿名要求的轨迹点,具体为:

在轨迹数据中为pi寻找满足脱敏要求的备选位移轨迹点(thecandidatetrajectorypointfortranslocation,ctpt)p',要求p'与pi之间的距离符合以下关系:

di≤|pi-p'|≤dmax(1)

搜索能被位移到备选位移轨迹点p'并满足脱敏阈值dj要求的脱敏轨迹点pj,其中,p'与pj之间的距离符合以下关系:

dj≤|p'-pj|≤dmax(2)

最后,将符合公式(2)的脱敏轨迹点pj加入集合pj中,用|pj|表示元素的个数,若集合pj满足:

|pj|≥ki(3)

其中,ki为pi的匿名阈值,则将pi移位到备选位移轨迹点p'的位置,根据推导出原位置的概率不大于1/ki。

对比公式(1)和公式(2),可以看到它们的形式使相似的。也就是说,对于p'通过如公式2的一轮比较,可以完成p'是否可以作为pj内所有点的ctpt备选位移轨迹点的判断,同时完成了p'的匿名性积累。

进一步地,为了记录td上轨迹点之间的距离关系和结构关系,本发明将轨迹点及其位置关系映射到一个轨迹点有向关系网络(directedrelationnetworkoftrajectorypoints,rntp)中,其中,轨迹点可移位关系网络为轨迹点有向关系网络,其中,轨迹点有向关系网络的节点为轨迹点,轨迹点有向关系网络的边为将有向边缘起点上的轨迹点替换为有向边缘终点上的轨迹点的路径,轨迹点有向关系网络中每个节点的入度为以当前节点为备选位移轨迹点ctpt的个数,同时,反映了p的匿名性。

在步骤s4中,在轨迹点可移位关系网络下实施基于移位的轨迹点扰动策略,对每个轨迹点进行脱敏和匿名。

进一步地,步骤s4中的基于移位的轨迹点扰动策略具体为:

在得到的轨迹点有向关系网络rntp上,对于每一个轨迹点pi,选择一个入度|pj|≥ki的邻居p'作为pi的移位轨迹点,通过将pi的tidi移位到p',形成新的轨迹点:

在新的轨迹点的位置发布轨迹记录,轨迹记录可表示为:

<tidi,tid′,{t′,x′,y′}>(6)

根据公式(5)可知,算法删除的不是pi,而是tidi和隐私要求。这样一方面,数据分析师可以利用没有tid的轨迹点进行必要的数据分析,以提高数据分析的准确性,例如某些时间点上轨迹点的密度。另一方面,没有tid的轨迹点也可以提高局部的轨迹点密度,从而提高其邻近轨迹点的匿名性。

如果|pj|<ki,p'不满足ki-匿名,则本发明迭代地找到原始轨迹数据中满足公式(2)和公式(3)的轨迹点,并将pi移位到一个新的位置。

对于pi,当没有同时满足公式(2)和公式(3)的轨迹点时,即不存在既满足匿名性又满足脱敏性要求的可替换位置,通过删除tidi实现对pi的完全匿名。

进一步地,当邻居p'的入度|pj|<ki时,则p'不满足匿名,需迭代找到轨迹数据中同时满足步骤s3中两个距离要求的轨迹点,直至找到满足的轨迹点;

若一直迭代不到同时满足步骤s3中两个距离要求的轨迹点,则通过删除tidi实现匿名,轨迹记录为

下面通过一个举例对本发明提出的发布轨迹个性化隐私保护方法进一步说明。

如图4所示,深灰色区域为其形心p的敏感区域,位移目标p*应在其之外,以保证脱敏。浅灰色区域为p的可替换区域,在该区域替换p即可实现脱敏,且p*的失真满足轨迹数据分析者的要求。如果p移动到白色区域,失真将超过数据分析师可接受的范围。这种失真的上限通常由sa设定,因此对于所有轨迹点都是一致的。假设对于每个轨迹点p,位移目标p*与原位置p之间的距离不能超过的有效阈值为dmax。

为了保证位移目标轨迹点p*满足k-匿名性,可位移到p*的轨迹点个数不应小于k,本发明实施例用虚线箭头表示轨迹点之间的位移关系。在图4中,可以将5个轨迹点移位到p*,因此p*满足5-匿名性。

决定轨迹点隐私保护策略的最重要因素是对手是否知道目标轨迹点的隐私要求(k,d)。在隐私要求未知的情况下,假设对手的背景知识为:

分析者为所有轨迹点设置一致的最大失真阈值dmax,但每个轨迹点的脱敏阈值d是独立的。因此,每个轨迹点对于ctpt的选择都有独立的范围。例如,在图5中,p3的灵敏度阈值较小,p4不在其灵敏度范围内,因此可以将p4视为p3的备选位移轨迹点ctpt。p4的敏感性阈值较大,p3处于p4的敏感范围内,因此p3不能被认为是p4的备选位移轨迹点ctpt。

进一步地,如图6所示,根据图5可以建立轨迹点可移位关系网络rntp,从图6可以看出,每个轨迹点的入度也是其匿名性水平,可以进行统一计算,如表1所示。

假设各轨迹点的匿名要求如表1所示。然后,如图7所示,本发明实施例可以将轨迹点随机替换为满足其匿名要求的相邻轨迹点。

表1轨迹点的入度和匿名性要求

在图6中,p9的匿名阈值为4,但其备选位移轨迹点ctpt中没有匿名达到4的轨迹点,因此只删除了p9的tid,原因与公式(5)相同。p3和p8均移位至p4位置,但没有轨迹点移位至p8位置。

如图7所示,根据对手背景知识的假设,已知信息仅为dmax,以图7中的为例,分析了处理后的发布轨迹数据的隐私保护的有效性。

脱敏性:如图6所示,画了一个以p1为圆心,d1为半径的圆。由于在p1的敏感区域之外,可以保证对p1的脱敏。

匿名性:如图7所示,对手可以以为圆心,以dmax为半径绘制一个圆。有三个轨迹点可以移位到位置,实现脱敏。所以确定初始位置的概率不大于1/3。

综上,本发明实施例提出的基于移位的发布轨迹个性化隐私保护方法,通过构建满足个性化隐私需求的发布轨迹隐私保护框架,为用户提供了一个从不同角度设置个性化隐私需求的方法;又通过一种目标轨迹点选择方法,找到了满足脱敏和匿名需求的可移位轨迹点;最后基于移位的轨迹点隐私保护方法,在保留所有原始轨迹点的同时,实现了轨迹点的个性化匿名和脱敏。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1