一种不确定环境下轨迹数据k‑匿名隐私保护方法与流程

文档序号:11231080阅读:1232来源:国知局
一种不确定环境下轨迹数据k‑匿名隐私保护方法与流程

本发明涉及移动对象数据挖掘研究与应用领域,具体讲是一种不确定环境下轨迹数据匿名隐私保护方法。



背景技术:

随着移动警务终端设备和定位技术的发展,产生了大量的移动轨迹数据,这些数据应用于执勤执法、情报侦察、信息管理、应急救援、指挥调度等领域,形成了具有图结构的移动复杂网络。移动警务数据属于敏感数据,它的传输与系统内部共享需要必要的数据安全和隐私保护机制,以避免出现未经授权的访问和使用,从而保证数据安全性以及合法性。然而,这些终端设备要经过开放的无线公网接入公安内部网以及信息在无线开放的环境中传输,使得恶意攻击者通过对网络中位置和轨迹进行计算推理,挖掘移动终端设备的轨迹行为特征、行为模式和行为习惯,从而获取设备的信息数据,导致设备对象的隐私泄露,为有效保证警务数据的安全性,移动警务终端设备的轨迹隐私保护成为迫切需要解决的问题。

警务数据包含了大量私人信息、不可公开的敏感信息,这些敏感数据一旦泄露可能会对公民甚至警务人员的名誉和隐私造成极其严重的不良影响、也会对某些重要案件的侦破带来不利的影响。移动警务数据隐私保护应用在国内进展缓慢,究其原因是数据的高敏感性以及信息的完整性,对警务大数据保护、安全访问以及共享应用提出了更高的要求。目前,在执勤执法的实际应用中,特别是在海洋环境下,移动警务终端设备受到网络带宽、传感器分布、设备测量精度等技术条件的限制,使得轨迹数据具不确定性。因此,针对上述因素轨迹数据隐私保护要同时满足数据质量和保护隐私的目的。

轨迹数据隐私保护是让移动对象的轨迹不被恶意攻击者重复识别,轨迹的频繁访问位置或敏感位置不被暴露,而轨迹数据k-匿名隐私保护是在一个最终发布的移动对象数据集中,将一个时间段内的k条轨迹匿名为同一个区域。如果相同区域的匿名轨迹越多,则当前轨迹与其它多条的轨迹存在相似性但又不完全相同,从而可以较好地进行匿名隐藏达到保护效果。

不确定环境下轨迹数据k-匿名隐私保护方法是将移动警务设备所记录的轨迹数据进行挖掘、分析、检测和保护,形成计算机可理解的层次结构。由于国内对于这方面的研究还处于起步阶段,现有的技术中,在对国外研究进展进行总结描述的基础上,提出了一个基于k最近邻查询算法的lbs方法,该方法可以连续返回移动对象的k个最近邻数据从而保护移动轨迹对象的隐私不受到攻击,混淆攻击者对集合的提取;进一步现有技术提出了1-diverse的方法保证轨迹差异性,该方法保证在一定区域中同一匿名集中的k条轨迹1-差异性:当k条轨迹形成的mbr的面积大于某个阈值时,则认为满足差异性标准,从而降低轨迹差异性不足引起用户隐私泄露的风险;接下来现有技术在数据发布时运用增量式的方式对移动轨迹的个人隐私进行保护,由于采样和该方法根据k-匿名的原理规定解压的每一个数据至少与k-1个其它数据区分,使对轨迹的不确定因素进行考虑。现有技术中,另一种广泛使用的技术是在同一个等价类中寻找空间距离相近的轨迹k-匿名集;由于数据采集和定位系统的不精确性使移动对象轨迹在三维空间中不再是一个不规则的折线,而是一个圆柱形体积,移动轨迹对象就在该圆柱形中却很难查询所需的轨迹。同样还有在数据发布时运用增量式的方式对移动轨迹的个人隐私进行保护,由于采样和该方法需要根据k-匿名的原理规定解压的每一个数据至少与k-1个其它数据区分,使对轨迹的不确定因素进行综合考虑,从而达到隐私保护的目的。

然而,在实际的匿名过程中,以上方法没有考虑到移动对象数据库服务器在数据更新时,由于时间的延迟或技术条件的限制,所采集的数据存在一定的偏差,影响了隐私保护的有效性。另外,信息的不确定性导致轨迹匿名泛化区域支配关系不稳定,k-匿名方法是否成功很大程度上依赖于路网的稠密度。综上所述,面对实际应用场景,现有方法无论在实际效果和效率上都难以满足不确定环境下的要求。



技术实现要素:

鉴于上述现有技术的缺陷,本发明的目的在于:提供一种不确定环境下轨迹数据k-匿名隐私保护方法。

本发明的技术解决方案是:一种不确定环境下轨迹数据k-匿名隐私保护方法,包括以下步骤:

a:轨迹数据采集,数据采集的对象是移动警务设备所产生的大量移动轨迹数据,包括存储于空间数据库中的位置数据、属性数据、时间数据和空间关系数据;

b:轨迹数据预处理,对不同时间段获取的多元格式的轨迹数据进行动态数据流解析,形成轨迹片段并采用四叉树的方法存储;

c:不确定环境下语义-空间混合索引模型构建,利用本体描述语言形式化描述轨迹数据行为特征、领域背景知识和环境状态,构建一个不确定环境下语义-空间混合索引模型来提取轨迹行为之间的数据依赖关系;

d:实现最近邻轨迹k-匿名,在一定区域中随机采用若干条轨迹,通过使用连续近邻查询方法匹配与当前经过相同区域半径的轨迹,将这些轨迹不断存入到数据集中,实现基于局部区域节点的k-匿名推广到整条轨迹的k-匿名,解决数据相互独立和数据不确定的问题;

e:最佳利用链生成轨迹k-匿名,在最近邻轨迹匿名的基础上,采用启发式算法搜索k条轨迹,通过计算并比较各状态节点的启发函数值来判断下一步最优扩展节点,最终在k条轨迹中获得一条最佳匿名保护路径。

进一步地,步骤b包括以下步骤:

b1:将移动对象的原始轨迹的不确定性记录为空间上的序列,分解为有意义的子序列,并解析为一条轨迹τ和不确定区域半径δ,形成一组(τ,δ)数据,对于τ中每一位置点(x,y,t),它的不确定区域记为以(x,y,t)为中心、δ为半径的水平圆形区域;

b2:定义不确定轨迹为ut(τ,δ)={(x,y,t)|d((x,y),(τ(t)[x],τ(t)[y]))≤δ},其中ut(τ,δ)表示轨迹τ在时间t∈[t1,tn]所经过的圆柱区域,形成一个概率连续曲线并记函数为fpmcτ:[t1,tn]→r2,其中(fpmcτ,t)表示时间t∈[t1,tn]范围内在不确定区域内的某一时空位置,并且

b3:采用四叉树的方法将区域空间划分等同的格,为每个格维护一张数据表,表中存储了经过该格的轨迹标识、敏感信息及其属性。

进一步地,步骤c包括以下步骤:

c1:将轨迹数据的行为定义为本体中的概念,并对空间区域分布的概念、属性和实例进行表示;

c2:存储轨迹移动所覆盖区域的空间语义背景知识,包括领域本体知识、行为本体知识和环境本体知识;

c3:利用jena推理引擎和自定义规则对轨迹数据进行推理,挖掘隐性知识,并对轨迹数据进行逻辑验证。

进一步地,步骤d包括以下步骤:

d1:初始化四叉树划分空间,用qtree(ω)表示;

d2:随机采样若干条轨迹,对于一个攻击查询轨迹τ={q1,q2,…qn},在采样时刻ti∈[t1,tn],至少有k-1条轨迹在相应的采样位置上与τ泛化为同一区域,以此满足轨迹k-匿名;

用(k,δ)-anonymity表示移动对象不确定轨迹的k-匿名,δ表示通过准标识符和敏感信息识别目标所对应记录的最小属性集合,形成一个下界的不确定性半径的区域,k表示与当前轨迹在同一匿名组的数量;

d3:遍历所有经过qtree(ω)格节点的轨迹,定义一findsubspace()函数,对当前查询轨迹τ执行findsubspace()函数,该函数获取一个概率子空间,并转化为在子空间中求得最近邻,然后利用位置的最近邻算法计算每一个节点的最近邻,在算法中采用抽样技术以此来减少k-匿名所带来的计算代价;

d4:用findsubspace()函数对qtree(ω)进行广度优先搜索遍历抽取子空间样本,计算最近距离d获取轨迹τ每一时刻所经区域的概率子空间;

采用simrank计算n条不确定轨迹在相同时刻所经水平圆形区域的相似度,其公式为:

d5:从概率子空间抽取与当前轨迹τ最近邻的k条轨迹样本,作为对τ的匿名;

d6:对抽样出的样本进行计算,定义一集合ksetcandidates(τ),最后求出概率子空间中的概率度量值m,返回集合ksetcandidates(τ),当集合ksetcandidates()中的轨迹数据不足k-1个时,继续查找经过与ut(τ,δ)相邻的格的轨迹放入ksetcandidates()候选集中,直至ksetcandidates()中含有至少k-1条轨迹;

进一步地,步骤e包括以下步骤:

e1:从集合ksetcandidates(τ)中,任意定义两个相邻位置节点(ut(τ,δ),ai)和(ut(τ,δ),aj),连接两节点的有向边为eij,从节点i到节点j的匿名效益定义为benefitij=aj×wij×eij.val.profit;

其中aj表示在位置区域δ上的子空间概率度量值;wij表示攻击者正确攻击到有向边eij的概率,且满足步骤d2的条件以及满足ei,j∈ut(τ,δ)&t∈[ti,tj],eij.val.profit表示有向边eij关联的匿名效益值;

e2:采用启发函数f(i)=g(i)+h(i)为各样本点匿名效益最大函数,g(i)表示从起点到当前节点的匿名效益g(i)=benefitij;h(i)表示从当前节点到目标节点的估算效益,该效益为攻击者错误攻击到有向边的概率1-wij;

e3:最佳利用链方法首先计算区域δ上的子空间概率度量值aj和攻击者正确攻击到有向边eij的概率wij,得出匿名效益g(i)和估算效益h(i);

e4:遍历ksetcandidates{}轨迹集合的各样本点,并不断扩展满足匿名效益最大的节点,在k条轨迹中发现一条效益最大的路径,赋值给fi,从而使轨迹τi得到保护并且该路径所经区域又在同一个以δ为半径的圆形区域内,保证数据的信息丢失率和数据的有效性。

应用本发明所提供的一种不确定环境下轨迹数据k-匿名隐私保护方法,其有益效果是:它一方面可以有效地增强轨迹数据的语义性,更方便地匹配当前被攻击查询的轨迹;另一方面启发式的方法生成最佳轨迹k-匿名,能够找出攻击者最有可能采取的攻击路径,进而定位到威胁最大的漏洞,实施有效的轨迹匿名隐私保护。

附图说明

图1为本发明的方法流程图;

图2是本发明的不确定环境下语义-空间混合索引模型图;

图3是本发明的实时处理引擎原理结构图;

图4是本发明应用的系统结构图。

具体实施方式

为比较直观、完整地理解本发明的技术方案,现就结合本发明附图进行非限制性的特征说明如下:

如图1所示,一种不确定环境下轨迹数据k-匿名隐私保护方法,包括以下步骤:

a:轨迹数据采集,数据采集的对象是移动警务设备所产生的大量移动轨迹数据,包括存储于空间数据库中的位置数据、属性数据、时间数据和空间关系数据,数据空间库中的原始轨迹数据分解为有意义的序列,并解析不同时间段所采集的多元格式的数据;

b:轨迹数据预处理,对不同时间段获取的多元格式的轨迹数据进行动态数据流解析,形成轨迹片段并采用四叉树的方法存储;

c:不确定环境下语义-空间混合索引模型构建,利用本体描述语言形式化描述轨迹数据行为特征、领域背景知识和环境状态,构建一个不确定环境下语义-空间混合索引模型来提取轨迹行为之间的数据依赖关系;本体描述语言对对其概念、属性关系以及实例进行表示,不确定环境下语义-空间混合索引模型构建提取了轨迹行为之间的数据依赖关系,为轨迹数据预处理、最近邻k-匿名轨迹生成和最佳利用链保护路径提供了技术支持;

d:实现最近邻轨迹k-匿名,在一定区域中随机采用若干条轨迹,通过使用连续近邻查询方法匹配与当前经过相同区域半径的轨迹,将这些轨迹不断存入到数据集中,实现基于局部区域节点的k-匿名推广到整条轨迹的k-匿名,解决数据相互独立和数据不确定的问题;

e:最佳利用链生成轨迹k-匿名,在最近邻轨迹匿名的基础上,采用启发式算法搜索k条轨迹,通过计算并比较各状态节点的启发函数值来判断下一步最优扩展节点,最终在k条轨迹中获得一条最佳匿名保护路径。

其中,步骤b包括以下步骤:

b1:将移动对象的原始轨迹的不确定性记录为空间上的序列,分解为有意义的子序列,并解析为一条轨迹τ和不确定区域半径δ,形成一组(τ,δ)数据,对于τ中每一位置点(x,y,t),它的不确定区域记为以(x,y,t)为中心、δ为半径的水平圆形区域;

b2:定义不确定轨迹为ut(τ,δ)={(x,y,t)|d((x,y),(τ(t)[x],τ(t)[y]))≤δ},其中ut(τ,δ)表示轨迹τ在时间t∈[t1,tn]所经过的圆柱区域,形成一个概率连续曲线并记函数为fpmcτ:[t1,tn]→r2,其中(fpmcτ,t)表示时间t∈[t1,tn]范围内在不确定区域内的某一时空位置,并且

b3:采用四叉树的方法将区域空间划分等同的格,为每个格维护一张数据表,表中存储了经过该格的轨迹标识、敏感信息及其属性。

步骤c包括以下步骤:

c1:将轨迹数据的行为定义为本体中的概念,并对空间区域分布的概念、属性和实例进行表示;

c2:存储轨迹移动所覆盖区域的空间语义背景知识,包括领域本体知识、行为本体知识和环境本体知识;

c3:利用jena推理引擎和自定义规则对轨迹数据进行推理,挖掘隐性知识,并对轨迹数据进行逻辑验证。

进一步地,步骤d包括以下步骤:

d1:初始化四叉树划分空间,用qtree(ω)表示;

d2:随机采样若干条轨迹,对于一个攻击查询轨迹τ={q1,q2,…qn},在采样时刻ti∈[t1,tn],至少有k-1条轨迹在相应的采样位置上与τ泛化为同一区域,以此满足轨迹k-匿名;

用(k,δ)-anonymity表示移动对象不确定轨迹的k-匿名,δ表示通过准标识符和敏感信息识别目标所对应记录的最小属性集合,形成一个下界的不确定性半径的区域,k表示与当前轨迹在同一匿名组的数量;

d3:遍历所有经过qtree(ω)格节点的轨迹,定义一findsubspace()函数,对当前查询轨迹τ执行findsubspace()函数,该函数获取一个概率子空间,并转化为在子空间中求得最近邻,然后利用位置的最近邻算法计算每一个节点的最近邻,在算法中采用抽样技术以此来减少k-匿名所带来的计算代价;

d4:用findsubspace()函数对qtree(ω)进行广度优先搜索遍历抽取子空间样本,计算最近距离d获取轨迹τ每一时刻所经区域的概率子空间;

采用simrank计算n条不确定轨迹在相同时刻所经水平圆形区域的相似度,其公式为:

d5:从概率子空间抽取与当前轨迹τ最近邻的k条轨迹样本,作为对τ的匿名;

d6:对抽样出的样本进行计算,定义一集合ksetcandidates(τ),最后求出概率子空间中的概率度量值m,返回集合ksetcandidates(τ),当集合ksetcandidates()中的轨迹数据不足k-1个时,继续查找经过与ut(τ,δ)相邻的格的轨迹放入ksetcandidates()候选集中,直至ksetcandidates()中含有至少k-1条轨迹;

进一步地,步骤e包括以下步骤:

e1:从集合ksetcandidates(τ)中,任意定义两个相邻位置节点(ut(τ,δ),ai)和(ut(τ,δ),aj),连接两节点的有向边为eij,从节点i到节点j的匿名效益定义为benefitij=aj×wij×eij.val.profit;

其中aj表示在位置区域δ上的子空间概率度量值;wij表示攻击者正确攻击到有向边eij的概率,且满足步骤d2的条件以及满足ei,j∈ut(τ,δ)&t∈[ti,tj],eij.val.profit表示有向边eij关联的匿名效益值;

e2:采用启发函数f(i)=g(i)+h(i)为各样本点匿名效益最大函数,g(i)表示从起点到当前节点的匿名效益g(i)=benefitij;h(i)表示从当前节点到目标节点的估算效益,该效益为攻击者错误攻击到有向边的概率1-wij;

e3:最佳利用链方法首先计算区域δ上的子空间概率度量值aj和攻击者正确攻击到有向边eij的概率wij,得出匿名效益g(i)和估算效益h(i);

e4:遍历ksetcandidates{}轨迹集合的各样本点,并不断扩展满足匿名效益最大的节点,在k条轨迹中发现一条效益最大的路径,赋值给fi,从而使轨迹τi得到保护并且该路径所经区域又在同一个以δ为半径的圆形区域内,保证数据的信息丢失率和数据的有效性。

不确定环境下语义-空间混合索引模型如图2所示:混合索引模型包括领域背景本体、环境本体和轨迹行为本体,领域背景本体和环境本体是空间数据库的数据映射为本体的概念(类),通过is-a等关系表示子类,环境本体包括传输环境、信号环境和气象环境等,代表了在某一时间点和某一区域数据采集的不确定状态;轨迹行为本体表示一条移动轨迹的起始点、结束点在经过一定区域时发生的行为特征,并与领域本体构成一个stop实例的语义标识,这些实例通过tostop或inmove确定stop实例的连接关系。

本发明的实时处理引擎原理结构如图3所示:移动警务设备将攻击查询轨迹数据发送至k-匿名处理系统的同时在轨迹数据初步预处理之后传递给语义-空间混合索引模型库,语义-空间混合索引模型库利用其内部语义知识管理的推理机对当前攻击查询的轨迹数据进行语义转化。转化后的轨迹数据与已有的历史轨迹数据进行相似度匹配计算和最近邻计算,分析计算概率子空间,将计算相似度较高的轨迹存入数据候选集,直到候选集中含有至少k-1条轨迹为止,该候选集作为匿名集。另一方面轨迹数据通过事件监测器,利用历史轨迹数据进行匹配,一旦当前轨迹某个片段发生攻击现象,即触发隐私保护实时保护引擎,自动找出攻击者最有可能采取的攻击路径,定位到威胁最大的漏洞,实现实时保护轨迹数据的目的。同时,所监测到的攻击事件将保存在历史模型库中以进行事件的更新。

本发明的系统结构如图4所示:移动警务终端及各种应用平台通过开放的无线公网接入公安内部网并与k-匿名隐私保护实时处理引擎相互连接。轨迹数据流通过传输平台实时给k-匿名隐私保护系统,系统在对其进行数据预处理、过滤、分析、备份等操作后,由语义-空间混合索引模型库对轨迹进行语义转化,通过这种语义推理分析后,比较当前攻击查询轨迹与历史轨迹相似度计算,从而获取匿名集中的k个轨迹数据进行数据的隐私保护,最终形成最佳保护路径并将该路径存储于索引模型中保存更新,同时输出可用的集成服务于索引模型中知识的表示。

当然,以上仅为本发明的较佳实施例而已,非因此即局限本发明的专利范围,凡运用本发明说明书及图式内容所为之简易修饰及等效结构变化,均应同理包含于本发明的专利保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1