本发明涉及网络通信,特别是指一种基于差分隐私的时空轨迹聚类方法及系统。
背景技术:
1、近年来,随着各种移动终端设备的广泛应用及定位技术的飞速发展,基于位置的社交网络(location-based social netowrks,lbsns)获得空前的发展,已经融入到人们日常生活的各个方面。根据调查,人们在日常生活中所使用的应用程序大约有80%与位置服务相关,例如,娱乐服务、导航服务和可穿戴设备提供的服务等。
2、然而,基于位置服务的移动社交网络给人们带来良好体验的同时,频繁请求获取用户位置信息,产生用户的行为轨迹数据。lbs的服务提供商为从中获得潜在的经济价值,将收集到的用户轨迹数据提供给相应的研究机构来进行数据挖掘和分析,从而实现精准推荐和个性化服务。轨迹数据中包含大量的敏感信息和时空信息,在发布轨迹数据时,可能会产生严重的隐私泄露,攻击者不仅能通过原始轨迹数据集获取用户的地理活动位置数据,还可以通过大数据分析挖掘出用户的个人隐私信息(例如:兴趣爱好、健康状况、社会关系以及家庭地址等),甚至推理出用户的一些生活习惯以及行为模式,严重威胁了用户的人身安全,进而有可能产生严重后果。
3、位置社交网络中,移动客户端通过按时间顺序连接用户访问的位置数据生成移动轨迹序列。而现有的位置隐私保护机制主要集中于保护单个位置或轨迹,忽略了时空相关性,使攻击者很容易推断出用户的行为模式,无法保护用户时空活动中的敏感信息。例如,上周访问过某个地点或每天上午和下午定期往返地址1和地址2之间(很容易推断出地点1和地点2是家和工作地点)。
技术实现思路
1、针对现有的位置隐私保护机制中真实轨迹数据上传至第三方服务器时可能产生的敏感信息泄露的技术问题,本发明提出了一种基于差分隐私的时空轨迹聚类方法及系统,提高了系统可靠性,并为用户提供灵活的、可定制的隐私保护服务。
2、本发明的技术方案是这样实现的:
3、一种基于差分隐私的时空轨迹聚类方法,其步骤如下:
4、s10:通过调整隐私级别,将已有的位置隐私保护机制转化为时空活动隐私保护机制;
5、s20:利用时空活动隐私保护机制对位置点进行扰动处理,并将扰动后的位置点通过一天内的时间顺序连接,生成扰动轨迹序列;
6、s30:将扰动轨迹序列上传至第三方服务器,第三方服务器根据轨迹之间的语义距离,将轨迹聚类为不同的簇。
7、所述时空活动隐私保护机制包括位置隐私保护机制和量化机制;位置隐私保护机制将真实位置lt生成扰动位置lt*;量化机制结合观测序列及个性化时空活动event模板判断扰动位置lt*是否满足ε-时空活动隐私。
8、所述利用时空活动隐私保护机制对位置点进行扰动处理的方法为:
9、s101:使用位置隐私保护机制对每个时间点的真实位置lt进行扰动处理,生成扰动位置lt*;
10、s102:使用量化机制结合观测序列及个性化时空活动event模板对扰动位置lt*进行量化处理;
11、s103:判断扰动位置lt*是否满足ε-时空活动隐私条件,若不满足,返回步骤s101,调整隐私参数ε再次进行扰动;若满足,释放扰动位置lt*。
12、所述量化机制是结合观测序列及服务器提供的个性化时空活动模板判断扰动位置lt*是否满足如下不等式:
13、pr(l1*,l2*,...,lt*|event)≤eεpr(l1*,l2*,...,lt*|!event) (2);
14、其中,event表示需要保护的时空活动模板,!event表示时空活动的否定,pr(l1*,l2*,...,lt*|event)表示在给定时空活动模板的情况下发布位置为l1*,l2*,...,lt*的概率;且
15、
16、其中,pr(event)为时空活动的先验概率,pr(l1*,l2*,...,lt*,event)为时空活动的联合概率;
17、在给定先验概率p-和l1*,l2*,...,lt*的情况下,量化过程为:计算的最大比率;
18、将先验概率p-定为变量,量化过程为:运用二次规划方法计算的最大值,并要求最大值小于等于0。
19、所述ε-时空活动隐私条件为:
20、
21、
22、其中,mi表示转移矩阵,表示对角元素为的对角矩阵,end为时空活动的终点;
23、在0≤p-≤1的约束条件下,求公式(5)和公式(6)左边的最大值,只要有一个最大值大于0,那么位置隐私隐私保护机制则不满足ε-时空活动隐私条件。
24、所述扰动轨迹序列的生成方法为:
25、s201:初始化轨迹序列t*及位置集合l;
26、s202:将扰动位置lt*添加到位置集合l;
27、s203:对位置集合l按一天内的时间顺序进行排序处理;
28、s204:将位置集合l中的扰动位置lt*添加到轨迹序列t*中,生成扰动轨迹序列
29、步骤s30的具体实现方法为:
30、s301:计算两条扰动轨迹序列与之间的语义距离
31、s302:如果两条扰动轨迹序列之间的距离不超过阈值θt,那么将扰动轨迹序列加入到簇c1中;
32、s303:如果两条扰动轨迹序列之间的距离超过阈值θt,创建第二个簇c2,并将扰动轨迹序列分配到簇c2中;
33、s304:对于第n条扰动轨迹序列计算与每一个簇中扰动轨迹序列之间的语义距离;
34、s305:通过上述迭代过程,n条扰动轨迹序列被划分到k个不同的簇内。
35、所述与之间的语义距离的计算表达式为:
36、
37、其中,表示扰动轨迹序列中包含的轨迹段个数,表示扰动轨迹序列与中匹配的轨迹段个数,两条扰动轨迹序列包含的匹配轨迹段个数越多,两条扰动轨迹序列越相似。
38、一种基于差分隐私的时空轨迹聚类系统,包括地理位置感知模块、时空活动模板获取模块、时空活动保护模块、扰动轨迹序列生成模块和轨迹聚类模块;
39、所述地理位置感知模块,用于感知用户所访问的地理位置数据;
40、所述时空活动模板获取模块,用于将用户自定义的个性化隐私信息生成时空活动模板;
41、所述时空活动保护模块,用于保护用户位置隐私信息及时空活动隐私信息;
42、所述扰动轨迹序列生成模块,用于将扰动位置点组合生成扰动轨迹序列;
43、所述轨迹聚类模块,用于将不同语义距离的扰动轨迹序列分类。
44、与现有技术相比,本发明产生的有益效果为:通过调整隐私级别,将已有的位置隐私保护机制转化为时空活动隐私保护机制;将扰动后的位置点通过一天内的时间顺序连接,生成扰动轨迹序列;将扰动后的轨迹序列上传至第三方服务器,第三方服务器根据轨迹之间的语义距离,将轨迹聚类为不同的簇。本发明可以实现轨迹聚类过程中的时空活动保护,解决了将真实轨迹数据上传至第三方服务器时可能产生的敏感信息泄露的问题,同时位置隐私提供了针对未知风险的一般保护,而时空活动保护提供了灵活的、可定制的保护,提高系统对用户偏好的考虑,为未来基于位置的社交网络中基于隐私保护的个性化服务提供有益的解决思路。