基于本地差分隐私的活动时序轨迹挖掘的方法与流程

文档序号:19418591发布日期:2019-12-14 01:11阅读:329来源:国知局
基于本地差分隐私的活动时序轨迹挖掘的方法与流程

本发明涉及数据隐私保护领域,主要是研究如何在进行个人数据收集挖掘的场景下,既能保证数据满足本地差分隐私的要求,又能保证可以从数据中挖掘出活动时序轨迹,特别是涉及一种基于本地差分隐私的活动时序轨迹挖掘的方法。

技术背景

大数据时代的到来,使得数据成为了宝贵的资源。这主要得益于各种各样的数据挖掘方法的出现,可以从数据中挖掘出更多的潜在的信息,同时也包含着许多用户个人隐私,而挖掘的信息可分为以下三种:

1.传统差分隐私:是dwork针对统计数据库的隐私泄露问题提出的一种新的隐私保护框架,是首个针对隐私数据提出的严格的数据隐私保护框架,并且不受攻击者的背景知识影响。

2.本地差分隐私:传统差分隐私理论框架必须要存在一个可信任的第三方数据处理中心,这使得差分隐私理论框架应用受限。为了解决这个问题,本地差分隐私要求在不存在可信任的第三方数据处理中心的假设下,用户隐私数据在收集之前在本地就直接通过添加噪音的方式达到差分隐私保护的要求,同时也保证第三方在收集到加噪数据后仍能较为准确的推断出用户的群体统计信息。

以上两者的区别在于添加噪音的是时机不同。

3.活动时序轨迹:在客户端本地发生的一系列具有先后时序关系的事件元素集合。

现有的本地差分隐私模型只能得到被采集客户端事件元素的发生频率信息,而不能得到客户端的活动时序轨迹的情况信息。



技术实现要素:

本发明就是为了解决现有本地差分隐私模型只能得到被采集客户端事件元素的发生频率信息,而不能得到客户端的活动时序轨迹的情况信息的问题,提供了一种基于本地差分隐私的活动时序轨迹挖掘的方法,使得可以在满足本地差分隐私框架的要求下推断出用户的活动时序轨迹。

为此,本发明一种基于本地差分隐私的活动时序轨迹挖掘的方法,设有采集数据的客户端和本地客户端,该方法包括以下步骤:

步骤一:采集数据的客户端在本地将采用客户端算法的原始隐私数据加噪声,使之满足隐私保护预算参数为的本地差分隐私要求,原始隐私数据会存储在本地客户端,本地客户端会从数据记录集中随机选取一对具有前后时序关系的记录,然后将其转化为时序矩阵,随后加噪处理,具体包括如下步骤:

(一)首先需要设置以下参数的值,第一个参数为p(p<0.5),该参数被称之为翻转概率,第二个参数为事件界定时间间隔dt,第三个参数为次序固定的事件数据记录集中元素个数m;

(二)随机从本地记录的事件集中选取一个元素e(ti),并记录该事件发生的时间为ti;

(三)随机从本地记录的事件集的[e(ti),e(ti+dt)]中选取另一个事件元素e(tj);

(四)将序列(e(ti),e(tj))转化为时序矩阵t,具体说明如下:

首先初始化一个m*m的矩阵,将tij,即第i行第j列的元素置为1,即将tij置为1,其它元素全部置为0,该矩阵即为时序矩阵,如下矩阵所示:

(五)采用随机应答的方法对时序矩阵进行加噪处理,即将每一位以概率p进行翻转,也就是0变1,1变0;

步骤二:服务端从客户端收集到数据后,利用服务端算法对数据进行解析,进而统计出用户活动时序轨迹,服务端收到客户端发来数据后,进行数据处理,包括如下步骤:

(一)初始化一个m*m的矩阵a,并将其元素全部设置为0;

(二)依次遍历n个时序矩阵,然后每次遍历一个矩阵时,然后对于矩阵中a的每个元素aij,作如下的计算:

(三)返回矩阵h,矩阵h的元素就是客户端总体上发生的每个事件元素时序对的统计期望,该期望等于原始矩阵的期望,即还原了客户端整体的用户行为统计情况。

本发明有益效果是,采用邻接时序对替代随机选取以减小样本空间,提高统计数据的准确性,同时可以做到在加噪声之后,既能在服务端统计出用户的活动时序轨迹,又满足了本地差分隐私的要求。现有的本地差分隐私的方法无法统计出用户的行为序列,只能保证服务器端能够获得某一事件元素的统计频率信息,比如某段时间内某地的人口密度,目的网站的访问频率,热点词汇等,并不能体现出事件元素之间的发生时序关系,而这种时序关系往往蕴含着客户端的活动时序轨迹,比如人流轨迹,网站浏览路线,热点语句等。针对这一问题,本发明将用户的活动时序轨迹进行分解,以时序对集合的形式来表现用户的活动时序轨迹,通过对时序对的挖掘和统计来间接推断出用户的活动时序轨迹。

附图说明

图1是整体功能结构示意图;

图2是不同算法统计出的出现次数大于100的路线图,其中,图2(a)是利用cms算法只针对单个事件元素(即客户端的位置信息)统计出来的客户端静态位置信息图;图2(c)是满足p=0.05(ε≈5.89),经过模型统计得到的客户端路线图;图2(d)是p=0.1(ε≈4.39)时的数据(p为翻转概率,ε为隐私保护预算);

图3是不同参数下统计出的人员流向最明显的路线图,其中,图3(a)(c)分别是当t=0.7、t=0.8时原始数据中存在的“最多”的路线;图3(b)(d)分别是对应的满足隐私预算为4.39的本地差分隐私框架下统计得到的“最多”的路线;

图4是统计期望矩阵h计算流程图。

具体实施方式

下面通过实施例,进一步阐明本发明。

如下图1所示,本实施例以区域人流活动轨迹分析的方法进行说明,步骤如下:

步骤1:获取地图数据,本实例采用的原始数据是在某城市五年内(2007年-2012年)针对182名志愿者采集的定位数据。

步骤2:将地图划分为m个不相交区域,并称相邻的区域为领域,将客户端在某一时刻所处的区域看作一个事件元素,则一个活动时序轨迹即为一条轨迹,通常来说客户端轨迹是连续的。具体来说就是选取早上6点到9点的志愿者定位数据和活动较为密集的区域(39.8-40.1,116.2-116.4),并分别以0.003和0.002为单位将该区域划分成1万个单位区域,实验数据共124292条,图4.1为志愿者原始路线图,为了方便展示,图中的横纵坐标是将原始经纬位置转变为单元区域得来的,比如横坐标20代表实际纬度为39.8+20*0.003,纵坐标15代表实际经度为116.2+15*0.002。

步骤3:去除掉数据中邻接轨迹次数低于给定阈值次数的客户端路线图,本实施例设置阈值为100,图2是不同算法统计出的出现次数大于100的路线图,如图2(a)是利用cms算法只针对单个事件元素(即客户端的位置信息)统计出来的客户端静态位置信息图。图2(c)是满足p=0.05(ε≈5.89),经过模型统计得到的客户端路线图,图2(d)是p=0.1(ε≈4.39)时的数据(p为翻转概率,ε为隐私保护预算),这是直接进行提取相邻时序对的试验。由此可见,而本模型所得到的结果比较容易还原出路线。另外对比2(c)(d)两图可见,当隐私预算减小时,原始路线的还原度会降低。

步骤4:设置阈值参数t,该阈值参数用于判断两个位置之间是否有明显的人员流动关系。例如,t=0.8,对于两点a,b,如果a到b出现的次数是b到a出现次数的4倍,则认为a与b之间存在着a到b的人员流动;

步骤5:从满足阈值t条件的所有邻接路线中选择出现次数最多的那条邻接路线;

步骤6:以该路线的两头端点为起始点和结束点分别层序遍历满足阈值t的邻接路线,由此得到一条人员流动“最多”的连续路线。

下面实验的目的是统计早上6点到9点之间各条路线的客户端流向,这在现有的本地差分隐私模型中是不能直接得到的。图3是不同参数下统计出的人员流向最明显的路线图,图3(a)(c)分别是当t=0.7、t=0.8时原始数据中存在的“最多”的路线,图3(b)(d)分别是对应的满足隐私预算为4.39的本地差分隐私框架下统计得到的“最多”的路线,可以看到,经过本地差分隐私框架处理后的统计出来的路线近似于原始路线,阈值t越大,近似程度越高。

从上述步骤可知,本方法既能在服务端统计出用户的活动时序轨迹,又满足了本地差分隐私的要求。

图4为逻辑运行框图,原始数据经客户端加噪后达到了保护客户端隐私的目的,服务器端算法的目的则是从收集得到的加噪后数据中还原客户端整体的统计数据,所以通常来说,服务器端算法是根据客户端算法设计的。上述所用的客户端算法对数据实际加噪的步骤只是将时序矩阵的每一位以p的概率进行了翻转,因此在服务器端只需要对从客户端收集到的数据每一位进行一定的偏移变换使其得到的矩阵元素的期望等于原始矩阵即可。上述服务器端的算法如下:

输入:翻转概率p<0.5;从n个客户端处收集到的时序矩阵t1,t2,...,tn。

1.令

2.初始化m*m零阵h。

3.以下c为时序矩阵的编号

forcfrom0tondo:

forjfrom0tomdo:

forifrom0tomdo:

4.返回矩阵h,完成逻辑运算。

惟以上所述者,仅为本发明的具体实施例而已,当不能以此限定本发明实施的范围,故其等同组件的置换,或依本发明专利保护范围所作的等同变化与修改,皆应仍属本发明权利要求书涵盖之范畴。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1