一种众包数据库下的双向k-匿名方法

文档序号：9471868阅读：451来源：国知局

一种众包数据库下的双向k-匿名方法
【技术领域】
[0001] 本发明属于隐私保护领域，更具体地，设及一种众包数据库下的双向k-匿名方法。
【背景技术】
[0002] 众包（crowdsourcing)是指一个公司或机构把过去由员工执行的工作任务，W 自由自愿的形式外包给非特定的（而且通常是大型的）大众网络的做法，如亚马逊的 MechanicalTurk。众包的工作流程具体如下：1、公司将任务及相关数据发布到众包平台； 2、众包平台上的注册用户化umanworker)接受任务后获得相关数据；3、humanworker完成任务，将结果返回给公司，并获得相应报酬。
[0003] 近几年，随着众包技术的流行，其被越来越多的用于处理那些对计算机较难而对人较易的数据分析任务。于是，一种在众包环境下由人参与的新型数据库模型被提出，即众包数据库。例如，人才招聘网站（如5U〇b、化inaHR)，可W将其接收到的求职者简历与公司职位信息发布到众包平台，并提供相应的报酬让humanworker完成职业推荐任务。阳004] 然而，由于众包数据库中humanworker可W直接获得任务相关数据，运其中可能包含应聘用户隐私信息（如用户个人简历中的联系方式，健康状况等）与公司隐私信息 (如薪金水平、加班情况及补贴等），因此，上述过程可能造成应聘用户隐私信息与公司隐私信息的泄露，所W必须对众包数据库做隐私保护处理。
[0005] 隐私保护处理的一个有效手段是数据匿名化，其基本思想是隐藏原始数据中的部分信息。k-匿名是数据匿名化中最重要的模型之一，其保证数据匿名化后拥有相同准标识符属性的元组个数至少为k，从而使攻击者无法推理出特定个体的隐私信息。但针对众包数据库下设及供需求双方的应用场景，现有的k-匿名技术存在W下缺陷：（1)数据匿名化处理后会造成原始数据中部分有效信息的丢失，从而导致humanworker完成众包任务的正确率降低，也就是说数据匿名化处理后的可用性低；（2)由于众包数据库中可能包含应聘用户及公司双方的隐私信息，现有的k-匿名技术仅能保护一方的隐私信息，而不能同时保护应聘用户与公司双方的隐私信息。相应地，本领域亟需寻找一种适用于众包数据库环境下双方隐私保护的方法。

【发明内容】

[0006] 针对现有技术的W上缺陷或不足，本发明提供了一种众包数据库下的双向k-匿名方法，其中通过双向k-匿名机制分别对公司职位数据集和应聘用户的原始数据集执行匿名化处理，同时，尤其是针对应聘用户的原始数据集，本发明进行了专口的设计，提出了一种基于空间分割的两阶段k-匿名算法，相应能够有效解决匿名化处理后，导致原始数据集中部分有效信息的丢失，及众包数据库环境下k-匿名技术无法同时保护双方隐私的问题。通过执行本发明中的方案，在同时保护双方隐私的基础上，还显著提高了匿名数据的可用性，因而尤其适用于众包数据库环境下包含供需求双方之类的应用场合。
[0007] 为实现上述目的，本发明提出了一种众包数据库下的双向k-匿名方法，其特征在于，所述方法具体包括W下步骤：
[0008] S1 :首先，针对公司职位数据集，对其进行k-匿名处理：具体包括将所述公司职位数据集按属性拆分为两个数据集，其一是将所述公司职位数据集中除准标识符属性外的其他属性匿名化为空，处理后得到的所述公司职位数据集中仅包含准标识符属性；另一是将所述公司职位数据集中准标识符属性匿名化为空，处理后得到的所述公司职位数据集中包含除准标识符属性之外的其他所有属性，由此获得匿名化的仅包含准标识符属性的第一公司职位数据集和匿名化的不包含准标识符属性的第二公司职位数据集；
[0009] S2 :接着，继续针对应聘用户的原始数据集进行分阶段的匿名化处理，具体包括：通过获取的所述原始数据集的样本真实值对该原始数据集构成的空间进行虚拟分割，得到最优分割点；继而，根据上述获得的该最优分割点和获取的所述原始数据集的样本反馈值递归地分割所述原始数据集构成的空间，从而得到子空间集合，最后根据子空间集合中各子空间的边界对该原始数据集做匿名化处理，由此获得匿名化的用户数据集；
[0010] S3:将得到的所述第一公司职位数据集和所述用户数据集一同发布到众包平台，在注册用户做职业推荐任务后，得到用户-公司职位关系表A;
[0011] S4:将得到的所述第二公司职位数据集和所述用户数据集一同发布到众包平台，在注册用户做职业推荐任务后，得到用户-公司职位关系表B;
[0012] S5 :最后，将上述步骤得到的所述用户-公司职位关系表A和所述用户-公司职位关系表B，进行交集运算，得到最终确定的用户-公司职位关系表。
[0013] 作为进一步优选的，对于步骤S2而言，优选采用基于空间分割的两阶段k-匿名算法，该步骤具体包括W下子步骤：首先根据获取的原始数据集的样本真实值对用户数据集构成的空间做第一阶段的虚拟分割，具体包括：
[0014] S211 :首先，针对应聘用户的原始数据集随机抽样，提取样本数据中应聘用户的曾经职业或当前职业作为所述应聘用户的真实值r,，其中rkGR，R为职业种类，即真实值值域R= (r〇,ri,…，Tk,…，rj，k= 0, 1，…，n;
[0015] S212:接着，将匿名化处理后具有相同准标识符属性的应聘用户记为所述多维空间的子空间cell,其中，每个cell均包含W下信息：位于该cell内的应聘用户个数、样本个数和样本真实值；继而，得到该cell中样本真实值分布T= (tu，ti，…，tk，…，t。）的方差为：
[0016]
阳017]其中tk表示该cell中真实值为fk的样本个数，其中k为样本真实值分布中的取值个数，k= 0, 1，…，n;;所述样本的准标识符属性构成该空间的候选分割点集合P= (Pil〇《i《山，其中i表示所述原始数据集构成的多维空间的维度，即所述原始数据集中各准标识符属性；设第i维上候选分割点集合为Pi=(Pi。，P。，. . .，PU, . . .，Pim)，其中j= 0, 1，…，m为候选分割点集合中的取值个数，那么所述P冲p1,的估值函数为：
[00化]val(Pi.j)=ETErVarCr)
[0019] 其中r表示被Pi汾割后产生的所有cell对应的T的集合；
[0020] S213 :根据上述估值函数分别计算第0~n维上每个候选分割点Pi,p。的估值，得到拥有最大估值的最优分割点Pik，其中kG[0, 1，. . .，m];
[0021]S214:将所述Pik从所述Pi中删除，并添加Pik到第i维最优分割点集合divider[i] 中，记dividers…d]为多维空间中最优分割点的数组，i表示维度；
[0022] S215:判断候选分割点集合P中是否存在合法分割点，即是否满足k-匿名，若存在，则执行步骤S213 ;若不存在，则算法结束，divider[0…d]为产生结果。
[0023] 继而，针对上述步骤S211中得到的所述样本数据，将其发送到众包平台，根据获取的反馈值进行正式的空间分割，即执行基于空间分割的两阶段的k-匿名算法中第二阶段正式的分割空间，具体包括如下步骤：
[0024]S221 :将步骤S211中获得的所述样本数据发布到众包平台，注册用户根据样本精确信息为应聘用户推荐职位，W获得样本反馈值F= (f。，fi，…，fk，…，f。)，其值域仍为R= (r。，ri，…，r,，…，〇,k= 0, 1，…，n;继而，根据获得的所述样本反馈值计算所述cell评分函数为：阳0巧]
[00%] 其中，fk表示所述cell中该样本反馈值为rk的样本个数；由于每次分割均将原空间分割为子空间celli和cell2,从步骤S214中的所述divide;r[0…d]取出分割点div，其估值函数为：
[0027]val(div) =scorebelli)+score(cells);
[0028] S222 :针对当前cell,判断该divider[0…d]中是否存在满足k-匿名的分割点，若存在，则执行S223 ;若不存在，则执行S226 ;
[0029]S223:根据所述分割点div的估值函数，在divider[0???(!]中计算拥有最大估值的分割点divMax，若val(divMax)〉score(cell)，贝Ij通过所述最大估值的divMax将当前空间分割为celli和cell2,然后针对celli和cell2分别对应依次执行S224及S225,否则，执行 S226；
[0030]S224:针对celli执行S222; W31] 8225:针对〇6112执行5222;
[0032] S226 :将该cell插入到子空间集合C中，并递归上一层；
[003引 S227:根据递归分割得到子空间集合C中各cell的边界，对所述原始数据集的准标识符属性进行匿名化处理，从而得到匿名化的用户数据集。
[0034] 总体而言，按照本发明点的W上技术方案与现有技术相比，主要具备W下的技术优点：
[0035]1、本申请中通过结合众包数据库下包含供需求双方关系的运用需求，相应对用户数据集及公司职位数据集同时执行k-匿名处理，由此，注册用户humanworker通过众包数据库获得的数据均是匿名处理后的数据，能够有效起到保护用户及公司双方隐私的作用；
[0036] 2、此外，本发明中专口针对用户数据集提出了基于空间分割的两阶段k-匿名算法，运样能够在确保用户隐私和公司隐私得到有效保护的同时，最大可能的保留原始数据中的可用信息，显著提高了匿名化后数据的可用性，使得humanworker完成众包任务时的正确率增加；
[0037]3、按照本发明提出的众包数据库下的双向k-匿名方法，在双方隐私均达到有效保护及匿名化数据可用性得到提高的同时，并未存在过多的计算复杂度，便于操控，，因而具有一定的可实施性及实用推广价值。
【附图说明】
[003引图1是本发明众包数据库下的双向k-匿名方法的执行流程图；
[0039] 图2是本发明中提出的基于空间分割的两阶段k-匿名算法示意图；
[0040] 图3是本发明中进一步优选的k-匿名算法第一阶段流程图；
[0041] 图4是本发明中进一步优选的k-匿名算法第二阶段流程图。
【具体实施方式】
[0042] 为了使本发明的目的、技术方案及优点更加清楚明白，W下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用W解释本发明，并不用于限定本发明。
[00创如图1所示，本发明提供了一种众包数据库下的双向k-匿名方法：
[0044] (1)对公司职位数据集进行两种极端的k-匿名处理：第一种是将所述公司职位数据集中准标识符属性外的其他属性匿名化为空，处理后得到仅包含准标识符属性的第一公司职位数据集；第二种是将所述公司职位数据集中准标识符属性匿名化为空，处理后得到包含除准标识符属性之外的其他所有属性的第二公司职位数据集；
[0045] (2)对应聘用户的原始数据集做k-匿名处理，采用基于空间分割的两阶段的k-匿名算法，如图2所示，具体包括：
[0

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁晓锋;金海;张凡;
技术所有人：华中科技大学;
我是此专利的发明人

上一篇：一种基于桥文件系统的文件加密系统的制作方法
上一篇：信息采集方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。