一种众包数据库下的双向k-匿名方法

文档序号:9471868阅读:451来源:国知局
一种众包数据库下的双向k-匿名方法
【技术领域】
[0001] 本发明属于隐私保护领域,更具体地,设及一种众包数据库下的双向k-匿名方 法。
【背景技术】
[0002] 众包(crowdsourcing)是指一个公司或机构把过去由员工执行的工作任务,W 自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法,如亚马逊的 MechanicalTurk。众包的工作流程具体如下:1、公司将任务及相关数据发布到众包平台; 2、众包平台上的注册用户化umanworker)接受任务后获得相关数据;3、humanworker完 成任务,将结果返回给公司,并获得相应报酬。
[0003] 近几年,随着众包技术的流行,其被越来越多的用于处理那些对计算机较难而对 人较易的数据分析任务。于是,一种在众包环境下由人参与的新型数据库模型被提出,即众 包数据库。例如,人才招聘网站(如5U〇b、化inaHR),可W将其接收到的求职者简历与公 司职位信息发布到众包平台,并提供相应的报酬让humanworker完成职业推荐任务。 阳004] 然而,由于众包数据库中humanworker可W直接获得任务相关数据,运其中可能 包含应聘用户隐私信息(如用户个人简历中的联系方式,健康状况等)与公司隐私信息 (如薪金水平、加班情况及补贴等),因此,上述过程可能造成应聘用户隐私信息与公司隐 私信息的泄露,所W必须对众包数据库做隐私保护处理。
[0005] 隐私保护处理的一个有效手段是数据匿名化,其基本思想是隐藏原始数据中的部 分信息。k-匿名是数据匿名化中最重要的模型之一,其保证数据匿名化后拥有相同准标识 符属性的元组个数至少为k,从而使攻击者无法推理出特定个体的隐私信息。但针对众包数 据库下设及供需求双方的应用场景,现有的k-匿名技术存在W下缺陷:(1)数据匿名化处 理后会造成原始数据中部分有效信息的丢失,从而导致humanworker完成众包任务的正确 率降低,也就是说数据匿名化处理后的可用性低;(2)由于众包数据库中可能包含应聘用 户及公司双方的隐私信息,现有的k-匿名技术仅能保护一方的隐私信息,而不能同时保护 应聘用户与公司双方的隐私信息。相应地,本领域亟需寻找一种适用于众包数据库环境下 双方隐私保护的方法。

【发明内容】

[0006] 针对现有技术的W上缺陷或不足,本发明提供了一种众包数据库下的双向k-匿 名方法,其中通过双向k-匿名机制分别对公司职位数据集和应聘用户的原始数据集执行 匿名化处理,同时,尤其是针对应聘用户的原始数据集,本发明进行了专口的设计,提出了 一种基于空间分割的两阶段k-匿名算法,相应能够有效解决匿名化处理后,导致原始数据 集中部分有效信息的丢失,及众包数据库环境下k-匿名技术无法同时保护双方隐私的问 题。通过执行本发明中的方案,在同时保护双方隐私的基础上,还显著提高了匿名数据的可 用性,因而尤其适用于众包数据库环境下包含供需求双方之类的应用场合。
[0007] 为实现上述目的,本发明提出了一种众包数据库下的双向k-匿名方法,其特征在 于,所述方法具体包括W下步骤:
[0008] S1 :首先,针对公司职位数据集,对其进行k-匿名处理:具体包括将所述公司职位 数据集按属性拆分为两个数据集,其一是将所述公司职位数据集中除准标识符属性外的其 他属性匿名化为空,处理后得到的所述公司职位数据集中仅包含准标识符属性;另一是将 所述公司职位数据集中准标识符属性匿名化为空,处理后得到的所述公司职位数据集中包 含除准标识符属性之外的其他所有属性,由此获得匿名化的仅包含准标识符属性的第一公 司职位数据集和匿名化的不包含准标识符属性的第二公司职位数据集;
[0009] S2 :接着,继续针对应聘用户的原始数据集进行分阶段的匿名化处理,具体包括: 通过获取的所述原始数据集的样本真实值对该原始数据集构成的空间进行虚拟分割,得到 最优分割点;继而,根据上述获得的该最优分割点和获取的所述原始数据集的样本反馈值 递归地分割所述原始数据集构成的空间,从而得到子空间集合,最后根据子空间集合中各 子空间的边界对该原始数据集做匿名化处理,由此获得匿名化的用户数据集;
[0010] S3:将得到的所述第一公司职位数据集和所述用户数据集一同发布到众包平台, 在注册用户做职业推荐任务后,得到用户-公司职位关系表A;
[0011] S4:将得到的所述第二公司职位数据集和所述用户数据集一同发布到众包平台, 在注册用户做职业推荐任务后,得到用户-公司职位关系表B;
[0012] S5 :最后,将上述步骤得到的所述用户-公司职位关系表A和所述用户-公司职位 关系表B,进行交集运算,得到最终确定的用户-公司职位关系表。
[0013] 作为进一步优选的,对于步骤S2而言,优选采用基于空间分割的两阶段k-匿名算 法,该步骤具体包括W下子步骤:首先根据获取的原始数据集的样本真实值对用户数据集 构成的空间做第一阶段的虚拟分割,具体包括:
[0014] S211 :首先,针对应聘用户的原始数据集随机抽样,提取样本数据中应聘用户的曾 经职业或当前职业作为所述应聘用户的真实值r,,其中rkGR,R为职业种类,即真实值值 域R= (r〇,ri,…,Tk,…,rj,k= 0, 1,…,n;
[0015] S212:接着,将匿名化处理后具有相同准标识符属性的应聘用户记为所述多维空 间的子空间cell,其中,每个cell均包含W下信息:位于该cell内的应聘用户个数、样本 个数和样本真实值;继而,得到该cell中样本真实值分布T= (tu,ti,…,tk,…,t。)的方差 为:
[0016]
阳017]其中tk表示该cell中真实值为fk的样本个数,其中k为样本真实值分布中的 取值个数,k= 0, 1,…,n;;所述样本的准标识符属性构成该空间的候选分割点集合P= (Pil〇《i《山,其中i表示所述原始数据集构成的多维空间的维度,即所述原始数据集中 各准标识符属性;设第i维上候选分割点集合为Pi=(Pi。,P。,. . .,PU, . . .,Pim),其中j= 0, 1,…,m为候选分割点集合中的取值个数,那么所述P冲p1,的估值函数为:
[00化]val(Pi.j)=ETErVarCr)
[0019] 其中r表示被Pi汾割后产生的所有cell对应的T的集合;
[0020] S213 :根据上述估值函数分别计算第0~n维上每个候选分割点Pi,p。的估值,得 到拥有最大估值的最优分割点Pik,其中kG[0, 1,. . .,m];
[0021]S214:将所述Pik从所述Pi中删除,并添加Pik到第i维最优分割点集合divider[i] 中,记dividers…d]为多维空间中最优分割点的数组,i表示维度;
[0022] S215:判断候选分割点集合P中是否存在合法分割点,即是否满足k-匿名,若存 在,则执行步骤S213 ;若不存在,则算法结束,divider[0…d]为产生结果。
[0023] 继而,针对上述步骤S211中得到的所述样本数据,将其发送到众包平台,根据获 取的反馈值进行正式的空间分割,即执行基于空间分割的两阶段的k-匿名算法中第二阶 段正式的分割空间,具体包括如下步骤:
[0024]S221 :将步骤S211中获得的所述样本数据发布到众包平台,注册用户根据样本精 确信息为应聘用户推荐职位,W获得样本反馈值F= (f。,fi,…,fk,…,f。),其值域仍为R= (r。,ri,…,r,,…,〇,k= 0, 1,…,n;继而,根据获得的所述样本反馈值计算所述cell评 分函数为: 阳0巧]
[00%] 其中,fk表示所述cell中该样本反馈值为rk的样本个数;由于每次分割均将原空 间分割为子空间celli和cell2,从步骤S214中的所述divide;r[0…d]取出分割点div,其 估值函数为:
[0027]val(div) =scorebelli)+score(cells);
[0028] S222 :针对当前cell,判断该divider[0…d]中是否存在满足k-匿名的分割点, 若存在,则执行S223 ;若不存在,则执行S226 ;
[0029]S223:根据所述分割点div的估值函数,在divider[0???(!]中计算拥有最大估值的 分割点divMax,若val(divMax)〉score(cell),贝Ij通过所述最大估值的divMax将当前空间 分割为celli和cell2,然后针对celli和cell2分别对应依次执行S224及S225,否则,执行 S226;
[0030]S224:针对celli执行S222; W31] 8225:针对〇6112执行5222;
[0032] S226 :将该cell插入到子空间集合C中,并递归上一层;
[003引 S227:根据递归分割得到子空间集合C中各cell的边界,对所述原始数据集的准 标识符属性进行匿名化处理,从而得到匿名化的用户数据集。
[0034] 总体而言,按照本发明点的W上技术方案与现有技术相比,主要具备W下的技术 优点:
[0035]1、本申请中通过结合众包数据库下包含供需求双方关系的运用需求,相应对用户 数据集及公司职位数据集同时执行k-匿名处理,由此,注册用户humanworker通过众包数 据库获得的数据均是匿名处理后的数据,能够有效起到保护用户及公司双方隐私的作用;
[0036] 2、此外,本发明中专口针对用户数据集提出了基于空间分割的两阶段k-匿名算 法,运样能够在确保用户隐私和公司隐私得到有效保护的同时,最大可能的保留原始数据 中的可用信息,显著提高了匿名化后数据的可用性,使得humanworker完成众包任务时的 正确率增加;
[0037]3、按照本发明提出的众包数据库下的双向k-匿名方法,在双方隐私均达到有效 保护及匿名化数据可用性得到提高的同时,并未存在过多的计算复杂度,便于操控,,因而 具有一定的可实施性及实用推广价值。
【附图说明】
[003引图1是本发明众包数据库下的双向k-匿名方法的执行流程图;
[0039] 图2是本发明中提出的基于空间分割的两阶段k-匿名算法示意图;
[0040] 图3是本发明中进一步优选的k-匿名算法第一阶段流程图;
[0041] 图4是本发明中进一步优选的k-匿名算法第二阶段流程图。
【具体实施方式】
[0042] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本发明,并 不用于限定本发明。
[00创如图1所示,本发明提供了一种众包数据库下的双向k-匿名方法:
[0044] (1)对公司职位数据集进行两种极端的k-匿名处理:第一种是将所述公司职位数 据集中准标识符属性外的其他属性匿名化为空,处理后得到仅包含准标识符属性的第一公 司职位数据集;第二种是将所述公司职位数据集中准标识符属性匿名化为空,处理后得到 包含除准标识符属性之外的其他所有属性的第二公司职位数据集;
[0045] (2)对应聘用户的原始数据集做k-匿名处理,采用基于空间分割的两阶段的k-匿 名算法,如图2所示,具体包括:
[0
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1