一种信息去标识化方法、装置和电子设备与流程

文档序号:28487904发布日期:2022-01-15 01:46阅读:81来源:国知局
一种信息去标识化方法、装置和电子设备【
技术领域
:】1.本技术涉及信息安全
技术领域
:,尤其涉及一种信息去标识化方法、装置和电子设备。
背景技术
::2.随着网络信息与计算机技术的高速发展,社会与网络中的信息不断朝向信息共享与资源互利发展。同时,为降低在信息共享中个人信息泄露的风险,需要在信息发布之前对其进行去标识化处理。信息去标识化指的是,去除一组可识别信息和信息所对应的主体间关联关系的过程,用来防止个人信息的泄露。在对信息进行发布时,常用的去标识化模型主要有:k-匿名模型、l-多样性模型、t-接进性模型等,去标识化模型的主要思想是:要求一个数据属性下的每个数据都至少要包含有k(或l或t)条记录,形成一个等价组,使得攻击者无法关联到该数据对应的主体。3.目前建立去标识化模型的方法存在以下问题,即在建立去标识化模型时,k(或l或t)值的确定依据的是模型建立者个人的主观意愿,k(或l或t)值的取值不合理,往往导致建立的去标识化模型难以完成信息隐藏,或可以完成信息隐藏,但信息失真严重,信息的可用性大大降低。技术实现要素:4.本技术实施例提供了一种信息去标识化方法、装置和电子设备,以实现去标识化模型中模型参数k(或l或t)值的合理确定,使去标识化模型既能够完成信息的隐藏,同时能够最大程度保证信息的可用性。5.第一方面,本技术实施例提供一种信息去标识化方法,包括:根据第一模型参数确定攻击侧攻击成功的概率,根据第二模型参数确定防守侧防守成功的概率;根据所述攻击成功的概率和所述防守成功的概率,确定攻击侧的攻击能力和防守侧的防守能力;确定使所述防守能力大于所述攻击能力的可选模型参数,从所述可选模型参数中确定目标模型参数;根据所述目标模型参数建立去标识化模型;利用所述去标识化模型对目标数据进行去标识化。6.其中一种可能的实现方式中,攻击侧的第一输入变量和输出变量之间模拟形成攻击信道,防守侧的第二输入变量和输出变量之间模拟形成防守信道;根据所述攻击成功的概率和所述防守成功的概率,确定攻击侧的攻击能力和防守侧的防守能力,包括:根据所述攻击成功的概率和所述防守成功的概率,确定攻击信道的第一信道容量;根据所述第一信道容量确定攻击侧的攻击能力;根据所述攻击成功的概率和所述防守成功的概率,确定防守信道的第二信道容量;根据所述第二信道容量确定防守侧的防守能力。7.其中一种可能的实现方式中,根据所述攻击成功的概率和所述防守成功的概率,确定攻击信道的第一信道容量,包括:根据所述攻击成功的概率和所述防守成功的概率,确定所述攻击信道的所述第一输入变量和所述输出变量之间的第一联合概率分布;根据所述第一联合概率分布确定第一输入变量和输出变量之间的第一互信息,基于所述第一互信息确定所述第一信道容量。8.其中一种可能的实现方式中,根据所述攻击成功的概率和所述防守成功的概率,确定防守信道的第二信道容量,包括:根据所述攻击成功的概率和所述防守成功的概率,确定所述防守信道的所述第二输入变量和输出变量之间的第二联合概率分布;根据所述第二联合概率分布确定第二输入变量和输出变量之间的第二互信息,基于所述第二互信息确定所述第二信道容量。9.其中一种可能的实现方式中,在所述攻击能力的表示中所述第二模型参数为变量,所述第一模型参数为第一固定值;在所述防守能力的表示中所述第一模型参数为变量,所述第二模型参数为第二固定值;确定使所述防守能力大于所述攻击能力的可选模型参数,包括:当所述第一固定值和第二固定值取相同值时,确定使所述防守能力大于所述攻击能力的可选模型参数。10.其中一种可能的实现方式中,根据所述目标模型参数确定去标识化模型中等价组的大小;根据所确定的等价组的大小,建立去标识化模型。11.其中一种可能的实现方式中,利用所述去标识化模型对目标数据进行去标识化,包括:根据所述去标识化模型中所述等价组的大小,对目标数据进行分组;根据分组结果,对每组数据中的目标属性所对应的数据进行去标识化处理,得到去标识化的目标数据。12.第二方面,本技术实施例提供一种信息去标识化装置,包括:确定模块,用于根据第一模型参数确定攻击侧攻击成功的概率,根据第二模型参数确定防守侧防守成功的概率;根据所述攻击成功的概率和所述防守成功的概率,确定攻击侧的攻击能力和防守侧的防守能力;确定使所述防守能力大于所述攻击能力的可选模型参数,从所述可选模型参数中确定目标模型参数;模型建立模块,用于根据所述目标模型参数建立去标识化模型;去标识模块,用于利用所述去标识化模型对目标数据进行去标识化。13.第三方面,本技术实施例提供一种电子设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上所述的方法。14.第四方面,本技术实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上所述的方法。15.以上技术方案中,根据第一模型参数和第二模型参数,确定攻击侧攻击成功的概率和防守侧防守成功的概率;进而确定攻击侧的攻击能力和防守侧的防守能力。从使防守能力大于攻击能力的可选模型参数中,确定目标模型参数;根据目标模型参数建立去标识化模型,利用去标识化模型对目标数据进行去标识化。基于本发明实施例方案,能够提高去标识化模型的模型参数设置的合理性,使去标识化模型既能够完成目标数据的去标识化,降低重标识风险,同时能够保证目标数据的可用性。【附图说明】16.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。17.图1为本技术信息去标识化方法一个实施例的流程图;18.图2为本技术信息去标识化方法另一个实施例的流程图;19.图3为本技术信息去标识化方法中攻击信道的平均互信息量变化曲线图;20.图4为本技术信息去标识化方法中防守信道的平均互信息量变化曲线图;21.图5为本技术信息去标识化方法中攻击能力和防守能力的结合曲线图;22.图6为本技术信息去标识化装置一个实施例的结构示意图;23.图7为本技术电子设备一个实施例的结构示意图。【具体实施方式】24.为了更好的理解本技术的技术方案,下面结合附图对本技术实施例进行详细描述。25.应当明确,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。26.在本技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。27.在对数据进行发布时,常见的去标识化模型有:k-匿名模型、l-多样性模型、t-接进性模型等。去标识化模型的主要思想是:要求一个数据属性下的每个数据都至少要包含有n条记录,形成一个等价组,使得攻击者无法关联到该数据对应的主体。28.对于k-匿名模型来说,即要求一个数据属性下的每个数据都至少要包含有k条记录;对于l-多样性模型来说,则是l条记录;对于t-接进性模型来说,要包含有t条记录。其中,k、l、t分别为各个去标识化模型的模型参数,根据模型参数,就可以确定各个去标识化模型中等价组的大小。29.图1为本技术信息去标识化方法一个实施例的流程图,如图1所示,上述信息去标识化方法可以包括:30.步骤101,根据第一模型参数确定攻击侧攻击成功的概率,根据第二模型参数确定防守侧防守成功的概率。31.在本实施例中,第一模型参数为攻击侧去标识化模型的模型参数,其取值代表了攻击侧去标识化模型中等价组的大小。第二模型参数为防守侧去标识化模型的模型参数,其取值代表了防守侧去标识化模型中等价组的大小。32.根据攻击侧去标识化模型中等价组的大小,可以确定攻击侧攻击成功的概率,以及攻击失败的概率;根据防守侧去标识化模型中等价组的大小,可以确定防守侧防守成功的概率,以及防守失败的概率。33.在一个具体的实现过程中,如果第一模型参数为k1,那么攻击侧去标识化模型中等价组的大小即为k1;攻击侧攻击成功的概率为1/k1,相应的,攻击失败的概率为1-1/k1。如果第二模型参数为k2,那么防守侧去标识化模型中等价组的大小即为k2;防守侧防守成功的概率为1-1/k2,相应的,攻击失败的概率为1/k2。34.上述k1和k2只是一个示例性的表示方法,不代表对本实施例的限制。在实际情况中,第一模型参数和第二模型参数可以根据具体的去标识化模型进行设置。35.步骤102,根据攻击成功的概率和防守成功的概率,确定攻击侧的攻击能力和防守侧的防守能力。36.首先,攻击侧的第一输入变量和输出变量之间模拟形成攻击信道,防守侧的第二输入变量和输出变量之间模拟形成防守信道。37.本实施例中,攻击侧指的是发起重标识攻击的一方。在攻击侧进行攻击时,可以将攻击过程看作一个信道内部的通信过程。当信道的输出信息与输入信息一致时,认为信道通信成功,即攻击侧一次攻击成功。相应的,防守侧指的是抵御重标识攻击的一方,其防守过程也可看作一个信道内部的通信过程,信道通信成功即防守成功。38.基于上述内容,本实施例通过构造攻击信道和防守信道,对攻击侧和防守侧进行分析。39.具体的,将攻击侧的攻击事件作为第一输入变量,将防守侧的防守事件作为第二输入变量。同时,根据第一输入变量与第二输入变量之间的对应关系,构造一个输出变量。40.进一步的,由于任意两个随机变量都可以构成信道,结合本实施例上述内容,利用第一输入变量和输出变量模拟形成攻击信道,利用第二输入变量和输出变量模拟形成防守信道。41.然后,根据攻击成功的概率和防守成功的概率,确定攻击信道的第一信道容量;根据第一信道容量确定攻击侧的攻击能力。根据攻击成功的概率和防守成功的概率,确定防守信道的第二信道容量;根据第二信道容量确定防守侧的防守能力。42.对于攻击侧来说,攻击能力指的是成功完成重标识攻击的能力。第一信道容量表示攻击信道内无错误传送的最大信息率,即攻击信道内实现成功通信的最大能力。因此,第一信道容量与攻击侧的攻击能力成正比,故而,本实施例中以第一信道容量的值来表示攻击侧攻击能力的大小。43.同理,对于防守侧来说,防守能力指的是成功抵御重标识攻击的能力。第二信道容量表示防守信道内无错误传送的最大信息率,即防守信道内实现成功通信的最大成立。因此,第二信道容量与防守侧的防守能力成正比,故而,本实施例中以第二信道容量的值来表示防守侧防守能力的大小。44.具体的,根据攻击成功的概率和防守成功的概率,确定攻击信道的第一输入变量和输出变量之间的第一联合概率分布。根据第一联合概率分布,确定第一输入变量和输出变量之间的第一互信息。基于第一互信息,确定第一信道容量。第一信道容量的大小可用来表示攻击侧攻击能力的大小。45.根据攻击成功的概率和防守成功的概率,确定防守信道的第二输入变量和输出变量之间的第二联合概率分布。根据第二联合概率分布,确定第二输入变量和输出变量之间的第二互信息。基于第二互信息,确定第二信道容量。第二信道容量的大小可用来表示防守侧防守能力的大小。46.步骤103,确定使防守能力大于攻击能力的可选模型参数,从可选模型参数中确定目标模型参数。47.本实施例中,对于攻击侧来说,第一模型参数是确定的,其攻击能力是由防守侧的第二模型参数决定的。相应的,对于防守侧来说,第二模型参数是确定的,其防守能力是由攻击侧的第一模型参数决定的。也就是说,在攻击侧的攻击能力表示中,第二模型参数为变量、第一模型参数为第一固定值。同理,在防守侧的防守能力表示中,第一模型参数为变量、第二模型参数为第二固定值。48.基于上述内容,在确定目标模型参数时,首先,使第一固定值和第二固定值取值相等。则,攻击侧的攻击能力可以表示为以第二模型参数为变量的第一变化曲线。防守侧的防守能力可以表示为以第一模型参数为变量的第二变化曲线。根据第一变化曲线和第二变化曲线,确定使防守能力大于攻击能力的可选模型参数。然后,在可选模型参数中,选择最小的可选模型参数,作为本实施例的目标模型参数。49.步骤104,根据目标模型参数建立去标识化模型。50.根据目标模型参数确定去标识化模型中等价组的大小,建立去标识化模型。51.具体的,对于k-匿名模型来说,如果目标模型参数为k,那么确定k-匿名模型中等价组的大小为k;对于l-多样性模型来说,如果目标模型参数为l,那么确定l-多样性模型中等价组的大小为l,对于t-接进性模型来说,如果目标模型参数为t,那么确定t-接进性模型中等价组的大小为t。当然,还可以包括其他去标识化模型,其方法与上述相同,不再赘述。52.步骤105,利用去标识化模型对目标数据进行去标识化。53.首先,根据去标识化模型中等价组的大小,对目标数据进行分组。54.具体的,将目标数据中每个数据属性下,取值相同、相近的数据划分至同一个等价组。每一个等价组中数据记录的数量由等价组的大小确定。55.然后,根据分组结果,对每组数据中目标属性所对应的数据进行去标识化,得到去标识化的目标数据。56.本实施例中,一种可选的方式为,根据每个等价组中目标属性所对应的数据的取值范围,对数据进行泛化处理,得到去标识化的目标数据。57.举例来说,当一个大小为4的等价组中,年龄属性所对应的各数据分别为14、11、10、15时,对各个数据进行泛化处理,得到的去标识化的目标数据分别为[10-15]、[10-15]、[10-15]、[10-15]。[0058]另一种可选的方式为,根据每个等价组中目标属性所对应的数据,对数据进行屏蔽处理,得到去标识化的目标数据。[0059]举例来说,当一个大小为4的等价组中,身份证号属性所对应的各数据分别为145864199602270020、115248199805260247、105428189506120451、155856200612030020时,对各个数据进行屏蔽处理,得到的去标识化的目标数据分别为145864********0020、115248********0247、105428********0451、155856********0020。[0060]本实施例中,根据第一模型参数和第二模型参数,确定攻击侧攻击成功的概率和防守侧防守成功的概率,进而构建攻击信道和防守信道。根据攻击信道的第一信道容量确定攻击侧的攻击能力。根据防守信道的第二信道容量确定防守侧的防守能力。从使防守能力大于攻击能力的可选模型参数中,确定目标模型参数。根据目标模型参数建立去标识化模型,对目标数据进行去标识化。提高了去标识化模型的模型参数设置的合理性,使去标识化模型既能够完成目标数据的去标识化,起到隐藏数据的作用,同时能够保证目标数据的可用性。[0061]本技术另一个实施例中,对攻击信道和防守信道的建立进行进一步的说明。[0062]首先,确定第一输入变量和第二输入变量。[0063]将攻击侧的攻击事件作为一个变量x,即第一输入变量。当攻击侧盲评为攻击成功时,记为x=1,盲评为攻击失败时,记为x=0。将防守侧的防守事件作为一个变量y,即第二输入变量。当防守侧盲评为防守成功时,记为y=1,盲评为防守失败时,记为y=0。[0064]然后,根据第一输入变量和第二输入变量之间的对应关系,构建一个变量z,即输出变量。利用输出变量模拟形成攻击信道和防守信道。[0065]具体的,将第一输入变量作为输入端,输出变量作为输出端,模拟形成攻击信道。当攻击侧攻击成功时,认为攻击信道成功将输入端信息传递至输出端,即事件{z=0,x=0}或事件{z=1,x=1}发生。此时,认为防守侧防守失败,即y=0。[0066]将第二输入变量作为输入端,输出变量作为输出端时,可以模拟形成一个防守信道。当防守侧防守成功时,认为防守信道成功将输入端信息传递至输出端,即事件发生{z=0,y=0}或事件{z=1,y=1}发生。此时,认为攻击侧攻击失败,即x=0。[0067]本技术再一个实施例中,给出了确定攻击侧的攻击能力和防守侧的防守能力的具体方法。[0068]图2为本技术信息去标识化方法另一个实施例的流程图。如图所示,本实施例中,确定攻击侧攻击能力和防守侧防守能力的步骤如下:[0069]步骤201、根据攻击成功的概率和防守成功的概率,确定第一联合概率分布和第二联合概率分布。[0070]根据攻击成功的概率和防守成功的概率,确定攻击信道的第一输入变量和输出变量之间的第一联合概率分布,以及防守信道的第二输入变量和输出变量之间的第二联合概率分布。[0071]在攻守双方足够长时间对抗之后,可以得到第一输入变量、第二输入变量的概率分布和联合概率分布如下:[0072]ps(攻击成功)=ps(x=1)=p[0073]ps(攻击失败)=ps(x=0)=1-p[0074]ps(防守成功)=ps(y=1)=q[0075]ps(防守失败)=ps(y=0)=1-q[0076]ps(攻击成功、防守成功)=ps(x=1,y=1)=a[0077]ps(攻击成功,防守失败)=ps(x=1,y=0)=b[0078]ps(攻击失败,防守成功)=ps(x=0,y=1)=c[0079]ps(攻击失败,防守失败)=ps(x=0,y=0)=d[0080]需要说明的是,上述a+b+c+d=1。[0081]对于攻击侧来说,攻击信道的2*2阶转移概率矩阵为:a=[a(x,z)]=[ps(z|x)](x,z=0或1),则有:[0082][0083][0084][0085][0086]因此,由第一输入变量,输出变量构成的攻击信道的转移矩阵为:[0087][0088]那么,攻击信道的第一输入变量和输出变量之间的第一联合概率分布(x,z)为:[0089]ps(x=0,z=0)=ps(x=0,y=0)=d[0090]ps(x=0,z=1)=ps(x=0,y=1)=c[0091]ps(x=1,z=0)=ps(x=1,y=1)=a[0092]ps(x=1,z=1)=ps(x=1,y=0)=b[0093]对于防守侧来说,防守信道的2*2阶转移概率矩阵为:b=[b(y,z)]=[ps(z|y)](y,z=0或1)则有:[0094][0095][0096][0097][0098]因此,由第二输入变量,输出变量构成的防守信道的转移矩阵为:[0099][0100]那么,防守信道的第二输入变量和输出变量之间的第二联合概率分布(y,z)为:[0101]ps(y=0,z=0)=ps(x=0,y=0)=d[0102]ps(y=0,z=1)=ps(x=1,y=0)=b[0103]ps(y=1,z=0)=ps(x=1,y=1)=a[0104]ps(y=1,z=1)=ps(x=0,y=1)=c[0105]步骤202、根据第一联合概率分布和第二联合概率分布,确定第一互信息和第二互信息。[0106]根据第一联合概率分布和第二联合概率分布,分别确定第一输入变量和输出变量之间的第一互信息,第二输入变量和输出变量之间的第二互信息。[0107]对于攻击侧来说,根据上述第一联合概率分布,得到第一输入变量和输出变量之间的第一互信息为:[0108][0109]对于防守侧来说,根据上述第二联合概率分布,得到第二输入变量和输出变量之间的第二互信息为:[0110][0111]步骤203、根据第一互信息和第二互信息,确定攻击能力和防守能力。[0112]最后,可选的,根据攻击侧的第一互信息,确定攻击侧的第一信道容量,进而由第一信道容量确定攻击侧的攻击能力。根据防守侧的第二互信息,确定防守侧的第二信道容量,进而由第二信道容量确定防守侧的防守能力。[0113]对于攻击侧来说,第一信道容量为第一互信息的最大值。即:[0114]第一信道容量c=imax(x,z),由上式可确定攻击侧的攻击能力。[0115]对于防守侧来说,第二信道容量为第二互信息的最大值。即:[0116]第二信道容量f=imax(y,z),由上式可确定防守侧的防守能力。[0117]本实施例中,在确定攻击能力和防守能力时,还可以由攻击侧第一互信息的平均值确定攻击能力;由防守侧的第二互信息的平均值确定防守能力。[0118]本技术另一个实施例中,给出了确定可选模型参数,并从可选模型参数中确定目标模型参数的具体方法。[0119]从以上实施例中,可以知道,c为攻击信道的第一信道容量,即攻击侧的攻击能力;f为防守信道的第二信道容量,即防守侧的防守能力。当c<f时,攻击能力小于防守能力;当c>f时,攻击能力大于防守能力;当c=f时,攻击能力与防守能力相当。[0120]在一个具体的去标识化模型中,以上实施例中的p、q、a、b、c、d的值,都可以由去标识化模型的模型参数确定。因此,当去标识化模型的模型参数确定时,就能计算在当前模型参数下攻击侧的攻击能力、防守侧的防守能力。[0121]那么,使防守能力大于攻击能力的模型参数,可以实现去标识化模型的有效去标识化,安全性较高,可作为可选模型参数。[0122]考虑到对去标识化模型中数据真实性的保护,在多个可选模型参数中,数值最小的一个可作为本实施例的目标模型参数。以使得去标识化模型中等价组的大小尽量小,那么在对等价组中的数据进行去标识化处理时,如对等价组中的数据进行泛化处理时,其泛化范围就相应缩小,从而最大程度保护数据的真实性和可用性。[0123]当然,在确定目标模型参数时,还可以根据实际需求,将可选模型参数中较大的一个作为目标模型参数,以保证防守能力远远大于攻击能力,最大程度保护去标识化后的数据的安全性。[0124]本实施例中,确定使防守能力大于攻击能力的模型参数为可选模型参数,保证了去标识化模型可以完成目标数据的有效去标识化,提高抵御重标识攻击的能力。同时,将可选模型参数中最小的一个作为目标模型参数,使等价组的大小尽量小,在对等价组中的数据进行去标识化处理时,可以最大限度保证数据的真实性。[0125]本技术另一个实施例中,给出了利用本技术的信息去标识化方法,实现信息去标识化的具体实现过程。[0126]本实施例以k-匿名模型为例,给出一个具体的实现过程。[0127]对于一个等价组中的每一个数据来说,重标识的概率,即攻击侧攻击成功的概率等于1除以其等价组的大小。由于在k-匿名模型中,模型参数k代表其等价组的大小,因此,攻击成功概率=1/k。模型参数k越大,其等价组的大小越大,相应的,攻击侧攻击成功的概率越小。[0128]本实施例中,k1为攻击侧的第一模型参数,k2为防守侧的第二模型参数。对于k-匿名模型,各个事件概率如下:[0129]ps(攻击成功)=ps(x=1)=1/k1[0130]ps(攻击失败)=ps(x=0)=1-1/k1[0131]ps(防守成功)=ps(y=1)=1-1/k2[0132]ps(防守失败)=ps(y=0)=1/k2[0133]ps(攻击成功、防守成功)=ps(x=1,y=1)=1/k1(1-1/k2)=a[0134]ps(攻击成功,防守失败)=ps(x=1,y=0)=1/k1k2=b[0135]ps(攻击失败,防守成功)=ps(x=0,y=1)=(1-1/k1)(1-1/k2)=c[0136]ps(攻击失败,防守失败)=ps(x=0,y=0)=1/k2(1-1/k1)=d[0137]构建一个随机变量z,作为输出变量,将攻击侧的攻击事件作为第一输入变量,与输出变量模拟形成攻击信道。将防守侧的防守事件作为第二输入变量,与输出变量模拟形成防守信道。[0138]其中,构建随机变量z时,应使z满足如下表1中的条件:[0139]表1[0140]xyz011000110101[0141]即,事件{z=0,x=0}或事件{z=1,x=1}发生时,认为攻击信道中信息通信成功,此时防守侧防守失败,第二输入变量y=0。事件发生{z=0,y=0}或事件{z=1,y=1}发生时,认为防守信道中信息通信成功,此时攻击侧攻击失败,第一输入变量x=0。[0142]在本实施例中,在构建随机变量z时,z=(x+y)mod2,即将第一输入变量x的取值与第二输入变量y的取值相加,得到的和与2进行取余运算,得到随机变量z。此时,随机变量z满足表1中的条件。[0143]对于攻击信道来说,其转移矩阵为:[0144][0145]攻击信道的第一输入变量和输出变量之间的第一联合概率分布(x,z)为:[0146]ps(x=0,z=0)=ps(x=0,y=0)=d[0147]ps(x=0,z=1)=ps(x=0,y=1)=c[0148]ps(x=1,z=0)=ps(x=1,y=1)=a[0149]ps(x=1,z=1)=ps(x=1,y=0)=b[0150]所以,第一输入变量与输出变量之间的第一互信息为:[0151][0152]对于防守信道来说,其转移矩阵为:[0153][0154]防守信道的第二输入变量和输出变量之间的第二联合概率分布(y,z)为:[0155]ps(y=0,z=0)=ps(x=0,y=0)=d[0156]ps(y=0,z=1)=ps(x=1,y=0)=b[0157]ps(y=1,z=0)=ps(x=1,y=1)=a[0158]ps(y=1,z=1)=ps(x=0,y=1)=c[0159]所以,第二输入变量与输出变量之间的第二互信息为:[0160][0161]第一互信息和第二互信息分别代表攻击能力和防守能力,在一个实际过程中,攻击能力和防守能力都由k-匿名模型的模型参数k的取值决定。[0162]图3为本技术信息去标识化方法中攻击信道的平均互信息量变化曲线图。[0163]如图3所示,对于攻击侧来说,其攻击能力由防守侧的第二模型参数k2值决定,即,在攻击侧的第一模型参数k1取值确定的情况下,其攻击能力随防守侧的第二模型参数k2值的变化而变化。[0164]图4为本技术信息去标识化方法中防守信道的平均互信息量变化曲线图。[0165]如图4所示,对于防守侧来说,其防守能力由攻击侧的第一模型参数k1值决定,即,在防守侧的第二模型参数k2取值确定的情况下,其防守能力随攻击侧的第一模型桉树k1值的变化而变化。[0166]因此,当攻击侧的第一模型参数k1值与防守侧的第二模型参数k2值相同时,可以结合攻击侧攻击能力的变化曲线和防守侧防守能力的变化曲线,确定使防守能力大于攻击能力的模型参数为可选模型参数。[0167]图5为本技术信息去标识化方法中攻击能力和防守能力的结合曲线图。[0168]如图5所示,两条曲线分别为,当第二模型参数k2=50时,攻击侧第一互信息的变化曲线,即攻击能力变化曲线;以及当第一模型参数k1=50时,防守侧第二互信息的变化曲线,即防守能力变化曲线。[0169]由图5可知,在本示例中,当模型参数取值为8时,攻击能力和防守能力相当。因此,将大于8的模型参数作为可选模型参数。此时,防守能力大于攻击能力。[0170]本实施例中,为最大程度保证去标识化后数据的真实性,将可选模型参数中最小的一个作为目标模型参数,即将9作为目标模型参数。[0171]当k-匿名模型的模型参数取值为9时,其等价组的大小为9,即对于每个数据属性,一个等价组中至少要包含9条记录。因此,根据等价组的大小,将每个数据属性中相同或相近的至少9个数据作为一组,对数据进行分组。[0172]分组完成之后,对于每个等价组中的各个数据属性所对应的数据,对其进行去标识化处理,具体的处理方式可以包括:屏蔽、泛化、删除等,得到去标识化的目标数据。[0173]图6为本技术信息去标识化装置一个实施例的结构示意图,本实施例中的信息去标识化装置可以作为信息去标识化设备实现本技术实施例提供的信息去标识化方法。如图6所示,上述信息去标识化装置可以包括:确定模块51、模型建立模块52、去标识模块53。[0174]确定模型51,用于根据第一模型参数确定攻击侧攻击成功的概率,根据第二模型参数确定防守侧防守成功的概率;根据攻击成功的概率和防守成功的概率,确定攻击侧的攻击能力和防守侧的防守能力;确定使防守能力大于攻击能力的可选模型参数,从可选模型参数中确定目标模型参数。[0175]在具体实现时,攻击侧的第一输入变量和输出变量之间模拟形成攻击信道,防守侧的第二输入变量和输出变量之间模拟形成防守信道。[0176]确定模块51根据攻击成功的概率和防守成功的概率,确定攻击信道的第一输入变量和输出变量之间的第一联合概率分布,进而确定第一输入变量和输出变量之间的第一互信息,基于第一互信息确定第一信道容量。根据攻击成功的概率和防守成功的概率,确定防守信道的第二输入变量和输出变量之间的第二联合概率分布,进而确定第二输入变量和输出变量之间的第二互信息,基于第二互信息确定第二信道容量。第一互信息和第二互信息分别代表攻击侧的攻击能力和防守侧的防守能力。[0177]确定模块51,还用于将使防守能力大于攻击能力的模型参数确定为可选模型参数,从可选模型参数中确定目标模型参数。[0178]模型建立模块52,用于根据目标模型参数,建立去标识化模型。[0179]具体的,模型建立模块52根据目标模型参数,确定去标识化模型中等价组的大小,建立去标识化模型。[0180]去标识模块53,用于利用去标识化模型对目标数据进行去标识化。具体用于,根据去标识化模型中等价组的大小,对目标数据进行分组。根据分组结果,对每组数据中各属性所对应的数据进行去标识化处理,得到去标识化的目标数据。[0181]上述信息去标识化装置中,确定模块51根据攻击侧攻击成功的概率和防守侧防守成功的概率,确定攻击信道的第一输入变量和输出变量之间的互信息,进而得到攻击侧的攻击能力;根据根据攻击侧攻击成功的概率和防守侧防守成功的概率,确定防守信道的第二输入变量和输出变量之间的互信息,进而得到防守侧的防守能力。将使防守能力大于攻击能力的模型参数作为可选模型参数,从可选模型参数中确定目标模型参数。模型建立模块52根据确定模块确定的目标模型参数进行去标识化模型的建立,由去标识模块53根据得到的去标识化模型,对目标数据进行去标识化处理。一方面,由于防守能力大于攻击能力,因而可以保证去标识化后的数据的安全性,降低了重标识风险;另一方面,在保证安全性的基础上,使去标识化模型的等价组尽可能小,可最大程度保证数据的真实性和可用性。[0182]图7为本技术电子设备一个实施例的结构示意图,如图7所示,上述电子设备可以包括至少一个处理器;以及与上述处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,上述处理器调用上述程序指令能够执行本技术实施例提供的信息去标识化方法。[0183]其中,上述电子设备可以为信息去标识化设备,本实施例对上述电子设备的具体形态不作限定。[0184]图7示出了适于用来实现本技术实施方式的示例性电子设备的框图。图7显示的电子设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。[0185]如图7所示,电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器410,存储器430,连接不同系统组件(包括存储器430和处理单元410)的通信总线440。[0186]通信总线440表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industrystandardarchitecture;以下简称:isa)总线,微通道体系结构(microchannelarchitecture;以下简称:mac)总线,增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation;以下简称:vesa)局域总线以及外围组件互连(peripheralcomponentinterconnection;以下简称:pci)总线。[0187]电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。[0188]存储器430可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(randomaccessmemory;以下简称:ram)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(compactdiscreadonlymemory;以下简称:cd-rom)、数字多功能只读光盘(digitalvideodiscreadonlymemory;以下简称:dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与通信总线440相连。存储器430可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本技术各实施例的功能。[0189]具有一组(至少一个)程序模块的程序/实用工具,可以存储在存储器430中,这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本技术所描述的实施例中的功能和/或方法。[0190]电子设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过通信接口420进行。并且,电子设备还可以通过网络适配器(图7中未示出)与一个或者多个网络(例如局域网(localareanetwork;以下简称:lan),广域网(wideareanetwork;以下简称:wan)和/或公共网络,例如因特网)通信,上述网络适配器可以通过通信总线440与电子设备的其它模块通信。应当明白,尽管图7中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(redundantarraysofindependentdrives;以下简称:raid)系统、磁带驱动器以及数据备份存储系统等。[0191]处理器410通过运行存储在存储器430中的程序,从而执行各种功能应用以及数据处理,例如实现本技术实施例提供的信息去标识化方法。[0192]本技术实施例还提供一种非临时性计算机可读存储介质,上述非暂态计算机可读存储介质存储计算机指令,上述计算机指令使上述计算机执行本技术实施例提供的信息去标识化方法。[0193]上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(readonlymemory;以下简称:rom)、可擦式可编程只读存储器(erasableprogrammablereadonlymemory;以下简称:eprom)或闪存、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。[0194]在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。[0195]此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。[0196]流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属
技术领域
:的技术人员所理解。[0197]需要说明的是,本技术实施例中所涉及的终端可以包括但不限于个人计算机(personalcomputer;以下简称:pc)、个人数字助理(personaldigitalassistant;以下简称:pda)、无线手持设备、平板电脑(tabletcomputer)、手机、mp3播放器、mp4播放器等。[0198]在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。[0199]另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。[0200]以上所述仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术保护的范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1