一种匿名数据攻击风险检测与评估方法

文档序号:29737118发布日期:2022-04-21 17:51阅读:319来源:国知局
一种匿名数据攻击风险检测与评估方法

1.本发明属于数据安全评估领域,特别是涉及一种匿名数据攻击风险检测与评估方法。


背景技术:

2.隐私数据的去标识化(deidentification)技术是实现数据脱敏的重要手段,包括各种抑制技术、泛化技术、随机化技术等,通过去除数据集中隐私属性和数据主题直接的关联关系,能够有效预防隐私推理攻击及各种联合多敏属性推理攻击(如链接攻击、同性质攻击、背景知识攻击、近似攻击等)。其中k-匿名模型及差分隐私模型就是去标识化技术中的典型脱敏技术,可以避免由于数据加密产生的密文数据的杂乱无序,从而在保证隐私数据安全性(privacy protection)的同时提高数据的可用性(data utilization),对敏感数据通过替换、失真等变换降低数据的敏感度,同时保留一定的可用性、统计性特征。
3.在隐私数据脱敏处理中,隐私推理攻击和联合多敏感属性推理攻击,如链接攻击,同性质攻击,背景知识攻击,近似攻击以及统计攻击等是较为常见的攻击技术。目前已有不少脱敏数据重识别风险评估相关的工作,但对数据脱敏算法的评估及检测方面的工作非常少。
4.现有的方法为多是据匿名数据的数量、被抑制数据的数量、匿名化程度以及待评估数据的l-多样性、t-相似性及hipaa标识符,对评估数据集进行记录数目、最大风险、平均风险进行分析;从而进一步对匿名数据隐私泄露风险进行评估。现有的数据脱敏方法为:数据脱敏系统的链接地址、数据源地址、分析符合的敏感字段数据与所述数据操作,形成ast语法树并进行脱敏处理,最终输出脱敏数据。
5.但是现有的方法在目前的数据隐私保护中具有很大的局限性,仅对身份识别信息进行脱敏,而对其他信息没有进行相应的脱敏,因此,脱敏结果容易受链接攻击、背景知识攻击等方法攻击,从而造成隐私信息泄露,因此并未真正体现匿名数据的重识别风险;而现有的自动脱敏方法仅采用“字段”脱敏方法,因此不能有效抵御背景知识攻击,脱敏结果也不能真正意义上保证数据隐私。


技术实现要素:

6.本发明的目的是提供一种匿名数据攻击风险检测与评估方法,以解决上述现有技术存在的问题。
7.一方面为实现上述目的,本发明提供了一种匿名数据攻击风险检测与评估方法,包括:
8.获取已脱敏数据,并对所述已脱敏数据进行重识别风险评估和常用攻击风险评估,获得风险值;
9.若所述风险值大于设定的风险阈值,则需重新调整脱敏参数再次评估,若合格则无需调整脱敏参数。
10.可选的,获取已脱敏数据之前,所述方法还包括:
11.采用混淆、置换、k-匿名、l-多样性或差分隐私法中的一种或多种方法对数据进行脱敏处理。
12.可选的,对所述已脱敏数据进行重识别风险评估和常用攻击风险评估,获得风险值的过程中,通过决策树对风险进行综合评估。
13.可选的,所述重识别风险评估包括检察官攻击、记者攻击和营销者攻击。
14.可选的,所述常用攻击风险评估包括:链接攻击、同性质攻击、背景知识攻击、近似攻击、偏态攻击和差分攻击。
15.可选的,对所述检察官攻击进行重识别的过程中包括:计算检察官攻击重识别概率大于阈值的比例、检察官攻击的最大重识别概率和检察官攻击平均重识别概率;
16.其中,采用公式(1)计算检察官攻击重识别概率大于阈值的比例:
[0017][0018]
pra表示匿名数据集中重识别概率大于阈值τ的记录数量占总数据的比例,在k-匿名或l-多样性匿名处理中,如果每个等价类中记录的数量则控制pra=0,n代表数据集中记录的数量,j表示数据集中等价组的集合,fj代表数据集中,等价组为j∈j中的数据数量,i(
·
)代表真为1,否则为0;
[0019]
采用公式(2)计算检察官攻击的最大重识别概率:
[0020][0021]
prb表示所有等价组的最大的重识别概率;
[0022]
采用公式(3)计算检察官攻击平均重识别概率:
[0023][0024]
prc表示平均重识别概率,|j|代表等价组的数量。
[0025]
可选的,对所述记者攻击进行重识别的过程中包括:计算记者攻击重识别概率大于阈值的比例、记者攻击的最大重识别概率和记者攻击平均重识别概率;
[0026]
其中,采用公式(1)计算记者攻击重识别概率大于阈值的比例:
[0027][0028]
jra表示重识别概率大于τ的数据集记录占总体的比例,fj代表身份数据集中,等价组为j∈j的数据数量;
[0029]
采用公式(5)计算记者攻击的最大重识别概率:
[0030]
[0031]
jrb表示数据集中所有记录的最大重识别概率;
[0032]
采用公式(6)计算记者攻击平均重识别概率:
[0033][0034]
jrc表示平均重识别率。
[0035]
可选的,对所述营销者攻击进行重识别的过程中包括:计算第一营销者平均重识别概率和第二营销者平均重识别概率;
[0036]
其中,采用公式(7)计算第一营销者平均重识别概率:
[0037][0038]
mr1表示识别数据集与匿名数据集的主体相同情况下的平均重识别概率,mr1的值一般适用于n=n的情况,n代表身份数据集记录数量;
[0039]
采用公式(8)计算第二营销者平均重识别概率:
[0040][0041]
mr2表示匿名数据集是识别数据集的一部分的情况下,来计算将匿名数据匹配到识别数据的平均重识别概率。
[0042]
可选的,重识别风险评估结果通过折线图的方式进行可视化。
[0043]
本发明的技术效果为:
[0044]
本发明采用基于决策树的脱敏效果对相应的脱敏技术进行评估。对于结构化数据的脱敏,如数值类型数据、日期、等脱敏后仍然具有较高的重标识风险,尤其是检察官攻击发生的风险等级较高。基于评估结果,通过重新调整脱敏参数并重新进行脱敏处理后,能够有效降低平均重标识风险。
附图说明
[0045]
构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
[0046]
图1为本发明实施例中的风险评估系统结构示意图;
[0047]
图2为本发明实施例中的脱敏数据预处理流程图;
[0048]
图3为本发明实施例中的检察官攻击风险检测流程图;
[0049]
图4为本发明实施例中的营销者攻击风险检测流程图;
[0050]
图5为本发明实施例中的记者攻击风险风险监测流程图;
[0051]
图6为本发明实施例中的重识别攻击风险折线图。
具体实施方式
[0052]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相
互组合。下面将参考附图并结合实施例来详细说明本技术。
[0053]
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0054]
如图1所示,本实施例中提供一种匿名数据攻击风险检测与评估方法,包括:
[0055]
首先本发明主要针对发布的数据集的重标识攻击风险分析,通过对潜在的攻击方式进行建模,并针对特定脱敏算法、数据类型的重标识攻击风险进行检测、评估。本发明主要目的是检测及评估匿名数据集(已脱敏数据)在不同攻击下的攻击风险。主要包括检察官攻击,记者攻击以及营销者攻击。匿名数据集的攻击风险,可作为评估匿名数据方法的因素之一。本发明以折线图的形式展示通过不同匿名参数产生的匿名数据集的攻击风险比较。
[0056]
本发明计算攻击风险理论主要基于de-identification理论,计算匿名数据集在对重识别攻击风险概率,尤其是对如下三种重攻击风险进行评估:1)检察官攻击、2)记者攻击、3)营销者攻击下的攻击风险。
[0057]
脱敏数据预处理流程图如图2所示,另外,对于常用脱敏技术处理的脱敏数据的攻击风险也进行详细的分析及评估,主要包括如下六类:
[0058]
1)链接攻击(linkage attack),针对结果脱敏处理的数据表,通过准将脱敏数据与其他获得的数据集通过准标识符进行链接查询后,就有可能获得对应人的敏感信息,从而实施攻击。
[0059]
2)同性质攻击homogeneity attack(一致性攻击),主要针对基于k-匿名方法进行脱敏的数据。在某个k-匿名组内对应的敏感属性值完全相同,那么该k-匿名组内所有对象均具有同样的敏感属性。l-多样性模型可解决此问题,因为l-多样性模型中要求每个等价类中都有l种不同的敏感属性,即使得知某记录满足某等价类的准标识符要求,由于等价类中敏感属性不同,所以无法推测出该条记录的敏感信息。
[0060]
3)背景知识攻击(background knowledge attack),依据攻击者已有的背景知识,进行推测。即使k-匿名组内的敏感属性值并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息。
[0061]
4)近似攻击(similarity attack),l-多样性未考虑敏感属性的语义。如果某一等价类中,敏感属性的值都是近似的,攻击者就能获取额外信息。
[0062]
5)偏态攻击(skewness attack),l-多样性每组中的敏感信息分布情况可能与整体数据的分布情况不同,泄露隐私的概率会变大。
[0063]
6)差分攻击(differential attack),差分隐私算法通过在数据中加入随机性,可以使得对于差别只有一条数据的两个数据集,攻击者查询所得到的结果相同的概率非常大。从而无法进行差分攻击。
[0064]
通过对以上攻击风险、指标进行综合分析,能够有效地评估脱敏数据所的潜在风险,并与可接受的风险阀值进行比较。如果脱敏数据被攻击分析低于阀值,则无需进一步处理;但如果脱敏数据的被攻击风险高于阀值,则需要进一步指导数据控制者(data controller)对数据进行再脱敏处理,主要通过风险源调整选择合适的脱敏技术及调整相关参数以降低风险。
[0065]
本技术方案中的相关符号如表1所示。
[0066]
表1
[0067]
n数据集中记录的数量j数据集中,等价组的集合(比如k-匿名组,l-等价类)|j|等价组的数量fj数据集中,等价组为j∈j中的数据数量τ阈值i(
·
)真为1,否则为0n身份数据集记录数量fj身份数据集中,等价组为j∈j的数据数量
[0068]
针对已脱敏数据,基于不同目的攻击者可以通过实施重标识攻击,从而造成窃取隐私。对于重新识别身份攻击风险,可以通过多个指标和模型进行评估,本系发明计算攻击风险理论主要基于de-identification理论,计算匿名数据集在对重识别攻击风险概率,采用如下三种重识别攻击风险评估:
[0069]
1)检察官攻击。检察官攻击风险检测流程图如图3所示,检察官攻击是指攻击者已知某个特定人员在公开数据集中,并且已知目标的一些信息,攻击者目的是重新识别此人员。
[0070][0071]
其中pra表示匿名数据集(df)中重识别概率大于阈值τ的记录数量占总数据的比例。在k-匿名(l-多样性)匿名处理中,如果每个等价类中记录的数量则可以控制pra=0。
[0072][0073]
其中prb表示所有等价组的最大的重识别概率,即最小等价类的数量倒数。
[0074][0075]
其中prc表示平均重识别概率。
[0076]
2)重识别记者攻击。记者攻击风险风险监测流程图如图5所示,记者攻击是指攻击者已知一个较大的识别数据库,并且匿名数据库是识别数据库的一个样本产生的。
[0077][0078]
其中jra表示重识别概率大于τ的数据集记录占总体的比例。
[0079][0080]
其中jrb表示数据集中所有记录的最大重识别概率
[0081][0082]
其中jrc表示平均重识别率。
[0083]
3)重识别营销者攻击。营销者攻击风险检测流程图如图4所示,营销者攻击是指攻击者拥有一个识别数据集,其目的是尽可能还原出公开数据的身份。
[0084][0085]
其中mr1表示识别数据集与匿名数据集的主体相同情况下的平均重识别概率,mr1的值一般适用于n=n的情况(即攻击者已知识别数据库和匿名数据库大小相同,想要匹配两个数据集)
[0086][0087]
其中mr2表示匿名数据集是识别数据集的一部分的情况下,来计算将匿名数据匹配到识别数据的平均重识别概率。
[0088]
针对常用的数据脱敏技术(如混淆、置换、k-匿名、l-多样性、差分隐私等),本发明分别进行如下重识别风险分析:
[0089]
1)链接攻击(linkage attack),针对结果脱敏处理的数据表,通过准将脱敏数据与其他获得的背景知识数据集通过准标识符进行链接查询后,就有可能获得对应人的敏感信息,从而实施攻击。
[0090]
2)同性质攻击(homogeneity attack),也称“一致性攻击”,主要针对基于k-匿名方法进行脱敏的数据。在某个k-匿名组内对应的敏感属性值完全相同,那么该k-匿名组内所有对象均具有同样的敏感属性。l-多样性模型可解决此问题,因为l-多样性模型中要求每个等价类中都有l种不同的敏感属性,即使得知某记录满足某等价类的准标识符要求,由于等价类中敏感属性不同,所以无法推测出该条记录的敏感信息。
[0091]
3)背景知识攻击(background knowledge attack),依据攻击者已有的背景知识,进行推测。即使k-匿名组内的敏感属性值并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息。
[0092]
4)近似攻击(similarity attack),主要针对l-多样性脱敏技术未考虑敏感属性的语义的缺点。如果某一等价类中,敏感属性的值都是近似的,攻击者就能获取额外信息。
[0093]
5)偏态攻击(skewness attack),针对l-多样性每组中的敏感信息分布情况可能与整体数据的分布情况不同,泄露隐私的概率会变大。
[0094]
6)差分攻击(differential attack),差分隐私算法通过在数据中加入随机性,可以使得对于差别只有一条数据的两个数据集,攻击者查询所得到的结果相同的概率非常大,从而无法进行差分攻击。
[0095]
评估经过不同数据脱敏方法的匿名数据集在不同攻击下(主要包括检察官攻击、记者攻击以及营销者攻击)的攻击风险,最后通过决策树进行风险评级。本发明采用如下5
步骤重识别风险分析方法进行评估:
[0096]
1)确定归一化的可接受的重识别风险阀值,并基于该阀值对数据脱敏技术给出指导参数;
[0097]
2)导入源数据,
[0098]
3)计算实际重识别风险;
[0099]
4)比较实际重识别风险与阀值;
[0100]
5)如果计算的重识别风险在可接受的范围,则说明该脱敏算法及效果参数无需调整;如实际重识别风险过高,则需要调整参数并重新执行脱敏过程;
[0101]
6)输出脱敏数据,并出具相关报告。
[0102]
重识别风险评估结果可通过折线图等方法对结果进行可视化,。
[0103]
基于上述评估指标,本发明采用基于决策树的脱敏效果对相应的脱敏技术进行评估。对于结构化数据的脱敏,如数值类型数据、日期、等脱敏后仍然具有较高的重标识风险,尤其是检察官攻击发生的风险等级较高。基于评估结果,通过重新调整脱敏参数并重新进行脱敏处理后,能够有效降低平均重标识风险。针对具体的攻击风险可以通过上述方法进行计算。如图6所示,当k取较大值(k=25)时,其检察官攻击风险、记者攻击风险、以及营销者攻击风险均要较k值取值较小(k=10)时要小的多。
[0104]
对攻击方式5-9,其计算过程比较复杂,需要综合考虑多种因素,如同一数据集中个体的特殊性、脱敏算法、链接数据的可得性(availability),重识别攻击的范围等,攻击方式5-9包括同性质攻击、背景知识攻击和近似攻击。其具体攻击风险分析如表2所示。另外,本发明考虑两种风险:(1)所有主体的重识别风险;(2)1-k个个体的重识别风险。
[0105]
表2
[0106][0107]
总体而言,脱敏强度越强,重标识风险越低。
[0108]
以上所述,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围
为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1