一种改进的k-匿名中准标识符求解方法

文档序号:6629290阅读:873来源:国知局
一种改进的k-匿名中准标识符求解方法
【专利摘要】本发明涉及一种改进的k-匿名中准标识符求解方法,属于信息安全中的隐私保护【技术领域】,该方法包括以下步骤:首先将数据表集转化为超图二分图,然后利用图的两点间通路求解方法计算二分结点集中两点之间的所有通路,最后输出所有通路。本发明方法有效解决了QUASI_IDENTIFIER方法在相关数据表求解过程中因为Paths方法产生的效率问题,使Paths方法的时间复杂度O(V4)降为本发明方法的O(V3)。
【专利说明】-种改进的k-匿名中准标识符求解方法

【技术领域】
[0001] 本发明涉及一种准标识符求解方法,特别涉及一种改进的k-匿名中准标识符的 求解方法,属于信息安全中的隐私保护【技术领域】。

【背景技术】
[0002] 保护发布数据的隐私信息主要采用匿名的方法。为了隐藏元组标识和敏感信息之 间的关系,首先要删除数据表中的显式标识符。但美国卡基梅隆大学的LSweeney指出, 即使所有的显式标识符都已经被删除,数据表中仍有隐私泄漏的隐患。L.Sweeney利用从 不同网站购买到的马萨诸塞州集体保险信息表和选民信息表,通过属性组合{Race,Birth Date,Sex,Zip}进行连接,得到了马萨诸塞州前州长WillianWeld的医疗信息,而这两个 数据表中的任何一个都不会泄漏医疗信息。
[0003] k-匿名方法是一种广泛应用的匿名方法,它能有效防止由连接攻击造成的隐私信 息泄露,并能保证发布数据的完整性和一定的数据效用。其基本思想是将待发布数据表和 已发布的相关数据表进行连接的属性定义为准标识符,并且使得在准标识符上的投影所得 到的具有相同属性值的元组个数至少为k个(k> = 2),从而达到保护敏感信息的目的。由 此可见,准标识符是导致连接攻击的主要因素,而确定k值和准标识符是k-匿名方法的关 键环节。
[0004] 以往k-匿名方法的研究都是在已预先确定准标识符的情况下进行的,研究者根 据个人经验指定准标识符。然而在实际应用中,准确的准标识符对k-匿名方法的有效性具 有重要意义。只有找到准确的准标识符,才能防止通过准标识符连接造成隐私泄露;只有找 到数量恰当的准标识符,才能避免因为过度泛化所带来的发布数据效用低下的问题。
[0005] 目前在k-匿名中准标识符求解问题的研究中,主要应用的方法为最小准标识符 属性求解方法(MaskingQuasiidentifiers)。然而,在对特定数据集的准标识符求解问题 上,Song等人指出,MaskingQuasiidentifiers方法依然存在缺陷,因为该方法没有考虑数 据表的多次发布而引起的多次连接攻击,致使求解结果不准确。由此,Song等人提出了基 于超图的准标识符求解方法QUASI_IDENTIFIER,该方法可以很好的解决准标识符求解特别 是数据表动态发布过程中的准标识符求解问题。然而QUASI_IDENTIFIER方法在使用Paths 方法将超图转化为普通图的过程中仍存在效率问题


【发明内容】

[0006] 本发明针对QUASI_IDENTIFIER方法在相关数据表求解过程中因为Paths方法产 生的效率问题,提出了一种改进的k-匿名中准标识符的求解方法。
[0007] 本发明方法的思想是首先将超图转换为二分图,然后利用图的两点间通路求解方 法计算二分结点集中两点之间的所有通路,最后输出所有通路。该方法虽然增加了转换成 二分图的结点数,但时间复杂度是以多项式的时间增加,相比于Paths方法的指数时间增 长,效率显著提高。
[0008] 本发明是通过下述技术方案实现的:
[0009] 输入:标识符E,敏感属性S,数据表集IT1,IV"TJ;
[0010] 输出:若能从S推测出E,则输出从S到E的序列集合,否则输出空集;
[0011] 一种改进的k-匿名中准标识符的求解方法,包括以下步骤:
[0012] 1)将数据表集IT1JfTJ转化为超图H,将S作为起始点Vs,将E作为结束点Ve ;
[0013] 2)将超图H转化为二分图G〈H>;
[0014] 3)用邻接表A存储超图二分图中顶点集V及V的邻接点;
[0015] 4)用线性表Visited存储二分顶点集中每一个点的访问标记并全部初始化为未 标记;
[0016] 5)将起始点作为Vil;
[0017] 6)标记Vil,若Vil是结束点I,则输出从起始点到结束点的节点序列,然后转到8), 否则进一步判断Vil是否有未标记的邻接节点;
[0018] 7)若Vil有未标记的邻接节点,则将Vil的第一个未标记的邻接节点Vjl作为Vil的 子节点,并将M乍为Vil,转到6);否则,转到8);
[0019] 8)取消对Vil的标记,若Vil有未标记的兄弟节点,则将Vil的第一个未标记兄弟节 点M乍为Vil的父节点的子节点,并将L作为Vil,转到6);否则,进一步判断Vil是否有父 节点;
[0020] 9)若Vil有父节点,则将父节点作为Vil ;
[0021] 10)判断若Vil和Vs是同一个点,则算法结束,否则,转到8)。
[0022] 有益效果
[0023] 在保证准确率的前提下,本发明降低了原有方法的时间复杂度。在二分图中,从 起点到终点搜索过程在最坏情况下要经过每一个点,经过每一点的最坏情况要遍历每一条 边。假设二分图中有V个点,E条边,则方法的时间复杂度为O(VE)。在二分图的点数不变 的前提下,当上下两排点的点数相同时边数最多,此时有E=V2/4,所以方法的时间复杂度 为〇 (V3),优于Paths方法的0 (V4)。

【专利附图】

【附图说明】
[0024] 图1是一个超图示意图。
[0025] 图2是一个二分图示意图。
[0026] 图3是由表3、4、5、6转换成的超图。
[0027] 图4是由图3转成的超图二分图。
[0028] 图5是本发明方法的流程图。
[0029] 图6是以本发明方法以Disease为起始点,以Name为结束点时形成的搜索树。

【具体实施方式】
[0030] 为了说明本发明方法的有效性,首先要介绍一些定义、方法,进行可行性分析,并 通过一些例子来说明这些概念。
[0031] 定义1:敏感信息
[0032] 设R(A)为一关系,其中,R为关系名,A为属性集,有E,SGA且E尹S, T1 (A1),T2 (A2),…,Tn(An)为基于R的已发布数据表。如果从保密角度考虑,允许EGAi,SGAj(l彡i,j彡n八i关j),但不允许E,SGAk(l彡k彡n),则称TIE,SR为数据 发布过程中的敏感信息,记为F(E,S),称F(E,S)中的元组为敏感信息元组,其中,E为标识 符,S为敏感属性。
[0033]例1表1原始数据表

【权利要求】
1. 一种改进的k-匿名中准标识符的求解方法,其特征在于,包括以下步骤: 1) 将数据表集IT1, T2··· TJ转化为超图H,将S作为起始点Vs,将E作为结束点Ve ; 其中Ti为第i个数据表,I < i < n ;S为敏感属性,E为标识符; 2) 将超图H转化为二分图G〈H> ; 3) 用邻接表A存储超图二分图中顶点集V及V的邻接点; 4) 用线性表Visited存储二分顶点集中每一个点的访问标记并全部初始化为未标记; 5) 将起始点Vs作为Vil ; 6) 标记Vil,若Vil是结束点I,则输出从起始点到结束点的节点序列,然后转到8),否 则进一步判断V il是否有未标记的邻接节点; 7) 若Vil有未标记的邻接节点,则将Vil的第一个未标记的邻接节点L作为Vil的子节 点,并将M乍为V il,转到6);否则,转到8); 8) 取消对Vil的标记,若Vil有未标记的兄弟节点,则将Vil的第一个未标记兄弟节点V jI 作为Vil的父节点的子节点,并将Vp作为Vil,转到6);否则,判断Vil是否有父节点; 9) 若Vil有父节点,则将父节点作为Vil ; 10) 判断若Vil和Vs是同一个点,则算法结束,否则,转到8)。
【文档编号】G06F21/60GK104318167SQ201410522379
【公开日】2015年1月28日 申请日期:2014年10月7日 优先权日:2014年10月7日
【发明者】金福生, 胡晓炜, 颜震, 李松, 韩翔宇 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1