将数据匿名化的方法和系统的制作方法

文档序号:8412811阅读:940来源:国知局
将数据匿名化的方法和系统的制作方法
【技术领域】
[0001]本公开一般涉及数据匿名化,并且更特别地涉及具有关系和序列数据部分的数据的匿名化,所述序列数据部分可能是序列的序列。
【背景技术】
[0002]近年来,人们一直在见证着数据爆炸:当今数据的90%仅在过去两年中就已经产生,其中当今可用的信息量可以泽字节的数量级估测。这些数据来自所部署的传感器、社交网站、移动电话应用、呼叫详细记录、电子病历(EMR)系统、电子商务站点等。
[0003]分析该丰富且大量的数据为公司的不同商业部门的增长提供了显著的机会,例如,除了许多其他的以外,包括医疗保健、电信、银行业务以及更智能的城市管理。然而,这些数据集的大部分是专有的、并且许多包含个人和/或商业敏感信息。敏感数据的示例包括患者记录、特殊房屋信息、税务记录、客户购买记录、移动呼叫详细记录(CDR)等。这样的数据集的非常敏感的性质禁止它们出于分析和/或其他目的而被外包,除非适当地利用隐私增强技术来提供足够的保护。
[0004]在当今可用的隐私增强技术当中,隐私保护数据公布领域的目标在于在记录层面保护隐私。该领域包括这样的技术,其按照关于个体的敏感信息得到保护,同时数据保持有用于支持期望的目的的方式变换并随后公布个人特定数据。该领域中的方法可以被分类为扰动的(诸如数据屏蔽、噪声添加、微聚合、数据交换和舍入)和非扰动的(诸如数据抑制和数据泛化)。扰动方法使原始数据值失真并从而未能维持数据真实性。此外,已经证明扰动方法通常导致低数据效用;因此,通常偏向于非扰动方法。这些非扰动方法通过按照在记录(个体)层面维持数据真实性的方式改变在净化数据集中报告数据值的粒度来工作。在非扰动方法当中,由于数据泛化会导致更高效用的数据集,因此数据泛化通常优先于抑制。
[0005]用于隐私保护数据公布的最流行的非扰动模型是k_匿名化。该模型要求至少k个记录在一组被称为准标识符的潜在标识属性上具有相同的值,其中每个记录对应于发布表中的个体。不同于可以孤立地用于重新识别个体的直接(或明确)标识符(诸如名称、社会保险号、信用卡号码等),准标识符表面上看是无害属性(例如,邮政编码、性别、出生日期等),其在被组合使用时可以导致身份批露。k-匿名化通过保证攻击者不能以Ι/k以上的概率重新识别所发布的数据集中的个体来对抗身份批露攻击,其中k为所有者指定的参数。最初被提出用于关系数据的k-匿名化模型在这以后已经适应于各种数据,包括集值数据、移动性、纵向和时间序列数据、数据流、社交图和文本数据,并且已经在若干真实世界系统中被实现。
[0006]尽管已经提出用于保护不同数据类型的许多k_匿名化方法,但是所有现有解决方案都是为特定种类的数据提供保护,例如为关系数据表或为交易(集值)数据或为社交图或为时间数据等提供保护。
[0007]尽管提供这样的用于将个体的记录匿名化的单一方法是高度合乎期望的,但是这样的方法是有挑战性的:其不仅孤立地考虑一种特定种类的数据,而且保护数据集,在该数据集中,记录包括两种不同种类的数据:关系部分和交易(集值)部分。例如,假设存在具有横跨这两种数据的知识的攻击者,即,他们可以知道个体的某些关系属性值对(例如,一些人口统计资料)以及集值属性的一些项目(例如,该个体已经购买的一组产品)。在该上下文中,把由两种不同种类的数据组成的个体记录匿名化是非常具有挑战性的任务,特别是因为:
[0008]I)单独地匿名化每种数据(例如,通过使用与该种数据相关的现有k_匿名化技术)不能向个体提供针对具有横跨两种(或更多种)数据的知识的攻击者的隐私保护。
[0009]2)以最小彳目息损失构造最佳解决方案是NP困难问题。
[0010]3)流行的多目标优化策略(诸如词典方法、传统加权公式或帕累托最优方法)不适用于这些问题。实际上,在一种数据上采用的良好匿名化决定可能被证明为对另一种数据是灾难性的。

【发明内容】

[0011]用于匿名化由关系部分和序列部分组成的数据集的系统、方法和计算机程序产品,其中序列部分可以本身由表示序列的序列的数据组成。
[0012]通常在过多的真实世界应用中遇到这样的数据集,包括医疗保健(例如,电子病历既报告患者人口统计资料又报告药物和诊断信息,其都带有时间戳)和社会福利(例如,特殊房屋注册机构中的公民记录由人口统计资料和居住占用信息组成,其都是序列的序列形式)。
[0013]在一个实施例中,提供了一种将数据匿名化的方法。该方法包括:在硬件处理器处接收包括数据集的输入,所述数据集具有关系数据部分和序列数据部分两者;从数据集中识别与实体相对应的直接标识符属性;屏蔽或抑制所识别的直接标识符属性值;基于关于定义的成本函数F的相似性对记录排序;选择并迭代地将使用成本函数F而排序的至少前k个记录的每个组匿名化,至少k个记录的每个组构成一个群,所述将属性值匿名化是沿着关系部分和序列部分两者进行的,其中k是指定的k-匿名化参数;以及重复所述选择并迭代地将连续的群中的至少k个记录的每个连续组匿名化的步骤,所述将属性值匿名化是沿着所述组中的记录的关系部分和序列部分两者进行的,其中匿名化的表格表示是由所述匿名化产生的。
[0014]在一个实施例中,序列部分包括序列的序列数据,由此一个序列包括至少两个序列,一个序列包括单个事件。
[0015]在另外的实施例中,提供了一种用于将数据匿名化的系统。该系统包括:存储器;耦合到存储器以接收指令的硬件处理器,所述指令将硬件处理器配置成执行包括以下步骤的方法:接收包括数据集的输入,所述数据集具有关系数据部分和序列数据部分两者;从数据集中识别与实体相对应的直接标识符属性;屏蔽或抑制所识别的直接标识符属性值;基于关于定义的成本函数F的相似性对记录排序;选择并迭代地将使用成本函数F而排序的至少前k个记录的每个组匿名化,至少k个记录的每个组构成一个群,所述将属性值匿名化是沿着关系部分和序列部分两者进行的,其中k是指定的k-匿名化参数;以及重复所述选择并迭代地将连续的群中的至少k个记录的每个连续组匿名化的步骤,所述将属性值匿名化是沿着所述组中的记录的关系部分和序列部分两者进行的,其中匿名化的表格表示是由所述匿名化产生的。
[0016]如前,序列部分包括序列的序列数据,由此一个序列包括至少两个序列,一个序列包括单个事件。
[0017]提供了一种用于执行操作的计算机程序产品。该计算机程序产品包括存储介质,该存储介质可由处理电路读取、并且存储由处理电路运行以运行方法的指令。可由处理电路读取的存储介质不仅仅是传播信号。该方法与上面所列的相同。
【附图说明】
[0018]根据结合附图阅读的说明性实施例的以下详细描述,本发明的这些和其他目的、特征及优点将变得明显,在附图中:
[0019]图1A示出由关系部分(属性:银行账号、全名、社会保险号、出生日期、性别和种族)和序列部分(居住占用信息)组成的示例数据集,其中序列部分包含序列的序列数据;
[0020]图1B在地图中示出图1A的示例数据集中的房屋位置;
[0021]图1C示出在图1的示例数据集中,在数据集的居住记录(例如,与个体记录相关联的序列的事件)中所包含的信息的示例;
[0022]图2A-2C各自示出在一个实施例中在形成图1A的表中所示的数据集的过程中使用的三个(虚构的)关系表的示例;图2八示出包含人口统计资料信息的表,其中每个个体具有一个记录。图2B和2C示出包含与每个个体相关联的纵向信息的表。在这些图中,多于一个的记录可以对应于相同的个体;
[0023]图3示出在一个实施例中用于将数据匿名化的方法100的总体概述;
[0024]图4A示出具有等价类[rl, r2]和[r3, r4, r5]的示例中间匿名化数据集;并且图4B示出与匿名化关系表一起返回的所产生的映射表的示例;
[0025]图5示出作为匿名化过程的一部分所产生的两个映射表的示例:针对出生日期的映射表和针对房屋位置信息的映射表;并且
[0026]图6示出可以在其中实施本发明的计算机系统的一部分,其包括CPU和传统存储器。
【具体实施方式】
[0027]本公开描述了用于将包括关系部分和序列部分的数据集匿名化的系统和方法,其中序列部分可以由表示“序列的序列”的数据组成。“序列的序列”是本身由多个序列组成的序列。在平常的情况下,序列可以仅由单一事件组成,例如,S= (a,b,c)为事件“a”、“b”和“c”(其中“a”、“b”、“c”中的每一个为单一元素/事件,而不是序列)的序列。
[0028]在本公开中,域泛化分层结构(domain generalizat1n hierarchy)不需要被定义。而是,本方法采用数据泛化和数据屏蔽这两者,以便为驻留在数据库管理系统(DBMS)中的数据表隐藏敏感信息,因为它遵循现有属性类型(如在原始表中所定义的),同时提供数据泛化的重要益处。
[0029]也就是说,本公开的系统和方法适用于把与交易数据相比具有序列数据(并且特别是序列的序列)的复杂语义的数据集匿名化。
[0030]在本文所描述的方法中,考虑具有包括关系部分和序列部分的记录的示例数据集。此外,考虑序列部分由序列的序列组成的“复杂”情景。在一个实施例中,这种数据集包括存储在存储设备(例如,数据库或存储器)中的结合在一起的一组关系数据库表。图1A示出示例数据集,其是例如通过结合一组个体关系表(诸如图2中所示的三个关系表,其基于“PID”键(个人ID键)36而相关)而形成的数据库表的结合体。
[0031]图1A
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1