基于数据去标识过程的可允许配置的检测的数据去标识的制作方法

文档序号:21484611发布日期:2020-07-14 17:10阅读:195来源:国知局
基于数据去标识过程的可允许配置的检测的数据去标识的制作方法

本发明的实施例涉及数据访问,并且更具体地,涉及基于对数据去标识过程的可允许配置的检测来去标识数据,该数据去标识过程产生被去标识的数据集,同时维护隐私和数据效用。



背景技术:

隐私保护数据发布过程由多个步骤组成,这些步骤包括:发现直接标识符;直接标识符的掩蔽;准标识符(qid)的发现;通过数据匿名化技术来保护准标识符;以及数据发布和报告。直接标识符是可以单独用于直接和唯一地标识实体的属性,而准标识符是可以共同用于唯一标识实体的属性组。以上过程中的不同步骤的协调控制是否呈现充分匿名化的数据集。

通过数据掩码操作来执行对数据集中的直接标识符的保护。这些操作将原始数据值变换成可能不再用于识别对应实体的新的、虚构的数据值,同时它们还可以被专门地编制以保存原始数据值的某些信息,因此允许在数据集中维持数据实用程序的级别。例如:可以用虚构名称掩蔽或替换个体名称,该虚构名称保持与个体的性别信息的一致性;电子邮件(email)地址可被掩蔽或用维护原始email地址的域名信息的另一email地址替换;信用卡号码可以被掩蔽或者被反映原始信用卡号码的信用卡发行商信息的另一信用卡号码替换;一个电话和/或传真号码可以被掩蔽或用包含原始电话和/或传真号码的国家代码和/或区域代码的另一个电话和/或传真号码替换;邮政编码、城市、县、国家和洲可以以维持与原始位置的空间邻近性(即,与原始值的地理相关性)的方式被掩蔽;并且与个体相关的日期可被掩蔽或用原始日期的星期数和年内的另一日期、月和年、季节和年、或年来替换,因此保持对于某些类型的后续数据分析(诸如在若干医学案例研究中)可能非常有用的关键信息。

通常通过数据泛化或数据抑制操作来执行数据集中的准标识符的保护。通常,在隐私保护数据发布中,保护直接标识符,并且准标识的保护是分别进行的。直接标识符的保护以最小的效用保留或无效用保留(例如,用不维护原始数据值的任何信息的虚构值替换)来执行,并且完全基于数据专家/数据所有者决定。在这样的情况下,数据专家/数据所有者需要决定如何以所得数据集被充分保护免受隐私攻击(诸如主题的重新标识、敏感信息公开、成员资格公开、推理公开等)的方式屏蔽数据集中的直接标识符。问题涉及通过数据泛化技术被选择用于直接标识符的屏蔽的实用程序保留选项与被选择用于准标识符的保护的选项之间的潜在冲突。

当直接标识符的新值与准标识符的一般化(新)值一起被考虑时,在某些直接标识符的变换(或掩蔽)中保留的实用性(或信息)仍然可以允许隐私破坏。



技术实现要素:

根据本发明的一个实施例,一种系统对数据进行去标识并且包括至少一个处理器。该系统确定标识数据集的实体的一个或多个标识符。一个或多个数据去标识过程被标识并与所确定的一个或多个标识符相关联。每个数据去标识过程与指示用于保存在数据集中的信息的一个或多个配置选项集合相关联。根据相关联的配置选项集合在数据集上执行所标识的数据去标识过程,以生成具有变化的保留信息的数据集。评估所生成的数据集的隐私弱点,并基于该评估来选择数据去标识过程和相关联的配置选项集合。根据相关联的配置选项集合,在数据集上执行所选择的数据去标识过程,以产生作为结果的去标识的数据集。本发明的实施例还包括用于以与上述基本相同的方式去识别数据的方法和计算机程序产品。

本发明的实施例通过识别用于数据去识别过程的可行和/或最佳配置而不是采用试验和误差方法来选择用于去识别数据的数据去识别过程来减少处理时间。这些试错选择通常基于用户知识,并且可能导致次优数据去标识和大量数据去标识尝试,从而浪费处理和其他资源。

本发明的实施例还可以以表格的形式生成用于评估的数据集,并且合并生成的数据集的两个或更多列以产生具有比两个或更多列更特定的信息的列。这使得具有更特定信息的数据集能够被评估以确保不存在隐私弱点。如果所生成的具有更多特定信息的数据集缺乏隐私弱点,则从对应的数据去标识过程和具有更一般化信息的配置选项所生成的其他数据集(例如,具有一个或多个原始松散列的数据集)也将缺乏隐私弱点。这还通过对具有更特定和一般化信息的数据集利用单个评估而不是多个评估来减少处理时间。

本发明的实施例可通过确定所生成的数据集中的实体的数据与公共可用数据集中的已知实体的数据之间的链接的存在来指示所生成的数据集的隐私弱点来评估所生成的数据集的隐私弱点。该评估利用来自生成的数据集的去标识的数据对照公共可用的数据集中的已知实体,以确定去标识的数据中的实体的身份是否能够通过三角测量攻击(triangulationattacks)来确定,从而提供具有相关联的配置选项的推荐的数据去标识过程保持隐私的显著置信度。

本发明实施例可通过确定所生成的数据集中的准标识符集合的存在来评估所生成的数据集的隐私弱点,所述准标识符集合由对应的数据去标识过程和相关联的配置选项集合引入,以指示所生成的数据集的隐私弱点。该评估基于唯一性标准,并且确保数据去标识过程和相关联的配置选项不引入准标识符,从而提供具有相关联的配置选项的推荐数据去标识过程保持隐私的显著置信度。如果所生成的数据集不包含任何独特性或异常值,则它不能通过三角测量攻击链接到任何其他(内部或外部)数据集,因此它维护隐私。

本发明的实施例可通过标识缺少隐私弱点的所生成的数据集并终止关于对应数据去标识过程的其他相关联的配置选项集的处理,来减少用于去标识原始数据集的处理时间,所述对应数据去标识过程生成具有比所标识的所生成的数据集更一般化的信息的数据集。这显著地改善了处理器的性能并且在减少的处理时间量中提供了最优的数据去标识。

附图说明

通常,不同附图中的相似参考数字用于指定相似部件。

图1是本发明的实施例的示例计算环境的示意图。

图2是示出根据本发明的实施例的检测数据去标识过程的可允许配置选项以产生维护数据隐私的数据集的方式的过程流程图。

图3是根据本发明的实施例的根据数据去标识过程的配置选项来生成数据集的方法的过程流程图。

图4是根据本发明的实施例的基于公共可用数据评估用于数据去标识处理的配置选项的方法的过程流程图。

图5是根据本发明的实施例的基于在去标识的数据内引入准标识符来评估用于数据去标识过程的配置选项的方式的过程流程图。

图6是由数据去标识过程生成的示例数据集,该数据去标识过程被配置用于在保留性别信息的同时去标识名称属性。

图7是由数据去标识过程生成的示例数据集,该数据去标识过程被配置用于在保留空间接近度的同时去标识地址属性。

图8是根据本发明的实施例的用于控制数据去标识处理的处理以减少处理时间的示例树结构的示意图。

具体实施方式

本发明的实施例评估数据去标识过程或技术的配置信息选项的每个可用集合的隐私风险,并且仅使得能够使用阻止数据中的隐私弱点的那些配置信息选项(或设置)。本发明的各实施例分析数据集以发现并报告用于数据去标识过程或技术的允许配置选项(或设置)以执行数据匿名化。配置选项或设置通常指示要去标识的数据以及要由去标识的值保留的数据中的对应信息。举例来讲,本发明的实施例可以检测用于数据掩码过程的配置选项或用于数据集的直接标识符的技术。然而,任何数据去标识或匿名化过程或技术可以基本上与以下描述的相同方式针对任何类型的标识符进行评估。

试验和错误方法通常由现有方法采用以选择用于去标识数据的数据去标识过程。这些选择通常基于用户知识,并且可能导致次优数据去标识和大量数据去标识尝试,从而浪费处理和其他资源。本发明的实施例通过以最大效用保留方式识别用于快速去标识数据的数据去识别过程的可允许和/或最佳配置来减少处理时间。

根据本发明的一个实施例,确定标识数据集的实体的一个或多个标识符(属性)。一个或多个数据去标识过程被标识并与所确定的一个或多个标识符相关联。每个数据去标识过程与指示要保留的信息的一组或多组(实用程序保留)配置选项相关联。对于数据集中的每个标识符,选择具有实用程序保留配置的数据去标识过程。在标识符的数据去标识处理中考虑完全抑制标识符的特殊情况。根据相关联的配置选项集合在数据集上执行所选择的数据去标识过程,以生成具有变化的所保留的数据效用的数据集。随后,针对至少一个标识符选择具有实用程序保留配置的不同数据去标识过程,并且根据相关联的配置选项集合在数据集上执行新选择的数据去标识过程,以生成具有变化的保留数据实用程序的新数据集。重复相同的操作,直到已针对标识数据集的实体的所确定的一个或多个标识符在数据集上执行了不同数据去标识过程及其相关联的配置选项的所有可能组合,以生成具有变化的所保留的数据效用的数据集。针对隐私弱点来评估每个所生成的数据集,并且基于该评估来选择一个或多个数据去标识过程和相关联的配置选项集。在所选择的数据去标识过程中,根据相关联的配置选项集合在数据集上执行实现最低重新标识风险和最高数据效用的那个,以产生作为结果的去标识的数据集。

本发明的实施例可进一步以表格的形式生成用于评估的数据集,并合并所生成的数据集的两个或更多个列以产生具有比这两个或更多个列更特定的信息的列。这使得具有更特定信息的数据集能够被评估以确保不存在隐私弱点。如果所生成的具有更多特定信息的数据集缺乏隐私弱点,则从对应的数据去标识过程和具有更一般化信息的配置选项所生成的其他数据集(例如,具有一个或多个原始松散列的数据集)也将缺乏隐私弱点。这还通过对具有更特定和一般化信息的数据集利用单个评估而不是多个评估来减少处理时间。

此外,本发明的实施例可通过确定所生成的数据集中的实体的数据与公共可用数据集中的已知实体的数据之间的链接的存在来指示所生成的数据集的隐私弱点来评估所生成的数据集的隐私弱点。该评估利用来自生成的数据集的去标识的数据对照公共可用的数据集中的已知实体,以确定去标识的数据中的实体的身份是否能够被确定,从而提供具有相关联的配置选项的推荐的数据去标识过程保持隐私的显著置信度。

本发明的实施例还可以通过确定由对应的数据去标识过程引入的在生成的数据集中的准标识符集合和用于指示所生成的数据集的隐私弱点的相关联的配置选项集合的存在来评估所生成的数据集的隐私弱点。该评估确保准标识符不被数据去标识过程和相关联的配置选项引入,由此提供具有相关联的配置选项的推荐的数据去标识过程保持隐私的显著置信度。

此外,本发明的实施例可通过识别缺少隐私弱点的生成的数据集并终止关于对应数据去标识处理的其他相关联的配置选项集的处理,来减少去标识的处理时间,所述对应数据去标识处理生成具有比所识别的生成的数据集更一般化的信息的数据集。这显著地改善了处理器的性能并且在减少的处理时间量中提供了最优的数据去标识。

图1中展示了与本发明实施例一起使用的示例环境。具体地,环境包括一个或多个服务器系统110和一个或多个客户端或终端用户系统114。服务器系统110和客户端系统114可以彼此远离并且通过网络112进行通信。网络可以由任何数量的任何合适的通信介质(例如,广域网(wan)、局域网(lan)、互联网、内联网等)来实现。可替代地,服务器系统110和客户端系统114可以彼此本地,并且经由任何适当的本地通信介质(例如,局域网(lan)、硬线、无线链路、内联网等)进行通信。

客户端系统114使得用户能够与服务器系统110交互以执行期望的动作,诸如数据去标识。服务器系统包括评估模块116以检测不同数据去标识过程或技术的可允许的配置或设置以产生维护数据隐私的所得数据集。数据库系统118可以存储用于分析的不同信息(例如,原始和临时数据集、配置或设置、用于数据去标识过程的选项等)。数据库系统可以由任何常规或其他数据库或存储单元实现,可以在服务器系统110和客户端系统114本地或远离服务器系统110和客户端系统114,并且可以经由任何适当的通信介质(例如,局域网(lan)、广域网(wan)、互联网、硬线、无线链路、内联网等)进行通信。客户端系统可呈现图形用户界面(例如,gui等)或其他界面(例如,命令行提示、菜单屏幕等)以从用户征求与分析有关的信息,并且可提供包括分析结果(例如,推荐的数据去标识过程、去标识的数据集、用于去标识数据集的选项等)的报告。

服务器系统110和客户端系统114可以由优选地配备有显示器或监视器、底座、可选输入装置(例如,键盘、鼠标或其他输入装置)和任何可商购的和定制的软件(例如,服务器/通信软件、评估模块、浏览器/接口软件、数据去标识过程等)的任何常规或其他计算机系统来实现。该基座优选地包括至少一个硬件处理器115(例如,微处理器、控制器、中央处理单元(cpu)等)、一个或多个存储器135和/或内部或外部网络接口或通信装置125(例如,调制解调器、网卡等)。

可替代地,一个或多个客户端系统114可以检测当作为独立单元操作时用于不同数据去标识过程或技术的可允许的配置或设置。在独立操作模式中,客户端系统存储数据(例如,数据集、配置或设置、数据去标识过程等)或具有对数据的访问权,并且包括用于执行检测的评估模块116。图形用户界面(例如,gui等)或其他界面(例如,命令行提示、菜单屏幕等)向对应用户请求与分析有关的信息,并且可以提供包括分析结果的报告。

评估模块116可包括一个或多个模块或单元以执行下面描述的本发明的实施例的各种功能。不同模块(例如,评估模块等)可以由任意数量的软件和/或硬件模块或单元的任意组合来实现,并且可以驻留在服务器和/或客户端系统的存储器135内以供处理器115执行。

图2示出了根据本发明的实施例的检测针对数据去标识过程或技术(例如,经由评估模块116和服务器系统110和/或客户端系统114)的可允许的配置选项或设置以产生维护数据隐私的数据集的方式。最初,每个数据去标识过程与某些数据类型相关联,并且根据不同配置选项或设置来操作。配置选项或设置通常指示要去标识的数据以及要由去标识的值保留的数据中的对应信息。例如,指定在保留性别信息时要去标识的名称的配置选项产生具有用符合原始性别信息的虚构化名称替换的名称的数据集(例如,用虚构化女性名称替换女性名称以保持或维持与原始名称的性别信息的一致性等)。另外,配置选项可指定要从所得的数据集删除某些数据。为与数据去标识过程相关联的每组配置选项生成模板。每一组配置选项可包括用于数据去标识过程的一个或多个配置选项。因此,每个数据去标识过程(在服务器和/或客户端系统上可用)与一系列模板相关联,其中每个模板对应于该数据去标识过程的可能的配置选项集中的一个(例如,要删除的数据、要去标识同时保留其他数据的数据、要去标识同时保留某些属性(诸如空间接近度)的数据等)。基本上,每个数据去标识过程的一系列模板覆盖该数据去标识过程关于相关联的属性或标识符的所有可能的配置。模板捕捉在原始属性被相关联的数据去标识过程根据对应的配置选项处理时保留在数据集中的信息。

例如,用于关于姓名、电话号码和地址属性的数据去识别过程的模板可以包括:姓名模板(例如,模板(姓名、删除)),其中姓名属性将被删除;模板(姓名、性别),其中姓名属性被替换为保持或维持与性别信息一致的值;电话模板(例如,模板(电话,删除)),其中电话号码属性将被删除;模板(电话、国家)、模板(电话、国家和地区),其中电话号码属性被替换为分别保持或维持与国家、国家和地区代码一致的值;要删除地址属性的地址模板(例如,模板(地址、删除));模板(地址、国家)、模板(地址、国家和城市)、模板(地址、最小边界矩形(mbr)),其中地址属性被替换为分别保持或维持与规定距离内的国家、城市和局部区域一致的值。然而,模板可以属于用于删除或保存任何属性(例如,地址、电话号码、车辆识别码(vin)、社会保障号(ssn)、国家、统一资源定位符(url)、姓名、ip地址、电子邮件(email)地址、信用卡号、国际银行账号(iban)、日期、城市、医疗icd代码、职业、医院、纬度/经度、邮政编码等)的任何期望的选项。关于数据隐私和数据实用工具保护,模板捕捉在去标识之后被维护在数据集中的真实信息。对于模板(属性a、选项b),这表示用选项b中提供的(实用程序保留(utility-preserving))信息来替换数据集中的属性a。例如,模板(姓名、性别)可被翻译成用捕获关于数据中的个体的准确性别信息的性别属性替换数据集中的姓名属性。类似地,模板(电话、国家和区域)可被翻译成用维护该数据集中所表示的个人的准确国家信息的属性和维护准确区域信息的属性来替换该数据集中的电话属性。模板的使用提供关于什么已经被保留在数据中的信息,该信息随后能够被用来计算所得到的数据集中的隐私风险和数据效用。

此外,模板可指示要删除或去标识的一个或多个属性,和/或要保留的一个或多个属性。例如,一系列模板可以包括初始模板,每个模板指定根据配置选项删除或去标识的属性。附加模板可以指定初始模板或属性的配置选项,并且包括关于第二属性的进一步的配置选项(例如,提供两个属性的去标识)。因此,用于数据去标识过程的模板可覆盖由数据去标识过程针对数据集的相应属性提供的去标识的不同组合的全部或任何部分。

通过举例,关于以数据掩码过程或用于数据集的直接标识符的技术的形式检测数据去标识过程的配置选项来描述本发明的实施例。然而,任何数据去标识或匿名化过程或技术可以基本上与以下描述的相同方式针对任何类型的标识符进行评估。

具体地,在步骤205接收并分析数据集250以检测用于数据掩码的直接标识符。直接标识符是可用于直接标识实体的属性(例如,姓名、社会安全号码、地址、电话号码等)。数据集优选地是表格的形式,其中每个行表示实体,并且每个列表示该实体的属性(例如,姓名、地址、性别等)。然而,数据集可以是任何期望的格式。可以使用任何常规或其他技术来检测直接标识符。例如,属性相对于实体的唯一性可用于检测数据集250中的直接标识符。可替代地,正则表达式或模式可被用于标识已知是直接标识符的数据集中的某些类型的数据(例如,社会安全号码、地址、日期等)。或者,查找表可用于识别某些类型的直接标识符,诸如名称(例如,通过投票者登记列表)。此外,数据集的直接标识符可由用户手动地预先确定。

在步骤210,标识与检测到的直接标识符相对应的数据掩码处理。数据掩码处理通常与某些类型的数据或属性兼容,并且每个检测到的直接标识符与相应的兼容数据掩码处理中的每个相关联以用于评估。

在步骤215,根据为数据掩码处理指定不同配置选项集的模板(如上所述),将数据掩码处理应用于相应的直接标识符。这生成与直接标识符相关联的每个数据掩码过程的每个配置选项集的数据集。所生成的数据集优选地是行和列(或属性)的表的形式,但可以是任何期望的格式。例如,图6示出了表格形式的初始数据集600,其中每行表示个体,并且每个个体的列或属性包括姓名、地址、出生日期、邮政编码和婚姻状况。数据掩蔽过程可使得名称属性能够用虚构化名称来掩蔽,该虚构化名称保持或维持与性别属性的一致性。在这种情况下,用于数据掩码处理的模板可以指定对应的配置选项集(例如,模板(姓名、性别))。

当根据该组配置选项应用数据屏蔽处理时,生成具有用虚构化名称屏蔽的个体的名称的数据集620,该虚构化名称保持或维持与性别属性的一致性。有效地,这导致数据集620,其中新的性别属性出现,其包含从原始数据集600计算的准确的性别信息。在这种情况下,数据集600中的男性姓名已被数据集620中的不同男性姓名替换以维持性别信息。类似地,数据集600中的女性姓名已被数据集620中的不同女性姓名替换以保存性别信息。就评估隐私弱点而言,这有效地用性别列替换名称属性或列(因为虚构化名称仅标识个体的性别,并且不能用于将增加数据中的隐私风险的任何其他目的)。

作为进一步的示例,图7示出了表格形式的初始数据集700,其中每行表示个体,并且每个体的列或属性包括姓名、地址、出生日期、邮政编码和婚姻状况。数据掩码过程可以使得地址属性能够被两英里最小有界矩形(mbr)内的另一地址掩码。在这种情况下,用于数据掩码处理的模板可以指定相应的配置选项集(例如,模板(地址、最小边界矩形(mbr))。

当根据该组配置选项应用数据屏蔽处理时,生成数据集720,其中个体的地址改变或屏蔽到位于两英里最小边界矩形(mbr)内的不同地址。然而,与邮政编码组合的新地址可以形成准标识符,并为该组配置选项创建隐私弱点。由此,在生成的数据集720中,需要组合地址和邮政编码属性以获得关于个体的位置(例如,家庭地址)的尽可能多的特异性。然后,使用该信息来评估发布数据的隐私风险。

返回参见图2,在步骤220,评估从模板生成的数据集以标识可允许的数据掩码过程和对应的配置选项集,以产生维护数据隐私的结果数据集。该评估针对到公共可用或外部数据集(例如,投票登记列表、黄页、人口普查数据等)的链接分析所生成的数据集。当存在链接时(例如,当与外部数据集的三角测量攻击成功时),这指示所生成的(或被掩蔽的)数据集的个体的身份可被确定,由此标识关于数据掩蔽过程的隐私弱点以及用于生成数据集的相应配置选项集。此外,可以分析所生成的数据集以基于数据掩码处理和相应的配置选项集合来确定引入到所生成的数据集中的准标识符的存在。准标识符的存在指示关于数据掩码处理和用于生成数据集的配置选项的对应集合的隐私弱点。

可从所识别的可允许数据屏蔽处理(和相应的配置选项集)中选择结果数据屏蔽处理和相应的配置选项集合。所产生的数据掩蔽过程可由用户手动地选择。在这种情况下,可允许的数据屏蔽过程和相关联的配置选项集可在客户端系统114上呈现给用户以供选择。还可提供对可允许数据掩蔽过程的推荐。推荐可以基于不同度量(例如,隐私级别、处理时间、数据保存等)。

或者,可自动确定所得数据掩蔽过程。可利用不同度量来确定所得数据掩蔽过程。例如,可选择基于到公共可用数据集的链接和/或最少数量的准标识符的引入来提供最多数据隐私的数据掩码过程。可替代地,可基于最小资源使用量和/或处理时间来选择数据掩码过程以减少用于去标识数据集的处理时间。

此外,可基于机器学习推荐或自动选择所得数据掩蔽过程。在这种情况下,可存储由用户选择的数据屏蔽过程和相关联的配置选项集,和/或可跟踪度量。该信息可以被处理以学习针对选择和/或推荐的用户偏好。可以采用不同模型来执行学习(例如,神经网络、数学/统计模型、分类器等)。例如,最初可推荐和/或选择掩蔽过程。然而,由于一些原因,用户重复地优选另一可允许的数据屏蔽处理。用户的这些方面和偏好可被学习(例如,用户可偏好比更大隐私水平更快的处理时间等)并被用于选择和/或推荐数据掩码过程。

在步骤225,根据对应的配置选项集合将所得到的数据掩码处理应用于数据集250(或在数据集250上执行),以在保持数据隐私的同时对数据集进行去标识。

图3示出了根据本发明的实施例的应用用于数据掩码处理的模板以生成用于评估的数据集的方式(例如,对应于图2的步骤215)。最初,一系列数据掩码过程和对应的配置选项集合用于生成被测试用于引入潜在隐私风险的数据集。具体而言,在步骤305确定与检测到的直接标识符相关联的每个数据掩码处理的不同配置选项集。在步骤310,为每个数据掩码处理的每个确定的配置选项集生成数据集。这可以通过将指定配置选项集的模板应用于数据掩码过程来生成数据集来实现。换言之,根据模板的配置选项的集合来执行数据掩码处理以删除或掩码相关联的直接标识符。所生成的数据集优选地是具有行和列(或属性)的表的形式,但是可以是任何期望的格式。

可在步骤315对所生成的数据集中相同或兼容类型的属性或列进行合并,以向所生成的数据集中的列提供更精确或特定的信息。例如,合并列可以是被合并的初始列中的区域或位置的交集。作为示例,分别包含邮政编码和地址的最小边界矩形(mbr)的列可被替换为关于位置具有更精确信息的单个列。在这种情况下,当mbr覆盖比邮政编码更大的区域时,邮政编码列可以保留在所生成的数据集中,以提供关于位置的更具体的信息(例如,邮政编码覆盖比mbr更小的区域)。这向所生成的数据集提供要针对隐私弱点进行测试的更特定信息(或更易受隐私弱点影响的场景)。如果更具体的信息不引起隐私担忧,则任何广义或更广义的信息将类似地不引起隐私担忧。

针对隐私弱点评估针对数据掩码过程中的每个数据掩码过程所生成的数据集以及相关联的配置选项集。

图4示出了基于公共可用数据来检测所生成的数据集的隐私弱点(例如,对应于图2的步骤220)的方式。最初,针对隐私弱点来评估从数据掩码过程生成的每一数据集和指定配置选项集合的对应模板。这通过将所生成的数据集中的数据与外部或公共可用的数据链接来实现。具体地,在步骤405测试每个生成的数据集内的数据与外部或公共可用的数据(例如,投票登记列表、黄页、人口普查数据等)的潜在链接。换言之,所生成的数据集中的实体的数据被用来确定到公共可用数据中对应的已知实体的数据的链接。例如,所生成的数据集中的实体的一个或多个属性值可用于在公共可用数据中找到对应的属性值。

当链接存在(例如,足够数量或模式的属性匹配)时,这指示所生成的数据集的实体数据对应于公共可用数据中的已知实体,从而使得能够从所生成的数据集中标识实体。在流程410,所生成的数据集的实体与公共可用数据之间的链接数量可被维护并与阈值进行比较以确定所生成的数据集的隐私弱点的存在(以及用于产生所生成的数据集的数据屏蔽过程和配置选项集)。阈值可以被设置为任何期望的值,其中链接的数量可以以任何期望的方式与阈值进行比较以指示隐私弱点(例如,大于、小于、大于或等于、小于或等于等)。作为示例,阈值可以被设置为零,并且响应于在生成的数据集的实体和公共可用数据的已知实体之间存在一个或多个链接,生成的数据集可以被认为具有隐私弱点。对用于产生具有隐私弱点的所生成的数据集的数据掩码过程和相关联的配置选项集合进行标记以用于确定推荐和/或选择。

一旦已针对外部或公共可用的数据来测试所生成的数据集中的每一者,就标记用于生成具有隐私弱点的所生成的数据集的数据掩码过程和相关联的配置选项集,并将其从进一步考虑中移除。在步骤415,分析剩余的数据屏蔽过程和相关联的配置选项集,以确定推荐的数据屏蔽过程集和相关联的配置选项集合,以提供非易受攻击的数据集。可通过移除与具有较少保留的相关联配置选项集合的数据掩码过程来减少所推荐集合。另外,当没有数据屏蔽过程和相关联的配置选项集合提供没有隐私弱点的数据集时,可以推荐具有最小隐私弱点(例如,或链接数量)的数据屏蔽过程和相关联的配置选项集。可将所推荐的数据掩蔽过程呈现给用户以供选择,或可如上所述自动地选择数据掩蔽过程。

此外,所生成的数据集的隐私弱点可基于对所生成的数据集的分析来确定(例如,对应于图2的步骤220),如图5中所解说的。最初,在步骤505检查每个生成的数据集的稀有或唯一值的引入。在步骤510,进一步挖掘每个生成的数据集以捕获可能已经基于数据掩码过程和对应的配置选项集合而产生的任何准标识符。可以基于任何常规或其他技术在生成的数据集中标识准标识符。例如,在生成的数据集内由属性组标识的实体的唯一性可以用于确定准标识符,正则表达式或模式可以用于标识已知的准标识符等。此外,用户可从原始数据列和/或合并列(例如,基于合并相同类型的列(或根据兼容模板生成)创建的列)指定准标识符。

被标识为准标识符的组件的所生成的数据集的每一列被标记为具有用于确定推荐和/或选择的隐私弱点。换言之,用于生成所生成的数据集的数据屏蔽过程和对应的配置选项集合已将准标识符引入所生成的数据集中。在步骤515,提供所识别的准标识符和隐私弱点以便在客户端系统114上呈现。

针对数据链接和准标识符对所生成的数据集的评估可以按任何顺序执行,并且可以进一步并行地执行以增强处理性能。此外,这些评估的结果可以以任何方式组合以确定所生成的数据集内的隐私弱点的存在。例如,响应于特定数量的链接和特定数量的准标识符,对于所生成的数据集可存在隐私弱点。可替代地,响应于特定数量的数据链接或特定数量的准标识符,可以确定存在隐私弱点。在这种情况下,当这些条件之一发生时,所生成的数据集被认为具有隐私弱点,并且可终止针对其他条件的附加处理或评估,这减少了处理时间。

利用许多组相关联的配置选项来生成和评估用于数据去标识过程或技术的数据集可能需要显著的处理时间。为了增强处理性能并减少用于解除识别数据的处理时间,本发明的实施例可以采用若干技术。例如,可以由用户提供和评估不同数据去标识过程和相关联的配置选项集。当这些数据去标识处理配置中的一个或多个数据去识别处理配置产生没有隐私弱点的数据集时,可以终止由剩余的数据去识别处理和相关联的配置产生的数据集的生成和评估,从而减少处理时间并保留计算资源。进一步,可提供指示用于要评估的数据去标识过程的配置的数量的限制。

此外,可以创建树或其他数据结构以控制由数据去标识过程产生的数据集的生成和评估以及相关联的配置选项集合,由此增强计算性能并减少处理时间。树结构形式的示例数据结构在图8中示出。作为示例,树结构800表示用于去标识过程的配置选项集合,其中两个配置选项(例如,删除选项和具有数据保留选项的去标识)用于两个属性(例如,名称和地址)中的每一个。然而,树结构可表示相对于任何数量的任何属性的任何去标识过程的任何数量的配置选项。

树结构800包括根节点805和子树810和830。每个节点表示用于数据去标识过程的对应配置选项集合,并且与对应模板相关联。例如,子树810的节点812可表示第一属性的第一组配置选项(例如,删除名称),而节点816可表示第一属性的第二组配置选项(例如,在保留性别信息的同时去识别名称)。节点812的子节点814、815可各自表示节点812的配置选项的集合以及用于第二属性的配置选项的相应集合(例如,删除名称和删除地址(节点814)、删除名称和去标识地址,同时保留空间邻近度(节点815))。节点816的子节点817、818可各自表示节点816的配置选项集合以及用于第二属性的配置选项的相应集合(例如,在保留性别信息和删除地址的同时去识别名称(节点817),在保留性别信息的同时去识别名称,以及在保留空间邻近度的同时去识别地址(节点817))。

类似地,子树830的节点832可表示用于第二属性(例如,删除地址)的配置选项的第一集合,而节点836可表示用于第二属性(例如,在保留空间接近度的同时去识别地址)的配置选项的第二集合。节点832的子节点834、835可以各自表示节点832的配置选项集以及用于第一属性的配置选项的相应集(例如,删除地址和删除名称(节点834)、删除地址和去标识名称同时保留性别信息(节点835))。节点836的子节点837、838可以各自表示节点836的配置选项集以及用于第一属性的配置选项的相应集(例如,在保留空间邻近度的同时去标识地址和删除名称(节点837)、在保留空间邻近度的同时去标识地址和在保留性别的同时去标识名称(节点838))。具有重叠(或相同)的配置选项的节点可被合并或修剪以产生树,其中每个节点具有不同的配置选项集。

树800中的每个父节点的子节点表示产生具有相对于其父节点的更广义信息的数据集的配置选项。例如,节点812可删除名称属性,而子节点814可删除名称和地址属性两者,从而产生具有较少特定(或进一步去标识)信息的数据集。在处理期间,从根节点805遍历树800,并且将目的地节点的对应模板应用于数据去标识过程以生成数据集。如果所生成的数据集被评估并确定为缺乏隐私弱点,则来自目的地节点的后代节点被类似地认为缺乏隐私弱点,因为后代节点与产生更一般化的数据集的配置选项相关联。因而,后代节点被指示为不执行评估的数据去标识处理的可允许配置,从而减少处理时间。

例如,对应于节点812的模板可被应用于数据去标识过程以生成具有删除的名称属性的数据集。如果该数据集被评估并确定缺少隐私弱点,则提供除名称删除之外的附加去标识的任何后代节点也将缺少隐私弱点(例如,节点814、815),因为这些节点产生更一般化的数据(例如,名称删除和地址删除(节点814)、名称删除和地址去标识(节点815))。因而,不需要额外的处理来评估由后代节点产生的数据集,从而减少处理时间。

树800可用于终止数据集生成和/或评估的处理。当父节点与生成如上所述的具有最小隐私弱点或没有隐私弱点的数据集的可允许配置选项集合相关联时,可针对后代节点终止该处理。例如,可生成用于一个或多个数据去标识过程的数据集,并且可利用树800来最小化所生成的数据集的被处理以便更快地评估所生成的数据集的数量。在这种情况下,当父节点与生成具有最小隐私弱点或无隐私弱点的数据集的配置选项的可允许集合相关联时,子级节点被认为是可允许的,而无需进一步评估。

可替代地,树800可用于一次生成并评估一个或几个节点的数据集以用于去标识过程。这最小化了去标识处理被执行以生成数据集的次数,并且进一步最小化了评估的数量。在这种情况下,当父节点与生成具有最小隐私弱点或无隐私弱点的数据集的配置选项的可允许集合相关联时,子级节点被认为是可允许的,而无需生成数据集和进一步评估。

另外,树800可包含具有用于所有或任何部分属性的较高层级节点的子树。或者,每一子树可形成用于评估去标识过程的单独树。

将理解的是,以上描述的并且在附图中展示的实施例仅表示基于对数据去标识过程的可允许配置的检测来实现用于数据去标识的实施例的许多方式中的少数方式。

本发明实施例的环境可以包括任何数量的计算机或其他处理系统(例如,客户端或终端用户系统、服务器系统等)和以任何期望的方式布置的数据库或其他储存库,其中本发明实施例可以应用于任何期望类型的计算环境(例如,云计算、客户端-服务器、网络计算、大型机、独立系统等)。本发明的实施例所采用的计算机或其他处理系统可由任何数目的任何个人或其他类型的计算机或处理系统(例如,台式机、膝上型计算机、pda、移动设备等)来实现,并且可包括任何可商购的操作系统以及可商购和定制软件(例如,浏览器软件、通信软件、服务器软件、评估模块、数据去标识过程等)的任何组合。这些系统可包括任何类型的监视器和输入设备(例如,键盘、鼠标、语音识别等)以输入和/或查看信息。

应当理解,本发明实施例的软件(例如,评估模块等)可以用任何期望的计算机语言来实现,并且可以由计算机领域的普通技术人员基于说明书中包含的功能描述和附图中示出的流程图来开发。进一步,本文对执行不同功能的软件的任何引用通常指代在软件控制下执行那些功能的计算机系统或处理器。本发明的实施例的计算机系统可以可替代地由任何类型的硬件和/或其他处理电路来实现。

计算机或其他处理系统的不同功能可以任何方式分布在任何数量的软件和/或硬件模块或单元、处理或计算机系统和/或电路之间,其中,计算机或处理系统可以彼此本地或远程地布置并且经由任何合适的通信介质(例如,lan、wan、内联网、互联网、硬线、调制解调器连接、无线等)进行通信。例如,本发明实施例的功能可以任何方式分布在各种终端用户/客户端和服务器系统和/或任何其他中间处理设备中。上述和在流程图中示出的软件和/或算法可以以实现本文描述的功能的任何方式修改。此外,流程图或描述中的功能可以以实现所需操作的任何顺序执行。

本发明实施例的软件(例如,评估模块等)可在固定或便携式程序产品设备或装置的非暂时性计算机可用介质(例如,磁性或光学介质、磁光介质、软盘、cd-rom、dvd、存储器装置等)上可用,以与独立系统或通过网络或其他通信介质连接的系统一起使用。

通信网络可由任何数量的任何类型的通信网络(例如,lan、wan、互联网、内联网、vpn等)实现。本发明实施例的计算机或其他处理系统可包括任何常规或其他通信设备,以经由任何常规或其他协议通过网络进行通信。计算机或其他处理系统可利用任何类型的连接(例如,有线、无线等)来访问网络。本地通信介质可以由任何合适的通信介质(例如,局域网(lan)、硬线、无线链路、内联网等)来实现。

该系统可以采用任何数量的任何常规或其他数据库、数据存储或存储结构(例如,文件、数据库、数据结构、数据或其他储存库等)来存储信息(例如,原始和中间数据集、配置或设置、用于数据去标识过程的选项等)。该数据库系统可以由任何数量的任何常规或其他数据库、数据存储或存储结构(例如,文件、数据库、数据结构、数据或其他储存库等)实现以存储信息。数据库系统可以被包括在服务器和/或客户端系统内或耦合到服务器和/或客户端系统。数据库系统和/或存储结构可以远离计算机或其他处理系统或在计算机或其他处理系统本地,并且可以存储任何期望的数据。

本发明的实施例可以采用用于获得或提供信息(例如,用户偏好、推荐的数据去标识过程、去标识的数据集等)的任何数量的任何类型的用户界面(例如,图形用户界面(gui)、命令行、提示等),其中,界面可以包括以任何方式安排的任何信息。界面可包括布置在任何位置处的任何数量的任何类型的输入或致动机构(例如,按钮、图标、字段、框、链接等)以输入/显示信息并经由任何合适的输入设备(例如,鼠标、键盘等)发起期望的动作。界面屏幕可包括用于以任何方式在屏幕之间导航的任何合适的致动器(例如,链接、选项卡等)。

报告可包括以任何方式布置的任何信息,并且可基于规则或其他准则来配置以向用户提供期望的信息(例如,推荐、隐私问题等)。

本发明的实施例不限于上述具体任务或算法,而是可以用于针对任何类型的标识符评估任何数据去标识或匿名化过程或技术。数据去标识过程可与任何类型的配置选项相关联以删除或去标识任何属性。配置选项和模板的集合可以指定用于数据去标识过程的任意数量的任何配置选项。

可以任何方式评估所生成的数据集以标识任何数目的任何类型的隐私弱点。所生成的数据集的数据可针对任何类型的已知或其他数据集(例如,用户提供的数据集、公共可用的数据集、内部组织数据集等)进行测试。所生成的数据集可以响应于对任何数量的任何类型的隐私弱点(例如,所识别的任何数量的实体、所引入的任何数量的准标识符等)的识别而被认为是易受攻击的。用于检测弱点的阈值可以被设置为任何期望的值(例如,链接的数量、准标识符的数量、隐私弱点的数量等)。可以任何期望的方式将数量与阈值进行比较以指示隐私弱点(例如,大于、小于、大于或等于、小于或等于等)。

可利用任何数据结构来识别配置选项集合(例如,树、分层结构等)之间的关系。响应于生成具有最小隐私弱点或没有隐私弱点的数据集的初始配置,可以终止针对任何数量的相关配置选项的处理。可以以任何方式遍历数据结构以评估数据去标识过程的配置选项。可以为一组属性推荐或选择任意数量的数据去标识过程和相关联的配置选项集。例如,相同或不同的数据去标识过程(和相应的配置)可被应用于数据集中的不同属性。

本文所使用的术语仅是出于描述特定实施例的目的,并不旨在限制本发明。如本文所使用的,单数形式的″一″,″一个″和″该″也意图包括复数形式,除非上下文另外明确指出。将进一步理解的是,当在本说明书中使用时,术语″包括″,″包含″,″包含″,″包含″,″具有″,″具有″,″具有″,″具有″(″comprises″,″comprising″,″includes″,″including″,″has″,″have″,″having″,″with″)等指定陈述的特征,整数,步骤,操作,元素和/或组件的存在,但不排除一个或多个其他特征,整数,步骤,操作,元素,组件和/或其组的存在或增加。

以下权利要求书中的所有装置或步骤加功能元件的对应结构、材料、动作和等效物旨在包括用于结合如具体要求保护的其他要求保护的元件来执行功能的任何结构、材料或动作。本发明的描述是出于说明和描述的目的而呈现的,但不旨在是穷尽性的或局限于所披露的形式的本发明。在不脱离本发明的范围和精神的情况下,许多修改和变化对本领域的普通技术人员将是显而易见的。选择和描述实施例以便最好地解释本发明的原理和实际应用,并且使得本领域普通技术人员能够针对具有适合于所考虑的特定用途的不同修改的不同实施例理解本发明。

出于说明的目的已经呈现了本发明的不同实施例的描述,但不旨在是穷尽性的或局限于所披露的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对本领域的普通技术人员而言将是显而易见的。选择在此使用的术语以最佳地解释实施例的原理、实际应用或在市场上找到的技术上的技术改进,或使得本领域普通技术人员能够理解在此披露的实施例。

在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是一但不限于一电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言一诸如smalltalk、c++等,以及过程式编程语言一诸如″c″语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络-包括局域网(lan)或广域网(wan)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1