用于数据匹配和匿名化的设备和方法与流程

文档序号:11935262阅读:367来源:国知局
用于数据匹配和匿名化的设备和方法与流程
记载在本文中的一些实施例一般地涉及用于数据匹配和匿名化的方法和设备。
背景技术
:在数字媒体中,管理并在商业实体之间交换的信息通常是不能被共享的机密信息(例如,客户的家庭地址信息)和要共享的其他商业信息(例如,购买活动)的组合。当利用公共标识符紧密联系机密信息和商业信息时,富有挑战的是有效地隔离、隐匿和/或以其他方式可逆和/或不可逆地分开待传送的信息和待保护性保留的信息。于是,需要利用一个或多个键映射表的用于数字匹配和匿名化的方法和设备。技术实现要素:在一些实施例中,一种方法包括接收多个数据集。每个数据集包括客户标识符字段,客户标识符字段指定与每个数据集中的每个条目关联的唯一客户标识符。所述多个数据集包括第一组数据集和第二组数据集,每个数据集根据客户标识符可与每个其他数据集关联。所述方法还包括保存所述多个数据集,并生成包括客户标识符字段和匿名标识符字段的键映射表。键映射表的客户标识符字段包括所述多个数据集中的第一组数据集的唯一客户标识符,匿名标识符字段包括唯一匿名标识符。每个匿名标识符对应于键映射表的客户标识符,每个匿名标识符不同于其对应的客户标识符。所述方法还包括保存键映射表,和通过根据键映射表用对应的匿名标识符替换第二组数据集中的每个唯一客户标识符,致使第二组数据集中的每个数据集不可与第一组数据集中的每个数据集关联。所述方法还包括根据匿名标识符,致使第二组数据集中的每个数据集可与第二组数据集中的每个其他数据集关联。在一些实施例中,一种方法包括接收包括客户标识符字段的参照数据集。参照数据集的客户标识符字段指定与参照数据集中的每个条目关联的唯一客户标识符。所述方法还包括接收包括客户标识符字段的第一数据集。第一数据集的客户标识符字段指定与第一数据集中的每个条目关联的唯一客户标识符,根据客户标识符字段,第一数据集可与参照数据集关联。所述方法还包括保存参照数据集和第一数据集。所述方法还包括通过根据键映射表用对应的匿名标识符替换第二数据集的每个唯一客户标识符,致使第一数据集不可与参照数据集关联。键映射表包括客户标识符字段和匿名标识符字段,键映射表的客户标识符字段包括第二数据集的唯一客户标识符,匿名标识符字段包括唯一匿名标识符,每个匿名标识符对应于键映射表的客户标识符,每个匿名标识符不同于其对应的客户标识符。所述方法还包括接收一个或多个另外的数据集,每个另外的数据集包括客户标识符字段。所述一个或多个另外的数据集根据客户标识符字段可与参照数据集关联,并不可与第一数据集关联。所述方法还包括通过根据键映射表,将每个另外的数据集中的每个唯一客户标识符替换为其对应的匿名标识符,致使所述一个或多个另外的数据集不可与参照数据集关联。所述致使包括根据匿名标识符字段,致使所述一个或多个另外的数据集可与第一数据集关联。在一些实施例中,一种设备包括被配置成接收多个数据集的数据模块,每个数据集包括客户标识符字段。客户标识符字段指定与每个数据集中的每个条目关联的唯一客户标识符。所述多个数据集包括第一组数据集和第二组数据集,每个数据集根据客户标识符可与每个其他数据集关联。所述数据模块还被配置成保存所述多个数据集。所述设备还包括被配置成生成包括客户标识符字段和匿名标识符字段的键映射表的键模块。键映射表的客户标识符字段包括所述多个数据集中的第一组数据集的唯一客户标识符,匿名标识符字段包括唯一匿名标识符。每个匿名标识符对应于键映射表的客户标识符,每个匿名标识符不同于其对应的客户标识符。所述数据模块还被配置成保存键映射表,所述键模块还被配置成通过根据键映射表用对应的匿名标识符替换第二组数据集中的每个唯一客户标识符,致使第二组数据集中的每个数据集不可与第一组数据集中的每个数据集关联。所述致使包括根据匿名标识符,致使第二组数据集中的每个数据集可与第二组数据集中的每个其他数据集关联。在一些实施例中,一种方法包括接收包括客户标识符字段的第一数据集,所述客户标识符字段指定与第一数据集中的每个条目关联的唯一客户标识符。所述方法还包括保存第一数据集,并根据键映射表,用对应的匿名标识符替换第一数据集的每个唯一客户标识符。键映射表包括客户标识符字段和匿名标识符字段。键映射表的客户标识符字段包括第一数据集的唯一客户标识符,匿名标识符字段包括唯一匿名标识符。每个匿名标识符对应于键映射表的客户标识符,每个匿名标识符不同于其对应的客户标识符。附图说明图1是按照实施例的设备的方框图。图2是图解说明按照实施例的方法的流程图。图3是图解说明按照实施例的再一种方法的流程图。图4是图解说明按照实施例的另一种方法的流程图。具体实施方式在一些实施例中,一种方法包括接收多个数据集。每个数据集包括客户标识符字段,客户标识符字段指定与每个数据集中的每个条目关联的唯一客户标识符。所述多个数据集包括第一组数据集和第二组数据集,每个数据集根据客户标识符可与每个其他数据集关联。所述方法还包括保存所述多个数据集,并生成包括客户标识符字段和匿名标识符字段的键映射表。键映射表的客户标识符字段包括所述多个数据集中的第一组数据集的唯一客户标识符,匿名标识符字段包括唯一匿名标识符。每个匿名标识符对应于键映射表的客户标识符,每个匿名标识符不同于其对应的客户标识符。所述方法还包括保存键映射表,和通过根据键映射表用对应的匿名标识符替换第二组数据集中的每个唯一客户标识符,致使第二组数据集中的每个数据集不可与第一组数据集中的每个数据集关联。所述方法还包括根据匿名标识符,致使第二组数据集中的每个数据集可与第二组数据集中的每个其他数据集关联。在一些实施例中,键映射表被保存在与所述多个数据集不同的位置。在一些实施例中,所述方法还包括删除键映射表。在一些实施例中,所述方法还包括利用诸如(但不限于)下述之一的加密方案:公钥加密方案和对称密钥加密方案,对键映射表加密。在一些实施例中,第一组数据集包括多个家庭的人口统计信息,第二组数据集包括所述多个家庭的交易信息。在一些实施例中,一种方法包括接收包括客户标识符字段的参照数据集。参照数据集的客户标识符字段指定与参照数据集中的每个条目关联的唯一客户标识符。所述方法还包括接收包括客户标识符字段的第一数据集。第一数据集的客户标识符字段指定与第一数据集中的每个条目关联的唯一客户标识符,根据客户标识符字段,第一数据集可与参照数据集关联。所述方法还包括保存参照数据集和第一数据集。所述方法还包括通过根据键映射表用对应的匿名标识符替换第二数据集的每个唯一客户标识符,致使第一数据集不可与参照数据集关联。键映射表包括客户标识符字段和匿名标识符字段,键映射表的客户标识符字段包括第二数据集的唯一客户标识符,匿名标识符字段包括唯一匿名标识符,每个匿名标识符对应于键映射表的客户标识符,每个匿名标识符不同于其对应的客户标识符。所述方法还包括接收一个或多个另外的数据集,每个另外的数据集包括客户标识符字段。所述一个或多个另外的数据集根据客户标识符字段可与参照数据集关联,并不可与第一数据集关联。所述方法还包括通过根据键映射表,将每个另外的数据集中的每个唯一客户标识符替换为其对应的匿名标识符,致使所述一个或多个另外的数据集不可与参照数据集关联。所述致使包括根据匿名标识符字段,致使所述一个或多个另外的数据集可与第一数据集关联。在一些实施例中,参照数据集包括多个家庭的人口统计信息,以及所述第一数据集和所述另外数据集中的至少一个包括所述多个家庭的交易信息。在一些实施例中,一种设备包括配置成接收多个数据集的数据模块,每个数据集包括客户标识符字段。客户标识符字段指定与每个数据集中的每个条目关联的唯一客户标识符。所述多个数据集包括第一组数据集和第二组数据集,每个数据集根据客户标识符可与每个其他数据集关联。所述数据模块还被配置成保存所述多个数据集。所述设备还包括配置成生成包括客户标识符字段和匿名标识符字段的键映射表的键模块。键映射表的客户标识符字段包括所述多个数据集中的第一组数据集的唯一客户标识符,匿名标识符字段包括唯一匿名标识符。每个匿名标识符对应于键映射表的客户标识符,每个匿名标识符不同于其对应的客户标识符。所述数据模块还被配置成保存键映射表,所述键模块还被配置成通过根据键映射表用对应的匿名标识符替换第二组数据集中的每个唯一客户标识符,致使第二组数据集中的每个数据集不可与第一组数据集中的每个数据集关联。所述致使包括根据匿名标识符,致使第二组数据集中的每个数据集可与第二组数据集中的每个其他数据集关联。在一些实施例中,数据模块还被配置成删除键映射表。在一些实施例中,所述设备还包括配置成利用包括(但不限于)下述之一的加密方案:公钥加密方案和对称密钥加密方案,对键映射表加密的加密模块。在一些实施例中,一种方法包括接收包括客户标识符字段的第一数据集,所述客户标识符字段指定与第一数据集中的每个条目关联的唯一客户标识符。所述方法还包括保存第一数据集,并根据键映射表用对应的匿名标识符替换第一数据集的每个唯一客户标识符。键映射表包括客户标识符字段和匿名标识符字段。键映射表的客户标识符字段包括第一数据集的唯一客户标识符,匿名标识符字段包括唯一匿名标识符。每个匿名标识符对应于键映射表的客户标识符,每个匿名标识符不同于其对应的客户标识符。为了易于说明记载在本文中的实施例,申请人提供下述例证的非限制性情形。考虑借助于充当标识符的一个或多个键列相互结合和/或以其他方式可相互关联的一组数据表(“数据集”)。为了简单起见,这里关于单个键列/标识符进行了说明,在例子中,在与家庭层面的交易信息相关的数据集中,家庭标识符或HHID也可是家庭的人口统计数据的表格、家庭的交易数据的表格、家庭的部分成员关系(segmentmembership)的表格等等的标识符。本公开的各个方面可操作为切断这样的敏感信息数据集与其他数据集(比如包含家庭标识信息、包含非敏感家庭信息等等的其他数据集)的联系,使所述敏感信息数据集脱离所述其他数据集,使所述敏感信息数据集相对于所述其他数据集匿名化,和/或使得所述敏感信息数据集不可与所述其他数据集关联。在这个例子中,这是通过用匿名标识符替换HHID并生成包含每个不同的HHID及其对应的匿名标识符的键映射表实现的。按照这种方式,借助于键映射表,本公开的各个方面仍然允许变得不可关联的数据集具有正确的参照完整性,如在本文中更详细所述。具有匿名标识符的所有数据集将正确地相互连接起来和/或正确地可相互关联,不过不能与仍然具有HHID的任何其他数据集(比如参照数据集)联系和/或不可与所述任何其他数据集关联。键映射表可被视为起具有匿名标识符字段的数据集的“看门人”作用。为了增加或更新包括匿名标识符字段的数据集,必须采用适当的键映射表。为了把具有匿名标识符字段的数据集恢复到其原始HHID字段,必须采用适当的键映射表。如果键映射表被删除,那么使具有匿名标识符字段的数据集与具有HHID字段的数据集指称隔离,以致在仅仅知道HHID标识符自身的情况下,没有数据可被添加或者可从具有匿名标识符字段的数据集被删除。如果对于键映射表的访问受到限制,例如利用借助分裂密钥加密方案的加密,那么对于不可访问键映射表的任何实体,具有匿名标识符字段的数据集被有效地与具有HHID字段的数据集指称隔离,并(在本例中)可需要分裂密钥加密方案的两个密钥的持有者共同同意,以便准确地访问和/或更改具有匿名标识符字段的数据集。在一些实施例中,可如下创建具有匿名标识符字段的数据集。扫描需要使之变得不可与其他数据集关联(但是仍然可以相互关联)的所有数据集,以产生所有标识符字段(类似于上面说明的HHID字段)的列表。对于每个HHID字段,生成键映射表,所述键映射表可包含与每个不同的HHID对应的随机的非重复匿名标识符。对于需要使之变得不可关联的每个数据集,根据键映射表,用对应的匿名标识符替换HHID。例如,考虑19个个人的数据集,所述19个个人具有在数据库中识别他们的唯一ID(“id”字段)。参见表1。表1现在考虑采用和表1相同的“id”字段的两个另外的数据集;列出在线页面浏览的表2,和列出销售额信息的表3。表2表3在当前形式的表1-3中,可发现ID8661属于KionaWright,并且她具有187次web展示(impression)和$99的销售额。创建把“id”值映射到唯一匿名ID值的键映射表来防止这种关联。表4中表示了键映射表的一个例子,其中“anon_id”列对应于匿名ID值。表4一旦生成了键映射表,就可使表2-3匿名化和/或以其他方式变得不可与表1关联。表5、6中分别表示了表2、3的更改形式:表5表6anon_idtotalSales53944$99.0089885$166.0082459$102.00352$14.0049540$85.0085370$189.0054719$169.0095324$131.0068596$186.0068953$64.0087587$22.008724$92.0028934$123.0021529$195.0085877$95.0076751$7.0031013$24.0015316$3.0095764$48.00在不使用键映射表(表4)的情况下,可对不能与表1关联的表5-6进行展示和销售额分析。这样,表5-6中的所有数据仍然可跨这些表关联,并可进一步与具有“anon_id”字段的其他表关联,以便分析。例如,可以注意到anon_id95764具有18次web展示和$48的销售额。如果键映射表被删除,那么没有办法使这样的信息向后关联到表1中的对应id(NashLambert)。此外,为了把表6中关于NashLambert的销售额值从$48更新为$88,需要键映射表(表4)以确定NashLambert对应于anon_id95764,anon_id95764又可用于访问表6,从而把对应于anon_id95764的$48值更新为$88。这里使用的模块可以是例如操作上耦接的电气组件的任意组合件和/或集合,并可包括例如存储器、处理器、电气迹线、光连接器、(在硬件中执行的)软件和/或类似物。这里使用的单数形式包括多个所指对象,除非上下文明确地另有所示。从而,例如,术语“数据库”意味单个数据库或者一组数据库。图1是按照实施例可在其中实现本发明的各个方面的设备100的示意图。在一些实施例中,设备100是为数据匹配和匿名化配置的,如下更详细所述。设备100包括处理器122和存储器124。处理器122至少包括数据模块128和键模块132。在一些实施例中,处理器122包括加密模块134。处理器122还可包括用于建立和管理设备100的网络连通性(比如与设备的一个或多个数据源(未图示)和/或远程用户(未图示)的连接)的通信模块136。处理器122还可包括用于比如由本地和/或远程用户(未图示)操作设备100的各个方面和/或记载在这里的其他模块任意之一的控制模块130。应明白各个模块可以无缝地与每个其他模块通信。设备100还可包括不同于存储器224的数据库140。在其他实施例中,存储器124和数据库140可以相同,而在另一个实施例中,数据库140可以在设备100之外。在一些实施例中,采用处理器122的数据库模块126操作数据库140。设备100可以通过网络与其他实体(比如数据源和/或远程用户)通信,所述网络可以是实现成有线网络和/或无线网络的任意类型的网络(例如,局域网或LAN、广域网或WAN、虚拟网络、电信网络和/或因特网)。本领域中已知,任意或所有通信可以是安全的(例如,加密的)或者不安全的。设备100可包含个人计算机、服务器、数据库、工作站、移动设备、云计算环境、在这些平台任意之一上运行的应用或模块,等等。在一些实施例中,数据库140和/或存储器124可保持用于数据匹配和匿名化目的的数据,比如一个或多个数据集,包括参照集、键映射表等等。在一些实施例中,数据集可包括在家庭层面关于一个或多个推销实体(比如产品)的广告数据(例如,参见表2)和/或交易数据(例如,参见表3)。在一些实施例中,可按照与记载在2013年2月20日提交的序列号No.13/771,627(“'627申请”)、标题为“SYSTEMANDMETHODFORMEASURINGADVERTISINGEFFECTIVENESS”的相关申请中的方式类似的方式,用测试组和对照组的数据集填充数据库140和/或存储器124,该申请的公开内容通过引用其整体包含在本文中。在一些实施例中,数据模块128被配置成接收多个数据集(例如,类似于表1-3)。数据集可以是结构化格式的相关数据的任意集合,比如由一列或多列、以及一行或多行组成的表格。在一些实施例中,每个数据集包括标识符字段,比如表1-4中的“id”列。在一些实施例中,标识符字段是客户标识符字段。在一些实施例中,客户标识符字段指定与每个数据集中的每个条目关联的唯一客户标识符。根据客户标识符字段,每个数据集可与每个其他数据集关联。在一些实施例中,所述多个数据集包括第一组数据集和第二组数据集。在一些实施例中,第一组数据集可包括相对于客户标识符字段不需要被匿名化的信息,而第二组数据集包括相对于客户标识符字段要被匿名化的信息。例如,在一些实施例中,第一组数据集包括多个家庭的人口统计信息(例如,参见表1),而第二组数据集包括多个家庭的交易信息(例如,参见表3)。键模块132被配置成生成包括客户标识符字段和匿名标识符字段的键映射表(例如,参见表4)。键映射表的客户标识符字段包括至少第一组数据集(在一些实施例中,整个的多个数据集)的唯一客户标识符。这样,能够有选择地生成键映射表。键映射表的匿名标识符字段(例如,表4中的“anon_id”列)包括唯一匿名标识符,每个匿名标识符对应于键映射表的客户标识符。每个匿名标识符不同于其对应的客户标识符。在一些实施例中,键模块132被配置成用任何适当的方式(包括(但不限于)利用随机串发生器,作为随机数的非重复序列,对应客户标识符中的一个或多个字符的替换,对应客户标识符中的一个或多个字符的省略,用广义形式(例如,街道名称或者邮政编码等)替换对应的客户标识符,随机改变对应客户标识符中的一个或多个字符,等等),来生成键映射表的匿名标识符。在一些实施例中,采用随机数的非重复序列。在其他实施例中,数据库140和/或存储器124被配置成按照和如上所述类似的方式生成匿名标识符。仍然描述键模块132,在一些实施例中,键模块还被配置成根据键映射表,用对应的匿名标识符替换第二组数据集中的每个唯一客户标识符。这样,键模块132致使第二组数据集中的每个数据集不可与第一组数据集中的每个数据集关联,因为客户标识符现在不存在于第二组数据集中,但是仍然存在于第一组数据集中,而匿名标识符现在存在于第二组数据集中,但是不存在于第一组数据集中。此外,按照这种方式,根据匿名标识符,键模块132致使第二组数据集中的每个数据集可与第二组数据集中的每个其他数据集关联。换句话说,第二组中的各个数据集之间的可关联性得到保持。返回数据模块128,数据模块可被进一步配置成直接或者经数据库模块126保存多个数据集,比如保存在数据库140和/或存储器124中。数据模块128可被进一步配置成保存键映射表。在一些实施例中,数据模块128被进一步配置成删除键映射表。在一些实施例中,数据模块128被配置成把键映射表保存在与多个数据集不同的位置。例如,在一些实施例中,多个数据集被保存在数据库140中,而键映射表被保存在存储器124中,或者反过来。在其他实施例中,键映射表被保存在不同的外部数据库(未图示)中,而多个数据集被保存在数据库140中。一旦生成了键映射表,并致使第二组数据集不可与第一组数据集关联,在一些实施例中,数据模块128就还被配置成比如当按前面的例子,对特定客户来说交易信息需要被更新时,使第二组数据集的第一数据集中的第一条目与第二组数据集的第二数据集中的第二条目相关。数据模块128可被配置成通过在第一数据集中识别与第一条目关联的匿名标识符,并识别与识别的匿名标识符对应的第二数据集中的第二条目(即,根据与识别的匿名标识符对应的键映射表条目),进行这种相关。数据模块128还可被配置成返回与第一数据集中的第一条目相关的第二数据集中的第二条目。在一些实施例中,数据模块128可被配置成在不采用第一组数据集或键映射表的情况下,根据与第二组数据集的第一数据集中的第一条目关联的匿名标识符,使所述第一条目与第二组数据集的第二数据集中的第二条目相关。例如,对于表5-6,可以确定具有anon_id95764的家庭花费$48,并且总的web展示计数为18,而不辨别该家庭的真实身份(表1中的NashLambert)。在一些实施例中,加密模块134被配置成利用诸如(但不限于)公钥加密方案和对称密钥加密方案之类的加密方案,对键映射表加密。可以采用限制对键映射表的内容的访问的任何适当数字保护技术。图2是图解说明按照实施例的方法200的流程图。在一些实施例中,方法200是利用键映射表,用于数据匹配和匿名化的方法。方法200可由设备100或者结构/功能上类似于设备100的任意设备进行。特别地,与进行方法200关联的指令可被保存在设备的存储器(例如,图1的设备100的存储器124)中,并在设备的处理器(例如,图1中的设备100的处理器122)中执行。在202,处理器122可被配置成接收多个数据集(例如,类似于表1-3),每个数据集包括客户标识符字段。客户标识符字段指定与每个数据集中的每个条目关联的唯一客户标识符。所述多个数据集包括第一组数据集和第二组数据集,每个数据集根据客户标识符可与每个其他数据集关联。在一些实施例中,第一组数据集包括多个家庭的人口统计信息(例如,类似于表1),第二组数据集包括多个家庭的交易信息(例如,类似于表3)。在204,处理器122可被配置成保存所述多个数据集。在206,处理器122可被配置成生成包括客户标识符字段和匿名标识符字段的键映射表(例如,类似于表4)。键映射表的客户标识符字段包括所述多个数据集中的第一组数据集的唯一客户标识符,匿名标识符字段包括唯一匿名标识符。每个匿名标识符对应于键映射表的客户标识符,每个匿名标识符不同于其对应的客户标识符。在208,处理器122可被配置成保存键映射表。在一些实施例中,键映射表被保存在和多个数据集不同的位置。在210,处理器122可被配置成通过根据键映射表用对应的匿名标识符替换第二组数据集中的每个唯一客户标识符,致使第二组数据集中的每个数据集不可与第一组数据集中的每个数据集关联。这样,处理器122根据匿名标识符,致使第二组数据集中的每个数据集可与第二组数据集中的每个其他数据集关联。在一些实施例中,方法200还包括在不采用第一组数据集或键映射表的情况下,根据与第二组数据集的第一数据集中的第一条目关联的匿名标识符,使所述第一条目与第二组数据集的第二数据集中的第二条目相关。在一些实施例中,方法200还包括删除键映射表。在一些实施例中,方法200还包括利用选自(但不限于)以下:公钥加密方案和对称密钥加密方案的加密方案,对键映射表加密。图3是图解说明按照实施例的另一种方法300的流程图。在一些实施例中,方法300是利用键映射表,用于数据匹配和匿名化的方法。方法300可由设备100或者结构/功能上类似于设备100的任意设备进行。特别地,与进行方法300关联的指令可被保存在设备的存储器(例如,图1中的设备100的存储器124)中,并在设备的处理器(例如,图1中的设备100的处理器122)中执行。在302,处理器122可被配置成接收包括客户标识符字段的参照数据集(例如,类似于表1)。参照数据集的客户标识符字段指定与参照数据集中的每个条目关联的唯一客户标识符。在304,处理器122可被配置成接收包括客户标识符字段的第一数据集(例如,表2)。第一数据集的客户标识符字段指定与第一数据集中的每个条目关联的唯一客户标识符,根据客户标识符字段,第一数据集可与参照数据集关联。在306,处理器122可被配置成保存参照数据集和第一数据集。在308,处理器122可被配置成通过根据键映射表用对应的匿名标识符替换第二数据集的每个唯一客户标识符,致使第一数据集不可与参照数据集关联。在一些实施例中,键映射表(例如,类似于表4)被保存在与参照数据集和第一数据集不同的位置。键映射表包括客户标识符字段和匿名标识符字段,键映射表的客户标识符字段包括第二数据集的唯一客户标识符,匿名标识符字段包括唯一匿名标识符。每个匿名标识符对应于键映射表的客户标识符,每个匿名标识符不同于其对应的客户标识符。在308,处理器122可被配置成接收一个或多个另外的数据集(例如,表3),每个另外的数据集包括客户标识符字段。所述一个或多个另外的数据集根据客户标识符字段可以与参照数据集关联,并不可与第一数据集关联。在310,处理器122可被配置成通过根据键映射表,将每个另外的数据集中的每个唯一客户标识符替换为其对应的匿名标识符,致使所述一个或多个另外的数据集不可与参照数据集关联。步骤310处的所述致使包括根据匿名标识符字段,致使所述一个或多个另外的数据集可与第一数据集关联。在一些实施例中,参照数据集包括多个家庭的人口统计信息,所述第一数据集和所述另外的数据集之中的至少一个包括多个家庭的交易信息。在一些实施例中,方法300还包括通过在参照数据集中识别与第一条目关联的客户标识符,并在键映射表中识别与识别的第一标识符对应的匿名标识符,来使参照数据集中的第一条目与第一数据集中的第二条目相关。在这样的实施例中,所述方法还包括识别与识别的匿名标识符对应的第一数据集中的第二条目,并返回与参照数据集中的第一条目相关的第一数据集中的第二条目。在一些实施例中,方法300还包括利用选自(但不限于)以下:公钥加密方案和对称密钥加密方案的加密方案,对键映射表加密。在一些实施例中,方法300还包括删除键映射表。在一些实施例中,方法300还包括在不采用参照数据集或键映射表的情况下,根据与第一数据集中的第一条目关联的匿名标识符,使所述第一条目与所述另外的数据集之一中的第二条目相关。在一些实施例中,方法300还包括生成包括客户标识符字段和匿名标识符字段的键映射表,并把键映射表保存在与参照数据集、第一数据集和所述一个或多个另外的数据集不同的位置。图4是图解说明按照实施例的另一种方法400的流程图。在一些实施例中,方法400是利用键映射表,用于数据匹配和匿名化的方法。方法400可由设备100或者结构/功能上类似于设备100的任意设备进行。特别地,与进行方法400关联的指令可被保存在设备的存储器(例如,图1中的设备100的存储器124)中,并在设备的处理器(例如,图1中的设备100的处理器122)中执行。在402,处理器122可被配置成接收包括客户标识符字段的第一数据集(例如,类似于表2)。所述客户标识符字段指定与第一数据集中的每个条目关联的唯一客户标识符。在404,处理器122可被配置成保存第一数据集。在406,处理器122可被配置成根据键映射表(例如,类似于表4),用对应的匿名标识符替换第一数据集的每个唯一客户标识符。键映射表包括客户标识符字段和匿名标识符字段。键映射表的客户标识符字段包括第一数据集的唯一客户标识符,匿名标识符字段包括唯一匿名标识符。每个匿名标识符对应于键映射表的客户标识符。每个匿名标识符不同于其对应的客户标识符。在408,处理器122可被配置成接收一个或多个另外的数据集(例如,类似于表3)。每个另外的数据集包括客户标识符字段,所述一个或多个另外的数据集不可与第一数据集关联。在410,处理器122可被配置成通过根据键映射表,将每个另外的数据集中的每个唯一客户标识符替换为其对应的匿名标识符,根据匿名标识符致使所述一个或多个另外的数据集可与第一数据集关联。例1作为另一个非限制性例子,考虑相对于客户标识符需要被匿名化和/或使得不可关联的两个数据集(下面的表7-8)。表7包含感受在线广告的消费者的感受日期信息,表8包含消费者的人口统计部分信息。表7hhidexp_date1234/1/20134565/5/2013表8hhidsegment_name123Soccer_Mom123SUV_Owner456VideoGamer本公开的各个方面可确定HHID列是主键(类似于客户标识符),并生成对于每个HHID具有不同的随机值的键映射表,如表9中所示:表9hhidanon_hhid1232045640如果表7可识别成EXPOSURE,表8可识别成DEMO_SEGMENT,并且表9可识别成HHID_KEYMAP,那么由此可见利用下述例证代码,通过采用HHID标识符‘123’和‘456’可以使得表7、8不可与其他数据集关联,通过采用匿名化HHID标识符‘20’和‘40’可以使得表7、8可与其他数据集关联:CREATETABLEEXPOSURE_ANONASSELECTX.ANON_HHIDASHHID,E.EXP_DATEFROMEXPOSUREEJOINHHID_KEYMAPXONE.HHID=X.HHID;CREATETABLEDEMO_SEGMENT_ANONASSELECTX.ANON_HHIDASHHID,E.SEGMENT_NAMEFROMDEMO_SEGMENTEJOINHHID_KEYMAPXONE.HHID=X.HHID;作为结果的匿名化表格EXPOSURE_ANON(对应于表7)和DEMO_SEGMENT_ANON(对应于表8)在下面分别表示成表10和11。表10hhidexp_date204/1/2013405/5/2013表11hhidsegment_name20Soccer_Mom20SUV_Owner40VideoGamer按照这种方式,在一些情况下,可以根据接收的数据集,不需要参照数据集地动态生成键映射表。如上所述,在一些实施例中,按照保持用户隐私(例如,人口统计信息)同时允许与活动相关的有关交易信息和其他商业信息的共享和/或散播的方式,数据集可以与测试和/或对照组关联,以便如在'627申请中所述那样确定广告效用。例如,数据集可包括在家庭层面的一个或多个推销实体和/或特定的零售商类别(比如(但不限于)批发渠道总体、广告活动总体、药物渠道总体、杂货商渠道总体、购物中心渠道总体等)的广告数据和交易数据。在一些实施例中,广告数据集和交易数据集可包括个人可识别信息(PII),个人可识别信息可被分成消费者数据的不同数据集(例如,比如表1),随后如上所述使得更改的广告数据集和交易数据集不可与消费者数据集关联。消费者数据集可包括(但不限于)收入、净资产、儿童指示(childrenindicators)、部分成员关系(例如,生活方式、买主,等等)、开销信息、一个或多个数字活动度量、家庭标识符(HHID),等等。更改的广告数据集可包括关于感受活动的日期和时间的信息(例如,客户何时确实浏览了活动广告)、活动的标识符、HHID、展示类型和展示标识符,等等。交易数据集可以是特定于产品的,还可包括与交易关联的时间的指定、产品标识符、花费在产品上的金额、零售商简介或者产品的特定交易的来源(例如,杂货店渠道)、和HHID。记载在本文中的实施例可根据HHID生成键映射表,并通过在广告数据集和交易数据集中用匿名HHID替换HHID,致使广告数据集、交易数据集不可与客户数据集关联。处理器122可以是配置成运行和/或执行包含在处理器122中的模块的任何适当处理器。处理器122中的每个模块可以是能够进行与该模块关联的一个或多个特定功能的基于硬件的模块(例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理器(DSP))和/或基于软件的模块(例如,保存在存储器中和/或在处理器122执行的计算机代码的模块)的任意组合。在一些实施例中,处理器122可包括配置成进行设备100的其他功能的其他模块(图1中未图示)。在一些实施例中,存储器124可以是例如随机存取存储器(RAM)(例如,动态RAM、静态RAM)、闪存、可拆卸存储器,等等。在一些实施例中,存储器124包含数据库140。记载在本文中的方法是如何实现数据匹配和匿名化的例子。意图在于记载在本文中的系统和方法可用(保存在存储器中和/或在硬件上执行的)软件、硬件、或者它们的组合进行。硬件模块可包括例如通用处理器、现场可编程门阵列(FPGA)、和/或专用集成电路(ASIC)。(在硬件上执行的)软件模块可用各种软件语言(例如,计算机代码)表示,包括Unix实用程序、C、C++、JavaTM、Ruby、SQL、R编程语言/软件环境、VisualBasicTM、和其他面向对象、过程或其他编程语言和开发工具。计算机代码的例子包括(但不限于)微代码或微指令、诸如由编译器产生的机器指令、用于产生web服务的代码、和包含由计算机利用解释器执行的高级指令的文件。计算机代码的另外的例子包括(但不限于)控制信号、加密代码和压缩代码。记载在本文中的一些实施例涉及具有非临时性计算机可读介质(也可称为非临时性处理器可读介质或存储器)的设备,所述非临时性计算机可读介质上具有用于进行各种计算机实现的操作的指令或计算机代码。在计算机可读介质(或处理器可读介质)本身不包括临时性传播信号(例如,在诸如空间或电缆之类的传输介质上承载信息的传播电磁波)的意义上,计算机可读介质(或处理器可读介质)是非临时性的。介质和计算机代码(也可称为代码)可以是为特定目的设计和构成的那些介质和计算机代码。非临时性计算机可读介质的例子包括(但不限于):磁存储介质,比如硬盘、软盘和磁带;光存储介质,比如压缩光盘/数字视频盘(CD/DVD)、压缩盘-只读存储器(CD-ROM)和全息器件;磁-光存储介质,比如光盘;载波信号处理模块;及为保存和执行程序代码而专门构成的硬件器件,比如专用集成电路(ASIC)、可编程逻辑器件(PLD)、只读存储器(ROM)和随机存取存储器(RAM)器件。记载在本文中的其他实施例涉及一种计算机程序产品,所述计算机程序产品可包括例如在本文中讨论的指令和/或计算机代码。尽管上面说明了各个实施例,不过应明白它们只是作为例子给出的,而不是对本公开的限制。在上面说明的方法和步骤指示按照某种顺序发生的某些事件的情况下,某些步骤的排序可被更改。另外,各个步骤中的某些步骤在可能时,可在并行处理中同时执行,以及如上所述顺序执行。尽管各个实施例被描述成具有特定特征和/或组件的组合,不过,具有源于记载在本文中的各个实施例任意之一的任意特征和/或组件的任意组合或子组合的其他实施例也是可能的。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1