用于将信息从一个数据集转换到另一个数据集的系统和方法

文档序号:8417542阅读:614来源:国知局
用于将信息从一个数据集转换到另一个数据集的系统和方法
【专利说明】用于将信息从一个数据集转换到另一个数据集的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求2013年3月15日提交的美国专利申请号13/836,591,标题为“ASYSTEM AND METHOD FOR TRANSFERRING INFORMAT1N FROM ONE DATA SET TO ANOTHER”的优先权,其要求2012年6月I日提交的美国临时专利申请号61/654,771,标题为“A SYSTEMAND METHOD FOR TRANSFERRING INFORMAT1N FROM ONE DATA SET TO ANOTHER”的权益,其全部内容通过引用合并于此。
【背景技术】
[0003]如今,媒体研宄者和信息管理者可以任意使用与消费者相关的广泛信息。这些数据包括以明显的,主动方法收集的,也包括一些以不明显的观察收集的。前者的例子包括调查,保修登记,通过互联网连接设备主动数据收集,以及频繁的购物节目。后者的例子包括从数据流获得的数据,优惠券赎回,信用卡交易,通过数字机顶盒的电视观看行为,因特网观察行为(例如通过cookies的交互),IP跟踪等等。在过去,大多数用于人口估计的数据一致被认为是从具有良好定义的已知的人口关系,例如概率样本中得到的。受需求驱动,通过一些老范例的失败,以及通过新技术,其产生了多样的以及潜在有利的信息,越来越多的可用数据,在表面上,是来自不具有良好定义的已知人口关系并且不直接代表将要被测量的人口的数据集。尽管数据的所有类型都是潜在有用的(例如,良好定义的人口关系数据,在某些方式上,也被认为是良好定义的人口关系数据不是已知的),基于不具有数据集元素和人口元素之间良好定义的已知的关系,现有技术提供了很少的用于提高人口估计的精确性的工具。
[0004]当要分析的人口规模(“目标人口 ”)很大,需要分析目标人口(这里“原始数据”)信息的研宄者很少实施人口的所有成员的原始数据的规则化测量,因为收集这么多的信息成本往往很高,它需要的收集时间太长,或者是因为一些其他原因不切实际。一个高数据收集成本的著名示例是十年一次的人口普查。在美国,根据美国政府问责办公室公布的“Preliminary Lessons Learned Highlight the Need for Fundamental Reforms,,,2010人口普查花费大概130亿美元来收集大概3.08亿美国居民的数据。
[0005]由于实施大量目标人口的人口普查的高成本,研宄者将典型得只收集一部分人口数据(例如,采样人群),并且将然后根据样本和它与人口的关系,估计整体人口的特性。这种方法的问题是,样本可能是误导的,由于在样本选择本身过程中的已知,以及未知存在的偏差。例如,样本会经常成为自选择偏差的受害者,因为样本人口的一些成员拒绝被观察或者不能被观察。样本,包括那些交易数据集合中的(例如通过信用卡的在收银处的购买,在订购了某种电视服务的家庭中实施的电视观看行为交易,其观看行为交易被监视,等等)通常是参与者以结果样本被偏差的方式进行选择的:它用充分的并且未知的方式不准确地代表了整体目标人口。这些选择偏差的存在会使人口特性的结果估计不准确,在直观的或者偏见的感觉上。
[0006]在本说明书中方便起见,一些术语将被定义。收集到的数据,是用于做人口估计的原始数据集合,不管是明显地收集到还是不明显地,在下文中称为“对象数据”。用来获取目标人口属性的数据集将被称作“参考数据”。代表特定事件的不明显获得的数据(例如信用卡交易,电视机顶盒的信道变化,在网络浏览器的URL上的点击,频繁的快交易,或者与商家的可靠得程序交易)在下文中被称作“交易数据”。在本文中,有所区别的是,“个人-身份信息”,也就是说,具有充分独特性的数据可用于识别特定的个人或者家庭,例如社保号,名字/地址结合,信用卡号,等等。而“个人信息”,不一定足以识别特定的个人或用户,然后也被认为是隐私信息,比如收入,宗教偏好,年龄,等等。个人-身份信息的使用存在许多法律限制。此外,许多公司对于使用个人信息很敏感,即使没有具体的法律限制。
[0007]过去媒体调查发生在研宄者控制样本,抽样框,以及问调查问题的情形中。统计方法和估计程序被发展以解释人口样本的估计和属性与研宄目标的整体人口之间的区别。通过技术的结合-例如严谨的样本框设计,概率抽样,过度抽样,优化配置,以及样本平衡-大量的方法论工具发展起来。这些技术中的大部分利用概率理论从样本数据中构建人口特性估计。一些,像样本平衡,没有使用概率机制,但是至少,假设将被分析的数据具有充分细节,以使调查者能够构建校准型估计,利用从样本元素中直接收集的校准变量值,来对未来人口做出估计。总之,这些校准估计和过程要求用于校准的变量存在于样本收集的数据中。
[0008]当样本受到选择偏差时,基于概率抽样的估计技术通常是不充分的。对象数据集不一定基于从完全覆盖了目标人口的定义的采样框中取得的概率样本的事实意味着一些变量或者它们的值的比率或者发生率可能并不能好的近似其本来那么大量的人口中的相应比率。使用这些数据的估计量不具有使对象数据集中的结果偏差足够正确的选择可能性。如果适合于校准估计量的变量在对象数据集中可以被获得,则校准或者相关技术可被用于调整估计。但是,这些传统的统计技术要求用于平衡变量的调查回应者级别信息在对象数据集中是存在的。换句话说,样本平衡技术要求用于平衡的所有变量存在于(例如,天然存在于)数据集中,以使平衡变量对于数据集中的每个回应者可被观察或测量到。例如,在做人口估计的过程中,当对象数据集包含数据集中的每个回应者的必要人口统计数据时,传统的平衡技术可应用于提高数据集的代表性,以匹配目标人口的人口统计的统计量。
[0009]然而,这些传统调查估计技术要求所有平衡变量存在于数据集的事实是现代数据隐私要求情形下的严重限制。例如,许多消费者反对允许调查、数据收集,或者市场公司去收集(或者结合)伴随着旨在被分析的主要调查或者交易数据的个人信息。许多消费者反对提供(或者可能不能提供)信息,例如他们是否观看了特定的电视广告,节目或者频道,他们是否观看了特定的英特网网站或者以其他方式消费其他因特网内容,例如通过使用智能手机应用程序,他们是否购买了或者将要购买特定的产品,以及真正的或者潜在的产品购买发生在什么情形下,他们是否使用特定的服务以及相关条件,等等。
[0010]在一些情况下,目标人口的成员可能,在获得足够补偿的条件下(比如金钱补偿,产品优惠券,人群中第一个尝试新产品的机会等等),只选择参加收集个人信息的一项调查(或者一个交易),因为他们被使用的信息受到感知风险或者他们的隐私受到潜在损害。目标人口的其他成员可能选择根本不参加收集任何个人信息的调查。因此,调查者实施向回应者要个人信息(不同于个人身份信息)或者研宄者本意提供调查给回应者补偿来交换这些信息(或者不提供这些补偿,或者提供补偿水平的错误形式)的事实影响了人口中的哪一部分将成为调查回应者,并且因此可能在调查结果中引入在不收集个人信息时不存在的偏差。进一步,在任何调查或者数据收集发生的其他情形(比如,例如,一天中的时间,一周中的天,位置,或者目标人口的不同成员可能或多或少回应的各种其他情形)可影响样本的代表性,以及哪一部分人口潜在回应者决定参与,然后在样本中引入偏差。
[0011]此外,信息(可能被分析,类似于如何分析交易相关的调查信息)在交易数据库中被收集到的消费者,可能有权,在他们个人信息被使用或者被与其他公司分享的情形下,收到通知。现在通常在法律上,或者文化上,都不能接受甚至问一个消费者他们的种族,性别,年龄,身高,体重,宗教,家庭状况,婚姻状况,残疾状况,流动性,家庭财产,位置,雇佣状态,行业,收入,教育水平,政治信仰,性取向,任何其他人口统计信息,或者任何可能被隐私政策限制的其他信息(不管是个人身份信息还是个人信息)。
[0012]同时,这些消费者通常还被法律赋予权利,要求公司在特定的方式上,限制使用或者分享他们的个人信息,因此限制公司可以使用消费者个人信息的方式。例如,1999年的金融服务现代化法案(简称“格雷姆-里奇-比利雷法案”)要求金融机构在消费者关系建立时,以及自此的每一年,提供“隐私注意”。这种或者其他隐私法律现在存在于美国,以及其他国家,并且广泛影响着行业和市场的范围。
[0013]然而,从数据库中消除个人信息的问题是将调查的统计量或者其他数据收集应用到期望的目标人口的现有技术调查分析技术(例如样本平衡)要求在数据集中存在个人信息,以使调查统计量更能代表目标人口(换句话说,以减少偏差)。
[0014]许多过去的技术集中在依赖于概率抽样技术和基于概率的估计模型的建立的估计技术。但是,最近,越来越需要使用不是从严格的概率样本中收集的数据集(因为,例如,样本没有回应或者框的覆盖问题,或者因为数据来源于一些过程,这些过程被设计为其他目的)。如上所述,这些数据通常不具有做出人口特性的合理估计所需必要的校准变量。在数据收集过程中的测量数据通常不如在严谨计划的样本调查中选择地好,严谨计划的样本调查使用概率样本和具有针对用途的数据收集工具,例如,美国人口普查进行的当前人口调查。最终结果是许多数据集中存在的变量不能被研宄者预先决定,并且即使校准变量是存在的,一些或者所有可能被数据带有的隐私限制等等排除出去。示例包括因特网广告服务器日志,电视机顶盒观看数据,以及信用卡交易数据。一些这种数据通常是,例如,交易的剩余数据或者在交易“管道”中收集的交易或者因特网交互信息。这些数据集通常包括百万或者十亿的数据点,但是每个单独的回应数据点可能缺少比如传统人口统计数据的补充数据,进一步样本可能是未知的质量并且可能由于内在的选择或者其他偏差,不能代表整体人口。因此,需要有估计技术,其可以平衡这些数据集尽管收集到的数据集中缺少可用校准变量。至少上述问题的结果是,亟需能将调查,或者其他样本数据,交易数据,或者统计量的估计调整地更加能够代表期望的目标人口,不需要数据集当中存在调整变量的(比如参与者的个人信息)统计估计技术。这样做会在不需要存储或甚至直接知道参与者的个人信息的情况下,得到目标人口特性的更准确的估计。
【附图说明】
[0015]图1是基于参考数据和分区方案分析对象数据的系统框图。
[0016]图2是通过分区对象数据、计算分区的统计量、基于参考部分调整统计量以及结合统计量来说明对象数据分析的数据流程图。
[0017]图3是根据参考数据和分区方案解释参考部分的判断的数据流程图。
[0018]图4是判断有利于分析对象数据的分区方案的代表性方法的示意图。
[0019]图5A是说明如参照图2示出的对象电视观看数据的数据流程图。
[0020]图5B是说明如参照图2示出的对象金融交易数据的数据流程流程图。
具体实施例
[0021]本文描述了校准目标人口的关系未知的对象数据,以使校准对象数据可以更精确地代表目标人口的系统和方法。在许多情况下,校准会涉及差分权重方案的使用,其被用到成分水平的数据。这里使用的术语“校准(动词)”或者“校准(名词)”意味着使一个或多个数据集更加近似另一个或多个数据集的方法。
[0022]这里描述的系统和方法允许在对象数据集中的观察到的变量的值可以被加权,以使即使在参考数据集中使用的变量以为参考人口作出的估计没有针对对象数据集被收集或者测量,其发生率和使用参考人口的参考数据集的参考或者目标人口的发生率相等。特别地,这里描述的系统和方法允许来自对象数据集的估计通过使用目标人口的个人信息特性被平衡或者以其他方式被调整,尽管个人信息特性不是对象数据集中收集的数据的一部分。
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1