用于将信息从一个数据集转换到另一个数据集的系统和方法_3

文档序号:8417542阅读:来源:国知局
组件146调整系统100计算的对象分区的至少一个统计量,以使对象分区更接近地匹配对应于对象分区的参考部分。当多个分区被调整,以使对象数据集132的分区上的分布匹配参考数据集138的分区上的分布。对象数据集132被校准,以更能代表参考数据集138反映的期望人口。
[0045]参考部分决定组件144决定参数数据集138以及分区方案134,相应的参考部分135,其将引起参考部分匹配组件146以校准分区对象数据集,以为了更接近地代表由参考数据集138定义的人口。在下面标题为“参考部分计算”中给出决定参考部分的另外一些细节。
[0046]参考数据收集组件150用合理的方式收集参考数据集138。例如,通过上面描述的技术,系统100可为对象数据收集组件I1收集对象数据集132,收集参考数据集138。这里使用的“居民”用于描述可获得参考数据集138的任何组别。参考数据集可包括调查参与者,消费者,回应者,购买者,观看者等等。在参考数据收集组件150使用人口普查收集技术的实施例中,参考数据集138可是人口普查。注意参考数据集的居民的数量m不会匹配对象数据集的参与者的数量n,并且对象数据集可能与参考数据集共享个体。此外,参考数据集中与每个个体相关的数据往往不同于对象数据集中与每个个体相关的数据。典型地,参考数据集138将包含一些与对象数据集132相同的变量以及其他没有在对象数据集中示出,但是是参考数据集示出的人口估计的变量。在对象数据集132的一个参与者120是参考数据集138的居民160的情况下,系统100可能或不能直接识别匹配。即使当系统100不能直接识别匹配,当数据集132和138包含不同的模式(比如习惯性的行为性或者其他不同的交易性模式),并且当基于这些模式分区方案134进行有效分区时,系统100可能将对一个既是参与者又是居民的个体进行分区。参考数据集138可能或者不可能包括从至少一部分居民160收集的个人信息。
[0047]参考数据集138为系统100提供了参考,以校准对象132 (或者,一个或者更多的由此计算的统计量),以使对象数据集更接近地近似参考人口。例如,参考数据集138可能是人口普查数据,其以一系列人口统计变量的方式特征化每个居民。在一些实施例中,参考数据的个人数据(例如居民的人口统计信息)被分析和调整,必要时,获得参考人口的一个或者更多的期望个人特性。参考数据集138被当做参考,决定哪一个参考部分用于调整至少一个对象数据集中的统计量136,以使其跟接近地匹配参考人口,其上的对象数据集132的投影是所期望的。
[0048]系统的用户170可使用用户接口 180去指定多个分析选择,比如期望的参考数据集138,期望的对象数据集132,期望的分区方案134等等。系统100还可提供正在使用的分析参数,以及相应的统计量(包括在调整和结合之前或之后),以使用户170监视分析过程并且改善参数。在一些实施例中,用户接口可简单地向用户170展示分析结果,不需要用户改变分析选项。在图1没有加以说明的一些方面,分析被送到其他系统以用于进一步的处理、报告等等。
[0049]在一些情况下,理想情况是在应用本文公开的分区方法论之前,预处理参考数据集138或者对象数据集132。如果参考数据集不能反映期望人口,在用参考数据集之前,参考数据集138可能被系统100预处理,以减少偏差或者提供精确性。预处理的例子是,系统100调整参考数据集138,以使其更近似于期望人口普查数据所代表的一组个体。人口普查数据可能从政府机关,公司,或者手机这些数据的其他来源中得到。如果对象数据集132不能反映期望人口,在如本文公开地进一步校准对象数据集132之前,对象数据集132可类似地被系统100预处理以减少偏差或者提高精确性。
[0050]在一些情况下,需要的目标人口的属性可能通过各种估计程序从参考数据集中获得。通过计算程序获得属性,计算程序与从整体人口中获得相同人口属性或者参数的程序直接相似,比如方法,求和等等。可选择地,目标人口的属性可通过更复杂的程序获得,比如加权方法和求和,或者甚至更复杂的程序,要求取得人口属性的必要估计。
[0051]图2是示出系统100执行对象数据集132的分析的数据流程图。系统对对象数据集132进行分区,为分区计算统计量,基于参考部分135调整统计量,并且结合调整的统计量。这里的箭头通常表示系统100在执行数据处理操作。
[0052]所示出的对象数据集132显示参与者120的非个人标识符202,结合同样是参与者120的相关的非个人原始对象数据204。“非个人”意味着,在某些方面,收集的数据可包括限制的个人信息,或者在某些方面,根本没有个人信息。在某些方面,参与者标识符可简单地指代对象数据集132中的相关的原始数据。在某些方面,参与者标识符可包括一些非个人其他标识符,比如分配给参与者的随机或者散列数。原始对象数据204可能是对象数据收集组件110收集的,无论是明显地还是不明显地,参与者给调查问题的答案,或者任何其他观察到的数据,行为性数据或者交易性数据,等等。
[0053]在某些方面,对象数据收集组件110收集的数据可被处理或者改善,比如消除不必要的数据传输和/或存储,比如防止对象数据集132具有不必要的存储数据。选择性地只分析某些数据可减少存储组件130的存储要求,减少网络112的所需的带宽,并且减少与接收或者存储非期望数据(比如现代数据隐私要求禁止的个人信息)相关的可能性或者潜在危害,等等。对象数据收集组件110的进一步功能可能是验证,测试,预处理,或者清理对象数据集132,比如检测丢失数据,并可选地为特定参与者122或者特定时间段估计或者以其他方式说明对象数据集132的某些数据组件的丢失。
[0054]分区方案决定组件148使用对象数据集132以计算分区方案134,尽管在其他实施例中,分区方案134可无需对象数据集132而被决定。分区组件使用对象数据集132以及分区方案134,以将对象数据集132分区成至少两个分区(例如,第一调查分区210和第二调查分区220)。分区组件140可使用的任何数量的至少两个分区,虽然为了简洁起见,在图2只示出了两个分区210和220。分区组件140通常将根据原始数据204对对象数据进行分区。例如,如果原始数据204包含了电视观看行为,比如参与者(比如家庭)在相关的时间观看的频道或者在特定频道上观看的总体持续时间,分区组件可指定是否将与参与者相应的标识符202和原始数据204存放到特定分区中,例如基于参与者在特定的时间或者天,或者一天中的特定时间(或者“天中的部分”),是否(或者有趋势)观看电视,
[0055]或者特定的频道或者频道类型,或者具有特定的改变频道行为(例如,跳过广告,频繁地改变频道),或者观看许多电视,或者趋向于观看高清内容,或者观看大量的录制内容(例如通过数字录像机或者视频点播,或者其他非传统的电视内容来源,比如在线),或者上述特性的组合,等等。分区方案134可包含简单或者复杂的算法(例如,考虑原始数据204的许多不同方面,有时一次性考虑许多因素的算法)。
[0056]在图2示出的第一分区210中,参与者I (122a)和参与者2 (122b)被示出为分区成第一分区210,由那些参与者的相关标识符212和第一次出现在第一分区210的原始数据214表示。相应地,在对象数据集132中被说明的剩余参与者122x和122y被显示,以及它们相关的标识符122和原始数据224被分区到第二分区220。尽管图2示出了四个参与者(η = 4),两个参与者,以及出现在分区中的特定参与者结合的例子,这些选择是出于清楚说明以及简洁起见,并且不被解释为对本发明范围的限制。本领域的普通人员将认识到许多其他参与者数量(例如,“η”),其他分区数量,和其他分区参与者的结合,甚至是更大数量的参与者,或者更大数量的分区是可能的。分区成员将共同分享某些信息,取决于原始数据204可用的部分,以及分区方案的行为。例如,如果几天的长时间段的电视观看行为可以获得,以及如果参与者在“白天”天中的部分(可能被定义为本地时间周一到周五的上午7至下午4:30的小时)进行他们大部分的电视观看(或者某些特定的比例或者小时总数),如果分区方案将参与者放入第一调查分区210,然后他们将至少共同的电视观看行为(或者没有直接记录在对象数据集132的其他相关的事项,比如特定的性别,特定等级的收入水平,特定的雇佣状态,特定地理区域的居住,等等)。
[0057]在一些方面,系统100,例如通过统计量计算组件142,基于第一分区210,为第一调查分区210生成一个或者更多的统计量216。例如,统计量计算包括一部分分区成员(例如,由标识符212所描述的那些),其已经在特定频道上观看至少特定持续时间的特定时间的特定的节目,比如特定时间的电视播放的一小时共和党总统候选人辩论。例如,如果参与者I观看了预定的辩论的最少部分(例如,6分钟I秒,或者24分钟),但是参与者2根本没有观看辩论(或者观看了少于预定的最小部分),然后为第一分区210计算的相应的统计量可能是50%。这些统计量表明一半考虑的参与者遇到统计量情形。
[0058]许多其他可计算统计量可能被使用,例如原始数据表示的数字值平均值(例如参与者观看的特定节目的持续时间,录制节目观看量,观看的总可用观看分钟的部分,在内容持续时间的频道变化数量,等等)。在一些情况下,统计量可能是聚合值(例如,组合的)而不是平均值,或者其可能是平均值,中位数,模式,标准偏差,标准误差,或者任何可在数据上执行的统计量计算。例如,统计量可能代表花费在观看特定电视节目的平均时间。
[0059]系统还将通过相同或者不同的公式或者通过为第一分区210计算统计量216的统计计算方法,为第二分区220计算统计量226。引用观看的电视共和党总统候选人辩论的一部分人口计算的例子,如果没有第二分区220参与者(例如参与者122x或者122y)观看了辩论或者最少需要的最小持续时间,226中计算和存储的统计量将包括O (或者0% )。
[0060]在所示的两个分区例子中,参考分区135包括第一分区217的参考部分,和第二分区227的参考部分。将被理解的是,为了简洁和清楚起见,尽管图中只示出了两个分区,在多个实施例中,这些分区的数量可多于两个。参考部分匹配组件146使用第一分区参考部分217,来调整第一分区统计量216并且产生调整的第一分区统计量219。调整可包括第一分区加权系数218的计算,可通过对象分区部分分离参考部分来执行。例如,对象分区部分可被定义为用参与者总数量120除以每个分区的参与者的数量,并且参考部分可能基于参考数据集138被计算为类似的比率。例如,当用对象数据集132的四个总共参与者除以第一分区210的两个参与者时,第一分区部分(第一分区210)将是50%。如果第一分区引用部分217是60%,用它除以第一分区部分50%,会得到第一分区权值(或者“加权系数”)218为1.2 (或者120%)。参考部分匹配组件146将权值(例如第一分区权值218)应用到计算的分区统计量(例如第一分区统计量),以计算分区的调整统计量(例如,调整第一分区统计量219)。例如,如果第一分区统计量216表明第一分区210的50%的参与者观看了电视播放的共和党总统候选人辩论,并且如果第一分区权值218是120%,然后调整的第一分区统计量219将表明观看过辩论的调整的第一分区的0.6 (或者60% )的调整值。为第一分区执行的相同统计量计算会为其他分区执行。例如,当第二分区220的参与者3( “n-1”)和4 (“η”)都没有观看过共和党总统候选人辩论时,第二分区统计量216可包括值O (或者
[0061]权值可能由分数,百分比,绝对数,或其他因子或者乘数表示。在一些实施例中,分区权值可能由不同的程序计算。例如,可计算一系列权值,以加权包含
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1