用于将信息从一个数据集转换到另一个数据集的系统和方法_4

文档序号：8417542阅读：来源：国知局

某些额外参考变量的部分参与者数据，以给予与参考数据集138相一致的值。另一个例子，数据的加权可由调整记录或者记录组的算术等同过程完成。也就是说，记录或者记录组可能被重复或者其他方式调整，以在使用或者没有使用因子，乘数，或者其他算术等同操作时，取得相同的加权效果O
[0062]当分区权值大于10，这意味着系统100已经确定分区代表性过低(例如，对象数据集中的分区中的参与者太少)。当分区权值小于1.0，分区是代表性过高的(例如，对象数据集中的分区中的参与者太多)。当分区权值等于1.0，调查分区既不是代表性过高也不是过低的，并且调整的分区统计量将等于未调整的分区统计量(例如，如果第一分区权值218是1.0，然后调整的第一分区统计量219将等于未调整的第一分区统计量216)。
[0063]参照第二分区(例如，分区220，标识符222，原始数据224，统计量226，参考部分227，分区权值228以及调整的统计量229)的图2中的项目以与关于第一分区的图中的项目(例如，210，212，214，216，218和219)彼此交互相似的和相应的方法进行彼此交互。进一步，系统100通过合适的分区方案134和额外的支持数据项和处理步骤，可被扩展以使用两个以上的分区。它还可以被扩展来包含多于单个对象数据集和单个参考数据集138。
[0064]在参考部分匹配组件146已经为每个分区调整至少一个统计量(例如，219和229)之后，其然后结合调整的统计量来为对象数据集132产生至少一个校准的统计量230。分区的调整统计量结合的方式取决于统计量，但是可能包括执行它们的平均操作，比如加权平均(例如，基于分区参与者的非调整数量)，对它们进行求和(用于基于计数的统计量)，进一步子除或者细分它们，等等。
[0065]例如，如果第一分区统计量216代表“分区I中由两个家庭，其中一个观看了民主党总统辩论，另一个没有观看”，并且第二分区统计量226代表“分区2中存在两个家庭，没有一个观看了民主党辩论”，然后可能根据下面示例计算校准统计量230。
[0066](I)出于示例目的，假设计算的第一分区权值218等于每个家庭1.25，并且计算的第二分区权值228等于每个家庭0.75。换句话说，在第一分区的家庭将被上升加权，以调整代表性过低，并且第二分区的家庭将被降低加权，以调整校准统计量的代表性过高。
[0067](2)计算第一分区调整的统计量219:
[0068](a)分区I的家庭I观看了辩论，所以它对调整的第一分区统计量219的贡献=1.25 (第一分区权值)*1.0 (观看过)=1.25加权观看。
[0069](b)分区I的家庭2没有观看辩论，所以它对调整的第一分区统计量219的贡献=1.25 (第一分区权值)*0.0 (未观看)=0.0加权观看。
[0070](c)第一分区的全部加权观看的总和=1.25+0.0 = 1.25 (例如，调整第一分区统计量219) ο第一分区的权值总和=1.25+1.25 = 2.5。
[0071](3)计算第二分区调整的统计量229:
[0072](a)分区2的家庭3没有观看辩论，所以它对调整的第二分区统计量229的贡献=0.75 (第二分区权值)*0.0 (没有观看)=0.0加权观看。
[0073](b)分区2的家庭4没有观看变量，因此它对调整的第二分区统计量229的贡献=0.75 (第二分区权值)*0.0 (没有观看)=0.0加权观看。
[0074](c)第二分区的全部加权观看的总和=0.0+0.0 = 0.0 (例如，调整第二分区统计量229) ο第二分区的权值总和=0.75+0.75 = 1.5。
[0075](4)通过求和调整的第一分区统计量219和调整的第二分区统计量229中的加权家庭以及除以所有权值的总和来计算校准的统计量230:
[0076](a)全部调整的观看总和=1.25(第一分区调整的统计量)+0.0(第二分区调整的统计量)=1.25。
[0077](b)权值总和=2.5(第一分区)+1.5(第二分区)=4.0。
[0078](c)校准的统计量230 =全部调整观看总和/权值总和=1.25/4.0 = 0.3125。
[0079]换句话说，在校准之后，统计量反映在分区人口内的31.25%的家庭观看了辩论。
[0080]参照第二调查分区220相关的图2所示的所有项目(例如220，222，224，226，227，228和229)被系统100使用，计算，决定，匹配等等，并且用与第一调查分区210和它相应的项目(例如，210，212，214，216，218和219)被使用和彼此交互相应和类似的方法来彼此交互。这里公开的实施例可被扩展到任何数量的这些分区。
[0081]在本发明的某些方面，参考部分匹配组件146可直接为系统100的随后使用，或者为不同系统的可能使用，在对象数据集132中直接节约权值(例如218和228)或者参考部分(例如217和227)而不是直接将权值应用到计算的统计量上。在某些方面，权值或者参考部分在分区中(例如，210和220)与原始数据集204 —起存储。
[0082]本发明的一些实施例可使用，同时存在于一部分对象数据集的和一部分参考数据集的额外数据，以计算分区权值。然后通过选择它们计算分区权值，以使对象数据集的额外数据变量的加权发生率匹配相同的参照数据集的额外数据变量的发生率。
[0083]本发明的进一步实施例可使用分区来将变量从参考数据集回转到对象数据集中去。例如，假设变量A存在于参考数据集，但不存在于对象数据集。当在参考数据集中产生分区时，系统100决定每个分区中的变量A的可能值的发生率。变量A的值可能被表示为单个值，间隔值，与分区相关的每个可能结果的概率矢量。单个值可能是最可能的回应，平均回应，中值回应，加权回应线性组合，等等。变量A值的发生率的相关分布然后由系统100应用到对象数据集132的相应分区的元素或者记录中。在这种方式下，变量A的可能值在对象数据集中被直接估计，即使不存在于对象数据集中。在类似的方式下，变量A可存在于对象数据集中，但不存在与参考数据集中。在这种情况中，对象数据集的变量可被用于回转参考数据集的变量值。
[0084]有时，不管是参考数据集138还是对象数据集132，都会判断用户170需要未出现在任一数据集的变量。在这种情况下，系统100可生产应用到一个或者两个数据集的模型变量。系统100通过依赖于包含模型变量的外部数据集(未知)，生成模型变量。处于丰富分区方案的目的，系统通过外部数据集的分区，决定模型变量的可能值的发生率，并且在参考数据集138或者对象数据集132的每个分区中应用模型数据。
[0085]在本发明的一些方面，系统可通过跳过某些不必要的步骤，优化计算机效率，或者减少不必要的数据存储或者数据传送。例如，如果为指定的分区索引计算的统计量结果已经被预定为某一值，系统可利用该值而不是计算分区索引的统计量。相似地，当参考部分135的应用程序被预定为不具有保证校准效果时(例如，分区，分区统计量计算，分区统计量调整，以及结合)，系统可决定不对这些数据进行分区。在另一个示例中，系统可通过排除一部分对象数据132，节省不必要的计算，存储或者数据传输。这将发生在，参考部分135的应用程序趋向于帮助纠正由排除一部分对象数据132而引起的不准确性。在一些情况下，这能够通过不需要购买或者收集尽可能大的对象数据节约成本。
[0086]参考部分计算
[0087]图3是示出基于参考数据集138和分区方案134的参考部分135的计算的数据流程图。如图2所示，箭头通常表示系统100在执行数据处理操作。
[0088]参考数据集138包含每个居民160的标识符302和原始数据304。可选择地，参考数据集138也包括与所有或者一部分居民160相关的个人信息。个人信息是可能用于识别个体的信息，并且当使用或者发布这些信息时，会受到高度的安全防范措施。安全措施可由政府，公司，政策委员会，或者其他机构指示。
[0089]为了简洁起见，出现在图3的参考数据集138的居民数量为4。但是，许多其他居民数量(“m”)可能存在于参考数据集138中。其可能是大于，等于，或者小于参与者120的数量(“η”)的。
[0090]如上面描述的图1和图2，分区组件140使用分区方案134，以基于居民的原始数据304，将参考数据集138分成多个参考分区310和320。与居民相关的被分区的个人数据306将为居民保留在分区中。
[0091]例如，第一参考分区310示出了标识符312，原始数据314，以及对应于第一参考分区的居民(例如，居民l(160a)和居民2 (160b))。再举一个例子，第二参考分区320包含标识符322，原始数据324以及可用于居民的任何个人数据326(例如，居民“m” (160y)和居民 m_l (160x))ο
[0092]参考部分决定组件144可为每个分区产生参考部分135 (例如，第一分区参考部分217和第二分区参考部分227)，通过，例如，用数据集中居民数除以分区中的居民数。为每个分区参考部分的过程重复地为每个参考部分进行。例如，如果在第一参考分区310中有六个居民，在参考数据集138由十个居民，然后决定的第一分区的参考部分217将是6 + 10= 60% (或者0.6)。如果在第二参考分区320中有四个居民，在参考数据集中138中有10个居民，第二分区部分227将是4+10 = 40% (或者0.4)。
[0093]在本发明的一些实施例中，参考部分217和227可进一步被调整，或者被不同地计算，比如当用于期望分析的参考人口与参考数据集138的居民160不同时。例如，特定分区的个人数据(比如第一分区的个人数据316)期望被分析(重新定义为“参考人口”)，然后第一分区217的参考部分会增加，并且其他分区的参考部分(例如，第二分区227的参考部分)可能被设置为O。在某些方面，多个参考部分将被用户170出于多个理由调整，比如增加或者减少一个或者更多分区的个人数据的期望表示(例如，第一分区316或者第二分区326的个人数据)。
[0094]分区方案计算
[0095]图4示出了当决定由系统100执行的对象数据的分析的有用分区方案134时，分区方案决定组件144可使用的多个因素。
[0096]分区方案决定组件144可使用的因素包括，但不仅限于:
[0097]402-基于随机标准，比如基于随机数，决定分区方案。
[0098]404-使用用于决定分区方案的意见专家的判断。例如，用户170能够通过用户接口 180，向分区方案决定组件提供有用指令。在一些情况下，意见专家将试验多个分区方案134并且执行判断(比如通过比较哪些能实现预期效果，哪些不能)。在一些情况下，系统可使用自动路线，其基于意见专家定义的参数，解决最优分区方案(或者一些情况下，基于预定的参数)。分区方案的优化可基于，例如，使用本领域公知技术来优化参数，比如使用单纯形法，或者其他代替方法(比如非线性优化方法)。
[0099]406-基于电视观看行为决定对数据进行分区的分区方案。基于电视观看行为分区在上面已经有所描述(例如在至少与图2示例的相关描述中)，但是基于电视观看行为的分析的许多其他不同方法是可能的。除了电视观看行为，其他媒体使用行为，比如在线Web活动，社交媒体使用，移动应用程序(“app”)互动，在线视频观看，等等。这些将被用于决定分区。
[0100]408-基于金融交易行为决定对数据进行分区的分区方案。当调查或者参考数据包括金融交易，比如收银记得银行卡交易，或者信用卡持有者的信用卡的年度总结

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6