用于将信息从一个数据集转换到另一个数据集的系统和方法_6

文档序号:8417542阅读:来源:国知局
装置进行通信的任何设备。
[0128]本发明也可以在分布式计算环境中实施,其中任务或模块由远程处理设备执行,其通过通信网络链接,诸如局域网(“LAN”),广域网进行的实践(“WAN”)或因特网。在分布式计算环境中,程序模块或子程序可以位于本地和远程存储器存储设备中。
[0129]一般而言,本发明的实施例的详细描述并非意在穷举或将本发明限制于以上公开的精确形式。本领域技术人员将认识到虽然本发明的具体的实施例和示例在上文以说明的目的描述,但各种等同修改是在本发明的范围之内是可行的。例如,尽管处理或模块以给定的顺序呈现,备选实施例可以以不同的顺序执行具有多个步骤的程序或采用具有多个模块的系统,并且某些过程或模块可以被删除、移动、添加、细分、组合和/或修改。这些过程或模块可以以各种不同的方式来实现。此外,尽管过程或模块偶尔在串行执行时被示出,这些过程或模块可改为并行执行,或可以在不同的时间执行。
[0130]根据上述详细说明可对本发明做出这些或其他修改。虽然上述说明详细描述了本发明的某些实施例和描述了最佳预期模式,无论上述描述在文章中多么详细,本发明可以以多种方式实现。本发明的细节可以在其实现细节上产生相当大的变化,同时仍然被包含在本文所公开的发明中。如上所述,所使用的特定术语在描述本发明的某些特征或各方面时,不应被视为暗示该术语在此被重新定义以与该术语相关的方面限制本发明的任何特定的特性、特征,或各方面。在一般情况下,以下权利要求书中所使用的术语不应当被解释为将本发明限制在本说明书中公开的具体实施例,除非上述详细说明部分明确定义了此种术语。因此,本发明的实际范围不仅包括所公开的实施例,而且还包括实施或实现本发明的所有等同的方式。
【主权项】
1.一种在计算机系统中基于参考数据集的信息来校对对象数据集的方法,每个数据集包括多个参与者和相关的交易性数据,所述方法包括: 使用数据分区方案,将所述参考数据集分区成多个参考数据分区,所述多个参考数据分区的每一个具有相关的交易性特性,并且没有两个参考数据分区共享一个参与者; 使用所述数据分区方案,将所述对象数据集分区成多个对象数据分区,其中: 所述多个对象数据分区的每一个具有相关的交易性特性,其与同所述相应的参考数据分区相关的所述交易性特性相同;或者具有与所述相应的参考数据分区相关的所述交易性特性的高度一致性;以及 没有所述多个对象数据分区的两个对象数据分区共享一个参与者; 计算与所述多个对象数据分区的每一个相关联的权值以为被过低或者过高表示的对象数据分区调整,计算所述权值以调整所述多个对象数据分区的分布与所述多个参考数据集分区的分布相同; 为所述多个对象数据分区的每一个计算统计量;以及 通过将每个对象数据分区的被计算的权值应用到每个对象数据分区的被计算的统计量来由所述计算机系统调整所述被计算的统计量,所述被应用的权值产生所述多个对象数据分区的所述统计量的校准估计。
2.根据权利要求1所述的方法,其中每个权值通过如下决定: 通过用在所述参考数据分区中的参与者数量除以在所述参考数据集中的参与者总数来决定参考部分; 通过用在所述对象数据分区中的参与者数量除以在所述对象数据集中的参与者总数来决定对象部分;以及 用所述第一对象部分除以所述第一参考部分。
3.根据权利要求1所述的方法,其中所述权值用百分比或者绝对数表示。
4.根据权利要求1所述的方法,进一步包括在将所述参考数据集分区成多个参考数据分区前,预处理所述参考数据集以减少偏差或者提高准确性。
5.根据权利要求4所述的方法,其中所述预处理基于人口普查数据,并且所述预处理包括调整所述参考数据集,以使其更接近于由所述人口普查数据表示的所述多个参与者。
6.根据权利要求1所述的方法,进一步包括在将所述对象数据集分区成多个对象数据分区前,预处理所述对象数据集,以及减少偏差或者提高准确性。
7.根据权利要求1所述的方法,进一步包括通过以下方式生成包含在所述参考数据集中的变量的估计,其不被包含在所述对象数据集中: 识别在所述多个参考数据分区的每一个中的所述变量的发生率;以及 为在所述多个对象数据分区的每一个中的所述变量应用已识别的发生率。
8.根据权利要求7所述的方法,其中每个对象数据分区的所述变量的所述值被表示为单个值,间隔值,或每个对象数据分区的值的范围,每个所述值的范围具有相关的概率。
9.根据权利要求1所述的方法,其中所述交易性数据代表金融交易。
10.根据权利要求1所述的方法,其中所述金融交易是用信用卡进行购买,在线交易,收银机处的购物车购买,频繁的快交易,或者可靠的程序交易。
11.根据权利要求1所述的方法,其中所述交易性数据代表观看电视行为或者浏览网页行为。
12.根据权利要求1所述的方法,其中所述统计量是所述交易数量的计数或者执行交易的所述实体数量的计数。
13.根据权利要求1所述的方法,进一步包括: 结合与所述多个对象数据分区的每一个相关的权值去计算总的权值;以及 根据所述总的权值,评估在所述对象数据集和所述引用数据集之间的接近程度。
14.一种编码有指令的计算机可读介质,当被处理器执行,其在计算机系统中运行方法,所述方法基于参考数据集的信息来校准对象数据集,每个数据集包括多个参与者和相关的交易性数据,所述方法包括: 使用数据分区方案,将所述参考数据集分区成多个参考数据分区,所述多个参考数据分区的每一个具有相关的交易性特性,并且没有两个参考数据分区共享一个参与者; 使用所述数据分区方案,将所述对象数据集分区成多个对象数据分区,其中: 所述多个对象数据分区的每一个具有相关的交易性特性,其与同所述相应的参考数据分区相关的所述交易性特性相同,或者具有与所述相应的参考数据分区相关的所述交易性特性的高度一致性;以及 没有所述多个对象数据分区的两个对象数据分区共享一个参与者; 计算与所述多个对象数据分区的每一个相关联的权值,以为被过低或者过高表示的对象数据分区调整,计算所述权值以调整所述多个对象数据分区的分布与所述多个参考数据集分区的分布相同; 为所述多个对象数据分区的每一个计算统计量;以及 通过将每个对象数据分区的被计算的权值应用到每个对象数据分区的被计算的统计量来由所述计算机系统调整所述被计算的统计量,所述被应用的权值其产生所述多个对象数据分区的所述统计量的校准估计。
15.根据权利要求14所述的计算机可读介质,其中每个权值通过如下决定: 通过用在所述参考数据分区中的参与者数量除以在所述参考数据集中的参与者总数来决定参考部分; 通过用在所述对象数据分区中的参与者数量除以在所述对象数据集中的参与者总数来决定对象部分;以及 用所述第一对象部分除以所述第一参考部分。
16.根据权利要求14所述的计算机可读介质,其中所述权值用百分比或者绝对数表不O
17.根据权利要求14所述的计算机可读介质,进一步包括指令,所述指令通过以下方式引起所述计算机系统生成包含在所述参考数据集中的变量的估计,其不被包含在所述对象数据集中: 识别在所述多个参考数据分区的每一个中的所述变量的发生率;以及 为在所述多个对象数据分区的每一个中的所述变量应用已识别的发生率。
18.根据权利要求17所述的计算机可读介质,其中每个对象数据分区的所述变量的所述值被表示为单个值,间隔值,或每个对象数据分区的值的范围,每个所述的值的范围具有相关的概率。
19.根据权利要求14所述的计算机可读介质,其中所述交易性数据代表金融交易。
20.根据权利要求14所述的计算机可读介质,其中所述金融交易是用信用卡进行购买,在线交易,收银机处的购物车购买,频繁的快交易,或者可靠的程序交易。
21.根据权利要求14所述的计算机可读介质,其中所述交易性数据代表观看电视行为或者浏览网页行为。
22.—种在计算机系统中基于参考数据集的信息来校对对象数据集的方法,每个数据集包括多个参与者和相关的交易性数据,所述方法包括: 使用数据分区方案,将所述参考数据集分区成多个参考数据分区,所述多个参考数据分区的每一个具有一个或更多的变量; 使用所述数据分区方案,将所述对象数据集分区成多个对象数据分区,其中: 所述多个对象数据分区的每一个具有一个或者更多的变量,其与同所述相应的参考数据分区相关的所述一个或者更多的变量相同,或者具有与所述相应的参考数据分区相关的所述一个或者更多的变量的高度一致性; 计算与所述多个对象数据分区的每一个相关联的权值,以为相关于所述参考数据分区的所述分布被过低或者过高表示的对象数据分区调整,计算所述权值以调整所述多个对象数据分区的分布与所述多个参考数据集分区的分布相同; 为所述多个对象数据分区计算的每一个计算统计量;以及 通过将每个对象数据分区的被计算的权值应用到每个对象数据分区的被计算的统计量来由所述计算机系统调整所述被计算的统计量,所述被应用的权值产生所述多个对象数据分区的所述统计量的校准估计。
23.根据权利要求22所述的方法,其中每个权值通过如下决定: 通过用在所述参考数据分区中的参与者数量除以在所述参考数据集中的参与者总数,来决定参考部分; 通过用在所述对象数据分区中的参与者数量除以在所述对象数据集中的参与者总数来决定对象部分;以及 用所述第一对象部分除以所述第一参考部分。
24.根据权利要求22所述的方法,进一步包括在将所述引用数据集分区成多个引用数据分区前,预处理所述引用数据集,以减少偏差或者提高准确性。
25.根据权利要求22所述的方法,进一步包括通过以下方式生成包含在所述参考数据集中的变量的估计,其不被包含在所述对象数据集合中: 识别在所述多个参考数据分区的每一个中的所述变量的发生率;以及 为在所述多个对象数据分区的每一个中的所述变量应用已识别的发生率。
26.根据权利要求25所述的方法,其中每个对象数据分区的所述变量的所述值被表示为单个值,间隔值,或每个对象数据分区的值的范围,每个所述值的范围具有相关的概率。
27.根据权利要求22所述的方法,其中所述数据代表交易性数据或者行为性数据。
28.根据权利要求22所述的方法,其中所述金融交易是用信用卡进行购买,在线交易,收银机处的购物车购买,频繁的快交易,或者可靠的程序交易。
29.根据权利要求22所述的方法,其中所述统计量是所述交易数量的计数或者执行交易的所述实体数量的计数。
30.根据权利要求22所述的方法,进一步包括:结合与所述多个对象数据分区的每一个相关的权值去计算总的权值;以及根据所述总的权值,评估在所述对象数据集和所述引用数据集之间的接近程度。
【专利摘要】一种校准目标人口的关系未知的对象数据以使校准的对象数据能够更加准确地代表目标人口的方法和系统。在许多情况下,校准会涉及差分权重方案的使用,其被用到成分水平的数据。系统和方法允许在对象数据集中的观察到的变量的值可以被加权,以使其发生率相等于由参考数据集表示的参考人口的发生率,即使在参考数据集中使用的变量以为参考人口作出的估计没有针对对象数据集被收集或者测量。
【IPC分类】G06F17-00
【公开号】CN104737152
【申请号】CN201380041071
【发明人】比尔·印格尔, 查尔斯·帕尔迪, 迈克尔·文森, 布鲁斯·格利希
【申请人】兰屈克有限公司, 比尔·印格尔, 查尔斯·帕尔迪
【公开日】2015年6月24日
【申请日】2013年5月31日
【公告号】CA2874837A1, CA2874837C, US8543523, US20140081703, WO2013181643A1
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1