用于将信息从一个数据集转换到另一个数据集的系统和方法_2

文档序号：8417542阅读：来源：国知局

[0023]示出的方法不要求在对象数据集中的校准变量的存在，校准变量在被用于校准目标人口的统计量中的对象数据集一起使用。允许建立参考部分，参考部分使用不可在原始数据集(“对象数据”)中获得的变量，以校准或者以其他方式调整人口的对象数据估计，对人口的估计正如参考数据集示出的被需要。例如，公开的方法论让使用只包含TV观看变量(来自美国未知家庭的非概率样本)的家庭TV观看数据来产生美国人口的观看行为的校准的以及更精确的估计成为可能，而不是其它可能的对象数据单独设置。
[0024]在一些实施例中，方法论使用一个或者更多的复合变量来产生目标人口的校准统计量。例如，在样本平衡中首先校准年龄，然后性别，然后种族，等等是不寻常的。在本文公开的过程中，数据集中天生存在的变量，例如行为变量，被用来建立“分区”变量，并且一个或者更多的分区变量随后被用作校准的偏差。
[0025]例如，在家庭观看行为的对象数据集被分为使用分区方案的多个对象分区之后，根据目标人口中相同或者相似定义的分区调整这些对象数据分区的发生率。通常从另一个被称作参考数据集的数据集中决定目标人口的分区发生率。一个这样的例子是在每个分区中通过分区权值加权对象数据观察，以使数据集的每个分区的发生率的加权估计与参考人口的每个分区的发生率的估计大约相同。另一个例子是使用参考数据集去产生目标人口的分区的发生率估计，并且然后加权对象数据集合，以使在对象人口的分区发生率产生的加权估计与通过使用参考数据集为参考人口产生的估计相同。
[0026]类似地，未出现在对象数据集中的变量值可能从参考数据集的值中估计出来，通过这些分区方法“回转”到对象数据中去。例如，假设变量A出现在参考数据集中，但是没有出现在对象数据集中。然后，当在参考数据集中创建分区时，在每个分区中决定A的可能值的发生率，并且A的值的发生率的相对分布然后被应用到相应的分区的元素或者记录中，其出现在对象数据集中。变量A的可能值可能用每个可能结果的概率矢量表示，合适于当前任务的单个值或者间隔值。单个值可能是最可能的回应，平均回应，中值回应，加权回应线性组合，等等。在这种方式中，变量A的可能值直接在对象数据集中被估计。
[0027]本公开的技术的进一步应用是估计几个对象数据集代表参考集的程度。通过测量这几个数据集的每一个中的多个分区的发生率的比率，并且将这些比率与参考数据集的相应分区的比率进行比较，可用其代表参考数据集的程度对多个对象数据集进行排序或者比较。从最具有代表意义的多个对象数据集中计算出具有代表性的统计量。可选择地，统计量的加权结合可基于排序或者比较在一些或者全部多个对象数据集合上计算出来。
[0028]本发明的各种实施例现将参照附图进行描述。下面的描述为透彻理解和实现这些实施例的描述提供了特定细节。然而，本领域的技术人员将理解本发明可以在没有许多这些细节的情况下实践。此外，一些众所周知的结构或功能可能不被详细示出或描述，以避免不必要地模糊各种实施例的相关描述。
[0029]在本文中所呈现的描述中所使用的术语旨在以其最宽泛的合理方式来解释，即使它在与本发明的某些具体实施例的详细描述中被使用。某些术语可能在此强调；然而，任何旨在以任何限制的方式来解释的术语将被公开地、明确地类似于在本详细说明部分那样被限定。
[0030]本文公开了校准具有对象人口的对象数据集，以提供如参考数据集示出的参考人口的更好的估计的系统和方法。相同的变量或者特性不会同时存在于对象数据集合和参考数据集合。校准包括使用分区方案来将对象数据集分区成对象分区，根据一个或更多的对象数据集中的变量为每个对象分区计算至少一个统计量，使用与每个对象分区相关的参考部分调整每个分区统计量，并且结合调整的统计量。通过使用分区方案将参考数据集分区成参考部分决定每个分区相关的参考部分。例如，系统和方法可将调查的信息，交易数据集，或者能代表期望人口的人口普查数据作为参考数据集加以利用。系统利用参考数据去校准对象调查，交易性数据集合，或者行为数据集合，并且让对象数据集合更能反映期望人口的组成。参考数据集可包括个人信息，尽管对象数据集可能排除个人信息。
[0031]在一些实施例中，系统和方法使用非概率推理桥梁，去产生估计，估计通过根据不在对象数据集中的变量校准估计，更加能够代表所预期的人口。系统将计算的权值集应用于无论是原始形式的，还是聚合形式的对象数据集。本公开的技术的一个好处是用于平衡的变量不需要天然存在或者目前存在于对象数据集中，例如，不需要测量或者观察附于人口的任何记录或者元素。应该理解的是，考虑到现代数据隐私政策，可根据不天然存在或者存在于对象数据集中的变量去调整数据，是非常有用的。
[0032]在一些实施例中，系统和方法为在每种情况值上被调整的参考人口变量使用条件概率分布。平衡变量不需要存在于对象数据集中。
[0033]在一些实施例中，对象数据集是包含电视观看数据的数据库，以及系统和方法校准电视观看数据，以更接近地表示目标用户信息，目标用户信息由电视观看数据表示，由非存储在电视观看数据中的特性定义。例如，电视观看数据可能省略某些人口统计特性，由于在相关服务或者交易提供时包含在隐私协议里的限制。校准电视观看数据包括:将电视观看数据根据组的标识符分组，并且对于每一个组，将组的数据与组的标识符相关的估计量相乘组。(由此表示为聚合)，并且可选地聚集组产品。估计量通过如下决定:根据组标识符划分具有至少一个目标用户特性的参考数据集，并且对于每一组，根据组的至少一个目标用户决定与目标用户相关的组的估计量。
[0034]本文公开的系统和方法能够使电视观看数据反映需要用的一系列家庭的电视观看行为，即使电视观看行为包括较少或者没有信息关于家庭的人口统计组成。系统使将要被校准的电视观看数据，能够反映行为组的人口，比如，但不限制于，特定的人口统计信息定义的组。
[0035]在一些实施例中，本文公开的系统和方法可能与用于代表信用卡用户，网上交易，或者收银处的购物车购买的交易数据结合使用。系统允许这样的不具有相关个人信息的交易性数据集被校准，以减轻由使用频率引起的偏差。减轻基于交易行为队列通过依赖不同的数据来源被获得，其与交易数据集合，过多表示或者不足表示的孤立组一起。在这些情况下，不同的数据来源合作以改善与观察的真实天然性相关的估计。
[0036]系统
[0037]图1是系统100的框图，系统100分析收集对象数据集132，并基于对象数据集校准估计，以使对象数据集的统计量更接近地反映在一个或者更多的维度中测量的参考数据集138的组成，比如在参考数据集中被反映的行为和/或人口统计特性。为了校准对象数据集132，系统使用分区方案134来将对象数据集132分组。这些组，或者“分区”，由系统调整，以使对象数据集132被校准地更加能够代表由参考数据集138反映的所预期的人口。当对象数据集用这种方式校准，在校准中使用的变量的估计或者设计改变，以及在对象数据集中的至少一些其他变量的估计或者设计，即使他们没有用在校准过程中。但是，在参考数据集的变量的值不会改变。
[0038]系统包括收集对象数据集合132的对象数据收集组件110，其代表多个参与者120a，120b，...120η的行为。参与者120可能是消费者，调查参与者或者其他个体，并且他们的行为可被收集数据直接或者间接地反映，收集数据可能被明显或者不明显地收集。本领域的技术人员将理解的是，对象数据集合可能包含大量的参与者数量和类型。例如，对象数据集132可包括反映数十，数百，数钱，数百万，等等参与者的数据。对象数据集包含直接或者间接反映参与者行为的信息。例如，参与者可被如下识别:计算机标识符(例如计算机或者硬件的序列号或者标识符，间接代表计算机的人类使用者)，用户使用的移动电话标识符，家庭标识符(例如引用房屋，宿舍，军事房屋单元或者基地，医院或者其他具有电视机的群体住所，其中的电视观看数据可被收集并用为对象数据)，金融账户标识符(例如收集购买信息的信用卡账户)，车牌号(关于某人的驾驶行为可被收集为对象数据)，WEB网站访客标识符，例如因特网协议地址(关于其的某人的导航历史可被收集)，纳税实体(关于其，多种其他信息可被收集)等等。对象数据收集组件可通过公用的或者私人的，有线的或者无线的网络112 (例如，因特网)接收对象数据集132.对象数据集132可来源于口头询问，比如在特定组，可来源于观察，比如使用视频或者静止图片照相机，通过收集书面的调查答案，通过计算机管理调查，来源于记录的和观察的调查数据，来源于收银机交易(比如特定的供应商或者金融机构处的信用卡交易历史)以及类似的。对象数据集132可能被明显或者不明显地获得，即，反映在对象数据集中的参与者行为可能知道也可能不知道关于他们行为的数据集正在被收集。
[0039]在一些实施例中，对象数据集132的所有或者一部分可能被第三方收集，比如提供电视观看数据的电视服务供应商。在一些实施例中，一些收集的信息与其他收集的信息结合，例如通过结合两个数据集，参与者标识符一起共享(例如当一些IP地址重叠的时候，将因特网协议(“IP”)地址的第一网络服务器日志和IP地址的第二网络服务器日志结合起来)。
[0040]系统在存储设备130中存储对象数据集132，以及其他信息。存储设备130可包括能够存储计算机可访问数据的任何计算机介质类型，比如磁硬盘和软盘的磁盘驱动器，光盘驱动器，磁带盒，磁带驱动器，闪存卡，数字视频光盘(DVD)，伯努利盒式磁带，RAM，ROM，智能卡等等。事实上，系统可用可存储或者传输计算机可读指令和数据的任何介质，包括在网络上的连接端点或者点，比如局域网(LAN)，广域网(WAN)或者因特网。在一些实施例中，系统使用多个数据存储设备，而非在此说明的单个存储设备130。本文描述的本发明的各方面可进一步存储或者分布在计算机可读介质中，其包括磁的和光学可读，以及便捷式计算机盘，可被存储在芯片固件中(例如EEPROM芯片)，以及电分布于在因特网或者其他网络上(包括无线网络)。
[0041]此外，存储设备130存储分区方案134，分区组件140使用分区方案将对象数据集132和参考数据集进行分区(例如，分组)。分区方案134可由为数据集合和多个数据分区指定的分析参数或者计算机可读指令组成，其数据内容被放于任何给定的分区。在一些方面，分区方案是一个函数，其可接受参与者或者居民作为输入，此外，结合相关的参与者或者居民数据，并且返回方案分配给参与者或者居民的分区标识符(例如，“第一分区” “第二分区”等等)。分区方案134将数据集的所有内容分成了多个不重叠的区，意味着与单个参与者或者居民相关的数据集的内容没有被复制到两个分区中去。
[0042]系统100可使用多个分区方案来将数据集分成至少两个分区。根据应用，系统可将数据集分成任意的分区数，例如10个分区，30个分区，成千上万的分区等等。在将本地或者国家水平分析的家庭电视行为进行分区的例子中，发现分区方案生成的10至30个分区在家庭分区中是有用的范围。对于一些对象数据集分析需要，分区方案用均匀的方式对数据进行分区是理想的(例如给定分区的组成部分在一个或者更多的变量上没有显著变化)。下面将详细描述系统100如何使用分区方案对对象数据集132和参考数据集138进行分区的示例。系统100的分区方案决定组件148决定分区方案134。在下面标题为“分区方案计算”下，分区方案决定组件148的功能被详细描述。
[0043]系统100使用统计量计算组件142来计算对象数据集132的至少一个对象数据统计量(系统100还可以计算参考数据集138的统计量)。在一些示例中，统计量计算组件142为对象数据集132的分区计算个体统计量，使用参考部分匹配组件146调整计算统计量，并且结合分区的调整统计量。
[0044]参考部分匹配

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6