在保持用户匿名的同时使用机器学习从行为数据预测心理度量简档的制作方法

文档序号:17067523发布日期:2019-03-08 23:02阅读:191来源:国知局
发明家:avituschman,evanzamir和weihsu相关申请本公开要求2016年6月21日提交的、发明人为avituschman并且标题为artificialintelligenceoptimizationofpsychographicaudiencedatasets的美国临时专利申请第62/352705号的优先权。美国临时专利申请第62/352705号在此称为“母申请”,在允许以引用方式并入的包括美国在内的任何司法管辖区中,该美国临时专利申请的内容通过引用并入本文。在不允许以引用方式并入的任何司法管辖区,申请人保留通过修改而从母申请插入任何素材的权利,而此类修改不应被视为增加新事项。本公开涉及使用机器学习来生成用于在线定向(targeting)和其他应用的心理度量模型,并且更具体地涉及一种装置(机器)和机器实现的机器学习方法,其用于基于关于群体的在线用户的在线行为的自动机器收集数据预测群体的在线用户的心理度量简档,该预测方法使得能够保持用户匿名。本发明还涉及一种装置和机器实现的方法,其使用这种机器学习生成的心理度量模型来生成可能以期望的方式响应于诸如广告的预定义的在线刺激的在线受众。
背景技术
::已知使用机器自动收集在线用户的行为数据,然后使用自动机器收集的用户的行为数据作为机器实现的方法的输入,以针对特定用户以电子方式发送诸如数字广告之类的用户信息。自动收集这种行为数据的目的是有效地将数字广告定向至可能以期望的方式(例如购买产品)做出响应的或另外以希望的方式做出响应的用户。这种机器实现的定向广告在本文中被称为“行为广告”,因为它仅仅并且直接基于行为,并且机器实现的方法统称为“机器实现的行为定向”。“机器实现的行为定向”是回顾式的;它可以预测用户是否可能访问他们已经访问过的网页,或者购买他们已经购买过的产品。诸如这些的数据可以有效地用于执行机器实现的将广告定向或重新定向至用户,即使在使用购物广告作为示例的情况下用户可能在他们看到广告时已经进行了购买。机器实现的行为定向也特定于如下这样的上下文,在该上下文中,例如被访问的网站的类型被收集,作为结果,仅仅并且直接这样的过去行为的定向可能在范围上过于狭窄,例如可能导致非常类似产品的广告过度曝光。回顾式和上下文特定的组合可能导致用户感觉他们的隐私例如通过用户接收与他们最近访问过的网站相关的广告而被侵犯。机器实现的行为广告另外可能无法容易地区分可能出于不同原因而购买相同产品的用户,或者甚至无法区分购买他们浏览过的产品的用户和不这样做的用户。此外,行为定向使用随时间的变化对于不同的群体而不同的数据,使得行为定向所使用的数据可能不容易适合于标准化、量化、心理度量验证或跨不同群体的有意义的比较。因此,本领域需要用于机器实现的定向的改进的计算机实现的方法,装置和系统,其可用于机器实现的电子消息针对特定在线用户组(在线受众)的定向,诸如做广告。附图说明将参考附图描述根据本公开的各种实施例,其中:图1是用于实行本发明的至少一个方面的计算环境的说明性示例。图2示出了操作机器以从自动生成的用户的在线行为生成在线用户的心理度量模型的方法的实施例的简化流程图。图3示出了操作机器以根据用户的心理度量模型确定用户参与诸如广告之类的特定刺激的可能性的模型的方法的实施例的简化流程图。图4a是根据本发明的至少一个实施例的用于从自动机器收集的关于用户的行为数据生成用户群体的心理度量模型的数据流和过程的说明性示例。图4b-4e示出了本发明的作为图4a中所示的用于生成群体的心理度量模型的实施例的替代实施例的数据流和过程的说明性示例。图5是根据本发明的至少一个方面的用于基于使用用户子集收集的参与数据来从用户群体的心理度量模型预测对于诸如广告的刺激的受众的数据流和过程的说明性示例。图6示出了用于基于用户的自动生成的在线行为生成在线用户的心理度量模型的硬件系统。图7a和7b示出了在本发明的一些实施例中被用作心理度量简档的纯心理度量特质的人格维度。图8是对于使用与图7a到7b中所示的那些不同的一组心理度量维度的简档具有匿名用户id的用户的心理度量简档的说明性示例。图9a和9b分别示出了根据本发明的实施例确定的使用图8中所示的心理度量简档类型的示例性参与模型的纯心理度量和人口统计(demographic)尺寸的图形显示。图10a以表格形式示出了根据使用示例性参与模型被确定的指定市场区域的群体的参与刺激(例如,在线广告)的可能性排名的一部分,所述示例性参与模型是根据本发明的实施例被确定的。图10b示出了美国的指定市场区域的地图,其中每个这样的区域可以根据使用诸如图10a中所示的数据的参与可能性被编码。具体实施方式概述本公开涉及使用机器学习来生成用于在线广告的心理度量模型,并且更具体地涉及一种装置(机器)和机器实现的方法,其基于关于群体的在线用户的在线行为的自动机器收集数据生成这样的用户的心理度量模型,该方法生成使用机器学习确定的模型,以及包括例如通过仅使用匿名用户id来保持用户匿名。本发明还涉及一种装置和机器实现的方法,其使用这种机器学习确定的心理度量模型来生成可能以期望的方式响应于诸如广告的预定义的在线刺激的在线受众。本发明的实施例(即,使用机器学习生成心理度量模型,并且使用这种机器学习生成的心理度量模型来预测在线受众)所解决的问题特别出现在计算机
技术领域
:中,并且事实上,必然植根于计算机技术中。具体要求保护的方法和具体要求保护的系统中的每一个规定了应该如何操纵计算机技术来克服这些问题。所要求保护的方法和系统能够改进当前计算机实现的方法和系统,以便使用自动机器收集的行为数据和计算机技术进行在线定向。本发明的一些实施例是装置的形式,其被专门设计以实行心理度量模型的这种机器学习生成、以及使用该模型进行在线受众的这种预测,因此是专用机器。因此,权利要求不是针对抽象概念,此外,权利要求并不排除预测心理度量特质或生成在线受众的其他方法。心理度量特质(psychometrictrait)在此称为心理度量维度(psychometricdimension)。心理度量简档(psychometricprofile)指的是一组至少一个心理度量维度,包括至少一个纯心理度量特质,并且可能但不一定包括至少一个人口统计特质。一个人的心理度量简档的维度是实际的纯心理度量和可能的人口统计特质。本发明的实施例的一个方面是预测心理度量简档。预测的心理度量简档在此称为心理度量模型。因此,一组心理度量维度的定义可能包括(但不必须包括)纯人口统计的至少一个维度,如性别、年龄、收入、婚姻状况、种族等等,以及一组心理度量维度的定义确定包括纯心理度量的至少一个维度,例如与人格相关的维度,例如开放性、责任心、外向性、亲合性、神经质、智力测量、以及个体的其他可测量的心理属性。这里使用的人口统计的定义还包括地理、职业、教育和消费者数据。应指出,在文献中,术语“心理学简档(psychographicprofile)”有时用于根据人的心理度量维度来描述此人。还应指出,在母申请中,“心理学”和“心理度量”这两个术语可以互换使用,因此母申请中的术语“心理学简档”与术语“心理度量模型”同义。还要注意,虽然心理度量维度的示例可以包括性、性偏好、政治偏好、非法药物使用,一般无视法律等等,但是本专利说明书中的任何内容都不暗示本发明的实施例意图被用于不恰当地歧视任何个人或团体,或鼓励非法行为。一种示例实现提供了用于预测心理度量简档的方法和系统,即,对于在线用户群体中的每个用户,使用关于该用户的在线行为的自动机器收集数据来确定心理度量模型。在本公开中,用户的行为数据指的是关于用户的在线行为的这种自动机器收集数据。这样预测的心理度量简档,即心理度量模型,可用于产生特定广告的受众。方法或系统“保持用户匿名”指的是该方法或系统不需要收集或访问一个用户或多个用户的任何个人可识别信息(“pii”),并且提供给系统的任何用户id都是匿名的。因此,本发明的一些实施例的一个方面是可以在保持用户匿名的同时执行从行为数据生成心理度量模型,从而该方法、装置、系统或实施方不需要收集或访问心理度量维度正被预测的用户的任何个人身份信息(“pii”)。本发明的一些实施例的一个方面是基于其行为数据也可被获得的种子用户的真实而非预测的心理度量简档使用机器学习来确定用于预测心理度量简档的方法和系统。这样确定用于预测的方法和系统的一些实施例保持种子用户匿名,使得确定用于预测的方法或系统不需要收集或访问种子用户的任何个人可识别信息(“pii”)。本发明的一些实施例的一个方面是通过使用第一实体(在此称为目标群体提供者)获得被收集的关于种子用户的(原始)行为数据,该第一实体使用用户id系统(被称为目标提供者用户id的用户id的),该用户id系统可以不同于第二实体(在此称为样本提供者,其用户id被称为样本提供者用户id)的用户id系统,该第二实体提供信息以使第一实体能够提供关于所述种子用户的行为数据。第二实体提供了种子用户或这种种子用户的心理度量数据对于至少一种机器学习方法的访问,而不向机器学习方法提供关于种子用户的任何pii。第二实体提供给机器学习方法的任何样本提供者用户id是匿名样本提供者用户id,并且第一实体还不知道种子用户的样本提供者用户id。本发明的一些实施例的一个方面是该方法包括例如通过运行心理度量建模应用来对于种子用户测量心理度量维度的测量工具,该心理度量建模应用例如是用户输入数据的问卷,所测量的心理度量维度包括纯心理度量结果以及可能包括每个种子用户的至少一个人口统计特质。本发明的一些实施例的一个方面是关于用户的自动收集数据经受分析过程,以便总结自动收集行为数据的特征,因此产生概要行为数据。至少一种机器学习方法与种子用户的概要行为数据和这些用户的实际心理度量简档一起使用,以确定用于从用户的机器收集行为数据生成用户的心理度量模型的机器实现的方法。本发明的一些实施例的一个方面包括将所确定的机器实现的方法应用于用户群体以生成这些用户的心理度量模型。总用户群体中的用户数通常远大于种子用户数。本发明的一些实施例的一个方面是种子用户的行为数据,例如作为概要行为数据和种子用户的实际心理度量简档,被用于训练多于一种的用于生成心理度量模型的机器学习方法,并且机器学习方法选择方法用于选择性能最佳的用于生成心理度量模型的机器学习方法。在这样的实施例中,如此选择的生成心理度量模型的方法被用于较大的群体以生成心理度量模型。生成的心理度量模型可用于预测对于刺激(例如特定广告,访问特定网页,在电子商务网站上购买产品,或执行其他类型的感兴趣的数字行为)的参与。一些用户受到特定广告的影响,并且那些参与的用户和不参与的用户的心理度量简档与至少一种机器学习方法一起用于以确定用于从用户的心理度量模型预测参与广告的可能性的方法。以这种方式,可以基于心理度量维度(包括纯心理度量特质,以及在一些版本中,一个或多个人口统计特质)的函数来预测参与的相对可能性。这种相对可能性可以用于基于在线用户的心理度量维度中的至少一个将特定广告定向到在线用户。预测参与的方法也可以应用于已经生成心理度量模型的完整用户群体,由此整个群体按照参与可能性的顺序被排名。可以根据参与的可能性将完整群体分割成特定的受众。特定实施例可以提供这些方面、特征或优点中的全部、一些,或者不提供这些方面、特征或优点。特定实施例可以提供一个或多个其他方面、特征或优点,其他方面、特征或优点中的一个或多个可由本领域技术人员根据本文的附图、描述和权利要求容易地想到。一些实施例在以下描述中,将描述各种实施例。出于解释的目的,阐述了具体配置和细节以便提供对实施例的透彻理解。然而,对于本领域技术人员来说显而易见的是,可以在没有具体细节的情况下实践这些实施例。此外,可以省略或简化公知的特征以免模糊实施例的描述。网络计算环境图1是在其中可以实现本发明的实施例的示例性分布式数据处理系统100,该分布式数据处理系统100可以包括六个系统,例如,服务器系统,每一个系统可以被独立地管理,但是替代布置可以包括至少一个系统被组合。分布式系统100中的系统通常通过网络199(例如,互联网)耦合,并且包括目标群体提供者系统102,用于分发数据、用于装载数据和/或用于执行id匹配的数据分发系统104,样本提供者系统106和心理度量数据分析引擎系统108。一些实施例还包括与目标群体系统102分离的需求方平台(dsp)系统109。系统100可以包括一个或多个客户端,并且例如在图1中示出三个这样的客户端。可以包括附加系统105,并且这可以类似于客户端系统103之一。每个系统分布式系统100可以包括至少一个可编程处理器(通常,在一些实施例中与专用硬件组合的可编程电子设备)、以及存储子系统,其中存储子系统包括ram和至少一个其他存储设备,因此存储子系统包括其中存储有程序代码的非暂态计算机可读介质,该程序代码包括机器可读指令,该机器可读指令在至少一个处理上执行时使得系统执行本文所述的方法中的至少一种。分布式系统100中的系统也能够经由网络199与其他系统以及客户端计算机(例如客户端103和元件105)通信。出于解释本发明的各方面的目的,在这些附图中省略了诸如每个系统中包括的各种接口和其他元件的细节。系统102,104,106,108和109中的每一个可以是多个客户端计算机103可经由网络199访问的专用计算机系统。在一些实施例中,系统102,104,106,108和109中的至少一个可以是如下的处理系统,该处理系统使用在数据中心中常见的、当通过网络199被访问时充当单个无缝处理和存储资源池的群集计算机和组件,以及具有用于云计算应用的云计算资源。在一些实施例中,一些系统,例如心理度量数据分析引擎系统108,配置有如下文所述的专用硬件。目标群体提供者是可以运行在线广告和/或为用户提供至少一个应用的实体(或一组实体),其具有一组或多组用户,每个用户具有不同于样本提供者(样本提供者用户id)的目标提供者用户id,并且能够自动收集其用户的在线活动的行为数据(包括其应用、网络或交换机上的活动)。虽然在本文描述的许多示例实施例中,行为数据包括用户访问的网站上的数据,但是行为数据也可以包括应用中的用户生成的文本、和/或消费者数据、和/或用户偏好数据、和/或第一方数据、和/或网络日志数据。在本发明的实施例中,目标群体提供者提供其心理度量简档将被预测的总用户群体,以及这些用户的行为数据。目标群体提供者还提供用于训练机器学习方法的种子用户的行为数据。已知有数种技术可自动收集用户的行为信息,用户使用在线技术,例如其计算机和/或移动设备上的浏览器和其他应用程序(app)。这种所谓的跟踪技术包括使用cookie、网络信标、网络像素、设备id等。所收集的行为信息包括用户当前和过去在线活动的数据,包括用户浏览所访问的网站和网页的历史、网站上的参与行为、搜索查询和应用内行为。这样收集的行为数据通常用作用于将特定的个人团体定向为接收内容的机器实现的方法(算法)的输入,并且这种机器实现的方法通常用于向特定的个人团体发布针对特定团体设计的在线广告(电子广告)。目标群体提供者和这样的用户群体的示例包括但不限于诸如移动应用程序的应用的用户(和目标提供者用户id)的集合、在线数据平台的用户和(目标提供者用户id)的集合、“物联网”(“lot”)设备的用户(和目标提供者用户id)的集合、数字媒体频道(或数字媒体网络)的用户(和目标提供者用户id)的集合、在线广告平台的用户(和目标提供者用户id)的集合,该在线广告平台诸如为广告网络、供应方平台目标群体提供者(“ssp”)、需求方平台目标群体提供者(“dsp”)或数据管理平台(“dmp”),它们均可包括计算机,通信和其他处理资源。因此,除了广告提供者之外,通用术语“目标群体提供者”的用户群体可以指代其他类型的在线用户群体,诸如如twitter(rtm),facebook(rtm)等应用的在线用户,如reddit(rtm)的大型发布商的用户、移动应用的用户等等。本发明的一些实施例中的目标群体提供者由目标群体提供者系统102提供,该目标群体提供者系统102包括至少一个处理器120和存储子系统122,并且可以用在广告网络,ssp,dsp或dmp中。作为目标群体提供者系统102的替代或补充,另一系统可以用作系统102的替代或补充,例如,作为dsp,和/或例如用于广告技术之外的其他在线群体。包括但不限于移动应用、桌面应用,“物联网”(lot)设备、虚拟现实(vr)和增强现实(ar)设备、数字媒体平台,支付平台等的数字群体。目标群体提供者系统102的存储子系统122包括用户id数据库(db)124,其包括用户的目标提供者用户id,参与诸如广告的预定义刺激的用户的参与数据库125,以及用户行为数据的行为数据库126。存储子系统122另外具有程序代码,出于解释的目的,该程序代码被示为id匹配程序代码127和过滤程序代码128。在一个实施例中,用户id数据库124保持目标群体提供者系统102的每个用户的记录。用户的这种记录可包括也可不包括个人可识别信息(pii),例如该用户的电子邮件地址或真实姓名。用户记录还可以包括用户在线访问的url,以及该用户的其他点击流活动,并且还可以包括为用户提供的或者提供给用户的标识该用户的cookie或其他匿名id。点击流指的是当用户在网站或链接到多个网站时做出的一系列鼠标点击或其他选择。在该上下文中,网站包括用户使用的移动应用程序的屏幕,诸如twitter,facebook等社交平台上的消息,在智能(网络连接)tv上观看的节目等。用户id数据库124通常包括大量用户的记录,例如,数亿用户,甚至数十亿用户。参与数据库125包含目标群体提供者系统102使用的关于用户与至少一个特定刺激(例如,至少一个(在线)广告上的特定元素)的交互的信息的记录。例如,参与数据库包括由广告提供者(例如系统102)使用用户与特定广告的交互而收集的数据、可能的关于用户与发布者或广告商的内容的交互的其它关注度量、以及可能的消费者数据。虽然在一个实施例中,参与数据库是与用户id数据库124分开的数据结构,但在替代实施例中,参与数据可以作为用户id数据库124中的用户记录中的附加字段提供。行为数据库126包含关于用户的行为数据的历史日志。在该示例实现中,这些行为数据尤其包括访问的web域,完整页面视图url,时间戳和地理位置数据;在其他实现中,行为数据可以包括用户生成的文本,例如,在博客上、在诸如twitter(rtm),reddit(rtm)或facebook(rtm)的社交媒体上发布的帖子,或口语数据,或用户偏好数据,包括但不限于商家级购买数据。通常,用户的行为数据包括关于用户过去行为的数据。在一些实施例中,行为数据库126中的行为数据可以是原始形式。分析方法被用于将数据的维度降低为概要形式。下面更详细地描述分析方法如何将这种行为数据转换成可用于执行本发明的方面的概要行为数据的细节。虽然下面详细描述的分析方法被用于对用户访问的网站进行文本分析,但是行为数据可以包括文本消息、电子邮件、生成(或读取)的博客、数据文档、文本文件、数据库文件、日志文件,交易记录、采购订单等中的一个或多个,或替代地由这些组成。虽然在一个实施例中,行为数据库126是与用户id数据库124分开的数据结构,但是在替代实施例中,任何用户的行为数据可以作为用户id数据库124中的用户记录中的附加字段被提供。用户id匹配查询的程序代码127可操作以允许目标群体提供者系统102接受列出至少一个用户的输入请求,例如,由用户的唯一目标提供者用户id或至少一个cookie标识,并且确定与输入请求中指定的至少一个用户匹配的用户id数据库124的用户记录。过滤程序代码128操作以过滤用户id数据库124中的用户记录,例如排除或标记满足某些预定准则的用户,例如,行为数据库126中具有相对低量的行为数据的用户。在一个示例中,过滤掉具有少于操作员可设置的或预定义的阈值量的行为数据的任何目标提供者用户id。在一个实施例中,阈值是每个用户十个行为数据点。在另一个版本中,过滤程序代码128操作以提供关于在行为数据库126中具有最多行为数据的那些用户的可设置数量的行为数据。在一个实现中,仅接收关于经过滤的目标提供者用户id(即,具有至少阈值量的行为数据的用户id)的行为数据,以确保只有在给定时间段具有与其相关联的足够量的行为数据的用户的行为数据被用于使用机器学习进行建模,如下文详细描述的。示例时间段可以是三个月,六个月,或者在这些时间段之间或之外的某些时间段。如下文更详细描述的,具有那些经过滤的id的用户的行为数据可以与那些用户的心理度量维度的实际心理度量简档(可选地包括人口统计特质)结合和被处理(在与目标群体提供者系统102分开的系统中)。人口统计数据由测量工具收集,例如,通过使这些用户经由例如用户被引导到提供问题和接受答案的应用程序来回答一组问题。图1示出了心理度量工具作为经由网络199耦合的分离元件105。在一个实施例中,心理度量工具105可以是包括存储子系统和至少一个处理器的客户端系统(这些元件未示出),该存储子系统包括代码,例如,经由网络加载到系统105中的代码,该代码在被执行时使得所述应用进行操作以例如通过系统105中包括的用户界面向用户提供问题并从用户接收答案。因此,系统100对于被称为种子用户的一组个体提供心理度量简档和行为数据两者。虽然行为数据在目标群体提供者系统102中被保持,如下文将描述的,但是种子用户可以由与目标群体提供者系统102分开的至少一个系统提供,并且那些种子用户的心理度量简档也是可以由单独的系统提供。种子用户的心理度量简档数据和相应的行为数据(例如,作为概要行为数据)被用作用于至少一种机器学习方法的种子数据以确定如下方法:即使当对于该个人先验地没有获得或者获得很少心理度量数据时,从个人的行为数据预测个人的心理度量简档。应指出,目标群体提供者系统102中的用户的数据可以由目标提供者用户id或由个人的cookie识别。样本提供者是如下这样的实体:其可以提供样本用户,例如为了将测量工具用于那些用户以例如通过让那些用户提供心理度量简档来测量那些用户的特质。如此测量的那些用户的心理度量简档可以与关于相同用户的自动机器收集的行为数据一起使用,以便训练下文描述的机器学习方法以预测心理度量简档,即,确定心理度量模型。在一个实施例中,样本提供者的功能由样本提供者系统106提供,该样本提供者系统106包括至少一个处理器160、和存储子系统162,存储子系统162包括可能是心理度量简档的潜在提供者的用户(称为小组成员)的数据库164,以及样本规则集数据库165,其提供了定义样本提供者系统106如何对其用户数据库164进行采样的规则,并且还可包括样本选择程序代码167,其使用样本规则集165来从采样提供者用户的较大数据库164进行记录采样以进行形成一组样本用户,该组用户将被用作由其获得心理度量简档的种子用户。在一些实施例中,用户(小组成员)的数据库164包括cookie或其他用户id,以及关于小组成员的诸如人口统计信息(如文中定义的,可包括地理和/或消费者信息)的附加信息。例如,样本选择程序代码167可操作以使得使用从cookie导出的数据对用户数据库164进行采样,该数据包括人口统计信息(包括地理和/或消费者信息),其可用于导出用户的样本以形成满足一个或多个准则的种子用户。作为一个例子,可能希望提供如下这样的用户样本,该用户样本通过使用诸如地区、年龄、性别、种族、民族、收入、教育等等的用户数据被平衡以确保群体的代表性横截面被抽样。在其他情况下,可能希望提供在一些人口统计维度中被平衡、但满足其他人口统计准则(例如来自特定职业或具有特定收入范围)的用户的嵌套样本。样本提供者系统106的用户数据库164中的用户可以由样本提供者用户id唯一地标识。因此,样本提供者系统形成另一个域,其中用户由特定于域的用户id-样本提供者用户id-表示,该样本提供者用户id通常不同于目标提供者用户id。数据分发器是可以实行样本提供者的id系统中的用户id与目标群体提供者系统102的id系统中的用户id的匹配的实体。例如,这可以通过cookie匹配或一些其他方法来实行。数据分配器还可以实行一个id系统中的用户id到第二个id系统中的用户id的转化(也称为匹配或转换)。在一些实施例中,在任何时候,样本提供者系统106和目标群体提供者系统102两者都可以仅根据用户各自的id系统来访问用户列表。在这种情况下,仅通过数据分配器就可使得一个id系统中的用户id能与另一个id系统中的同一用户的用户id匹配。在一些实施例中,数据分配器的功能由数据分配器系统104提供,数据分配器系统104包括至少一个处理器140、和存储子系统142,该存储子系统142保持域交叉引用数据库144,并且具有包括域id替换程序代码147和域id生成程序代码148的程序代码。数据库144中的记录用于交叉引用,每个记录包含第一域(例如,样本提供者域)中的标识符与第二域(例如,目标群体提供者的域)中的标识符之间的映射。作为示例,第一域可以使用可以链接到在其数据库中的那些用户的pii的唯一用户标识符,而第二域(例如,目标群体提供者系统102的域)对于关于那些用户的附加行为数据进行操作,但是来自第二域的唯一标识符无法链接到目标群体提供者系统的数据库中这些用户的任何pii。在某些情况下,例如第一域中的数据库管理器首先将其数据传递到数据分配器系统104以与第二域匹配的情况下,域交叉引用数据库144将域一id与其用户的对应的域二id匹配,然后跨域id替换代码147用域二id替换域一id,然后将其传递到域二系统。这允许第二域中的数据接收方仅对他们自己的用户id进行操作,而无需访问第一域的唯一标识符或数据分配器系统104使用的唯一标识符。在与图4a到4e中所示的并且在下面更详细地描述的示例数据流相关的更具体的方面,目标群体提供者系统102和样本提供者系统106均具有自身的匿名id系统。这两个系统都不需要将自身id与另一个id共享,而且优选地不这样做。相反,样本提供者系统106的id列表通过数据分发器系统104,数据分发器系统104用相同用户在目标群体提供者系统102上的相应id替换他们的用户的id列表。当数据在相反方向上流动时,会发生相反的情况。这里使用的心理度量建模实体是运行本文描述的心理度量建模方法的实体。心理度量建模实体保持用户的心理度量模型(以及例如由样本提供者提供的用户的测量的心理度量简档)。本发明的实施例的一个方面是心理度量建模实体不能识别用户,例如使用个人可识别信息(pii)。此外,在一些实施例中,心理度量建模实体不知道样本群体提供者的id系统或目标群体提供者的id系统中的实际用户id。样本群体提供者只能向心理度量建模实体发送被匿名或散列化的、而不是真实的样本提供者用户id。类似地,目标群体提供者只能向心理度量建模实体发送被匿名或散列化的、而不是真实的目标提供者用户id。本发明的实施例的一个方面是心理度量建模实体可以接收被称为一组种子用户的一组用户的行为数据,并且还获得同一组种子用户的心理度量简档(通过将测量工具,例如元件105,应用于种子用户以提供所测量的他们的简档的心理度量维度),而不需要访问这些用户的任何pii。可以分析行为数据以产生概要行为数据。种子用户的(概要)行为数据和心理度量简档用于训练一种或多种机器学习方法,以确定用于从用户的行为数据预测用户(未知)心理度量简档的方法。本发明的另一方面是心理度量建模实体可以从目标群体提供者接收关于其全部心理度量简档未知的用户的行为数据,并使用所确定的预测方法来预测其行为数据被接收到的用户的心理度量简档,(并且在一些实施例中,被分析为概要行为数据)。本发明的另一方面是可以向心理度量建模实体提供参与数据,该参与数据指示心理度量建模实体已知其心理度量模型的用户参与特定刺激(例如,特定广告或特定网页)的可能性。心理度量建模实体可以使用至少一种机器学习方法来确定用于基于用户的心理度量模型预测参与特定刺激的相对可能性的方法。心理度量建模实体可以将预测相对参与可能性的方法应用于心理度量模型可被获得的所有用户以对所述所有用户进行划分,从而确定特定在线刺激的受众。在本发明的一些实施例中,心理度量建模实体的功能由心理度量数据分析引擎(pdae)108(也称为心理度量数据分析系统)提供,心理度量数据分析引擎(pdae)108包括至少一个处理器180、和存储子系统182,该存储子系统182可包括存储器和至少一个其他存储设备,因此包括非暂态计算机可读介质,其存储如下用户的用户数据库(缓存用户(cookieduser)db)184:该用户通常被缓存或者也可以通过设备id被匿名标识,因此对于用户可获得跟踪信息;映射数据库(映射db)186;用于运行本文所述的心理度量简档建模和预测方法的程序代码187;用于通过应用如本文所述生成的模型来将用户的心理度量模型填充到用户db184的程序代码188;和程序代码189,该程序代码189用于执行本文所述的机器学习方法以预测使用指示参与至少一个特定刺激(例如,广告)的机器学习数据进行预测,并且进一步改善包括特定刺激的参与数据和受众的映射数据库186。pdae108的用户db184包括许多用户的记录。在一个实施例中,数据库184中的用户可以被分类为两组用户,种子用户和称为推论用户(inferentialuser)的其他用户。种子用户的数据库184中的记录包括具有匿名样本提供者id和/或匿名目标提供者用户id的记录,可能是数千个记录,每个种子用户具有由目标群体提供者自动收集以形成概要行为数据111的行为数据,以及还具有心理度量数据(心理度量简档)112,其是由测量工具,例如元件105,为种子用户收集的,该测量工具使得种子用户通过问卷或心理度量建模应用来手动输入数据。用于推论用户的数据库184的部分可以包括具有匿名的目标提供者用户id的数百万甚至数亿或甚至数十亿的记录,每个用户具有来自与其相关联的目标群体提供者系统102的行为数据,作为概要行为数据113。如本文所解释的,pdae108将使用其过程来学习用于预测简档的方法,该学习是使用种子用户的数据而进行的,然后对推论用户使用该预测方法,其使用每个推论用户的行为数据113来推论用户生成心理度量维度(包括至少一个人口统计特质)的心理度量模型,从而在数据库184中确定用于推论用户的id的心理度量模型114。在一些实现中,这两组用户(种子和推论)是具有记录的一个数据库184的一部分,该记录具有标志以指示用户是种子用户还是推论用户。在其他实施例中,数据库184包括两个单独的数据库:种子用户数据库和推论用户数据库。一些实现在存储子系统182中包括代码,例如,作为代码187的一部分,其使得至少一个处理器执行分析过程,该分析过程总结自动收集的行为数据,因此产生概要行为数据。概要行为数据可以存储在缓存用户数据库184中。数据库184包括将心理度量维度(包括至少一个人口统计特质)与行为数据匹配的记录。最初,在使用种子用户数据的机器学习阶段期间,心理度量维度数据111来自通过测量工具收集直接种子用户的心理度量数据,例如,代表该系统中总用户群体的数千个用户的数据。种子用户的心理度量数据可以与种子用户的相应行为数据匹配,该行为数据被自动地机器收集并且由目标群体提供者系统102提供,然后被总结成种子用户的概要行为数据112。程序代码188随后用模型114填充缓存用户db184,其中大多数用户是没有被直接收集与他们相关联的心理度量数据的推论用户,该填充是使用推论用户的概要行为数据113进行的。因此,在本发明的一个方面,机器学习被用于训练预测方法,该训练使用种子用户的数据111和112来学习从行为数据预测心理度量维度(包括人口统计特质)的预测方法。一些实施例的另一方面是根据选择准则选择在一些种子数据上实现最佳性能的预测方法。另一方面是使用所学习的(和选择的)预测方法(通过激活程序代码188)来确定推论用户的心理度量维度(包括人口统计特质)的心理度量模型。尽管图1示出了pdae108包括至少一个处理器180和存储子系统182,但是在一些实施例中,这种具有相关程序代码的处理器可以由专用硬件替换或扩充,该专用硬件被专门配置为执行某些本文所述的特定过程。在下面的图6的描述中可见这种系统的更多细节。在一些实施例中,系统100还包括称为需求侧平台(dsp)系统109的另一实体,其包括至少一个处理器190、和存储子系统192。dsp109为数字广告的购买者提供用于通过单一界面管理广告交换和数据交换帐户的机制。这种交换允许用于显示在线广告的实时出价。在本发明的一些实施例中,dsp被使用以向目标群体提供者系统102提供广告,使得目标群体提供者可以允许广告在其媒体库存(或者第三方发布商、发布商网络或ssp的媒体库存)上显示给其用户(中的至少一些)。本发明的一些实施例的另一方面包括目标群体提供者系统102,其自动机器收集对于用户的特定广告被捕获的实际参与数据,该用户确实参与该特定广告或者没有参与该特定广告。因此,该组客户端系统103(与群体提供者系统102一起操作)可以形成参与测量工具,该参与测量工具收集并可以向pdae108提供来自用户的对于特定广告的参与数据。另一方面是目标群体提供者系统102将参与数据传递给pdae108,并且pdae108接受参与数据。在一些实施例中,该数据在映射数据库186中被保持为数据115。pdae108将具有用于pdae108接收其参与数据的用户中的至少一些用户的心理度量模型(在114中)。pdae108中的硬件和代码(代码189中)使用参与数据115和其对于特定刺激(广告)的参与数据已知的那些用户的114中的心理度量模型,以根据基于用户的心理度量模型的参与广告的可能性对用户进行排名。参与特定广告的可能性与心理度量模型的组合可被pdae108中的方法使用,以使用至少一种机器学习方法来学习用于基于用户各自的心理度量模型预测用户参与广告的可能性以形成参与模型116的方法。一旦参与预测方法可被获得,则这种方法可以用于其心理度量模型可被获得的总群体,或者可被确定以产生其参与可能性落入一组范围中的一个或另一个的用户的受众117。然后,这样的受众可以由pdae108发送到目标群体提供者系统102。然后,目标群体提供者系统102可以将受众发送到dsp系统109,dsp系统109然后可以向广告商或其代理商提供针对其成员包括目标群体提供者系统102的用户的定制心理度量受众执行广告购买的能力。因此,映射数据库186根据用户对至少一个特定刺激(例如在线广告)的响应来接收关于这些用户的附加数据。对这种刺激的反应(以及无反应)在本文中称为“参与数据”。这样的参与数据可以包括在网页的不同部分上花费的时间,以及与特定广告的交互,以及点击率和转换(诸如直接响应或应用程序安装或购买)。程序代码189使得pdae108执行机器学习以预测参与至少一个特定刺激的可能性。在一些实施例中,程序代码189还根据参与至少一个特定刺激的可能性来执行所提供的群体的划分。在映射数据库186中存储和更新这样的数据。应指出,并非本发明的所有实施例都使用图1中所示的所有实体。例如,一些实施例将dsp109的元件中的至少一些合并到目标群体提供者系统102中。此外,一些替代实施例包括又一个实体,类似于数据分配器系统104,其能够将目标提供者用户id转换为dsp109的id系统中的用户id。此外,一些实施例不使用数据分配器系统104。此外,一些实施例包括单独的测量工具105以获得并提供种子用户的心理度量简档。方法实施例图2示出了操作机器以预测在线用户的心理度量简档的方法200的实施例的简化流程图。该方法例如在pdae108中执行,并且包括在204中从测量工具(例如,元件105)接受测量的第一组用户中的用户的心理度量维度以形成第一组用户的被接受的心理度量简档。例如,测量工具通过第一组用户的数据输入实行测量。每个心理度量简档(无论是预测为模型,还是从工具测量)包括一组维度,其包括至少一个纯心理度量维度和可选的至少一个人口统计维度,第一组用户中的每个用户的被接受的心理度量简档被从第一组的每个用户测量,例如,通过将用户发送到显示需要数据输入的网站或应用程序的工具,同时保持用户的匿名性。第一组的每个用户的被接受的心理度量简档可以通过由第一组的所述每个用户输入数据来获得。该方法还包括在206中接受关于第二组用户中的用户的在线行为的自动机器收集数据。这包括形成第二组用户的概要行为数据。如下文更详细描述的,第二组中的每个用户也在第一组中,使得对于第二组的每个用户,该方法具有该用户的被接受的测量的心理度量简档和被接受的关于在线行为的自动机器收集数据两者。在一些实施例中,该方法包括对被接受的关于在线行为的自动机器收集数据执行分析过程以形成概要行为数据。该方法包括在208中使用第二组用户的概要行为数据和被接受的测量的心理度量简档来训练用于预测其心理度量简档可能未知的用户的心理度量简档的各相应维度的至少一种相应的机器学习方法,由此生成其心理度量简档可能未知、但是其概要行为数据已知的用户的心理度量模型。每个如此训练的用于预测其心理度量简档可能未知的用户的相应维度的相应机器学习方法使用其心理度量简档可能未知的用户的概要行为数据。该方法还包括在210中接受心理度量简档可能未知的第三组用户中的用户的关于在线行为的自动机器收集数据(并且可能对其执行分析过程),以形成第三组的用户的概要行为数据;以及在212中,使用所训练的用于预测的机器学习方法中的至少一种来从第三组用户的概要行为数据生成第三组用户中的每一个的心理度量模型。该方法可以包括在214中将所生成的心理度量简档(心理度量模型)存储在例如数据库中。一个特征是该方法能够保持第一组用户中的每个用户、第二组用户中的每个用户和第三组用户中的每个用户的匿名性,例如通过第一、第二或第三组用户中的一个用户的机器中的任何用户id均是该用户的匿名用户id。不同实施例的不同之处在于如何选择第一组和第二组用户。在一些实施例中,通过样本提供者系统106提供对于第一组用户的访问,例如通过将这样的用户引导到工具,例如引导到网站或应用,和/或通过提供第一组用户的匿名用户id。在一些版本中,样本提供者系统可以具有关于其用户的一些人口统计信息,并且第一组的用户可能已经根据至少一个人口统计准则经受了选择。一个示例准则是在人口统计上平衡的用户。另一种是在例如消费者类别的一个或多个人口统计类别中选择,该人口统计类别可以包括但不限于例如专业职位的企业对企业类别,例如即将购买房屋的人的细分市场,汽车所有权类别等。在一些实施例中,由目标群体提供者系统102提供第二组用户的关于在线行为的自动机器收集的数据,因此这些用户具有目标群体用户id。这些用户还具有样本提供者用户id,因为第二组中的用户也在第一组用户中。在一些实施例中,只有被确定为具有足够的行为数据的用户被包括在所述第二组中。在一些这样的实施例中,在过滤掉第一组中的没有足够行为数据的那些用户之后,选择第二组用户。在一些实施例中,所述第一组用户是被选择为具有被平衡的心理度量简档的一组用户,该选择是从心理度量简档已被收集的一组用户进行的。在一些实施例中,第二组用户是由所述样本提供者提供对其的访问并且被确定为还为目标群体提供者系统102的目标群体的一部分的一组用户的用户。在一些这样的实施例中,在行为数据可用于该方法之前,过滤掉不具有足够的行为数据的目标群体的用户。在一个这样的实施例中,其中样本提供者系统根据至少一个人口统计准则(例如,对样本进行人口统计平衡,或者例如选择一个或多个特质)执行第二组的用户的一些人口统计选择,在过滤掉没有足够的行为数据的其他用户之后,对用户进行人口统计选择。在一个这样的实施例中,在接受第一组用户的心理度量模型之后以及在所述人口统计选择之后,接受关于在线行为的自动机器收集数据。图3示出了操作机器以确定模型的方法300的实施例的简化流程图,该模型根据各在线用户的各自心理度量模型来预测各用户参与特定刺激(例如广告)的可能性。该方法例如在pdae108中执行,用户的心理度量模型存储在pdae108中,并且该方法包括在302中从参与测量工具(例如,客户端103(具有系统102))接受关于参与所述特定刺激的(在一些版本中,不参与所述特定刺激)并且对于其存储了心理度量模型的用户的参与数据。用户的被接受的参与数据例如足以识别所述用户的被存储的心理度量模型。心理度量模型可以是例如使用图2的流程图中描述的方法200生成的那些模型。参与测量工具可以是图1中的105所示的参与测量工具,并且例如,可以包括客户端系统103,该客户端系统103被用于向用户显示包括特定刺激的跟踪机制的网站。该方法还包括在304中检索其参与数据被接受(并且其的被接受的数据是足以识别用户的心理度量模型的数据)的用户的被存储的心理度量模型,并且在306中基于参与数据可能未知的用户的心理度量模型,训练至少一种机器学习方法以确定参与模型,该参与模型预测参与数据可能未知的用户的参与可能性的度量。该训练使用关于其心理度量模型被检索的用户的被接受的参与数据和所检索的心理度量模型两者。该参与模型可用于在保持所有其他维度不变的同时理解任何特定心理度量维度的相对参与几率。该方法的一些实施例还包括在308中将参与模型应用于其心理度量模型可被获得的用户群体(例如,被存储在pdae108中),以预测可能参与特定刺激的群体的各个用户的参与特定刺激的可能性的相应度量。在一些版本中,在310中,根据参与可能性的度量对群体进行排名,并且在312中,将所排名的群体划分为一组受众,每个相应的受众由所述排名中的相应范围(例如,相应的参与可能性的百分比范围)的相应用户组成。例如,一个受众可以是参与可能性的度量中的前百分之五的用户。不同实施例的不同之处在于参与测量工具如何提供用户集的参与数据。一些参与跟踪方法可以使用像素、标签、标签管理系统或其他现有网站基础设施、或第三方注意力度量服务,或应用程序内的设备id的集合。不同实施例的不同之处还在于应用参与模型的群体。在不同的实施例中,应用参与模型可以是执行由以下操作构成的操作集合中的至少一个:(a)应用参与模型以将所述特定刺激定向至具有至少一个特定心理度量维度的用户,(b)将用于特定刺激的参与模型与用于至少一个其他特定刺激的至少一个参与模型进行比较,以选择用于再现表示的刺激,以及(c)将参与模型应用于用户群体以预测参与准备的刺激的可能性。下面将作为数据流和过程以及作为专用硬件系统来更详细地描述这些不同的实施例。数据流和过程图4a示出了根据本发明的一个实施例的图1的四个系统102,104,106和109之间的数据流、以及被实行为每个系统中对于每种类型的数据的过程的数据处理的表示400。应指出,系统102,104,106和109在图中被称为“服务器”。在目标群体提供者系统102中执行的过程被示出具有带有中间数字2的附图标记,在数据分发系统104中执行的过程被示出具有带有中间数字4的附图标记,在样本提供者系统106中执行的过程被示出具有带有中间数字6的附图标记,并且在心理度量数据分析引擎108(“pdae108”)中执行或由其管理的过程被示出为具有带有中间数字8的附图标记。在一些实施例中,过程462中的样本提供者系统106提供对n1个(匿名)用户的访问,并将对这些用户的访问(例如,作为数据块401中的样本提供者用户id)发送到数据分发者系统104。数据块401包括这些用户(被称为小组成员)的记录。例如,n1可以是大约500,000条记录或甚至超过一百万条记录。这些小组成员通常会被缓存并具有匿名的样本提供者用户id。数据分发系统104接收数据块401的n1记录,并且在过程442中将样本提供者用户id与对应的目标提供者用户id相匹配。通常,数据块401的用户中的仅一些(例如n2个)用户在目标群体提供者系统102中具有重叠的用户id。这些n2个重叠用户形成数据块402的用户。数据分发系统104使用目标提供者用户id向目标群体提供者系统102发送n2个用户的数据块402。目标群体提供者系统102包括目标群体提供者系统102的所有用户的行为数据的数据库,这些用户在文中称为“目标群体”。数据块402的n2个用户中的一些用户可能在目标群体提供者中没有很多与他们相关联的行为数据(或者可能无效)。在过程422中,目标群体提供者系统102过滤掉数据块402的如下用户,该用户具有比某些预定阈值更少的行为数据,例如,在一些预定义的或可设定的时间段内记录的行为数据更少,或者比群体中的其他用户相对更少,以形成包括来自用户数据库124的n3个记录的数据块403,其不仅与来自样本提供者系统106的数据块401的n1个小组成员重叠,而且还通过行为数据过滤器或过程422。在一个实施例中,阈值是10个行为数据点。在另一个实施例中,除了具有最大数量的行为数据的100,000个用户之外的所有用户可能被过滤掉。这些记录通过使用目标提供者用户id系统来标识用户,并且在一个版本中,由用户id数据字符串来标识。在使用字母数字字符的实施例中,这样的用户数据串可能看起来像字符串,如“aqstovpcyv84xj2szri7o4lg。当然,在可替代实施例中可以使用许多用户id方案。应指出,一些替代实施例省略了过滤掉低行为数据id的步骤。目标群体提供者系统102将n3个用户的数据块403发送到数据分发系统104,数据分发系统104在过程444中将这些id与样本提供者系统106的id系统中的对应id匹配,从而形成这些n3个记录的数据块404,其中用户被由样本提供者用户id标识。数据分发系统104将数据404发送到样本提供者系统106。应指出,通过将数据分发器作为中介,目标群体提供者系统102可以向样本提供者系统106提供关于数据块403中列出的n3个用户的信息,而不向样本提供者系统106提供知道数据块403的用户的目标提供者用户id能力。回想在一些实施例中,样本提供者系统106具有关于其小组成员的用户id的人口统计和其他信息。在一些实施例中,过程464中的样本提供者系统106根据至少一个人口统计准则执行数据块104的n3个用户的人口统计选择,以生成n4个被人口统计选择的用户的数据块405,这些n4个用户是数据块404的n3个用户的子集。这种人口统计选择的一个示例是生成人口统计平衡的用户,例如地理上平衡的用户。这种人口统计选择的另一个例子是生成具有一个或多个预定义的感兴趣特质的用户,该用户否则被在人口统计上平衡,例如,否则被在人口统计上平衡的律师。这使得心理度量数据分析引擎能够请求满足至少一个人口统计准则的小组成员。样本提供者系统106将数据块405发送到心理度量数据分析引擎108(这里称为pdae108),其接收作为数据块405的对于一组n4个用户的访问,该一组n4个用户被人口统计选择(依照至少一个准则的选择464),已知具有高的行为数据(依照过滤422),被适当地匿名(通过样本提供者)。如果用户id由样本提供者系统106提供,则它们是匿名的样本提供者用户id。在过程482中,pdae108通过访问n4个小组成员,从小组成员获得测量的心理度量信息。这是在不使用任何pii(例如,没有任何小组成员的电子邮件地址或名称)的情况下执行的。在一个实施例中,这通过样本提供者系统106将所接收到的数据块405中的n4个小组成员中的每一个重定向到测量工具来执行,该测量工具例如通过例如由pdae108管理的心理度量建模应用来测量维度,并且在其中测量用户的心理度量信息。在一个实施例中,重定向由样本提供者系统106进行,该样本提供者系统106邀请n4个小组成员中的每一个点击url(称为“重定向url”),该url将小组成员重定向离开平台106并将他们带到由pdae108中的代码操作的单独的心理度量建模平台(测量工具)。在一个实施例中,用户的id(通过样本提供者系统106而匿名)作为动态变量在重定向url内发送,以便跟踪用户对于研究的参加,但pdae108没有这些用户的pii。在一个这样的版本中,至少一个跟踪机制,例如,web像素,用于使得pdae108能够获得用户的(匿名的)用户id。本发明的实施例的一个方面是保持隐私。在一个实现中,在pdae108上建立防火墙,其仅允许n4组样本提供者id中的匿名用户id通过而进入pdae108的建模平台。因此,在pdae108不知道任何用户的个人可识别信息(“pii”)的情况下执行将接收数据块405的n4个小组成员重定向到测量工具(例如,心理度量建模应用)的步骤。回想一下,在一些实施例中,小组成员是已经经历了人口统计选择(例如样本提供者系统106中的人口统计平衡过程)的小组成员。过程482收集每个小组成员的维度。除了纯心理度量数据之外,在过程482期间还可获得或收集关于小组成员的人口统计数据(回想一下,如文中使用的术语,用户的心理度量维度可以包括至少一个人口统计特质)。在一个实施例中,作为样本提供者106执行的任何人口统计平衡的补充或替代,在过程482中使用例如人口统计来执行平衡,以便实现代表被建模的群体的平衡样本。即使小组成员在464中被选择为具有一个或多个特定人口统计特质,过程482也可以包括对于小组成员的其他特质进行平衡。在一些实现中,除了人口统计学之外或作为替代,可以使用其他预定义的预筛选问题根据心理度量参数对样本进行平衡。作为示例,这可以确保没有太多用户具有相同的政治倾向或个性特质。作为另一示例,平衡包括丢弃未完成心理度量建模应用的用户,或者在调查内未通过有效性检查的用户,例如,在不到中位时间的三分之一内完成任务的“调速器(speeder)”,或被测量的形成有效简档的其它用户。因此,用户被选择为具有有效的心理度量简档。在pdae108上(或系统100中的其他地方)执行平衡的一种方法包括呈现至少一个人口统计学(其可以是地理、公司地点和/或消费者性质,或纯心理度量性质)的预筛选问题,以确定是包括还是排除特定用户用于pdae108以进行机器学习预测。作为替代,可以例如通过使用项目响应理论来包括或使用至少一种其他数据驱动的丢弃用户的方式。例如,见an,xinming和yiu-faiyung,“itemresponsetheory:whatisandhowyoucanusetheirtproceduretoapplyit”,sasinstituteinc.sas364-2014(2014)。因此,pdae108中的平衡生成一组n5个用户,通常是n4个用户的子集。可以为这些用户获得可以包括至少一个人口统计特质的心理度量维度,使得pdae108具有关于该n5个用户的心理度量简档,这样的用户已知可获得足够的行为数据,并且形成平衡集合。这些n5个用户形成数据块406。应指出,并非本发明的所有实施例都包括如本文所述的平衡操作。因此,在一些实施方案中,n5=n4。pdae108将其心理度量简档可被获得并且已知具有行为数据的数据块406的n5个用户的(匿名的)样本提供者用户id发送到数据分发系统104。数据分发系统104接收数据块406,并且在过程446中使用数据库144将样本提供者用户id转换(转化)为目标提供者用户id。这形成了目标群体提供者系统102的id系统中的n5个用户的数据块407,并且该数据块407被发送到目标群体提供者系统102。本发明的一个方面是仅在pdae108中保持心理度量简档和模型。这保持了隐私,因为除了pdae108之外的实体可能具有关于用户的pii。过程424中的目标群体提供者系统102获得或检索对于其已经获得心理度量简档并且在pdae108中可获得的这些n5个小组成员的行为数据。这样的行为数据(例如历史行为记录,召回)被存储于或可用于目标群体提供者系统102的用户数据库124。表示为目标提供者用户id和对应的历史行为数据的形式的n5个用户的记录形成目标群体提供者用户的数据块408及其行为数据。在另一个实施例中,目标群体提供者系统102还可以或替代地开始收集由这些n5个用户生成的未来行为数据,其可以稍后被传递回pdae108。目标群体提供者系统102将n5个目标提供者用户id的块408及它们对应的历史行为记录发送到数据分发者104,数据分发者104在过程448中将目标群体提供者域id转换(转化)回它们对应的样本提供者域id以形成n5个样本提供者域id的数据块409及它们对应的历史行为记录,并且将n5个(匿名)样本提供者域id(或用于识别具有相同用户的行为数据的接受的心理度量简档的其他机制)的数据块409及它们对应的pdae108的历史行为记录发送到pdae108。pdae108接收n5个用户id的数据块409及其历史行为记录。pdae对历史行为记录中的数据进行分析,并进行维度缩减以总结行为数据,即形成概要行为数据。在过程484中,pdae108将n5个体用户中的每一个的行为数据的这些历史日志与每个用户的直接测量的心理度量简档相结合。n5个用户中的每个用户的(概要)行为数据和对应的心理度量简档的这些对形成了用于机器学习过程的训练数据集,该机器学习过程确定(“统计学习”)预测方法,例如,通过针对每个维度尝试一个或多个预测方法并为每个维度选择最佳预测方法,该预测方法预测心理度量简档,即由该用户的(概要)行为数据确定心理度量模型。一旦确定了预测方法,在一个实施例中,pdae108向包含目标群体及其行为数据的目标群体提供者系统102发送pdae108可以执行大规模预测的指示411。响应于知道pdae108可以执行预测,即确定心理度量模型,目标群体提供者系统102可以在过程426中准备系统102对于其具有行为数据的至少一个n6个用户的数据块412。n6通常远大于用作训练集的用户数n5。例如,n5可能是数千个用户,而n6可能是数百万,数亿或甚至数十亿用户。另外应指出,可以在不同时间或在规则连续基础上(例如,所有用户的行为数据的每日或每小时记录)准备若干个这样的n6个用户的数据块,并通过数据块的数据馈送将其发送到pdae108。随着越来越多的行为数据变得与给定的用户id相关联,心理度量模型生成方法可被用于生成用户的新的心理度量模型,使得心理度量模型的准确度可以随着每次刷新而随时间增加。pdae108接收n6个用户的数据块412,执行分析过程以形成n6用户的概要行为数据,并使用机器学习确定的心理度量模型确定方法来从目标群体提供者系统102确定(和存储)n6个用户的心理度量模型。以这种方式,pdae108可以建立对于其只有行为数据可被获得的用户的心理度量模型的大型数据库。应指出,数据块411中的所有用户或几乎所有用户将不是其心理度量简档被收集的数据块405中被表示的种子用户。即使数据块412中的一些用户确实参加了心理度量数据的直接收集,在本发明的一些实施例中,仅将心理度量模型确定方法用于后续步骤。在这样的实施例中,在步骤484之后不需要使用直接测量的心理度量数据,从而可以擦除直接测量的数据和id。还要注意,即使也可能已经是数据块405的n5个用户的一部分的数据块411中的n6个用户的那些用户仍通过pdae108的心理度量模型确定方法为他们生成心理度量模型。这是因为pdae108无法识别数据块412中目标提供者用户id或者将其与数据块405中的任何用户进行匹配,这是因为数据块405的用户通过其样本提供者系统106用户id被传递到pdae108,而数据块412的用户仅通过其目标群体提供者系统102用户id被传递给pdae108。图4b到4e示出了生成n6个用户的心理度量模型的方法的替代实施例的数据流和过程的示图,其中的一些可能不具有图4a中所描述的方法的所有优点。如图4a中那样,应指出,系统102,104,106和109在附图中被称为“服务器”。图4b示出了第一替代实施例的数据流410,其中样本提供者系统不执行任何人口统计选择,例如用户的人口统计平衡。该实施例可适用于不太关注隐私的情况,并且还缺乏一些其他实施例的隔离种子用户的效率。在该实施例中,数据分发系统执行匹配以确定具有目标提供者用户id并且也具有对应的样本提供者用户id的n2个用户。因为在提供了对n1个用户的访问之后不再涉及样本提供者系统106,所以在匹配过程442之后也不再涉及数据分发系统104。此外,在步骤482中,因为不执行人口统计平衡,因此心理度量平衡生成n5个种子吊户。图4c示出了另一实施例的数据流430,其中样本提供者系统执行作为提供对n1个用户的访问的一部分的人口统计选择,例如人口统计平衡。该实施例也可适用于不太关注隐私和/或效率的情况。因此,在步骤422中,从n2个用户过滤掉那些没有足够的行为数据的用户得到了n4个用户,其在目标群体提供者系统102处都具有足够的行为数据,并且已经在在步骤401中在人口统计学上被选择,例如,人口统计学上被平衡。步骤482的心理度量平衡产生n5个种子用户。因为在提供n1个用户之后不再涉及样本提供者系统106,所以在匹配过程442之后也不再涉及数据分发系统104。图4d示出了又一实施例的数据流250,其中使用测量工具获得用户的测量(实际)心理度量简档是对于由样本提供者系统106提供对于其的访问的n1用户所匹配的所有n2用户执行的,而不是如图4a-4c的数据流中那样,用户首先被过滤以确保他们在目标群体提供者系统102中具有足够的行为数据。在过程482中,在目标群体提供者系统102中,对于这些n2个用户测量心理度量简档,然后在心理度量上平衡以确保平衡的心理度量简档,从而生成具有平衡心理度量简档的n4个用户。然后,步骤424包括过滤掉n4个中的那些没有足够行为数据的用户以产生n5个种子用户。图4e示出了可适用于如下的那些情况的又一实施例的数据流470,在那些情况中,样本提供者系统106提供可能具有目标提供者用户id的n1个用户。作为示例,对于查看facebook(rtm)(和/或例如reddit(rtm))中的活动的情况,样本提供者106可以向其提供访问的许多n1用户可以具有facebook(rtm)帐户(和/或在reddit上)。在这样的实施例中,没有使用执行从目标提供者用户id到样本提供者用户id的转化或从样本提供者用户id到目标提供者用户id的转化的单独实体,从而不需要在图4a-4d的数据流中使用的数据分发系统104。462中的样本提供者系统106直接向pdae108提供对于n1个用户(可能通过他们的匿名样本提供者用户id)的访问,例如,通过引导至心理度量测量工具,例如尤其是由pdae管理的特定网页。这样的网页包括用于目标群体提供者的跟踪机制,因此,例如,482中的pdae108将用户引导到包括用于目标群体提供者的跟踪机制的这样的网页,以便如果跟踪机制,例如web像素,触发,或者设备id被捕获,pdae108知道用户具有目标提供者用户id。例如,facebook或reddit(rtm)跟踪机制可以包括在网页中,并且将识别用户是否在facebook或reddit中(不必揭示facebook或reddit身份,从而保持匿名性)。对于这样的用户,例如通过跟踪机制已知具有目标提供者用户id的n2个用户,pdae108获得用户的被测量的心理度量简档。执行平衡以生成具有平衡心理度量学简档的n个用户。这些用户的(匿名的)标识符(通过跟踪机制获得)被发送到目标群体提供者,其中在424中检索n4个用户的行为数据,并且可以执行或不执行过滤以移除那些不具有足够的行为数据的用户,以生成其行为数据被发送到pdae108的n5个种子用户。应指出,图4e的数据流470假设没有人口统计选择,例如,在样本提供者系统106中执行人口统计平衡。然而,修改版本可以包括一些人口统计平衡作为步骤462的一部分。应指出,本发明的其他替代实施例是可能的,并且将得到这些数据流的修改版本。作为一个这样的示例,图4e的数据流的实施例可被修改为包括由样本提供者执行的人口统计平衡。由于pdae108可具有n4个用户中的一些用户的匿名样本提供者用户id和匿名目标提供者用户id(来自跟踪机制)两者,因此他们的匿名样本提供者用户id可以被发送到样本提供者系统106,并且可以执行人口统计平衡,使得n5个种子用户具有通过样本提供者系统106在人口统计上平衡的数据,并且还被过滤以移除没有足够行为数据的用户。一些实施例还包括附加数据检查,其通过使用收集的行为数据预测n5的心理度量简档,然后将所生成的心理度量模型与实际收集的心理度量简档进行比较。这是一种交叉验证。其他实施例包括行为数据的附加处理,其移除可能存在于实际行为数据中的任何pii,或者在处理数据之后立即删除可能包含pii的输入行为数据。使用心理度量模型生成受众的数据流一旦n6个用户的总体群体的心理度量模型可被获得,本发明的一些实施例包括使用心理度量模型来生成模型(“参与模型”),该模型根据用户的心理度量模型来预测对于特定刺激(例如,特定广告或者特定视频)的参与的可能性。一些实施例还包括使用群体的参与模型和心理度量模型来生成用于定向特定刺激的受众。图5示出了根据用于使用存储的心理度量模型(例如,pdae108中的那些)来生成至少一个特定广告的受众的本发明的一些实施例的、图1的四个系统102,104,106和109之间的数据流500、以及被实行为每个系统中对于每种类型的数据的过程的数据处理的表示。如在图4a-4e中那样,在目标群体提供者系统102中执行的或者由其管理的过程被示出具有带有中间数字2的附图标记,在心理度量数据分析引擎108(“pdae108”)中执行或由其管理的过程被示出为具有带有中间数字8的附图标记,以及在dsp109中执行或者由其管理的过程被示出为具有带有中间数字9的附图标记。在一些这样的实施例中,在过程592中,对于目标群体提供者系统102在dsp109处购买特定广告的n7指示的数个印象。广告的数据被示出为数据块501,并且其中的信息被发送到目标群体提供者系统102。应指出,可以针对多于一个的广告和/或针对至少一个广告的至少一个特定元素执行该过程592。过程592还可以购买要观看的视频元素和/或一些其他消息。出于解释的目的,而不是限制本发明,除非另有说明,否则描述单个特定广告的情况。目标群体提供者系统102经由dsp从广告商(或与广告商相关联的代理商,甚至是dsp)接收广告以及向目标群体提供者系统102的用户提供广告展示(impression)的出价。该方法包括在过程522中,目标群体提供者系统102(其本身,或安排)向目标群体提供者系统102的许多用户,例如向数十万或数百万这样的用户,提供广告服务。在一个实施例中,目标群体提供者系统102服务于广告,而在另一实现中,广告被提供给目标群体提供者系统102之外的目标群体提供者的群体。在任何一种情况下,至少一个跟踪机制,例如网络像素或一些跟踪代码,被安装在广告的主网页(所谓的登陆网页)中,并被配置为响应于登陆网页的访问者与针对其设计了一种或多种跟踪机制的广告中的至少一个指定广告素材(creativematerial)进行交互(例如点击)而跟踪登陆网页的访问者。这样,至少一个跟踪机制使目标群体提供者系统102能够捕获和记录参与被提供的广告的至少一个预先指定广告素材的目标提供者用户id。将收集的与广告相关的用户的数据称为“参与数据”,其在目标群体提供者系统102中收集(或提供给)目标群体提供者系统102。将用于捕获参与数据的机制和系统称为“参与测量工具”。在一些实施例中,除了参与广告的用户的参与数据之外,被提供广告服务但是选择不参与广告的用户的用户id也被目标群体提供者系统102收集(或发送到目标群体提供者系统102)。这种数据在此称为“未参与数据”。虽然一些实施例可以将那些确实参与的用户的数据与那些选择不参与的用户的数据分开,但是这里使用的术语参与数据包括未参与数据,无论是由参与测量工具收集的,还是从参与者的数据推断出来的。应指出,为了简化说明,参与数据限于二值数据,例如,用户是否参与刺激。然而,一些实施例包括使用数种类型的跟踪机制,诸如被提供广告中的不同类型的web像素。每种类型的跟踪机制可以与用户进行的特定类型的预先指定的动作相关联,并且被配置为记录进行相关联的预先指定的动作的用户的用户id。与跟踪机制类型相关联的此类动作的示例包括(但不限于)填写表单、购买产品、下载应用程序或文件、部分或完全地观看视频、甚至接收广告展示(而不管用户是否与广告展示互动)。因此,尽管这里的描述集中于二值的参与数据,但是其他类型的参与数据可以不是二值化,而是可以包括例如可视性度量,指的是用户与发布者的网页上或者在广告的登陆网页上的元素进行交互的时间量。在一个实施例中,目标群体提供者系统102的参与工具将这些参与数据(包括未参与数据)作为n8个用户的数据块502发送到pdae108。在一个实施例中,在准备发送时,目标群体提供者系统102首先确定参与数据中是否存在足够数量(“临界量”)n8的用户。在另一实施例中,参与工具将所有参与数据发送到pdae108,并且由pdae108执行关于是否存在足够量的参与数据的任何确定。根据这样的其他实施例,pdae108接收参与数据,并确定pdae108是否具有关于预定义的最小用户数(临界量n8)的广告参与数据。在一个版本中,预定义的最小用户数是200,并且通常,该数量是可设置的。回想参与数据和未参与数据是其的预测心理度量简档已知(即,已在pdae108中预测)的用户的数据。该方法在582中继续,pdae108将参与数据中的用户的心理度量模型与未参与数据中的用户的心理度量模型进行“比较”。应指出,虽然在一个实施例中,对于特定广告的真实收集的未参与数据被用于心理度量模型的比较,但在替代实施例中,通过从心理度量模型已知的一般用户群体中选择随机的一组用户来使用模拟未参与数据。已知这种随机用户组形成了用于比较的未参与数据。在582中,对于参与数据和未参与数据的临界量(n8),对于二值数据的情况,其中例如,参与指的是响应为1,而未参与指的是响应为0,则pdae108使用参与用户的(先前生成的)心理度量模型和未参与用户的心理度量模型运行至少一个机器学习过程来基于用户的(实际或预测)心理度量简档来生成用于预测参与可能性的模型。在一个实施例中,至少一种机器学习方法包括逻辑回归。在一个这样的实施例中,至少一种机器学习方法包括逻辑回归和至少一种其他机器学习方法,并且交叉验证被用于选择最佳参与模型。在另一实施例中,至少一种机器学习方法包括使用心理度量模型作为特征对假定数量的聚类(例如,三个聚类或四个聚类)执行无监督(unsupervised)聚类,并检查所形成的聚类以选择具有最大比例的或最大数量的参与用户的一个或多个聚类。这些聚类形成了被学习的分类方法,该方法可用于根据参与情况、即参与模型来对用户进行分类。应指出,参与也可以是非二值的结果,例如,用户观看视频广告的以秒为单位的时间量。在这种情况下,在一个实施例中,至少一种多类分类方法(例如,转换成至少一种二值分类方法)被用于至少一种机器学习方法以确定参与模型。考虑如下文更详细描述的、对于参与/未参与二值数据使用逻辑回归的实施例,逻辑回归的结果是心理度量简档的参与模型,其可表达为作为心理度量简档的函数的参与的几率比(oddsratio)的自然对数的形式,该函数是心理度量简档的维度的(加权)线性组合。用β0和用于简档的第一、第二、...、第p维度的β1,β2,...,βp指示线性组合的加权系数,然后ln(odds-ratio)=β0+β1pu1+β2pu2....βppup其中ln()是以e为底的对数和pu1,pu2,...,pup是简档的p个维度。因此,对于心理度量简档的任何维度,比如说第i维度,exp(βi)的值是在保持所有其他维度不变的情况下、对于第i维度的参与几率比。对于特定广告,这提供了对于任何给定的心理度量(纯心理度量或人口统计)维度的参与相对可能性。对于潜在广告商来说,这是一种有用的可以根据心理度量(纯心理度量或人口统计)维度来评估特定刺激的可能影响的方法。因此,预测参与模型可以表示为几率比,使得在给定的心理度量维度(可能是人口统计特质)中排名更高的用户是所指示的更有可能(或更不可能)参与广告(广告刺激)的倍数。例如,宗教用户参与特定广告的可能性可能低三倍,而在心理度量上被预测(利用心理度量模型)为西班牙裔的用户与其接触的可能性可能是2.2倍。继续图5的过程582,一旦pdae108确定了广告的参与模型,pdae108就可以,作为过程582的一部分,对其心理度量模型被存储的(n6)用户的整个群体进行排名,该用户的数量可以是数亿或数十亿,因此将所有用户(以及任何相关联的匿名用户id)按照从最可能参与广告的用户到最不可能参与广告的用户进行排名。在582中,一个实施例包括例如根据参与可能性的百分位范围进一步将排名的群体划分成片段,来生成广告的n9个受众,每个受众处于参与可能性的不同百分位范围内。例如,假设所提供的广告被称为“广告a”。一个分区可以被称为“参与广告a的可能性的前1%中的用户”,而另一个分区可以被称为“参与广告a的可能性的前2%至5%中的用户”,等等。这些受众中的每一个可以包含数百万用户,因此该方法被称为生成特定广告的受众。这样的受众可以针对不同的特定广告生成。每个分区中的用户的(匿名的)用户id可以作为数据块503发送到目标群体提供者系统102,其中该方法在524中可以将受众的用户的目标群体用户id变换成n10个受众,例如用于dsp系统109的n9受众(或更少的受众)。这些n10个受众作为数据块504被发送到dsp系统109。继续图5的数据流程,在一个实施例中,pdae108可以将n9个生成的受众作为数据块503发送到目标群体提供者系统102。在本发明的一个实施例中,过程524中的目标群体提供者系统102可以将n9个受众中的每一个中的id转化至另一个目标群体提供者(例如需求侧平台(dsp),例如dsp109)的跟踪系统中。这可能得到n10个受众,其中n10≤n9(因为一些用户可能无法成功地与dsp匹配),并且将这些受众列表作为数据块504发送到dsp109,在那里它们可以被访问dsp的广告商或代理商的媒体交易者访问,例如,在所谓的私人市场(pmp)内。这种定制的心理度量生成的受众片段可以用作定向数据,希望能够显着提高新用户对于相同广告刺激或者具有类似创意元素的广告的参与率。虽然这里使用术语“广告”,但是应该理解,本发明的实施例可用于预测对于与除广告之外的至少一个刺激(例如,出于除广告之外的目的的内容的呈现)的用户参与。随着时间的推移,pdae108可以累积来自广告宣传活动的参与数据(包括关注度量,点击率,转换等),pdae108将它们馈送到机器学习模块189中,以改善心理度量受众对于具有特定属性的广告的初始定向(预优化)。例如,学习模块189可以确定某个产品类别中的或者具有某些颜色、图像、音频或消息的广告在这些刺激被用于具有心理度量特质的某些组合的用户的情况下可以实现更高的参与率。因此,如图5所示,该过程可以按步骤522重复收集参与数据,并且继续到步骤582以改进参与模型,以及由此确定的任何数据。本发明的实施例的另一个用途是评估根据一个或多个特质被预排序的受众。作为一个示例,也称为电视市场区域的指定市场区域(dma)是人口可以接收相同(或类似)电视和广播电台广告的国家的区域,并且还可以包括其他类型的媒体,包括报纸和互联网内容。实施例的一个示例使用是根据用户的dma对用户进行分类。本发明的实施例可以根据国家的每个dma与特定视频广告的参与模型的心理度量适配而对国家的每个dma进行排名。对于较小的地理区域也可以这样做,该较小的地理区域包括但不限于邮政编码或邮编。有利地,由于缺少用户的pii,通过秘密手段询问用户id将仅提供链接到目标群体提供者的cookie的预测模型,并且这些cookie或其他id本身可以被加密。在本发明的一个实施例的预期用途下,包括每个用户的心理度量模型的心理度量数据(或包括该模型的心理度量维度的一些隐私敏感子集)可以在心理度量数据分析引擎(pdae108)中保持私密。这些数据仅用于对于特定定向目的而生成定制心理测量受众。可以基于众多心理度量测量来创建受众(id列表),而无需揭示任何个人用户或任何小组用户如何具体地适配到整体参与模型(例如,用户的心理度量简档在具有广告的整体参与模型的某些维度上共享相似的分数,但在其他维度上并非如此)。同时,大群用户的参与模型可以由表达几率比或正或负升力(参见图9a和9b)百分比的趋势来表征,以向广告商提供与大用户群有关的有价值的参与见解。此外,数据处理系统100可以与具有用户id和行为或消费者数据的任何平台一起工作,包括但不限于在线约会平台、社交媒体平台、娱乐或其他应用、大型发布者或发布者网络平台、具有消费者数据的金融平台,以及具有用户生成的语言数据的政府/情报平台。这些中的每一个都落入本文所使用的平台的定义内。专用硬件系统如上所述,图1示出了用于预测在线用户的心理度量简档以形成用户的心理度量模型的系统100的一个实施例。如本文所讨论的,该系统包括配置成测量第一组用户中的用户的心理度量维度的测量工具(105),以及耦合到测量工具的心理度量数据分析引擎系统(pdae108)。pdae108包括:处理器组184,包括至少一个处理器;以及存储子系统186(通常包括内存和其他存储器,因此包括非暂态计算机可读介质)。存储子系统包括,即非暂态计算机可读介质存储代码(187,188,189),当由处理器组182的至少一个处理器执行时,代码执行文中描述的用于预测在线用户的心理度量简档的机器执行的方法中的任何一个。一些实施例还执行本文描述的用于根据在线用户的心理度量模型来预测在线用户参与特定刺激的可能性的模型的任何方法。本发明的一些实施例包括硬件系统,该硬件系统包括专用硬件元件,其被配置为执行上文描述的一个或多个方法中的一个或多个步骤。图6示出了用于使用机器学习的这种硬件系统600的一个实施例,并且如图1中的那样,包括心理度量测量工具105和心理度量数据分析引擎系统(pdae)602,其包括专用硬件。系统600可以包括至少一个客户端103(示出三个),并且可以包括上文描述的系统102,104,106和109中的至少一些。pdae602包括控制器680和耦合到控制器的存储子系统682。控制器可包括至少一个可编程处理器。存储子系统682可以包括存储器和其他存储设备,并且存储控制器程序代码622,并且在一些版本中存储可由与存储子系统682耦合的元件中的一个或另一个使用的其他程序代码624。存储子系统182还被配置为存储缓存用户数据库(缓存用户db)184,其在一个实施例中与图1的pdae108的元素184相同。1。pdae602可以包括接口604,其被配置为将pdae与网络和其他设备接口连接。pdae602包括机器学习引擎610,其耦合到控制器并且被配置为执行至少一种机器学习方法。在一些实施例中,机器学习引擎可以耦合到存储子系统682,并且可以在控制器680的控制下被重新配置以加载至少一个附加的机器学习方法,修改其任何机器学习方法,或者去除其机器学习方法中的任何一个。执行这种重新配置可以包括加载其他程序代码624中的一些。机器学习引擎610可以包括逻辑硬件,其被配置为执行至少一个机器学习方法的至少一部分。机器学习引擎还可以包括存储机器可执行代码的存储设备,该机器可执行代码与逻辑硬件一起使得机器学习引擎执行至少一种机器学习方法。这种代码在图6中显示为ml1,ml2,...。为了操作执行机器学习方法的训练和心理度量模型的生成的实施例,接口604在控制器680的控制下被配置为从测量工具105接受第一组用户中的用户的被测量的心理度量维度,以形成第一组用户的被接受的心理度量简档,例如,在缓存db184中。接口604在控制器680的控制下还被配置为接受关于第二组用户中的用户的在线行为的自动机器收集数据。这种被接受的数据是形成概要行为数据。第二组的每个用户也在第一组中。因此,pdae680被配置为对于第二组的每个用户具有,例如在缓存db184中存储,每个用户的接受的被测量的心理度量简档和概要行为数据两者。对于训练机器学习方法并生成心理度量模型的这样的实施例中,pdae602的控制器680耦合并配置成控制心理度量建模引擎608,其耦合到机器学习引擎并配置成使用第二组的用户的概要行为数据和对应的被接受的测量的心理度量简档,来导致使用机器学习引擎训练至少一种相应的机器学习方法,该方法用于预测其心理度量简档可能未知的用户的心理度量简档的每个相应维度。接口在控制器的控制下还被配置为接受其心理度量简档可能未知的第三组用户中的用户的关于在线行为的自动机器收集数据,这形成第三组的用户的概要行为数据。在控制器680的控制下,心理度量建模引擎被配置为使用训练得到的用于预测的机器学习方法中的至少一个来从第三组用户的概要行为数据生成第三组用户中的每一个的心理度量模型,并存储预测的心理度量模型,例如在db184中。pdae602被配置为保持第一,第二和第三组用户中的每个用户的匿名性。pdae602的一些实施例还包括耦合到控制器680并在其控制下的分析引擎606。分析引擎606被配置为对所接受的关于用户的在线行为的自动机器收集数据执行分析处理,以形成概要行为数据。分析引擎606耦合到存储子系统682,特别耦合到缓存用户db184。分析引擎还耦合到机器学习引擎,并且在通过无监督学习进行分析的实施例中,使用至少一种无监督学习方法,该方法包括在机器学习引擎被配置为执行的至少一种机器学习方法中。为了操作如下实施例,该实施例使用参与数据以及用户的心理度量模型以形成模型以预测参与特定刺激(例如,在线广告)的可能性,接口604在控制器680的控制下被配置为从参与测量工具(例如,客户端103)接受参与特定刺激并且对于其例如在用户数据库184的114中存储了预测的心理度量模型的用户的参与数据。对于这样的实施例,pdae602的控制器680耦合到参与建模引擎612并配置成控制参与建模引擎612,其耦合到机器学习引擎610和存储子系统682,并且被配置为检索(304)被存储的其参与数据被接受的用户的心理度量模型(114)。参与建模引擎612还被配置为使机器学习引擎610使用其心理度量模型被检索的用户的被接受的参与数据(115)以及所检索的心理度量模型(114)两者,以训练(306)机器学习引擎的机器学习方法中的至少一个以用于确定参与模型(116),该参与模型基于其参与数据可能未知的用户的心理度量模型来预测其参与数据可能未知的用户的参与可能性的度量。在一些版本中,参与建模引擎612还被配置为将参与模型应用于其心理度量模型可被得到(例如在114中)的用户群体,以预测该群体的各个用户的参与特定刺激的可能性的相应度量。在一些版本中,参与建模引擎612还被配置为根据度量对用户群体进行排名。在一些实施例中,参与建模引擎612还被配置为将排名的群体划分为一组受众(117),每个受众包括排名中的相应范围的相应用户。在一些实施例中,参与建模引擎612还被配置为执行一组动作中的至少一个,所述一组动作包括将所述特定刺激定向至具有至少一个特定心理度量维度的用户,以及将用于所述特定刺激的参与模型与用于至少一个其他特定刺激的至少一个参与模型进行比较。分析引擎606可以包括被配置为执行分析处理的至少一部分的逻辑硬件,并且可以另外包括可编程处理电路和存储由其处理电路使用的机器可执行代码607的(非暂态)存储介质。心理度量建模引擎608可以包括逻辑硬件,其被配置为实行心理度量建模引擎被配置为执行的处理的至少一部分,并且可以另外包括可编程处理电路和存储由其处理电路使用的机器可执行代码609的(非暂态)存储介质。参与建模引擎612可以包括逻辑硬件,其被配置为实行参与建模引擎被配置为执行的处理的至少一部分,并且可以另外包括可编程处理电路和存储由其处理电路使用的机器可执行代码613的(非暂态)存储介质。收集和分析用户的行为数据和主题建模这里使用的关于用户的自动收集的行为数据指的是在线活动(包括在其应用、网络或交换上的活动)。虽然在文中描述的许多示例实施例中,行为数据包括用户访问的网站上的数据,但是行为数据可以包括应用中的用户生成的文本,和/或消费者数据,和/或用户偏好数据,和/或第一方数据,和/或网络日志数据。虽然上面描述的分析方法用于对用户访问的网站进行文本分析,但是行为数据可以包括图像,音频,文本消息,电子邮件,产生(或读取)的博客,数据文档,文本文件,数据库文件,日志文件,交易记录,采购订单等中的一个或多个,或者作为替代地由其构成。因此,虽然本文描述的分析过程包括分析来自在线行为的文本,但是分析例如包括将无监督分类应用于文本,在其他实施例中,用于形成用户的概要行为数据的分析过程包括分析来自用户的在线行为的至少一个图像和/或至少一个音频元素,该分析例如包括将无监督分类应用于至少一个图像和/或至少一个音频元素。已知对于图像和/或音频元素执行这样的分析,如何对本文所述的方法和系统进行修改以包括来自图像和/或音频元素的概要行为数据将对于使用已知的分析图像和/或音频元素的方法的本领域普通技术人员而言是清楚的。出于完整性的目的,本文详细描述了通过分析每个用户访问的网站的文本以生成用户的行为数据来跟踪用户的实施例。用户访问的网站的文本包括许多单词,并且本发明的一个方面是分析自动收集的数据以将网站数据转换为一组“特征”。已知有许多方法用于将文本文档(例如,网站)转换为“特征”。这种方法有时被称为文档分类,并且涉及将类集合中的至少一个类分配给每个文档,例如,一组文档的网站,例如一组网站。因此,该类集合的子集被分配给该组文档中的每个文档。因此,这实现了将文档的维度降低为描述该文档的分类集合以及每种这样的分类的一些度量的形式。已知许多方法用于文本文档分类,并且这些方法可以是监督的、无监督的和半监督的。监督方法涉及在评估人员先前标记的数据上训练分类器。无监督分类是在没有人工协助的情况下通过机器进行的,有时甚至没有预先定义分类集合。表示文本(例如,web文档)的一些方法包括将网页或顶级网络域的文本表示为向量空间模型,然后应用一个或多个方法来降低维度。这些方法包括矩阵方法,例如交替最小二乘法(als)和奇异值分解(svd)。本发明的一些实施例使用无监督分类,特别是主题建模,其是分析用户访问的所有网站的所有文本以自动确定文本的被称为主题的固有分类的过程。因此,所有用户访问的所有网站(可能是数千万的数量级)可以由相对少量的主题(例如数百个主题的量级)表示。然后每个文档可以通过其的相对少量主题的主题分布来描述。在一个实施例中,用k指示的主题的数量是800。在替代实施例中可以使用k的其他值,即其他主题数量。可以使用的一种主题建模方法被称为概率潜在语义分析(plsa),并且基于从潜在类模型导出的混合分解。对于plsa模型,单词和文档的每次共同出现的概率是条件独立的多项分布的混合。需要学习许多参数,并且通常使用期望最大化算法来学习参数。另一个主题建模方法以及在本发明的一些实施例中实际使用的方法被称为隐含狄利克雷分配(lda),并且该方法创建了网站语料库中的主题的模型(主题模型)。与plsa一样,lda是一种用于创建主题模型的概率技术。但是,假定主题分布具有狄利克雷先验分布。lda主题建模方法涉及通常所说的“词袋模型”方法。在这个模型中,文本被表示为其单词的袋子(多重集合),丢弃了语法甚至单词顺序,但保留了多重性。在一个词袋模型方法中,一次取得一个单词,并记录它们的出现频率。本发明的替换实施例可以使用n元文法(n-gram)模型,其存储文本内的空间信息,即不仅仅是单个单词,而且一次存储多于一个单词。例如,二元文法模型将文本解析为两个单词的词组(term),并存储每个单词对词组的频率。例如,词组“白宫”在二元文法模型中将显示为单个标记。在描述在本发明的一些实施例中使用的方法的更多细节中,假设网站由html代码表示,并且假设任何用户的行为数据包括用户已访问的网站。假定由u个用户。语料库是指所有用户访问的所有网站。sum,m=1,...mu,u=1,...u指示由第u个用户访问的第m个网站,其中mu指示由第u个用户访问的不同网站的数量。此外,由sm指示u个用户中的任一用户访问的第m个网站,并且假定任何用户总共访问了m个网站。语料库是任何用户访问的所有网站的合集,即请注意,虽然多于一个用户可以访问任何一个网站,但该网站只被“计数”一次,即,一旦该网站被任何用户访问,它就是该语料库的一部分,而不管同一用户或者一些其它用户是否再次访问该网站,也不管它被访问多少次。标记化(tokenization)是如下的过程,其通过删除所有标点符号、用单空格替代标签和其他非文本字符、以及在某些版本中删除所有停止词,例如几乎没有信息内容的介词、冠词、连接词等,将网站正文中包含的文本内容拆分为单词(或标记)。标记化的一些实施例还包括词干提取,其涉及将屈折词(或有时衍生词)缩减到它们的词干或词根形式。根据词袋模型方法,记录所得到的单词及其出现频率。语料库中的一组独特单词称为字典。字典是词汇的一部分。用v表示词汇表中的单词数。用nm指示网站sm中的单词数,并用n指示所有网站的字典中的单词数,从而在本文描述的一个实施例中,n=v,使得假设所有网站都包含词汇表中的所有单词,这样的词典与词汇表相同。如上所述,本发明的一些实施例使用lda来创建网站语料库中的主题的模型(主题模型)。davidmblei,andrewyng,michaelijordan,“latentdirichletallocation”,journalofmachine-learningresearch,vol.4,pp.883-1022,2003年1月中描述了lda.另请参阅在2016年5月27日检索的en~dot~wikipedia~dot~org/wiki/latentdirichletallocation其中~dot~指示实际url中的句点(“.”)字符。lda是一种用于创建主题模型的概率技术。最初,不关心个人用户,只关注语料库,单词数和全局字典。lda算法生成k个主题的列表,以及对于每个主题k,在主题k中找到单词w的概率的度量被表示为因此,假设lda主题包括与厨艺相关的第一主题k1,以及被指示为k2的与篮球相关的第二主题。然后,概率度量值对于如“pan”,“onions”和“baking”这样的单词(w’s)来说相对较高,而概率度量值对于如“dribbling”,“timeout”和“court”这样的单词来说相对较高,而对于如“pan”,“onions”和“baking”这样的单词较低。lda模型还生成被指示为θmk,m=1,...,m,k=1,...,k的“主题分布”,其是主题k在语料库的第m个网站中出现的概率的度量(一般来说,主题k在第m个文档中出现的概率)。一旦获知了语料库的每个网站的主题分布,给定每个用户访问的网站的记录,该方法包括为每个用户创建“行为特征向量”。每个用户的历史行为可以由用户的“主题向量”描述,其具有与所有用户访问的所有网站的语料库中的主题的数量相同的维度k,每个元素(也就是说,第k元素,k=1,...,k)指示相应主题,即第k主题,在该用户访问的网站集中的概率,因此任何用户的主题向量的所有元素的总和为1。回想一下,u代表一组u个用户中的第u个用户。对于每个用户u,u=1,...,u,主题确定方法使用html解析器来从该用户已访问过的所有不同网页中提取文本。假设用户u访问mu个网站,指示为sum,m=1,...,m,u=1,...,u想一下这些网站中的每一个都有主题分布。将用户u访问的网站sum的主题分布指示为mu=1,…,mu,k=1,…,k对于任何用户u被指示为tu的主题向量是k个元素的向量,其中第k个元素指示用户已访问的所有站点的主题分布的第k个元素的平均值。也就是说,tu=[tu1tu2...tuk...tuk]指示,第k元素为tuk,然后主题的数量k是如下的参数,其通常被选择为大得足以使得各个主题彼此不太相似,但是小得足以使得主题不会变得过于抽象或具体。在一个实施例中,语料库由数千万个网站组成,具有大约100,000个独特单词和800个主题。对于此参数集,每个用户将具有由800个值组成的主题向量,值的范围是从0到1(0表示主题的零概率)。应指出,虽然通过主题模型生成概要行为数据的一组实施例使用lda进行主题建模,但是另一组实施例使用分层lda,根据该分层lda,文档内(网页内)中的主题分布包括将主题组织成树。每个文档是由沿该树的单个路径的主题生成的。当从数据学习模型时,采样器在为每个文档选择通过树的新路径和将每个文档中的每个单词分配给沿所选路径的主题之间交替。见d.m.blei,t.l.griffiths,m.i.jordan和j.b.tenenbaum,“hierarchicaltopicmodelsandtheenstedchineserestaurantprocess”,advancesinneuralinformationprocessingsystems(nips),第176卷,第17页,2004年。其他实施例使用pachinko分配用于主题建模,其结合了主题之间的相关性。pachinko分配将文档建模为在主题的单个集合上的分布的混合,使用有向无环图(“dag”)来表示主题出现。见liwei;mccallum,andrew,“pachinkoallocation:dag-structuredmixturemodelsoftopiccorrelations”,proceedingsofthe23rdinternationalconferenceonmachine-learning,2006年。另一组使用分层lda和pachinko分配,它扩展了基本的pachinko分配结构以表示分层主题。见mimno,david,weili和andrewmccallum,“mixturesofhierarchicaltopicswithpachinkoallocation”,proceedingsofthe24thinternationalconferenceonmachine-learning,acm,2007年。其他实施例使用word2vec(参见mikolov,tomas,kaichen,gregcorrado和jeffreydean,“efficientestimationofwordrepresentationsinvectorspace”,arxivpreprintarxiv:1301.3781(2013))。虽然这里描述的一些实施例使用包含在apachespark(tm)中的机器学习模块(mlib)中的lda方法(参见下面标题为“关于计算环境的注释”的部分,但是本文描述的一些主题建模方法是使用standfordtopicmodelingtoolbox,版本4.3,可在2016年6月1日在nlp~dot~stanford~dot~edu/software/tmt/tmt-0~dot~3/到,其中~dot~指示实际url中的句点(“.”)字符。替代实施例使用从马萨诸塞州阿默斯特的马萨诸塞大学的“machine-learningforlanguageetoolkit”(mallet)可得的程序代码。见mallet~dot~cs~dot~umass~dot~edu/topics~dot~php其是在2017年3月30号检索的,其中~dot~指示实际url中的句点(“.”)字符。另见shawngraham,scottweingart和ianmilligan“gettingstartedwithtopicmodelingandmallet”,日期为2012年9月2日,并且可在2017年3月30日从programminghistorian~dot~org/lessons/topic-modeling-and-mallet检索到,其中~dot~指示实际url中的句点(“.”)。生成心理度量模型的机器学习方法同样,以下针对包括主题向量的概要行为数据的情况,并且本发明的其他实施例使用分析数据和其他形式的概要行为数据的其他方法。对于n5个用户中的每一个用户,例如种子数据可获得的第u个用户,存在主题向量tu,其是用户通过心理测量工具(例如通过与用户界面交互并输入数据)为用户u获得的p个心理度量维度的向量,表示为pu,形成心理度量简档,tu=[tu1tu2.....tuk....tuk],pu=[pu1pu2....pup]。在某些版本,p个心理度量维度中的至少一个是人口统计的,而其余的是纯心理度量的。在一个版本中获得n5个用户的心理度量简档是在步骤282中,通过使样本提供者系统106提供的n4(n4≥n5)用户进行关于诸如性别,种族,年龄和收入水平之类的人口统计因素以及诸如政治人格(可能包括参加者的保守水平,个人的政治态度,种族中心主义,宗教信仰,性不宽容,社会中的权威和不平等,家庭中的权威和不平等,以及对人格的看法等等)的纯心理度量响应的调查来执行的。纯心理度量维度不同的实施例可以在心理度量简档中使用不同的纯心理度量维度,该简档包括纯心理度量维度和可选的至少一个人口统计维度。许多纯心理度量维度的清单是已知的。例如参见国际人格项目库(ipip)上发布的“multi-constructipip清单”,这是一项开发用于人格和其他个体差异的高级度量的科学合作,可在2017年4月4日在ipip~dot~ori~dot~orq/newmultipleconstructs~dot~htm到,其中~dot~指示实际url中的句点(“.”)。一组实施例使用一组30个心理度量特质,以及在johnson,j.a.,“measuringthirtyfacetsofthefivefactormodelwitha124-itempublicdomaininventory:developmentoftheipip-neo-124”,journalofresearchinpersonality,第51卷,第78-89页,2014年中发表的定义,这个集合可以在2017年4月4日在ipip~dot~ori~dot~org/30facetneo-pi-rltems~dot~htm线获得,其中~dot~指示实际url中的句点(“.”)。五因素模型(fivefactormodel)的特质通常也已知为ocean,这是指示开放性、尽责性、外向性、亲和性、和神经质的首字母缩略词。图7a和7b将这些高级人格维度显示为字母后跟数字,该数字对应于每个维度的子方面之一。例如,n表示神经质,n1表示焦虑,神经质的一个子方面(神经质的n不应该与图4a-4e及其描述中使用的符号n混淆)。并且在每个子方面下示出了在这个特定的心理度量工具中与之对应的心理度量项。每个特质前面的“+”和“-”表示心理度量特质的正面和负面措辞,它们也分别称为“亲特质(pro-trait)”和“反特质(con-trait)”项。如在心理度量学中的常见做法,在一个实施例中,在计算分数之前将对于反特质(-)心理度量项的数字答案乘以-1。在一个实施例中,用于对于这些项在步骤282中从n4个用户获得纯心理度量维度的用户响应系统是7点所谓的李克特量表,其由答案“非常不同意”,“不同意”,“少许不同意,“中立”,“少许同意”,“同意”,和“非常同意”构成。当它们处于亲特质方向时,我们将这些分别计分为-3,-2,-1,0,1,2和3,并且当项处于反特质方向时,将这些分数乘以-1。人口统计维度不同的实施例可以在心理度量简档中使用不同的人口统计维度,其包括纯心理度量维度,并且还包括人口统计维度。一个实施例使用以下15个人口统计维度和答案(答案显示在括号中):·性别(男,女)·出生年份(年份下拉菜单)·出生次序(1,2,4,4,5+)·政治立场(绿党,民主党,倾向民主党,温和派,倾向共和党,共和党,茶党,自由党派)·种族,点击所有适用的选项(白人/非西班牙裔,西班牙裔,黑人/非西班牙裔,[非洲裔美国人,非洲人],亚洲人[东亚人,南亚人,东南亚人,太平洋岛民],中东人,美洲原住民)·宗教(主流新教徒,福音派新教徒,天主教徒,东正教,摩门教,犹太教,穆斯林,佛教,印度教,锡克教徒,其他,不可知论者,无神论者)·您多久参加一次定期的宗教仪式?(从不,一年一次或更少,一年几次,一个月一次或两次,几乎每周,每周或每周一次以上)。·您是否曾作为父母或监护人照顾儿童(是/否);如果“是”,·你有多少孩子?(1,2,4,4,5+)·他们中至少有一个是女儿吗?(是/否)·婚姻状况(从未结婚,已婚,与伴侣同居,离婚/分居,丧偶)·教育程度(高中或更低,部分大学,大学毕业,研究生学位)·家庭收入(低于$20k,$20-29,999,$30-49,999,$50-74,999,$75-99,999,$100-149,999,$150-249,999,$250-499,999,$500k+)·房产拥有者(自有,租住,其他)·就业状况(全职,兼职,失业,退休)在心理度量模型中,纯心理度量维度和任何人口统计维度都在一定范围上建模,例如被表达为0到100之间的概率。例如,任何用户都可以具有在最男性和最女性之间的“性别”维度。类似地,心理度量模型中的“房产拥有者”表示为0到100之间的分数,表示作为房主的概率。因此,在一个实施例中,p=45,具有30个纯心理度量维度和15个人口统计维度。另一个实施例使用具有32个维度的心理度量简档,其中13个是纯心理度量,19个是人口统计。图8是具有匿名用户id801的用户的这种32维心理度量简档800的说明性示例。纯心理度量维度被示出为集合805,并且由保守主义、喜新异物、“维度2”、性容忍、公正世界观、平等主义、犬儒主义、虔诚、“维度8”、“维度9”、“维度10”、“维度11”和“维度12”组成,其中维度被称为“维度n”,其中n是数字,是根据对心理度量项的响应而计算的维度,例如为了减少维度的数量。人口统计维度被示出为集合803,由白人、亚洲人、西班牙裔、黑人、基督徒、做礼拜、女性、千禧年、长子、结婚、父母、具有女儿、教育、收入、就业、失业、退休、房产拥有者、热衷政治组成。在一些版本中,对于每个维度,可以向潜在的种子用户呈现多于一个的项。收集对于同一维度的多个项的响应的目的有两个主要目的:通过能够检查每个参加者的响应之间的内部一致性来改进验证,并且能够组合多个响应以便给定维度内的响应可以被平均,这降低了后续建模步骤中的噪声。在图4a的步骤482中,心理度量分析引擎执行调查的附加平衡化和验证。这包括但不限于检查以下响应模式以确保有效的心理度量简档:·直线化-参与者为每个响应选择相同的值(通常可以非常快速地完成调查)·调速器-参与者不合理地快速完成调查(例如,通过选择不反映实际观点的随机值)。·默认偏见-过于频繁地选择正值(当“诚实”响应通常由于语句结构方式而更均匀地分解为正面和负面时)。·怀疑偏见-与上述类似,除了负值过度加权。·一致性-用户在调查期间对于重复的相同陈述是否给出相同或几乎相同的响应?进一步平衡化和验证结果得到了n5个用户,对于这些用户可获得心理度量简档。对于n5个用户中的每一个,对于种子数据可用的第u用户,从目标群体提供者系统102在步骤424(图4a)中提供的数据以及由数据分布系统如步骤448(图4a)提供的匿名用户id获得主题向量tu。对于每一这样的第u个用户,还存在为用户u获得的p个心理度量维度的向量,表示为pu,形成心理度量简档。tu=[tu1tu2.....tuk....tuk]和pu=[pu1pu2....pup]获得心理度量模型的方法的机器学习在一个实施例中,心理度量简档的每个维度,例如第u个用户的第i维度pui,i=1,...,p,作为用户的主题向量tu的函数被建模,这样的函数形成维度的模型。也就是说,至少一种机器学习方法用于学习p个函数每个都是k个变量的函数。将每个这样的模型称为特定维度。对于其中概要行为数据是主题向量形式的那些实施例,回想对于n5个用户存在种子数据,包括从网络浏览行为(通过分析过程)获得的主题向量和调查响应(每个用户的实际测量的pui值的心理度量简档)。对于机器学习,主题向量被视为特征,并且每个维度pui被视为用于监督机器学习分类器的“模式”或分类。因此,在一些实施例中,至少一种机器学习方法包括至少一个受监督的机器学习分类器。根据被建模的特定维度,有三种类型的分类:二元分类(预测两种可能结果之一),多类分类(预测两种以上结果中的一种)和回归(预测数值)。一个实施例包括训练多个机器学习方法,执行交叉验证,例如所谓k折交叉验证,并根据机器学习方法选择准则选择机器学习方法和相应的模型。在一个实施例中,根据性能准则选择提供最佳性能的模型。使用的准则取决于分类的类型。在一个实施例中,执行10折交叉验证以选择最佳性能模型。当然,在替代实施例中也可使用其他数量的折叠。考虑二元分类维度,比如性别。一个实施例使用主题向量作为特征在对于性别的调查响应上训练三个二元机器学习分类器。三个二元机器学习分类器是逻辑回归,朴素贝叶斯和随机森林。通过执行k折交叉验证,特别是10折交叉验证并选择具有最高auc(roc曲线下面积)的模型来选择“最佳”模型。这种性别模型的输出则是用户为女性的概率(或等同于男性概率的补数)。通过使用三种不同的二元机器学习分类器确定最佳模型,以类似的方式对具有两个可能值的心理度量简档的其他维度进行建模。应指出,其他实施例可以从不同的分类器中选择最佳结果,和/或从使用不同数量的可能分类器中选择最佳结果,例如,从包括支持向量机、逻辑回归、决策树、随机森林、梯度提升树和朴素贝叶斯的组中选择。考虑多类分类维度,例如出生顺序,其在一个实施例中具有五种可能的分类。一个实施例将每个多类维度建模转换为二元分类序列。使用被转换为二元分类的、在对于出生顺序的调查响应上的三个多类机器学习分类器:逻辑回归,随机森林和朴素贝叶斯,其使用主题向量作为特征。通过执行k折交叉验证(例如,10折交叉验证)并且选择具有最佳性能的模型来选择“最佳”模型,其中最佳性能在一个实施例中是实现最高auc得分的模型。一些维度是数值,并且对于这些中的每一个,虽然一些实施例可以使用线性回归,但是一个实施例将具有数值的维度的建模转换为维度所属的值范围的分类序列。这将数值维度的建模转换为维度落入其范围值的分类的序列。如上所述,通过一系列二进制分类来执行多类分类。对于二元分类器和多类分类器,使用了数种机器学习方法,并且使用交叉验证选择最佳方法。参与建模如上所述,一些实施例还包括使用机器学习来根据用户的心理度量模型生成参与刺激的模型-参与模型-的方法。一些实施例还包括将参与模型用于群体(具有已知的心理度量模型)来根据每个用户的参与可能性对群体进行排名的方法。一些实施例还包括产生针对特定刺激的受众的方法。描述了刺激是单个可点击在线广告的情况,但是本发明不限于这种情况。如上所述,该方法包括通过随机提供广告展示并且收集关于用户点击广告或不点击广告的数据,来收集对于广告的参与数据(和未参与数据)。每个用户的参与被视为响应变量或结果(例如,1表示点击,0表示未点击)。参与也可以是一个连续变量(即,在关闭页面之前观看视频广告所花费的秒数)。每个用户具有心理度量模型,例如,如上所述从在线行为生成的。将用户u的模型表示为pu=[pu1pu2....pup]。一个实施例包括使用逻辑回归(或者如果参与模型不是二值量则使用线性回归)以获得参与模型,其中参与数据和未参与数据是用于回归的训练数据。训练数据用于学习函数,该函数表示为e(pu),其表达了其心理度量模型为pu的用户参与特定广告的概率。对于二值数据,e(pu)=1/1-e-t(pu),其中t(pu)=β0+β1pu1+β2pu2....βppup而心理度量模型是:pu=[pu1pu2....pup]将logit函数应用于e(pu),其中ln()是以e为底的对数,其生成参与的对数几率。数量[e(pu)/1-e(pu)]是参与可能性对比不参与可能性,这是参与的几率比。因此,几率比是对于任何维度,比如说第i维度,exp(βi)的值是在保持所有其他维度不变的情况下,对于pui的参与的几率比。例如,如果心理度量简档的维度性别的系数为0.69,那么女性参与的几率是因子exp(0.69)=2,高于男性。作为可如何使用这种接合模型的示例,图9a和9b示出了使用图8中所示的示例性简档的32维心理度量简档确定用户的参与模型的结果的图形显示。在其结果如图8所示的测试中,有300个肯定参与和42,000个否定参与。考虑示出了对于纯心理度量特质的相对参与几率的图9a,可以看出,例如,对于宗教信仰特质(参见圈出的元素903),宗教用户参与该特定广告的可能性大约低三倍。考虑示出了对于纯人口统计特质的相对参与几率的图9b,可以看出,例如,对于作为西班牙裔的特质(见圈出的元素913),西班牙裔220%更可能参与此广告(给定它们在使用的群体中的流行率),而对于作为女性的特质(见圈出的元素915),心理度量为女性的用户270%更可能参与此广告。客户可以使用这一点来根据一个或多个心理度量维度更好地定向他们的广告。一些实施例包括对于可能尚未暴露于广告的用户群体运行所学习的参与模型。这通常是大的感兴趣群体,并且该过程得到这个较大群体的用户参与广告的可能性的度量。一些版本包括根据预测的参与可能性,例如按照参与可能性的降序,对群体的成员进行排名。一些实施例包括将群体划分为被称为群体片段(也称为受众)的集合,其中每个集合由特定排名的可能性范围内的那些用户组成,例如,前1%的最可能参与的用户,参与可能性在前2%到前5%的用户,等等。这为广告商提供了一种用于选择要向其定向广告的群体的一个或多个受众(片段)方法。图10a示出了使用本发明的实施例以用于通过使被应用参与模型的群体根据它们的dma被归类来将消息进行定向的示例。然后可以根据每个dma与广告的心理度量适配来执行对被排名的群体的分段。也就是说,基于每个地理区域的平均心理度量模型,按照参与可能性的降序对dma进行排名。图10a以表格形式示出了对于使用图8所示的示例的32维度在大约1.5亿用户的群体上运行的实验,根据dma将群体进行排名的一部分。然后可以将该信息嵌入dma的图中,以基于地理区域与广告的参与模型的平均心理度量适配,根据地理区域参与刺激(例如,广告)的可能性来预测地理区域。图10b示出了美国的dma图,其中每个dma可以根据其参与可能性进行颜色编码。地图上的dma并不意味着在图中可读。然而,一个区域1003以形式1005被放大显示。此类信息可用于将广告进行定向。关于匿名化的注释这里的描述提到了匿名用户id。例如,提供给pdae108的任何目标提供者用户id是匿名的,并且提供给pdae108的任何样本提供者用户id是匿名的。已知许多方法用于匿名化用户id和其他用户数据以移除任何pii。一种匿名化方法包括连结或以其他方式添加所谓的“盐(salt)”,其对于信息而言基本上是随机数,然后将单向函数(例如,散列函数)应用于信息和盐的组合。还已知其他方法,例如,使用密钥对信息或者信息和盐进行加密。本发明不依赖于任何特定的匿名化方法。此外,尽管是否匿名化的主题确实是匿名化的完美工作,或者在给定足够的时间和/或计算能力是当前研究和辩论的主题的情况下,匿名数据可以被去匿名,但是为了本发明的目的,匿名化手段使用匿名化方法,例如,目前在数据科学中实践的方法。关于计算环境和专用硬件的注释注意,图1示出了包括若干系统的计算环境100,仅为了简化说明,每个系统被示出为具有至少一个处理器和存储子系统。系统可以由不同的实体操作,并且本发明的若干特征由pdae108操作或在pdae108中操作。然而,本发明不限于图1中所示的布置。例如,pdae108可以实现为包括至少一个专用机器的系统,和/或可以使用一组虚拟机作为通过云计算提供的计算机集群的一部分的系统。也就是说,本发明的一些实施例在一组计算机系统上实现,所述一组计算机系统可以是“在云中”操作的至少一个虚拟机,即,操作至少一个远程位置,并且如果多于一个位置,则通过互联网或者连接到互联网的网络将位置进行耦合。为简单起见,所有这些计算机在图1中被示出为具有至少一个处理器和存储子系统的单个系统,数据和程序代码被存在该存储子系统中。这里使用的云计算指的是一种基于互联网的计算,其通过互联网按需提供共享计算机处理资源和数据到计算机和其他设备。云计算提供商的示例包括亚马逊公司的亚马逊网络服务(“aws”)(rtm),微软公司的微软云(rtm),ibm软件层(rtm),谷歌云平台(tm)等等。还要指出,虽然本公开使用术语“数据库”和“数据库的记录”,但是应该理解,该术语在一般意义上用于指的是用于保持数据的数据结构。许多这样的数据结构是已知的并且可以在特定实现中使用。例如,通常已知并使用关系(sql)数据库。然而,本发明不限于使用这种结构。非关系数据库,也称为无sql或非sql数据库(例如mongodb),也是已知的并且可以使用。数据仓库式数据存储库也是已知的并且可以使用。另外,弹性高速缓冲存储器(例redis)可用于存储数据。所有这些数据结构和更多数据结构都被包括在这里使用的术语“数据库”中。本发明的一些实施例,例如pdae108的特征和方法,使用分布式集群计算框架来实现,特别是由亚马逊公司运营的亚马逊网络服务(“aws”)中的亚马逊弹性映射简约(“amazonemr”)。amazonemr是一个被管理的集群平台,其允许将商用硬件群集在一起,以并行分析海量数据集。集群是称为节点的虚拟机实例的集合,其在amazonemr中为亚马逊弹性计算云(amazonec2)实例。集群中的每个实例(节点)都是在集群中发挥作用的虚拟服务器机器。例如,amazonemr提供了一个所谓的主节点,该节点通过运行软件组件来管理集群,这些软件组件协调在其他节点(统称为从节点)之间的数据和任务的分配以进行处理。主节点跟踪任务的状态并监视集群的健康。所谓的核心节点是具有运行任务和存储数据的软件组件的从属节点,其例如在诸如集群上的apache大数据分布式文件系统(hdfs)的分布式文件系统中,而所谓的任务节点(如果使用的话)是具有仅运行任务的软件组件的从属节点。谷歌(例如,谷歌云),微软(例如微软云)以及可能的其他未来提供商提供类似的基于云的服务。发明人选择通过使用公开可用的“开源”代码实现本文描述的许多方法。本发明的一些实施例,例如,pdae108的特征和方法使用在amazonemr上运行的apachespark(tm)框架,特别是由apachespark(tm)作为apachesparkmlib提供的机器学习方法。然而,本发明不限于这种实现。此外,在计算机科学的此发展时期(大约2016-2017),正在引入新平台,其也可适于实现本文所述的方法和系统的实施例。apachespark(tm)在本文中称为apachespark,或简称为spark,并且是开源的大规模分布式处理框架,其特别针对机器学习迭代工作负载。spark使用函数式编程范例,并通过提供被称为弹性分布式数据(rdd)的分布式数据集的容错实现,将函数式编程范例应用于大型集群,每个分布式数据集可驻留在集群的主存储器(或者磁盘块)中。将数据存储在主存储器中使得计算速度比数据存储在物理磁盘中快得多。spark还支持容错计算。spark中的计算被使用rdd上的函数变换表示。有关apachespark的更多信息,请参阅zaharia等,“apachespark:aunifiedengineforbigdataprocessing”,communicationoftheacm,第49卷,第11号,第56-65页,2016年。在一个实施例中,本文描述的机器学习(ml)方法在pdae108使用spark中提供的算法和实用程序以及apachespark的mliib的一部分。spark的mliib提供了如下的方法,该方法可用于二元分类、逻辑回归、朴素贝叶斯等;用于回归、广义线性回归、生存回归等;用于决策树、随机森林和梯度提升树;用于交替最小二乘法(als);用于聚类,k均值,高斯混合(gmm)和其他聚类技术;用于主题建模:潜在狄利克雷分配(lda);以及用于挖掘、频繁项集、关联规则和顺序模式挖掘。spark还包括ml工作流实用程序,包括用于特征变换、标准化、规范化、散列等;ml管道构造方法;模型评估方法;超参数调整方法;以及对于ml持久,保存和加载模型和管道的方法。spark还有其他实用程序,包括用于分布式线性代数:svd,pca等;以及用于统计、汇总统计、假设检验和其他统计方法。本领域普通技术人员应该清楚,本发明的替代实施例可以通过编写专用程序而不是使用可作为开源代码获得的方法来构建,并且还可以通过使用除了apachespark提供的那些方法之外的和/或作为那些方法的补充的可用方法来构建。替代代码的一个例子是“sci-kitlearn”,这是python中的一套机器学习算法,可以在谷歌云上运行。例如,参见2016年6月6日检索的scikit-learn~dot~org/stable/其中~dot~指示实际url中的句点(“.”)。对于图6的硬件系统。使用逻辑元件的引擎的一些实施例使用门阵列(fpga)。一个版本使用xilinxzynq-7000s,芯片上的所有可编程系统,每个芯片包含两个armcortex-a9处理器内核和一个部分可重配置区域,由美国加利福尼亚州圣何塞市的xylinx公司制造。例如,机器学习引擎使用fpga来实现朴素贝叶斯机器学习和随机森林机器学习。参见例如sun-wookchoi和chongholee,afpga-basedparallelsemi-bayesclassifierimplementation,ieiceelectronicsexpress,第10卷(2013),第19号,第20130673页,可在2017年5月30日在以下检索到www~dot~jstaqe~dot~jst~dot~go~dot~jp/article/elex/10/19/1010~do,其中-~dot~指示实际url中的句点(“.”),以及vanessen,brian,chrismacaraeg,mayagokhale和ryanprenger“acceleratingarandomforestclassifier:multi-core,gp-gpu或fpga?”2012年,ieee20thannualinternationalsymposiumonfield-programmingcustomcomputingmachines(fccm),第232-239页,ieee,2012。一般概论除非另外特别说明,否则从以下讨论中可以明显看出,应当理解在利用诸如“处理”,“计算”,“运算”,“确定”等术语的整个说明书讨论中,这些术语指的是主机设备或计算系统或类似电子计算设备的动作和/或处理,其操纵表示为物理(例如电子)量的数据和/或将其变换为类似地表示为物理量的其他数据。以类似的方式,术语“处理器”可以指如下的任何设备或设备的一部分,其可通过机器可读指令编程,并且处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换成例如可以存储在寄存器和/或存储器中的其他电子数据。术语“无元素或多个元素的集合”指的是可以不具有元素或可具有至少一个元素的集合,因此包括一个元素、多于一个元素或无元素的空集合的可能性。它是计算机科学领域的普通技术人员常用的术语。在一个实施例中,本文描述的方法可由至少一个处理器执行,该处理器接受机器可读指令,例如,作为固件或软件,其在由至少一个处理器执行时实行本文所述的方法中的至少一个。在这样的实施例中,可以包括能够(顺序或以其他方式)执行规定了要采取的动作的一组指令的任何处理器。因此,一个例子是可编程dsp设备。另一个是微处理器或其他计算机设备的cpu,或更大asic的处理部分。处理系统可以包括存储子系统,该存储子系统包括诸如主ram和/或静态ram的内存,和/或rom,以及至少一个其他存储设备。可以包括总线子系统以用于在组件之间进行通信。处理系统还可以是分布式处理系统,其具有无线地或以其他方式例如通过网络耦合的处理器。处理系统也可以是集群的一部分,并且可以作为基于云的服务“在云中”提供。如果处理系统需要显示器,则可以包括这样的显示器。在一些配置中的处理系统可以包括声音输入设备,声音输出设备和网络接口设备。因此,处理系统的存储子系统包括机器可读非暂态介质,其被编码具有指令集,即其中存储有指令集,以在由至少一个处理器执行时使得执行本文所述的方法中的至少一个。注意,当该方法包括若干元素,例如若干步骤时,除非特别说明,否则不暗示这些元素的排序。指令可以驻留在硬盘中,或者也可以在由系统执行期间完全或至少部分地驻留在ram和/或处理器内的其他元件内。因此,内存和处理器也构成具有指令的非暂态机器可读介质。此外,非暂态机器可读介质可以形成软件产品。例如,可以将用于执行一些方法并因此形成本发明的系统或装置的全部元件或一些元件的指令存储为固件。可以获得包含固件的软件产品,该软件产品可以用于“刷新”固件。注意,虽然一些图仅示出单个处理器和单个存储子系统,例如存储机器可读指令的内存和其他存储器,但是本领域技术人员将理解上述许多组件被包括,但未明确示出或描述,以免模糊本发明的方面。例如,虽然仅示出了单个机器,但术语“机器”也应被视为包括单独或联合执行一组(或多组)指令以执行所讨论方法中的至少一种的机器的任何集合。因此,这里描述的方法中的每一个方法的一个实施例是非暂态机器可读介质的形式,其编码有,即在其中存储有,用于在至少一个处理器上执行的指令集。应指出,如本领域所理解的,具有用于执行本发明的至少一个方面的专用固件的机器变为专用机器,其由固件修改以实现本发明的至少一个方面。这与使用软件的通用处理系统不同,因为该机器特别配置为执行至少一个方面。此外,如本领域技术人员所知,如果要生产的单元数量证明成本合理,则与诸如处理器之类的元件组合的任何指令集可以容易地转换成专用asic或定制集成电路。存在如下的方法和软件,其接受例如处理引擎180的指令集和细节,并且自动或大部分自动地创建专用硬件的设计,例如,生成用于修改门阵列或类似可编程逻辑的指令,或者生成集成电路以执行先前由指令集执行的功能。因此,如本领域技术人员将理解的,本发明的实施例可以体现为方法,诸如专用装置的装置,诸如数据dsp器件加固件的装置,或非暂态机器可读介质。机器可读承载介质承载主机设备可读代码,包括当在至少一个处理器上执行时使得一个或多个处理器实现方法的指令集。因此,本发明的各方面可以采用方法,完全硬件实施例,完全软件实施例或组合软件和硬件方面的实施例的形式。此外,本发明可以采用被编码有机器可执行指令的非暂态机器可读存储介质上的计算机程序产品的形式。贯穿本说明书对“一些实施例”,“一个实施例”,“实施例”或“一实施例”的引用指的是结合该实施例描述的特定特征,结构或特性被包括在本发明的至少一个实施例中。因此,贯穿本说明书在各个地方出现的短语“在一些实施例中”,“在一个实施例中”,“在实施例中”或类似的陈述不一定都指代相同实施例,但是可以指代相同实施例。此外,如本领域普通技术人员在至少一个实施例中从本公开显而易见的是,特定特征,结构或特性可以以任何合适的方式组合。除非另外声明,否则本文提供的任何和所有示例或示例性语言(例如,“诸如”)的使用仅旨在更好地示例说明本发明的实施例,而不对本发明的范围构成限制。说明书中的任何语言都不应被解释为表明对于本发明的实践而言必不可少的任何未要求保护的要素。类似地,应当理解,在上文关于本发明的示例实施例的描述中,为了简化本公开并帮助理解各个发明方面中的至少一个,本发明的各种特征有时在单个实施例,附图或描述中组合在一起。然而,该公开方法不应被解释为反映所要求保护的发明需要比每个权利要求中明确记载的特征更多特征的意图。相反,如以下权利要求所反映的,发明方面在于少于单个前述公开实施例的所有特征。因此,具体实施方式之后的权利要求在此明确地并入该具体实施方式中,每个权利要求自身作为本发明的单独实施例。此外,虽然本文描述的一些实施例包括在其他实施例中的一些特征而非其它特征,但是不同实施例的特征的组合也意图位于本发明的范围内,并且形成不同的实施例,如本领域技术人员将理解的。例如,在以下权利要求中,任何要求保护的实施例可被以任何组合使用。此外,这里将一些实施例描述为可以由主机设备系统的处理器或执行该功能的其他手段实现的方法或者方法的元素的组合。因此,具有用于执行这种方法或方法的元素的必需指令的处理器形成用于执行方法或方法的元素的手段。此外,这里描述的装置实施例的元素是用于执行由该元素执行的功能以实现本发明的手段的示例。在本文提供的描述中,阐述了许多具体细节。然而,应该理解,可以在没有这些具体细节的情况下实践本发明的实施例。在其他情况下,没有详细示出公知的方法,结构和技术,以免模糊对本说明书的理解。如本文所使用的,除非另有说明,否则使用序数形容词“第一”,“第二”,“第三”等来描述共同的对象,仅表示类似对象的不同实例被引用,而不是意图暗示所描述的对象必须在时间上、空间上、排名中或以任何其他方式处于给定的序列。联合语言,例如“a,b或c中的至少一个”或“a,b和c中的至少一个”形式的短语,除非另有明确说明或以其他方式明显与上下文相矛盾,否则将在上下文被理解为通常用于表示项目、术语等可以是a或b或c,或者a和b以及c的集合的任何非空子集。例如,在集合具有三个成员的说明性示例中,连词短语“a,b和c中的至少一个”和“a,b或c中的至少一个”指的是以下组中的任一个:{a},{b},{c},{a,b},{a,c},{b,c},{a,b,c}。因此,这种联合语言通常不意图暗示某些实施例需要a中的至少一种,b中的至少一种和c中的至少一种都存在。类似地,“a,b和/或c”指以下集合中的任一个:{a},{b},{c},{a,b},{a,c},{b,c},{a,b,c}。在允许通过引用而并入的任何管辖区域,本文引用的所有出版物、专利和专利申请均通过引用并入本文。在任何不允许通过引用并入的管辖区域中,申请人保留插入来自本文中引用的任何此类出版物,专利和/或专利申请的材料的权利,而不将此类插入视为在说明书中添加新内容。在本说明书中对现有技术的任何讨论决不应被认为是承认这种现有技术是众所周知的,公知的,或构成本领域一般知识的一部分。在下面的权利要求和说明书的描述中,术语包括中的任何一个是开放术语,其意味着至少包括随后的元素/特征,但不排除其他元素/特征。因此,当在权利要求中使用时,该术语不应被解释为限制其后列出的装置或元素或步骤。例如,设备包括a和b这一表达的范围不应限于设备仅由元素a和b组成。在此使用的术语包括中的任何一个也是开放术语,也指的是至少包括该术语后面的元素/特征,但不排除其他元素/特征。因此,“包括”与“包含”同义并且意味着“包括”。类似地,应注意,当在权利要求中使用时,术语“耦合”不应被解释为仅限于直接连接。术语“耦合”和“连接”及其衍生词可以被使用。应该理解的是,这些术语并非旨在彼此同义。因此,表达“设备a耦合到设备b”的范围不应限于其中设备a的输出直接连接到设备b的输入的设备或系统。这意味着a的输出和b的输入之间存在路径,其可以是包括其他设备或部件的路径。“耦合”可以表示两个或更多个元件直接物理或电接触,或者两个或更多个元件彼此不直接接触,但仍然彼此协作或交互。因此,虽然已经描述了被认为是本发明的优选实施例的内容,但是本领域技术人员将认识到,在不脱离所要求保护的本发明的情况下,可以对其进行其他和进一步的修改,并且旨在要求保护这种变化和修改。例如,上面给出的任何式子仅仅代表可以使用的过程。可以在框图中添加或从框图中删除功能,并且可以在功能块之间交换操作。可以向要求保护的本发明中描述的方法添加或删除步骤。应指出,本说明书所附的权利要求形成说明书的一部分,因此在允许通过引用并入权利要求的管辖区域中通过引用而被并入说明书,每个权利要求形成至少一个示例实施例的不同集合。对于任何不允许以引用方式并入的司法管辖区,申请人保留将这些权利要求作为示例实施例的集合而插入的权利,而不将这种插入视为添加新事物。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1