一种用于对用户特征进行分布式编码的方法和系统与流程

文档序号:14735934发布日期:2018-06-19 20:29阅读:173来源:国知局
一种用于对用户特征进行分布式编码的方法和系统与流程

本发明涉及互联网技术领域,并且更具体地,涉及一种用于对用户特征进行分布式编码的方法和系统。



背景技术:

在互联网广告领域中,对投放广告的商家来说,大范围地向任意人群投放广告,存在成本太高,难以承受的问题,如何从大量的网民中,针对性地选出合适的人群,再根据不同人群的各个属性判断出需要投放的广告人群,是互联网广告市场发展急需解决的问题。

目前,采用人群定向方法向广告主提供比较有价值的人群是互联网广告领域中的一个重要环节,人群定向方法即是通过对用户特征数据的分析,找出与种子人群行为特征相类似的潜在目标人群的共同行为特征,利用机器学习模型,预测目标受众人群数据,帮广告主找到自己想要寻找的目标人群。其中所涉及的种子人群数据的规模最多在几百万量级,而非种子人群数据的规模在几亿量级,两者比例悬殊,在机器学习模型训练时,会使得内存使用上会有较大的浪费,增加了模型训练和预测的内存开销和时间开销。

同时,在一些机器学习工具中,需要对明文特征进行编码,然后才能做模型训练和预测,比如当前有1000万个不同特征,需要对它们用1到1000万进行编码,可能特征“访问过sports.sina.com.cn”被编码为11,而特征“搜索过旅游”被编码为999。

传统方案中,采用单机特征编码,即使用单台机器,对存放特征的文件进行遍历,同时依次编码。该方案存在以下2点不足:

1)如果特征文件特别大,比如有几十亿次的特征,那么方案运行较慢;

2)如果特征文件原本是存放在HDFS,同时要求编码后的特征文件也存放在HDFS上,那么用这种方法需要先从HDFS下载下数据,同时把编码后的特征文件上传到HDFS上,而这些会给开发和维护带来额外的工作。



技术实现要素:

为了解决上述问题,提供一种用于对用户特征进行分布式编码的方法和系统。

根据本发明的一个方面,提供了一种用于对用户特征进行分布式编码的方法,包括:

获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定多个用户特征并确定所述多个用户特征的总数量;

构建包括所述多个用户特征的特征文件,并基于预先设定的划分规则将所述特征文件划分为多个子文件;

对每个子文件中的用户特征进行内容扫描,以确定每个子文件中用户特征的数量;

基于用户特征的编码空间、所述多个用户特征的总数量和每个子文件中用户特征的子数量确定每个子文件中用户特征子集的编码子空间;以及

根据预先设定的处理规则,将每个子文件和相应的编码子空间发送给多个处理节点中相应的处理节点以由所述相应的处理节点对用户特征子集中的用户特征进行编码。

较佳的,根据所述数据网络内所有用户的搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为,获取所述数据网络内所有用户的网络行为相关联的统计数据。

较佳的,根据所述统计数据中用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为,进行特征提取,以确定多个用户特征。

较佳的,将所述多个用户特征根据用户需求进行分类剔除,统计用户需求的用户特征的数量,作为用户特征的总数量。

较佳的,将所述多个用户特征的特征文件基于哈希函数的划分规则,划分为对应于所述处理节点数量的多个子文件。

较佳的,将全部所述用户特征分成N桶;

计算每个桶中所述用户特征的数量Array[i],所述i为桶的编号,i=0,1,2,3……N;

对所述Array[i]转换为累积和AccumulatedArray[i],所述AccumulatedArray[i]=AccumulatedArray[i-1]+Array[i];

对每个桶内用户特征从start_index[i]+1开始进行编码,所述start_index[i]=AccumulatedArray[i-1]。

较佳的,根据哈希函数将每个所述用户特征划分到任意一桶中。

较佳的,所述处理节点的数量与所述子文件的数量相同,每个处理节点对一个所述桶中的用户特征进行编码。

较佳的,当所述i=0时,AccumulatedArray[0]=Array[0]。

较佳的,当所述i=0时,start_index[0]=0。

较佳的,过滤所述用户特征中的明显异常的脏样本数据。

较佳的,根据所述编码方法能够允许的最大编码数量确定所述用户特征的编码空间。

较佳的,根据每个所述处理节点的处理能力确定每个所述子文件的编码子空间。

根据本发明的另一个方面,提供了一种用于对用户特征进行分布式编码的系统,所述系统包括:

用户特征单元,用于获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定多个用户特征并确定所述多个用户特征的总数量;

特征文件构建单元,用于构建包括所述多个用户特征的特征文件,并基于预先设定的划分规则将所述特征文件划分为多个子文件;

特征数量确认单元,用于对每个子文件中的用户特征进行内容扫描,以确定每个子文件中用户特征的数量;

编码子空间确认单元,用于基于用户特征的编码空间、所述多个用户特征的总数量和每个子文件中用户特征的子数量确定每个子文件中用户特征子集的编码子空间;以及

处理节点分配单元,用于根据预先设定的处理规则,将每个子文件和相应的编码子空间发送给多个处理节点中相应的处理节点以由所述相应的处理节点对用户特征子集中的用户特征进行编码。

较佳的,根据所述数据网络内所有用户的搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为,获取所述数据网络内所有用户的网络行为相关联的统计数据。

较佳的,根据所述统计数据中用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为,进行特征提取,以确定多个用户特征。

较佳的,将所述多个用户特征根据用户需求进行分类剔除,统计用户需求的用户特征的数量,作为用户特征的总数量。

较佳的,将所述多个用户特征的特征文件基于哈希函数的划分规则,划分为对应于所述处理节点数量的多个子文件。

较佳的,将全部所述用户特征分成N桶;

计算每个桶中所述用户特征的数量Array[i],所述i为桶的编号,i=0,1,2,3……N;

对所述Array[i]转换为累积和AccumulatedArray[i],所述AccumulatedArray[i]=AccumulatedArray[i-1]+Array[i];

对每个桶内用户特征从start_index[i]+1开始进行编码,所述start_index[i]=AccumulatedArray[i-1]。

较佳的,根据哈希函数将每个所述用户特征划分到任意一桶中。

较佳的,所述处理节点的数量与所述子文件的数量相同,每个处理节点对一个所述桶中的用户特征进行编码。

较佳的,当所述i=0时,AccumulatedArray[0]=Array[0]。

较佳的,当所述i=0时,start_index[0]=0。

较佳的,过滤所述用户特征中的明显异常的脏样本数据。

较佳的,根据所述编码方法能够允许的最大编码数量确定所述用户特征的编码空间。

较佳的,根据每个所述处理节点的处理能力确定每个所述子文件的编码子空间。

根据本发明的另一个方面,提供了一种移动终端,包括或用于执行如上任意一项所述的系统。

本发明各个实施例所提供的方案中,通过将所有用户特征形成的用户特征文件划分为对应于处理节点的多个子文件,获取每个子文件中的用户特征数量和子文件的编号,将子文件分别发送相应的处理节点进行处理。采用分布式特征编码,可提升方案运行效率,降低开发和维护的额外工作量。客户可获得与自己实际需求相匹配的受众人群数据,精准度高,能充分满足客户的不同需求。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本发明实施例提供的DMPLook-alike online系统结构示意图。

图2为本发明实施例提供的根据统计数据关联度确定扩展用户的方法流程图。

图3为本发明实施例提供的根据统计数据关联度确定扩展用户的系统结构示意图。

图4为本发明实施例提供的根据加权计算来确定扩展用户的方法流程图。

图5为本发明实施例提供的根据加权计算来确定扩展用户的系统结构示意图。

图6为本发明实施例提供的根据统计数据兴趣度确定扩展用户的方法流程图。

图7为本发明实施例提供的根据统计数据兴趣度确定扩展用户的系统结构示意图。

图8为本发明实施例提供的用于对用户特征进行分布式编码的方法流程图。

图9为本发明实施例提供的用于对用户特征进行分布式编码的系统结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。

除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。

本发明各个实施例是基于图1示出的DMPLook-alike online系统,如图1所示,其中:

Offline流程:基于分布式计算平台(Hadoop+Spark),对全网用户的网络行为(比如:搜索点击行为、浏览网页行为、通过和第三方公司合作获取的行为等)提取用户特征(比如:host特征、n-gram特征、上网时间段、上网所属地域、浏览商品等)。

Online流程:基于offline流程算出的全网用户特征和scheduler通过任务调度发来的种子人群,使用恰当的机器学习模型(比如有监督学习中的分类模型、无监督学习中的聚类模型等),经过模型训练和预测,找到相似的目标受众人群。

广告主的需求大与计算资源的有限总是矛盾的。为了从全局上保证各广告主的利益,其中的scheduler模块就非常重要,它会考虑诸多因素(比如:广告主已经提交了的look-alike任务数、广告主在DSP投放端的消费能力、广告主特殊的需求(比如双十一)、是否对同一种子人群采用多个扩展倍数)来调度look-alike任务需求,一旦某个look-alike任务获得调度,则会启动online流程对其计算相似的目标受众人群。

在挖掘相似人群的过程中,人群扩展,即look-alike主要依据用户基本属性及其拥有的行为信息,这就需要庞大的数据存量作为分析源头。数据管理平台(DMP,Data-Management Platform)是人群扩展数据分析方法的基础。人群扩展数据分析方法开发公司可基于自身覆盖的大量用户,在保护个人隐私的前提下采集并深度挖掘对应行为链的大数据,如用户的搜索点击、浏览网页等网络行为数据。一般来说,客户,即广告主很清楚自己的广告以及背后的产品想要触达的用户群体,比如App广告主会准确的掌握自己App产品中的活跃用户IMEI或IFA、电商网站广告主有对某款商品感兴趣的用户的cookie或手机号、O2O广告主可能会有客户的联系电话等。因此,还可获取客户自有的第一方数据,如官网访客、下单、关注微信、关注微博及安装移动应用客户端等数据。还可通过与第三方合作,获取外部合作伙伴的标签化数据,例如用户访问网站、使用APP、观看视频、下单购物及连接热点等网络行为数据。由此获取的用户的网络行为离线数据在匿名去敏化后,成为DMP重点整合的关键数据。

在获取用户的网络行为离线数据时,还可基于分布式计算平台(Hadoop+Spark),根据用户的网络行为日志,获取全网用户的网络行为离线数据,由用户的网络行为日志中的数据可为用户兴趣发现、资源推荐等研究提供很好的数据支持,便于根据获取的用户的网络行为离线数据提取用户特征数据。

通过长期的数据获取和细分,可根据用户的网络行为离线数据提取用户特征数据,例如提取用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为等用户特征,将用户进行细分管理,从用户的行为轨迹、兴趣偏好、消费行为、地理位置等纬度实现各类用户的洞察和分析,获取各类用户相匹配的特征数据,进行存储,每天产出的用户特征数据的磁盘存储开销在TB量级以上。将分析提取的用户特征数据可自由组合圈定目标人群,在投放展示、搜索、品牌、应用下载广告时,能够快速而精准的定向到某一类特征人群。

客户的需求大与计算资源的有限总是矛盾的,为了从全局上保证各客户的利益,契合客户的个性化定向需求,在调度过程中需考虑诸多参数来调度look-alike任务需求,具体地,所预设的调度参数包括客户已经提交了的look-alike任务数、客户在DSP投放端的消费能力、客户特殊的需求和/或客户是否对同一种子人群采用多个扩展倍数等,一旦某个look-alike任务获得调度,得到种子人群数据后,则会根据种子人群数据和用户特征数据对计算与种子人群数据相似的目标受众人群,寻找更多相似的目标受众,扩大精准营销覆盖范围。另外,还可结合客户自有的第一方数据,如官网访客、下单、关注微信、关注微博及安装移动应用客户端等数据作为种子人群数据,在利用客户掌握的精准的客户数据的同时,还可满足客户的个性化定制需求。

客户可基于其自身需求,自主决定look-alike任务数、其在DSP投放端的消费能力、特殊的需要,例如双十一、节日促销等调度参数,还可自主决定扩展后的用户量级,即是否对同一种子人群采用多个扩展倍数,具体扩展倍数是多少,通过对输入的客户需求进行调度,得到种子人群数据,便于后续的根据种子人群数据的共有属性进行自动化扩展,可充分满足不同广告主对精准和覆盖的不同需求。

上述所述的DSP(Demand Side Platform)是需求方平台,其是负责接受投放需求,找人群数据,实现投放竞价等功能的一个中央管理控制平台,其自主要特征是精准定位目标人群。例如,广告主在投放广告时,在DSP上输入投放需求,根据投放需求来圈定目标受众的描述,例如年龄、性别、职业和爱好等,还可以设置投放条件,如用户在使用PC每次点击广告的单价不超过2分钱,然后将这些条件交到DSP系统中,DSP系统与DMP沟通,根据DMP系统中分析提取的用户特征数据,找出条件匹配的人群,通过使用媒体资源等实际环境来进行广告投放。

在得到种子人群数据之后,需从多个维度对种子人群进行分析,从中筛选出最具有代表性的共有特征,根据这些特征结合用户特征数据,从大量活跃用户中筛选出另一批与种子人群相似的用户。具体地:可根据机器学习建立计算模型,该计算模型可采用监督学习中的分类模型或无监督学习中的聚类模型,将种子人群数据和用户特征数据代入计算模型,进行计算分析,得到与种子人群相似的用户,可将广告定向的用户范围从广泛的特征数据缩小至更精确的用户,满足了广告主对精准和覆盖的不同需求,提高了人群扩展效率。

实际上,上述只是本发明实施例的一个简单示例,本发明的具体内容将通过下述各个实施例一一描述。

如图2所示,为本发明实施例提供的根据统计数据关联度确定扩展用户的方法,其中,

步骤201,获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定所有用户的用户特征。

数据网络可以为一般的互联网数据,也可以是各种专用网络。其中,需要获取数据网络中所有用户的网络行为数据。用户的网络行为可以通过用户在上网过程中的各种操作来获取,例如,可以包括用户登陆哪些网站,浏览哪些内容,或者观看哪些视频来确定。用户的网络行为多种多样,可以是用户的操作内容,也可以是用户的行为印迹内容。

获取用户网络行为可以通过记录用户的网络行为来进行,也可以通过各种网络软硬件来获取。实际上,用户网络行为的获取,更多基于对用户网络行为的分析归类和记录。

将用户的网络行为记录后,需要进行统计分析,通过各种统计分析可以将用户网络行为进行归类。用户网络行为包括多种类型的行为和多种内容,需要分类存储。在分类存储的基础上,对其进行统计,从而得到统计数据。统计数据中包括了所有的用户网络行为以及由用户网络行为分类归纳的各种可能的网络行为。用户的网络行为可以包括:搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为。

实际上,对用户网络行为的分析,可以提取出用户特征。用户特征即为用户登记在网络上的各种行为特征。用户特征是用户的动作特征,包括用户在网络上的操作行为和可能的动作行为。用户特征表征了用户操作的各个动作细节,从而可以从中确定用户登陆网络的行为习惯以及对其行为做出相应的预测。

用户特征可以包括用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为。用户特征与用户属性是不同的。用户属性一般是用户的固定属性,包括用户的用户标识、年龄、IP等附属于用户自身的属性信息。而用户特征是用户上网过程中的动作行为信息,是用户在网络中的操作性息,是动态的。

因而,在海量用户的环境下,用户属性附属于用户数量,也是海量的。而用户特征,由于涉及海量用户的多种行为,因而,其数据量更是比用户属性数据更为庞大。

步骤202,接收对基础用户进行同类用户扩展的扩展请求,对所述扩展请求进行解析以确定扩展用户的设定数量和包括多个基础用户的正样本集。

基础用户即为客户提供的作为种子的用户。客户可以是广告主等有对用户进行扩展的客户。基础用户是由客户提出来的,根据客户的需求设定。一般的,基础用户的产生,也可以根据客户选定的多个用户属性的集合以及客户输入的基础用户数量,确定所述多个基础用户。也即客户根据自身关注的用户属性来设定基础用户。

客户可以在登陆上述的look-alike系统后,选出自身关注的关键用户属性,系统根据用户属性为客户提供相应的基础用户动态列表和数量。根据客户输入的用户属性的组合变化,动态调整基础用户动态列表,直到基础用户的质量和数量符合客户的需求为止。

客户同时还需要设定所需要的用户扩展的规模,也即客户设定扩展需求,根据扩展需求来确定扩展用户的数量。例如,客户可以通过对用户属性的调整得到100万基础用户,然后输入总体的扩展用户规模为1000万。此时,用户扩展的规模即为10倍。

生成了基础用户后,可以将基础用户编入正样本集。正样本集中为基础用户,通过这些基础用户可以提取出客户需求的总体用户特征,从而得到客户的实际需求。

步骤203,根据所述数据网络内的所有用户和所述多个基础用户确定包括多个训练用户的负样本集,其中所述基础用户与训练用户的数量的比值小于或等于预定阈值。

得到正样本集后,还需要训练得到负样本集。负样本集是从数据网络内所有用户的用户特征中提取的用户组成的。其中,负样本集中的用户是与正样本集中的基础用户相关性最小的用户集合。也即,负样本集中用户基本上是与正样本集中用户完全不相关的。

负样本集的获取,需要对正样本集中基础用户的用户特征进行分析提取,找到其用户特征的共性,从中提取出基础用户的基本用户特征,然后再全网络所有用户中一一比对用户特征,从而找到与基本用户特征相关性最小的用户特征对应的用户。将这些用户放入负样本集。

负样本集中的用户还需要进行相关的进一步处理,以便处理掉其中无关的数据。例如,需要过滤掉明显异常的用户数据。

为便于后续的计算模型的训练,可将上述提取的用户特征数据中的正样本集标定为正类样本数据,将上述提取的用户特征数据中的负样本集数据标定为负类样本数据。因为数据特点,正类样本的规模最多在几百万量级,而负类样本的规模在几亿量级,这样正类样本与负类样本的比例达到1:10甚至1:100,这不利于机器学习模型,特别是分类模型,学习到有效的模型。为此,可以对上述样本作下述步骤的处理。

对所述正类样本数据进行过采样,对所述负类样本数据进行负采样。具体地,可以根据正类样本数据与负类样本数据的比例,调整设定过采样和次采样的采样率,通过多组实验,确定一个可行的比例。优选地,在对正类样本数据和负类样本数据进行采样之前,还可分析上述获得的用户特征数据并过滤其中脏样本数据,避免影响后续的分类模型的准确性。

步骤204,对所述负样本集中的多个训练用户的用户特征进行特征分析,以确定用于对每个用户进行关联度计算的计算规则。

对所述过采样和负采样得到的采样数据训练计算模型。在得到正样本集数据之后,需从多个维度对用户特征进行分析,从中筛选出最具有代表性的共有特征,根据这些特征结合用户特征数据,从大量活跃用户中筛选出另一批与种子人群相似的用户。具体地:首先需要选择计算模型,计算模型可包括logistic regression(逻辑回归算法模型)和/或linear SVM(支持向量机模型)等模型,将经上述过采样和负采样得到的采样数据采用计算模型进行模型训练,得到有效的计算模型。

对所述负样本集中多个训练用户与所述正样本集中的基础用户的用户特征分别进行提取,比对二者的关联性,提取所述的计算规则。

这里的计算模型即为计算规则,通过模型训练的方式提取出完整的计算规则。

步骤205,基于所述计算规则来计算所有用户中每个用户的关联度分值,根据所述关联度分值的降序顺序对所有用户进行排序以生成用户列表。

通过上述模型训练得到的计算规则,可以对全网用户做模型预测,基于预测分选出预测分大于一定阈值的用户作为扩展人群,即相似的目标受众人群,可将广告定向的用户范围从广泛的特征数据缩小至更精确的用户,满足了广告主对精准和覆盖的不同需求,提高了人群扩展效率。

根据所述计算规则,逐一将所述数据网络中多个用户的用户特征进行比对计算,根据比对计算结果赋予每个所述用户与所述基础用户的关联度分值。将所述数据网络中多个用户根据其关联度分值进行排序,并对排序的结果根据用户属性进行调整。

通过计算规则对每个用户分别生成一个关联度分值,这个关联度分值表征了用户与基础用户的关联度。将所有用户用关联度分值的大小从大到小的排列,得到用户列表,其中包括了所有的用户以及各自关联度分值的排列顺序。

步骤206,将去除了所述多个基础用户的用户列表中关联度分值最高的设定数量的用户确定为扩展用户。

得到具体的关联度分值相关的用户排列后,可以根据关联度分值的大小,选取其中关联度分值较高的部分用户作为扩展用户。具体的数量根据客户的设定而确定,可以是客户设定的扩展用户规模数量。

由于全网用户中包括了客户最初选定的基础用户,而这些基础用户不一定关联度分值比较高,因而,可以根据客户的选择,确定是否需要在最终的扩展用户推荐列表中删除基础用户。

删除基础用户的时间可以是在计算关联度分值之前,也可以在计算关联度分值之后。或者,可以在推荐扩展用户之前或者之后。

本实施例中,对输入的客户需求进行调度,得到包括基础用户的正样本集和与基础用户完全不相关的用户组成的负样本集,通过正样本集和负样本集中用户的用户特征训练模型,得到计算规则,根据计算规则逐一为全网每个用户计算与正样本集中用户的关联度分值,根据关联度分值得到扩展用户。客户可获得与自己实际需求相匹配的受众人群数据,精准度高,能充分满足客户的不同需求。

图3示出了本发明提供了一种根据统计数据关联度确定扩展用户的系统,所述系统包括:

用户特征单元301,用于获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定所有用户的用户特征;

正样本集单元302,用于接收对基础用户进行同类用户扩展的扩展请求,对所述扩展请求进行解析以确定扩展用户的设定数量和包括多个基础用户的正样本集;

负样本集单元303,用于根据所述数据网络内的所有用户和所述多个基础用户确定包括多个训练用户的负样本集,其中所述基础用户与训练用户的数量的比值小于或等于预定阈值;

计算规则单元304,用于对所述负样本集中的多个训练用户的用户特征进行特征分析,以确定用于对每个用户进行关联度计算的计算规则;

关联度计算单元305,用于基于所述计算规则来计算所有用户中每个用户的关联度分值,根据所述关联度分值的降序顺序对所有用户进行排序以生成用户列表;

扩展用户单元306,用于将去除了所述多个基础用户的用户列表中关联度分值最高的设定数量的用户确定为扩展用户。

较佳的,将未去除所述多个基础用户的用户列表中关联度分值最高的设定数量的用户确定为扩展用户。

较佳的,根据数据网络所有用户的网络行为离线数据的统计,提取所述所有用户的用户特征。

较佳的,所述用户的网络行为包括:搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为。

较佳的,所述用户特征包括:用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为。

较佳的,根据客户选定的多个用户属性的集合以及客户输入的基础用户数量,确定基础用户的正样本集。

较佳的,将所述数据网络内的所有用户中和所述多个基础用户的用户特征关联度分值较小的用户,分类成为包括多个训练用户的负样本集。

较佳的,过滤所述数据网络内的所有用户中用户特征明显异常的脏样本数据,得到负样本集。

较佳的,对所述数据网络内的所有用户的用户特征进行负采样,根据所述设定阈值和基础用户数量,得到所述负样本集中训练用户的数量。

较佳的,对所述负样本集中多个训练用户与所述正样本集中的基础用户的用户特征分别进行提取,比对二者的关联性,提取所述的计算规则。

较佳的,根据所述计算规则,逐一将所述数据网络中多个用户的用户特征进行比对计算,根据比对计算结果赋予每个所述用户与所述基础用户的关联度分值。

较佳的,将所述数据网络中多个用户根据其关联度分值进行排序,并对排序的结果根据用户属性进行调整。

较佳的,对所述数据网络内所有用户进行负采样得到所述负样本集,对所述基础用户进行正采样得到正样本集;所述负采样和正采样的采样系数根据需要设定。

较佳的,所述负采样和正采样的采样系数根据实际需要的正样本集中基础用户数量和负样本集中训练用户数量设定。

如图4所示,为本发明实施例提供的一种根据加权计算来确定扩展用户的方法,其中,

步骤401,获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定所有用户的用户特征。

数据网络可以为一般的互联网数据,也可以是各种专用网络。其中,需要获取数据网络中所有用户的网络行为数据。用户的网络行为可以通过用户在上网过程中的各种操作来获取,例如,可以包括用户登陆哪些网站,浏览哪些内容,或者观看哪些视频来确定。用户的网络行为多种多样,可以是用户的操作内容,也可以是用户的行为印迹内容。

获取用户网络行为可以通过记录用户的网络行为来进行,也可以通过各种网络软硬件来获取。实际上,用户网络行为的获取,更多基于对用户网络行为的分析归类和记录。

将用户的网络行为记录后,需要进行统计分析,通过各种统计分析可以将用户网络行为进行归类。用户网络行为包括多种类型的行为和多种内容,需要分类存储。在分类存储的基础上,对其进行统计,从而得到统计数据。统计数据中包括了所有的用户网络行为以及由用户网络行为分类归纳的各种可能的网络行为。用户的网络行为可以包括:搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为。

实际上,对用户网络行为的分析,可以提取出用户特征。用户特征即为用户登记在网络上的各种行为特征。用户特征是用户的动作特征,包括用户在网络上的操作行为和可能的动作行为。用户特征表征了用户操作的各个动作细节,从而可以从中确定用户登陆网络的行为习惯以及对其行为做出相应的预测。

用户特征可以包括用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为。用户特征与用户属性是不同的。用户属性一般是用户的固定属性,包括用户的用户标识、年龄、IP等附属于用户自身的属性信息。而用户特征是用户上网过程中的动作行为信息,是用户在网络中的操作性息,是动态的。

因而,在海量用户的环境下,用户属性附属于用户数量,也是海量的。而用户特征,由于涉及海量用户的多种行为,因而,其数据量更是比用户属性数据更为庞大。

步骤402,接收对基础用户进行同类用户扩展的扩展请求,对所述扩展请求进行解析以确定扩展用户的设定数量和多个基础用户。

基础用户即为客户提供的作为种子的用户。客户可以是广告主等有对用户进行扩展的客户。基础用户是由客户提出来的,根据客户的需求设定。一般的,基础用户的产生,也可以根据客户选定的多个用户属性的集合以及客户输入的基础用户数量,确定所述多个基础用户。也即客户根据自身关注的用户属性来设定基础用户。

客户可以在登陆上述的look-alike系统后,选出自身关注的关键用户属性,系统根据用户属性为客户提供相应的基础用户动态列表和数量。根据客户输入的用户属性的组合变化,动态调整基础用户动态列表,直到基础用户的质量和数量符合客户的需求为止。

客户同时还需要设定所需要的用户扩展的规模,也即客户设定扩展需求,根据扩展需求来确定扩展用户的数量。例如,客户可以通过对用户属性的调整得到100万基础用户,然后输入总体的扩展用户规模为1000万。此时,用户扩展的规模即为10倍。

步骤403,针对于预先设定的多个训练规则中的每个分别确定相应的样本集,并根据每个样本集中的用户特征进行特征分析以确定对每个用户进行关联度计算的计算规则。

预先设定的训练规则,可以包括多种,常见的是对所述用户特征的分类监督训练、对所述用户特征的聚类训练和/或对所述用户特征的半监督训练。

分类监督学习训练是通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力。

聚类的无监督学习训练是事先没有任何训练数据样本,需要直接对数据进行建模。通常需要通过聚类算法来训练出聚类中心,以聚类中心作为分类规则来进行监督学习。

另外,还有半监督学习训练模型,即结合监督学习训练模型和无监督学习训练模型的优化方案。例如,可以是在分类基础上进行聚类的模型计算,也可以是在聚类基础上进一步认为干涉分类的模型计算。

具体的训练规则可以根据实际需要选择,本实施例中,是选择多种不同的训练规则,根据多种训练规则分别对全网用户进行训练,从而确定与多种训练规则相应的样本集。每个样本集均为通过对应的训练规则而得到的,互相不相关。

每个样本集中的用户特征进一步进行特征分析,可以确定出对所有用户进行关联度分析的计算规则。同样,各个计算规则均是针对不同的训练规则的,互不相关。

本实施例,通过多个训练规则分别训练样本集,在通过样本集提取计算规则。计算规则的提取通常是采用模型训练的方式。从多个维度对用户特征进行分析,从中筛选出最具有代表性的共有特征,根据这些特征结合用户特征数据,从大量活跃用户中筛选出另一批与种子人群相似的用户。具体地:首先需要选择计算模型,计算模型可包括logistic regression(逻辑回归算法模型)和/或linear SVM(支持向量机模型)等模型,将经上述样本集中的采样数据采用计算模型进行模型训练,得到有效的计算模型。

通过上述模型训练得到的计算规则,可以对全网用户做模型预测,基于预测分选出预测分大于一定阈值的用户作为扩展人群,即相似的目标受众人群,可将广告定向的用户范围从广泛的特征数据缩小至更精确的用户,满足了广告主对精准和覆盖的不同需求,提高了人群扩展效率。

根据所述计算规则,逐一将所述数据网络中多个用户的用户特征进行比对计算,根据比对计算结果赋予每个所述用户与所述基础用户的关联度分值。将所述数据网络中多个用户根据其关联度分值进行排序,并对排序的结果根据用户属性进行调整。

根据所述多个训练规则,分别确定对应的样本集;根据所述每个样本集中的用户特征对所有用户进行分析,确定每个用户的关联度,并得到关联度计算的计算规则。

根据所述计算规则,分别对所有用户进行关联度计算,得到每个用户的关联度分值;根据每个用户的关联度分值对所述用户进行排序。

步骤404,基于多个计算规则中的每个计算规则来计算所有用户中每个用户的关联度分值,根据所述关联度分值的降序顺序对所有用户进行排序以生成多个用户列表。

多种计算规则会分别计算出一套全网所有用户的关联度分值。例如,如果由三种计算规则,则全网每个用户会计算得到3个关联度分值。根据每个用户的关联度分值,分别将全网用户进行排列,得到多个用户列表,也即每种计算规则对应一个用户列表,其中包括了所有的用户以及各自关联度分值的排列顺序。

步骤405,根据每个训练规则的准确度为每个用户列表设置权重值,根据每个用户列表的权重值对每个用户的关联度分值进行加权计算,以根据加权计算的结果确定每个用户的输出分值。

根据所述每个用户的关联度分值,计算对应的计算规则的准确度;根据所述准确度对对应的计算规则设置权重值。由于不同的计算规则的准确度是不同的,因而,需要根据其准确度为每个用户列表设置一个权重值,这个权重值是根据对应的计算规则的准确度来设定的。

根据所述每个计算规则的权重值,对所述每个计算规则得到的每个用户的关联度分值进行加权处理。

将每个用户分别在多个用户列表中的关联度分值与其权重值相乘,再加权计算最终的输出分值。根据最终的输出分值来选取扩展用户。

本实施例中,是综合加权计算多种计算规则下每个用户的关联度分值,然后加权计算最终的分值。将每个用户的每种计算规则得到的所述加权处理的结果,进行相乘或相加,得到每个用户的输出分值。根据每个用户的输出分值将所述用户进行排序,输出设定数量的所述用户作为扩展用户。

得到具体的关联度分值相关的用户排列后,可以根据关联度分值的大小,选取其中关联度分值较高的部分用户作为扩展用户。具体的数量根据客户的设定而确定,可以是客户设定的扩展用户规模数量。

将所述数据网络中多个用户根据其输出分值进行排序,并对排序的结果根据用户属性进行调整。将去除了所述多个基础用户的用户列表中输出分值最高的设定数量的用户确定为扩展用户。

由于全网用户中包括了客户最初选定的基础用户,而这些基础用户不一定关联度分值比较高,因而,可以根据客户的选择,确定是否需要在最终的扩展用户推荐列表中删除基础用户。

删除基础用户的时间可以是在计算关联度分值之前,也可以在计算关联度分值之后。或者,可以在推荐扩展用户之前或者之后。

本实施例中,通过预先设定的多个训练规则来训练多个样本集,进而确定出多个计算规则;根据多个计算规则分别对所有用户进行计算得到每个用户针对于每个计算规则的关联度分值,再计算每个计算规则的权重值,结合用户对应于每个计算规则的关联度分值和对应的计算规则的权重值,加权计算每个用户最终输出分值,根据输出分值确定设定数量的扩展用户。客户可获得与自己实际需求相匹配的受众人群数据,精准度高,能充分满足客户的不同需求。

图5示出了本发明实施例提供的一种根据加权计算来确定扩展用户的系统,所述系统包括:

用户特征单元501,用于获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定所有用户的用户特征;

基础用户单元502,用于接收对基础用户进行同类用户扩展的扩展请求,对所述扩展请求进行解析以确定扩展用户的设定数量和多个基础用户;

计算规则单元503,用于针对于预先设定的多个训练规则中的每个分别确定相应的样本集,并根据每个样本集中的用户特征进行特征分析以确定对每个用户进行关联度计算的计算规则;

关联度分值计算单元504,用于基于多个计算规则中的每个计算规则来计算所有用户中每个用户的关联度分值,根据所述关联度分值的降序顺序对所有用户进行排序以生成多个用户列表;以及

输出分值计算单元505,用于根据每个训练规则的准确度为每个用户列表设置权重值,根据每个用户列表的权重值对每个用户的关联度分值进行加权计算,以根据加权计算的结果确定每个用户的输出分值。

较佳的,所述系统还包括:将未去除所述多个基础用户的用户列表中关联度分值最高的设定数量的用户确定为扩展用户。

较佳的,根据数据网络所有用户的网络行为离线数据的统计,提取所述所有用户的用户特征。

较佳的,所述用户的网络行为包括:搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为。

较佳的,所述用户特征包括:用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为。

较佳的,根据客户选定的多个用户属性的集合以及客户输入的基础用户数量,确定所述多个基础用户。

较佳的,所述多个训练规则,包括对所述用户特征的分类监督训练、对所述用户特征的聚类训练和/或对所述用户特征的半监督训练。

较佳的,根据所述多个训练规则,分别确定对应的样本集;根据所述每个样本集中的用户特征对所有用户进行分析,确定每个用户的关联度,并得到关联度计算的计算规则。

较佳的,根据所述计算规则,分别对所有用户进行关联度计算,得到每个用户的关联度分值;根据每个用户的关联度分值对所述用户进行排序。

较佳的,根据所述每个用户的关联度分值,计算对应的计算规则的准确度;根据所述准确度对对应的计算规则设置权重值。

较佳的,根据所述每个计算规则的权重值,对所述每个计算规则得到的每个用户的关联度分值进行加权处理。

较佳的,将每个用户的每种计算规则得到的所述加权处理的结果,进行相乘或相加,得到每个用户的输出分值。

较佳的,根据每个用户的输出分值将所述用户进行排序,输出设定数量的所述用户作为扩展用户。

较佳的,将所述数据网络中多个用户根据其输出分值进行排序,并对排序的结果根据用户属性进行调整。

较佳的,将去除了所述多个基础用户的用户列表中输出分值最高的设定数量的用户确定为扩展用户。

图6示出了一种根据统计数据兴趣度确定扩展用户的方法,所述方法包括:

步骤601,获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定所有用户的用户特征。

数据网络可以为一般的互联网数据,也可以是各种专用网络。其中,需要获取数据网络中所有用户的网络行为数据。用户的网络行为可以通过用户在上网过程中的各种操作来获取,例如,可以包括用户登陆哪些网站,浏览哪些内容,或者观看哪些视频来确定。用户的网络行为多种多样,可以是用户的操作内容,也可以是用户的行为印迹内容。

获取用户网络行为可以通过记录用户的网络行为来进行,也可以通过各种网络软硬件来获取。实际上,用户网络行为的获取,更多基于对用户网络行为的分析归类和记录。

将用户的网络行为记录后,需要进行统计分析,通过各种统计分析可以将用户网络行为进行归类。用户网络行为包括多种类型的行为和多种内容,需要分类存储。在分类存储的基础上,对其进行统计,从而得到统计数据。统计数据中包括了所有的用户网络行为以及由用户网络行为分类归纳的各种可能的网络行为。用户的网络行为可以包括:搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为。

实际上,对用户网络行为的分析,可以提取出用户特征。用户特征即为用户登记在网络上的各种行为特征。用户特征是用户的动作特征,包括用户在网络上的操作行为和可能的动作行为。用户特征表征了用户操作的各个动作细节,从而可以从中确定用户登陆网络的行为习惯以及对其行为做出相应的预测。

用户特征可以包括用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为。用户特征与用户属性是不同的。用户属性一般是用户的固定属性,包括用户的用户标识、年龄、IP等附属于用户自身的属性信息。而用户特征是用户上网过程中的动作行为信息,是用户在网络中的操作性息,是动态的。

因而,在海量用户的环境下,用户属性附属于用户数量,也是海量的。而用户特征,由于涉及海量用户的多种行为,因而,其数据量更是比用户属性数据更为庞大。

步骤602,接收对基础用户进行同类用户扩展的扩展请求,对所述扩展请求进行解析以确定扩展用户的设定数量和多个基础用户。

基础用户即为客户提供的作为种子的用户。客户可以是广告主等有对用户进行扩展的客户。基础用户是由客户提出来的,根据客户的需求设定。一般的,基础用户的产生,也可以根据客户选定的多个用户属性的集合以及客户输入的基础用户数量,确定所述多个基础用户。也即客户根据自身关注的用户属性来设定基础用户。

客户可以在登陆上述的look-alike系统后,选出自身关注的关键用户属性,系统根据用户属性为客户提供相应的基础用户动态列表和数量。根据客户输入的用户属性的组合变化,动态调整基础用户动态列表,直到基础用户的质量和数量符合客户的需求为止。

客户同时还需要设定所需要的用户扩展的规模,也即客户设定扩展需求,根据扩展需求来确定扩展用户的数量。例如,客户可以通过对用户属性的调整得到100万基础用户,然后输入总体的扩展用户规模为1000万。此时,用户扩展的规模即为10倍。

步骤603,根据所设定的样本集中的用户特征进行特征分析以确定对每个用户进行关联度计算的计算规则,并基于多个计算规则中的每个计算规则来计算所有用户中每个用户的初始关联度分值。

每个样本集中的用户特征进一步进行特征分析,可以确定出对所有用户进行关联度分析的计算规则。同样,各个计算规则均是针对不同的训练规则的,互不相关。

本实施例,通过多个训练规则分别训练样本集,在通过样本集提取计算规则。计算规则的提取通常是采用模型训练的方式。从多个维度对用户特征进行分析,从中筛选出最具有代表性的共有特征,根据这些特征结合用户特征数据,从大量活跃用户中筛选出另一批与种子人群相似的用户。具体地:首先需要选择计算模型,计算模型可包括logistic regression(逻辑回归算法模型)和/或linear SVM(支持向量机模型)等模型,将经上述样本集中的采样数据采用计算模型进行模型训练,得到有效的计算模型。

通过上述模型训练得到的计算规则,可以对全网用户做模型预测,基于预测分选出预测分大于一定阈值的用户作为扩展人群,即相似的目标受众人群,可将广告定向的用户范围从广泛的特征数据缩小至更精确的用户,满足了广告主对精准和覆盖的不同需求,提高了人群扩展效率。

根据所述计算规则,逐一将所述数据网络中多个用户的用户特征进行比对计算,根据比对计算结果赋予每个所述用户与所述基础用户的关联度分值。将所述数据网络中多个用户根据其关联度分值进行排序,并对排序的结果根据用户属性进行调整。

根据所述多个训练规则,分别确定对应的样本集;根据所述每个样本集中的用户特征对所有用户进行分析,确定每个用户的关联度,并得到关联度计算的计算规则。

根据所述计算规则,分别对所有用户进行关联度计算,得到每个用户的关联度分值;根据每个用户的关联度分值对所述用户进行排序。

训练规则以包括多种,常见的是对所述用户特征的分类监督训练、对所述用户特征的聚类训练和/或对所述用户特征的半监督训练。

分类监督学习训练是通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力。

聚类的无监督学习训练是事先没有任何训练数据样本,需要直接对数据进行建模。通常需要通过聚类算法来训练出聚类中心,以聚类中心作为分类规则来进行监督学习。

另外,还有半监督学习训练模型,即结合监督学习训练模型和无监督学习训练模型的优化方案。例如,可以是在分类基础上进行聚类的模型计算,也可以是在聚类基础上进一步认为干涉分类的模型计算。

具体的训练规则可以根据实际需要选择,本实施例中,是选择多种不同的训练规则,根据多种训练规则分别对全网用户进行训练,从而确定与多种训练规则相应的样本集。每个样本集均为通过对应的训练规则而得到的,互相不相关。

基于多个计算规则中的每个计算规则来计算所有用户中每个用户的关联度分值,根据所述关联度分值的降序顺序对所有用户进行排序以生成多个用户列表。

多种计算规则会分别计算出一套全网所有用户的关联度分值。例如,如果由三种计算规则,则全网每个用户会计算得到3个关联度分值。根据每个用户的关联度分值,分别将全网用户进行排列,得到多个用户列表,也即每种计算规则对应一个用户列表,其中包括了所有的用户以及各自关联度分值的排列顺序。

根据每个训练规则的准确度为每个用户列表设置权重值,根据每个用户列表的权重值对每个用户的关联度分值进行加权计算,以根据加权计算的结果确定每个用户的初始关联度分值。

根据所述计算规则,分别对所有用户进行关联度计算,得到每个用户的初始关联度分值;根据每个用户的初始关联度分值对所述用户进行排序。

步骤604,对所述统计数据进行兴趣度提取以确定每个用户的兴趣度分值,并且基于兴趣度分值对初始关联度分值进行调整以生成校正关联度分值。

每个用户再上网过程中都有独特的兴趣,海量用户的统计数据中可以提取出相应的兴趣度,进而确定每个用户的兴趣度分值。这个兴趣度分值表征每个用户相对于具体某一个用户特征的兴趣度。例如,对于浏览广告或者特定广告的兴趣度,每个用户均不同,有的用户兴趣度分值高,有的用户兴趣度分值低。

根据所述用户的网络行为的统计数据提取用户特征,根据所述用户特征的统计数据提取用户的兴趣度提取。根据所述用户的兴趣度统计计算对应的兴趣度分值,所述用户相对于不同的兴趣度具有不同的兴趣度分值。

根据所述客户输入的同类用户得到多个基础用户,根据所述基础用户确定相关的兴趣度,根据所述兴趣度对所有用户进行兴趣度提取并计算对应于所述兴趣度的兴趣度分值。

根据这个兴趣度分值,可以对用户的初始关联度分值进行校正,得到校正关联度分值。将所述兴趣度分值和初始关联度分值相乘或相加,生成经过校正的矫正关联度分值。例如,用户对于浏览广告的兴趣度分值为零,用户屏蔽了所有的推送广告,则不论该用户的初始关联度分值有多高,在加权校正了兴趣度分值后,其校正关联度分值均为零。

步骤605,根据所述校正关联度分值的降序顺序对所有用户进行排序以生成用户列表,将去除了所述多个基础用户的用户列表中校正关联度分值最高的设定数量的用户确定为扩展用户。

将所述校正关联度分值降序排列,根据所述排列顺序选取设定数量的校正关联度分值最高的用户作为扩展用户。将所述数据网络中所有用户根据所述校正关联度分值排序后,选取设定数量的校正关联度分值最高的用户确定为扩展用户。

得到具体的关联度分值相关的用户排列后,可以根据校正关联度分值的大小,选取其中校正关联度分值较高的部分用户作为扩展用户。具体的数量根据客户的设定而确定,可以是客户设定的扩展用户规模数量。

将所述数据网络中多个用户根据其校正关联度分值进行排序,并对排序的结果根据用户属性进行调整。将去除了所述多个基础用户的用户列表中输出分值最高的设定数量的用户确定为扩展用户。

由于全网用户中包括了客户最初选定的基础用户,而这些基础用户不一定校正关联度分值比较高,因而,可以根据客户的选择,确定是否需要在最终的扩展用户推荐列表中删除基础用户。

删除基础用户的时间可以是在计算关联度分值之前,也可以在计算关联度分值之后。或者,可以在推荐扩展用户之前或者之后。

本实施例中,通过预先设定的多个训练规则和样本集确定出多个计算规则;根据多个计算规则对所有用户进行计算得到每个用户针对于每个计算规则的关联度分值,再计算每个计算规则的权重值,结合用户对应于每个计算规则的关联度分值和对应的计算规则的权重值,加权计算每个用户初始关联度分值;再结合用户的兴趣度分值,加权计算最终的校正关联度分值,根据校正关联度分值确定设定数量的扩展用户。客户可获得与自己实际需求相匹配的受众人群数据,精准度高,能充分满足客户的不同需求。

图7示出了本发明实施例提供的一种根据统计数据兴趣度确定扩展用户的系统,所述系统包括:

用户特征单元701,用于获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定所有用户的用户特征;

基础用户单元702,用于接收对基础用户进行同类用户扩展的扩展请求,对所述扩展请求进行解析以确定扩展用户的设定数量和多个基础用户;

初始关联度计算单元703,用于根据所设定的样本集中的用户特征进行特征分析以确定对每个用户进行关联度计算的计算规则,并基于多个计算规则中的每个计算规则来计算所有用户中每个用户的初始关联度分值;

校正关联度计算单元704,用于对所述统计数据进行兴趣度提取以确定每个用户的兴趣度分值,并且基于兴趣度分值对初始关联度分值进行调整以生成校正关联度分值;

扩展用户单元705,用于根据所述校正关联度分值的降序顺序对所有用户进行排序以生成用户列表,将去除了所述多个基础用户的用户列表中校正关联度分值最高的设定数量的用户确定为扩展用户。

较佳的,根据所述用户的网络行为的统计数据提取用户特征,根据所述用户特征的统计数据提取用户的兴趣度提取。

较佳的,根据所述用户的兴趣度统计计算对应的兴趣度分值,所述用户相对于不同的兴趣度具有不同的兴趣度分值。

较佳的,根据所述客户输入的同类用户得到多个基础用户,根据所述基础用户确定相关的兴趣度,根据所述兴趣度对所有用户进行兴趣度提取并计算对应于所述兴趣度的兴趣度分值。

较佳的,所述系统还包括:将未去除所述多个基础用户的用户列表中关联度分值最高的设定数量的用户确定为扩展用户。

较佳的,根据数据网络所有用户的网络行为离线数据的统计,提取所述所有用户的用户特征。

较佳的,所述用户的网络行为包括:搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为。

较佳的,所述用户特征包括:用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为。

较佳的,根据客户选定的多个用户属性的集合以及客户输入的基础用户数量,确定所述多个基础用户。

较佳的,所述多个训练规则,包括对所述用户特征的分类监督训练、对所述用户特征的聚类训练和/或对所述用户特征的半监督训练。

较佳的,根据所述多个训练规则,分别确定对应的样本集;根据所述每个样本集中的用户特征对所有用户进行分析,确定每个用户的关联度,并得到关联度计算的计算规则。

较佳的,根据所述计算规则,分别对所有用户进行关联度计算,得到每个用户的初始关联度分值;根据每个用户的初始关联度分值对所述用户进行排序。

较佳的,将所述兴趣度分值和初始关联度分值相乘或相加,生成经过校正的矫正关联度分值。

较佳的,将所述校正关联度分值降序排列,根据所述排列顺序选取设定数量的校正关联度分值最高的用户作为扩展用户。

较佳的,将所述数据网络中所有用户根据所述校正关联度分值排序后,选取设定数量的校正关联度分值最高的用户确定为扩展用户。

图8示出了本发明实施例提供的一种用于对用户特征进行分布式编码的方法,所述方法包括:

步骤801,获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定多个用户特征并确定所述多个用户特征的总数量。

上述各个实施例中,实际上均需要对海量用户特征进行处理,而处理的方式中,由于硬件条件的限制,海量用户特征数据的计算量过于庞大,很难在具体的计算机中完成,因而,需要对用户特征进行分布式编码后,再进行相关的计算和处理。

数据网络可以为一般的互联网数据,也可以是各种专用网络。其中,需要获取数据网络中所有用户的网络行为数据。用户的网络行为可以通过用户在上网过程中的各种操作来获取,例如,可以包括用户登陆哪些网站,浏览哪些内容,或者观看哪些视频来确定。用户的网络行为多种多样,可以是用户的操作内容,也可以是用户的行为印迹内容。

获取用户网络行为可以通过记录用户的网络行为来进行,也可以通过各种网络软硬件来获取。实际上,用户网络行为的获取,更多基于对用户网络行为的分析归类和记录。

将用户的网络行为记录后,需要进行统计分析,通过各种统计分析可以将用户网络行为进行归类。用户网络行为包括多种类型的行为和多种内容,需要分类存储。在分类存储的基础上,对其进行统计,从而得到统计数据。统计数据中包括了所有的用户网络行为以及由用户网络行为分类归纳的各种可能的网络行为。用户的网络行为可以包括:搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为。

实际上,对用户网络行为的分析,可以提取出用户特征。用户特征即为用户登记在网络上的各种行为特征。用户特征是用户的动作特征,包括用户在网络上的操作行为和可能的动作行为。用户特征表征了用户操作的各个动作细节,从而可以从中确定用户登陆网络的行为习惯以及对其行为做出相应的预测。

用户特征可以包括用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为。用户特征与用户属性是不同的。用户属性一般是用户的固定属性,包括用户的用户标识、年龄、IP等附属于用户自身的属性信息。而用户特征是用户上网过程中的动作行为信息,是用户在网络中的操作性息,是动态的。

因而,在海量用户的环境下,用户属性附属于用户数量,也是海量的。而用户特征,由于涉及海量用户的多种行为,因而,其数据量更是比用户属性数据更为庞大。

海量的用户特征数据中,首先需要确定用户特征的总数量。这个用户特征的总数量是变化的,是根据客户的需求而调整的,因而,针对每个用户需求,均需要重新确定用户特征的总数量。

实际上,客户接入look-alike系统后,提交任务需求。系统根据任务需求来调出需要的用户特征以及用户特征的处理数量。

将所述多个用户特征根据用户需求进行分类剔除,统计用户需求的用户特征的数量,作为用户特征的总数量。

步骤802,构建包括所述多个用户特征的特征文件,并基于预先设定的划分规则将所述特征文件划分为多个子文件。

针对所有的用户特征,首先需要构建用户特征文件,用户特征文件中包括了本次任务需求的所有用户特征数据。然后,需要根据预先设定的划分规则将所有的用户特征划分入多个子文件中。每个子文件中的用户特征数量大致相等。或者,每个子文件中的用户特征数量可以根据具体处理设备的负载能力而确定。

通常,将多个用户特征分别划分入不同的子文件,需要采用聚类算法。将所述多个用户特征的特征文件基于哈希函数的划分规则,划分为对应于所述处理节点数量的多个子文件。根据哈希函数将每个所述用户特征划分到任意一桶中。

其中一种聚类算法可以参照下述方案:

将全部待编码用户特征分成N桶;

计算每个桶中所述用户特征的数量Array[i],所述i为桶的编号,i=0,1,2,3……N;

对所述Array[i]转换为累积和AccumulatedArray[i],所述AccumulatedArray[i]=AccumulatedArray[i-1]+Array[i];

对每个桶内用户特征从start_index[i]+1开始进行编码,所述start_index[i]=AccumulatedArray[i-1]。

该方法还可包括:分析所述待编码用户特征并过滤其中脏样本数据,避免影响后续的分类模型的准确性。

可根据用户特征规模和计算节点规定设定N,将全部用户特征分成N桶,可选地,可使用哈希hash函数将每个所述用户特征划分到任意一桶中,待全部用户特征算出所属的桶后,计算每个桶的用户特征数量,可以用数组记录这个用户特征数量,记为Array[i],其中,i为桶的编号,i=0,1,2,3……N,Array[0]表示第0个桶含有的用户特征数量,Array[i-1]表示第i-1个桶含有的用户特征数量。

将上述计算出的Array[i]转换成累积和AccumulatedArray[i],计算公式为AccumulatedArray[i]=AccumulatedArray[i-1]+Array[j],其中AccumulatedArray[0]=Array[0];再对每个桶内用户特征从start_index[i]+1开始进行编码,所述start_index[i]=AccumulatedArray[i-1]。

可调用N个计算节点,每个计算节点对一个桶中的用户特征进行编码,具体地,首先处理第i个,如果i=0,记start_index[0]=0,否则记start_index=AccumulatedArray[i-1];再对桶内元素从start_index[i]+1开始进行编码。经过上述过程,即可完成分布式的用户特征编码,且其能保证各个桶之间的编码不会有冲突。

步骤803,对每个子文件中的用户特征进行内容扫描,以确定每个子文件中用户特征的数量。

每个子文件中都包括一定数量的用户特征,为了准确的编码,需要对每个子文件中的用户特征进行内容扫描,确定每个子文件中确定的用户特征数量。

同时,每个子文件之间也是有相关顺序的,具体需要通过编码进行。子文件的数量可以根据实际处理任务的处理装置的数量确定。还需要过滤所述用户特征中的明显异常的脏样本数据。

步骤804,基于用户特征的编码空间、所述多个用户特征的总数量和每个子文件中用户特征的子数量确定每个子文件中用户特征子集的编码子空间。

根据所述编码方法能够允许的最大编码数量确定所述用户特征的编码空间。根据每个所述处理节点的处理能力确定每个所述子文件的编码子空间。因而,每个子文件的编码子空间实际上是对应的每个子文件的用户特征子集确定的。

步骤805,根据预先设定的处理规则,将每个子文件和相应的编码子空间发送给多个处理节点中相应的处理节点以由所述相应的处理节点对用户特征子集中的用户特征进行编码。

预先设定的处理规则,即为结合每个处理节点的处理能力,选择适应的子文件进行处理。对用户特征进行编码时,需要将相应的特征子集对应的子文件发送对应的处理节点进行。

本实施例中,通过将所有用户特征形成的用户特征文件划分为对应于处理节点的多个子文件,获取每个子文件中的用户特征数量和子文件的编号,将子文件分别发送相应的处理节点进行处理。采用分布式特征编码,可提升方案运行效率,降低开发和维护的额外工作量。客户可获得与自己实际需求相匹配的受众人群数据,精准度高,能充分满足客户的不同需求。

图9示出了本发明实施例提供的一种用于对用户特征进行分布式编码的系统,包括:

用户特征单元901,用于获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定多个用户特征并确定所述多个用户特征的总数量;

特征文件构建单元902,用于构建包括所述多个用户特征的特征文件,并基于预先设定的划分规则将所述特征文件划分为多个子文件;

特征数量确认单元903,用于对每个子文件中的用户特征进行内容扫描,以确定每个子文件中用户特征的数量;

编码子空间确认单元904,用于基于用户特征的编码空间、所述多个用户特征的总数量和每个子文件中用户特征的子数量确定每个子文件中用户特征子集的编码子空间;

处理节点分配单元905,用于根据预先设定的处理规则,将每个子文件和相应的编码子空间发送给多个处理节点中相应的处理节点以由所述相应的处理节点对用户特征子集中的用户特征进行编码。

较佳的,根据所述数据网络内所有用户的搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为,获取所述数据网络内所有用户的网络行为相关联的统计数据。

较佳的,根据所述统计数据中用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为,进行特征提取,以确定多个用户特征。

较佳的,将所述多个用户特征根据用户需求进行分类剔除,统计用户需求的用户特征的数量,作为用户特征的总数量。

较佳的,将所述多个用户特征的特征文件基于哈希函数的划分规则,划分为对应于所述处理节点数量的多个子文件。

较佳的,将全部所述用户特征分成N桶;

计算每个桶中所述用户特征的数量Array[i],所述i为桶的编号,i=0,1,2,3……N;

对所述Array[i]转换为累积和AccumulatedArray[i],所述AccumulatedArray[i]=AccumulatedArray[i-1]+Array[i];

对每个桶内用户特征从start_index[i]+1开始进行编码,所述start_index[i]=AccumulatedArray[i-1]。

较佳的,根据哈希函数将每个所述用户特征划分到任意一桶中。

较佳的,所述处理节点的数量与所述子文件的数量相同,每个处理节点对一个所述桶中的用户特征进行编码。

较佳的,当所述i=0时,AccumulatedArray[0]=Array[0]。

较佳的,当所述i=0时,start_index[0]=0。

较佳的,过滤所述用户特征中的明显异常的脏样本数据。

较佳的,根据所述编码方法能够允许的最大编码数量确定所述用户特征的编码空间。

较佳的,根据每个所述处理节点的处理能力确定每个所述子文件的编码子空间。

进一步的,本实施例提供一种移动终端,包括或用于执行如上任意一个实施例所述的系统。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。

以上所述仅是本发明的具体实施方式,应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明精神的前提下,可以作出若干改进、修改、和变形,这些改进、修改、和变形都应视为落在本申请的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1