本发明涉及移动互联网领域,特别涉及一种移动广告平台寻找相似用户的方法。
背景技术:
现有技术中,对移动广告平台相似用户的寻找也提出了一些解决方案。
例如,在Audience segment expansion using distributed in-database k-means clustering(ADKDD2013)中,其主要通过以下技术方案来实现:通过提取用户相关的关键词或主题模型来作为每个用户的特征,然后利用机器学习中的聚类方法(例如k-means)对用户群进行聚类。种子用户所在的聚类中其他用户即为可扩展的用户。
再例如,一种视频网站相似用户搜索系统和方法(申请号:201510142618.6申请日:2015-03-27),在该技术方案中,主要通过以下技术方案来实现:步骤1,对用户观看内容进行统计分析,统计一段时间内的用户视频观看记录,结合视频内容描述词得到每个用户对每一种视频内容的观看次数和频率,其中,上述视频内容描述词通过视频标签、关键词以及视频标题分词来描述;步骤2,建立用户的倒排索引,根据上述步骤1中统计分析得到的观看记录,基于视频内容描述词建立用户的倒排索引,该索引形式以视频内容描述词作为索引关键字,以观看该描述词的所有用户标识及观看频率作为索引值;步骤3,进行相似用户搜索并计算相似性,利用种子用户的视频观看记录,以视频内容描述词为搜索关键字,在索引文件上进行相似用户的搜索,同时计算相应用户的相似性,得到初步的搜索结果;步骤4,进行搜索结果排序,利用相似性对初步搜索结果进行由大到小的排序,经过过滤处理得到最终的相似人群搜索结果。
上述两种技术方案,无论是基于聚类或者基于索引的方法,都需要计算用户的相似性,当候选集很大的时候,计算量会相当大。在客户对相似用户扩展时间要求比较严格的情况下,上述两个方法均不能在较短时间内实现扩展。对于多数聚类方法,其聚类结果往往是不确定的,造成了同一批种子用户每次扩展的相似用户也不同。
因此有必要提供一种新的寻找相似用户的方法来满足需求。
技术实现要素:
本发明的目的在于克服现有技术的缺点与不足,提供一种移动广告平台寻找相似用户的方法。
本发明的目的通过以下的技术方案实现:
一种移动广告平台寻找相似用户的方法,包含以下步骤:
(1)目标App的开发者(广告主)提交目标App现有的种子用户设备号列表;
(2)获取目标App的非相似用户设备号列表;
(3)利用系统级别的API获取到移动用户的App安装包列表;
(4)安装包过滤:计算移动用户每个App的设备覆盖率,将覆盖设备比例非常高和非常低的App从App安装包列表里面剔除;
(5)采用bag-of-words方法将移动用户安装包列表中剩下的app表达成1/0特征;
(6)根据用户特征、相似用户设备号列表和非相似客户设备号列表,训练一个逻辑回归模型;
(7)计算移动用户的三种特征:安装的基本应用比例、付费应用数、平均付费价格;
(8)将逻辑回归模型的输出以及所述移动用户的三种特征作为输入,再训练出GBDT(梯度提升树)分类模型;
(9)对候选集的每个移动用户,通过获取该移动用户的App安装列表,并将App安装列表表达成一个bag-of-words向量,先输入到逻辑回归模型中进行一遍预测,再加入用户安装的基本应用比例、付费应用数、平均付费价格这三个特征输入到GBDT模型中进行预测,从而预测该用户是否为种子用户的相似用户。
这样就得到了用户是否是相似用户(1代表相似用户,0代表非相似用户)。
步骤(2)中,所述获取非相似用户设备号的方法包括:
a、目标App的开发者直接提交一份非相似用户设备号列表;
b、从广告平台自有的设备列表中随机提取出与相似用户列表等量的设备号,作为非相似用户设备号列表。
步骤(6)中,所述逻辑回归模型是一种线性分类模型,逻辑回归模型在线性回归的基础上,套用一个逻辑函数来得到最后的概率描述,逻辑回归通过优化方法极小化以下损失函数:
其中m为样本总数,xi,yi分别为第i个样本的特征和标签,hθ(xi)为逻辑回归函数;
带L2正则的逻辑回归极小化以下损失函数:
其中m为样本总数,Xi,yi分别为第i个样本的特征和标签,w和c分别为模型的特征权重和偏置项,C为正则化项和误差的权重系数。
为限制过拟合,防止某一个app对预测结果影响太大,我们对逻辑回归加入了L2正则,作用是对每个app的系数进行限制。
所述优化方法包括牛顿方法、梯度下降。
步骤(8)中,所述GBDT分类模型为最终的分类模型,所述GBDT是一种迭代的决策树算法,采用了Boost思想,该算法由多棵决策树组成,所有决策树的结论累加起来做最终答案。GBDT与传统的Boost的区别是,每一次的计算是为了减少上一次的残差,为消除残差,在残差减少的梯度方向上建立一个新的模型。因此在GBDT中,每个新的模型的建立是为了使得之前模型的残差往梯度方向减少。
步骤(4)中,所述阈值M=50%,阈值N=1%。
本发明与现有技术相比,具有如下优点和有益效果:
本发明在较小计算量下,根据客户提供的种子用户,准确的将相似用户扩展出来。
附图说明
图1为本发明所述一种移动广告平台寻找相似用户的方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例一
一种移动广告平台寻找相似用户的方法,包含以下步骤:
(1)目标App的开发者(广告主)提交目标App现有的种子用户设备号列表;
(2)获取目标App的非相似用户设备号列表:
a、目标App的开发者直接提交一份非相似用户设备号列表;
b、从广告平台自有的设备列表中随机提取出与相似用户列表等量的设备号,作为非相似用户设备号列表;
(3)利用系统级别的API获取到移动用户的App安装包列表;
(4)安装包过滤:计算移动用户每个App的设备覆盖率,将覆盖设备比例非常高和非常低的App从App安装包列表里面剔除;步骤(4)中,所述阈值M=50%,阈值N=1%;
(5)采用bag-of-words方法将移动用户安装包列表中剩下的app表达成1/0特征;
(6)根据用户特征、种子用户设备号列表和非相似客户设备号列表,训练一个逻辑回归模型;
所述逻辑回归模型是一种线性分类模型,逻辑回归模型在线性回归的基础上,套用一个逻辑函数来得到最后的概率描述,逻辑回归通过优化方法极小化以下损失函数:
其中m为样本总数,xi,yi分别为第i个样本的特征和标签,hθ(xi)为逻辑回归函数;
带L2正则的逻辑回归极小化以下损失函数:
其中m为样本总数,Xi,yi分别为第i个样本的特征和标签,w和c分别为模型的特征权重和偏置项,C为正则化项和误差的权重系数;
所述优化方法包括牛顿方法、梯度下降;
为限制过拟合,防止某一个app对预测结果影响太大,我们对逻辑回归加入了L2正则,作用是对每个app的系数进行限制;
(7)计算移动用户的三种特征:安装的基本应用比例、付费应用数、平均付费价格;
(8)将逻辑回归模型的输出以及所述移动用户的三种特征作为输入,再训练出GBDT(梯度提升树)分类模型;
所述GBDT分类模型为最终的分类模型,所述GBDT是一种迭代的决策树算法,采用了Boost思想,该算法由多棵决策树组成,所有决策树的结论累加起来做最终答案。GBDT与传统的Boost的区别是,每一次的计算是为了减少上一次的残差,为消除残差,在残差减少的梯度方向上建立一个新的模型。因此在GBDT中,每个新的模型的建立是为了使得之前模型的残差往梯度方向减少;
(9)对候选集的每个移动用户,通过获取该移动用户的App安装列表,并将App安装列表表达成一个bag-of-words向量,先输入到逻辑回归模型中进行一遍预测,再加入用户安装的基本应用比例、付费应用数、平均付费价格这三个特征输入到GBDT模型中进行预测,从而预测该用户是否为相似用户。
这样就得到了用户是否是相似用户(1代表相似用户,0代表非相似用户)。
实施例二
如图1,一种移动广告平台寻找相似用户的方法,包含以下步骤:
首先根据训练用户过滤之后的安装列表以及标签训练出一个L2正则的逻辑回归模型。对于一个新的用户(特征见圆角矩形)安装列表,利用训练出的逻辑回归模型得到一个[0,1]之间的预测值,表示其为相似用户的概率。接着计算该用户安装列表中付费应用数,基本应用占比,平均付费价格特征,将这些特征与上一步的逻辑回归模型结果组合在一起,再训练出一个GBDT模型,最终预测用户是否为相似用户(1代表相似用户,0代表非相似用户)。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。