基于多级逻辑回归的点击率预测方法和系统的制作方法

文档序号:6534734阅读:212来源:国知局
基于多级逻辑回归的点击率预测方法和系统的制作方法
【专利摘要】本发明公开了一种基于多级逻辑回归的点击率预测方法和系统。该方法包括:特征抽取步骤,通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;模型训练步骤,使用多级逻辑回归模型,对特征模型进行机器学习,得到预测模型;点击率预测步骤:使用预测模型对待预测点击率数据进行预测。本发明通过多级逻辑回归,能够在维度不变以及样本数量不变的前提下,减少运算量,提高运算速度,解决目前点击率预测中数据量大、预测不准确的问题。
【专利说明】基于多级逻辑回归的点击率预测方法和系统
【技术领域】
[0001]本发明涉及互联网大数据机器学习处理领域,尤其涉及一种基于多级逻辑回归的点击率预测的方法和系统。
【背景技术】
[0002]随着全球信息化程度的提高,互联网应用越来越普及,相对于传统媒体的广告,互联网广告所占比重越来越大。近年来随着网络游戏、电子商务的兴起以及重视长尾流量的网盟发展,广告商对网络广告产生的实际效果越来越受到关注。通过对广告链接的点击率进行统计计算,可以了解不同用户感兴趣的广告,从而向每个用户更精准的展示对应的广告,以提高广告的点击率,改善广告投放效果和页面的访问量。所谓点击率,又叫CTR (Click-through Rate),或者CR (Clicks Ratio),是一个比值,即链接点击数量/链接展示数量。对于广告链接来讲,其点击率通常反映了该广告的投送质量。对广告平台来讲,如果能够根据用户的网络浏览或搜索行为,以及页面的内容的等预测出备选广告的点击率,则能够衡量每次广告投放的质量,对点击率预测值较高的广告进行投放,从而提高广告的转化率(ROI)。
[0003]目前预测点击率的方法通常都要首先选取对广告点击率有影响的因素来建立原始数据模型。影响广告的点击率的因素有很多种,例如广告、媒体、受众。每个因素本身又可细分多个方面。每个方面都可以看所一个维度数据,每个维度的样本数据都是该维度在一段时间内的实际点击率,因此多维度的样本数据是海量的。这就导致在预测点击率时,要面对计算量太大的问题。目前为了解决这一问题,在点击率预测时一般都会采用减少维度或者减少样本数量的方法进行降维处理,从而减少计算量。但由于减少了样本维度或者样本数量,从而影响了预测结果的准确性。

【发明内容】

[0004]本发明提供了一种基于多级逻辑回归的点击率的预测方法和系统,通过多级逻辑回归,在维度不变以及样本数量不变的前提下,减少运算量,以解决目前点击率预测中数据量大、预测不准确的问题。
[0005]根据本发明的一个方面,提供了一种基于多级逻辑回归的点击率预测方法,该方法包括:
[0006]特征抽取步骤,通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
[0007]模型训练步骤,使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;
[0008]点击率预测步骤:使用预测模型对待预测点击率数据进行预测。
[0009]根据本发明的另一方面,提供了一种基于多级逻辑回归的点击率预测系统,该系统包括:[0010]特征抽取装置,用于通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
[0011]模型训练装置,用于使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;
[0012]点击率预测装置:用于使用预测模型对待预测点击率数据进行预测。
[0013]与现有技术相比,本发明的方法提供了多级逻辑回归的方法,提高了点击率预测的准确度和效率。具体应用在广告领域,可以使广告得到更精准的投放。本发明用的点击率预测方法并不是适用于广告领域,还可应用于其他大数据检索预测领域。
【专利附图】

【附图说明】
[0014]图1为本发明实施例进行多级逻辑回归点击率预测的方法。
【具体实施方式】
[0015]以下结合附图及实施例来详细说明本发明的实施方式,借此对本发明解决的技术问题、采用的技术手段,并达到的技术效果能充分说明。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例的各特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
[0016]实施例1
[0017]如图1所示,本发明实施例的基于多级逻辑回归的点击率预测方法主要包括如下步骤:
[0018]特征抽取步骤,通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
[0019]模型训练步骤,使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;以及
[0020]点击率预测步骤:使用预测模型对待预测点击率数据进行预测。
[0021]其中,影响点击率的因素有多种,最主要的包括:广告、媒体、受众。本发明优选使用如下模型构建点击率特征模型:
[0022]μ (a, u, c) = p (click | a, u, c)
[0023]其中,a:代表广告,u:代表受众,c:代表媒体
[0024]其中在模型训练步骤中,优选使用下面多级逻辑回归模型:
[0025]P (click I a, U,c) = σ (WtX)
[0026]其中,Wt:表示η维特征权重向量(参数),χ:表示η维特征向量
[0027]其中在多级逻辑回归模型中,优选使用下面逻辑回归函数:
[0028]σ(t)=1/1+et[0029]其中,模型训练步骤中的多级逻辑回归机器学习步骤包括:
[0030]自身逻辑回归计算步骤:对特征模型中的N维特征向量进行自身的逻辑回归计算,得到该维特征向量的回归值;
[0031]其中N的大小根据具体数据特点和自身需要而确定;[0032]中间逻辑回归计算步骤:选取M个第一级回归值进行中间级计算,其中M〈N ;
[0033]其中该步骤可以根据实际需要进行多次运算,每一次都将上一级的输出作为下一级的输入进行逻辑回归运算。每一次逻辑回归运算都会降低数据维度,减少下一次运算的
运算量。
[0034]以及最终逻辑回归计算步骤:将中间级回归运算的中间值作为最后一级的回归运算的输入,最后得到点击率的预测值。
[0035]实施例2
[0036]本发明实施例的基于多级逻辑回归的点击率预测系统主要包括如下:
[0037]特征抽取装置,用于通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
[0038]模型训练装置,用于使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;以及
[0039]点击率预测装置:使用预测模型对待预测点击率数据进行预测。
[0040]其中,影响点击率的因素有多种,最主要的包括:广告、媒体、受众。本发明优选使用如下模型构建点击率特征模型:
[0041]μ (a, u, c) = p (click | a, u, c)
[0042]其中,a:代表广告,u:代表受众,c:代表媒体
[0043]其中在模型训练装置中,优选使用下面的多级逻辑回归模型:
[0044]P (click I a, U,c) = σ (WtX)
[0045]其中,Wt:表示η维特征权重向量(参数),χ:表示η维特征向量
[0046]其中在多级逻辑回归模型中,优选使用下面逻辑回归函数:
[0047]
【权利要求】
1.一种基于多级逻辑回归的点击率预测方法,其特征在于:该方法包括如下步骤: 特征抽取步骤,通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型; 模型训练步骤,使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;以及 点击率预测步骤:使用预测模型对待预测点击率数据进行预测。
2.如权利要求1所述的预测方法,其特征在于:所述特征抽取步骤中的特征模型为:μ (a, u, c) = p (click I a, u, c),其中,a代表广告,u代表受众,c代表媒体,p O为多级逻辑回归模型,有P (click I a, U,c) = σ (WtX),其中Wt表示η维特征权重向量,χ表示η维特征向量,σ ()为逻辑回归函数,有σ(?)


\ + e
3.如权利要求1所述的预测方法,其特征在于:所述特征抽取步骤中的多级逻辑回归机器学习的步骤包括: 自身逻辑回归计算步骤,对特征模型中的N维特征向量进行自身的逻辑回归计算,得到该维特征向量的回归值; 中间逻辑回归计算步骤,选取M个第一级回归值进行中间级计算,其中M〈N;以及最终逻辑回归计算步骤,将中间级回归运算的中间值做为最后一级的回归运算的输入,最后得到点击率的预测值。
4.如权利要求5所述的预测方法,其特征在于:所述中间逻辑回归计算步骤中的中间级计算可以根据实际需要进行多次运算,每一次都将上一级的输出作为下一级的输入进行逻辑回归运算。
5.一种基于多级逻辑回归的点击率预测系统,其特征在于:该系统包括如下装置: 特征抽取装置,用于通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型; 模型训练装置,用于使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;以及 点击率预测装置:用于使用预测模型对待预测点击率数据进行预测。
6.如权利要求5所述的预测系统,其特征在于:所述特征模型为:μ(a,u,c)=P (click I a,u,c),其中,a代表广告,u代表受众,c代表媒体,p O为多级逻辑回归模型,有P (click I a, u, c) = σ (WtX),其中Wt表示η维特征权重向量,χ表示η维特征向量,σ ()为逻辑回归函数,有σ(0= I。
7.如权利要求5所述的预测系统,其特征在于:所述模型训练装置包括多级逻辑回归机器学习装置,该多级逻辑回归机器学习装置包括: 自身逻辑回归计算装置,用于对特征模型中的N维特征向量进行自身的逻辑回归计算,得到该维特征向量的回归值; 中间逻辑回归计算装置:用于选取M个第一级回归值进行中间级计算,其中Μ〈Ν; 最终逻辑回归计算装置:用于将中间级回归运算的中间值做为最后一级的回归运算的输入,最后得到点击率的预测值。
8.如权利要求7所述的预测系统,其特征在于:所述中间逻辑回归计算装置可以根据实际需要进行多次运算,每一次都将上一级的输出作为下一级的输入进行逻辑回归运算。
【文档编号】G06F17/30GK103761266SQ201410001103
【公开日】2014年4月30日 申请日期:2014年1月2日 优先权日:2014年1月2日
【发明者】崔晶晶, 林佳婕, 李春华, 受春柏, 刘立娜 申请人:北京集奥聚合网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1