一种预估广告转化率的方法及服务器与流程

文档序号:14837003发布日期:2018-06-30 12:50阅读:274来源:国知局
一种预估广告转化率的方法及服务器与流程

本发明涉及通信技术领域,尤其涉及一种预估广告转化率的方法、服务器及计算机可读存储介质。



背景技术:

广告平台在投放广告之前,考虑到各方面(包括用户、广告主及广告平台)的受益情况,需要对待投放广告进行排序,对广告进行排序主要依据广告的预估转化率(例如点击率)与广告出价的乘积。因此,广告转化率预估的准确性直接影响到排序结果。现有的广告平台通常是基于展示广告时生成的历史数据对预先构建的广告转化率预估模型进行训练,并基于训练好的模型对广告的转化率进行预估。目前,构建广告转化率预估模型的方式通常有两种:一种是基于逻辑回归模型构建模型,一种是基于决策树模型和逻辑回归模型构建模型。基于决策树模型和逻辑回归模型构建的模型由于无需人工挑选和交叉特征,因此理论上来说,广告转化率预估的准确率要高于基于逻辑回归模型构建的模型。

然而,实际应用中,展示广告时生成的历史数据是在实时更新的,当用于训练模型的历史数据不同时,训练出来的基于决策树模型和逻辑回归模型构建的模型的预估准确率不一定高于基于逻辑回归模型构建的模型的预估准确率。因此,若实际应用中一直采用基于决策树模型和逻辑回归模型构建的模型来对广告的转化率进行预估,则会导致广告转化率预估的准确率降低。



技术实现要素:

本发明实施例提供一种预估广告转化率的方法、服务器及计算机可读存储介质,能够提高广告转化率预估的准确率。

第一方面,本发明实施例提供了一种预估广告转化率的方法,该方法包括:

获取预设时段内展示广告生成的历史日志数据,并对所述历史日志数据进行预处理,得到样本集;

基于所述样本集,分别对广告转化率预估模型的预设控制模型和预设实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型;

根据预设的评估指标对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果;

基于所述评估结果,从所述第一广告转化率预估模型和所述第二广告转化率预估模型中确定目标广告转化率预估模型,并根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。

第二方面,本发明实施例提供了一种服务器,该服务器包括用于执行上述第一方面的方法的单元。

第三方面,本发明实施例提供了另一种服务器,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持服务器执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。

第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本发明实施例通过获取预设时段内展示广告生成的历史日志数据,并对所述历史日志数据进行预处理,得到样本集;基于所述样本集,分别对广告转化率预估模型的预设控制模型和预设实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型;根据预设的评估指标对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果;基于所述评估结果,从所述第一广告转化率预估模型和所述第二广告转化率预估模型中确定目标广告转化率预估模型,并根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。由于用于训练模型的样本集是基于预设时段内展示广告生成的历史数据生成的,且在训练好模型后,对模型进行评估,并根据实时评估结果确定目标广告转化率预估模型,且基于目标广告转化率预估模型预估广告的转化率,从而提高了广告转化率预估的准确率。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种预估广告转化率的方法的示意流程图;

图2是本发明另一实施例提供的一种预估广告转化率的方法的示意流程图;

图3是本发明实施例提供的一种服务器的示意性框图;

图4是本发明另一实施例提供的一种服务器的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合及所有可能组合,并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

具体实现中,本发明实施例中描述的服务器包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中,描述了包括显示器和触摸敏感表面的服务器。然而,应当理解的是,服务器可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。

服务器支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在服务器上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能及服务器上显示的相应信息。这样,服务器的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

在通过具体实施例对本发明所述的方案进行详细阐述之前,为了便于理解,首先对互联网广告的营销方式进行说明:

当广告主有投放广告的需求时,可以向广告需求方平台(Demand-Side Platform,DSP)请求投放广告。广告DSP用于帮助广告主在互联网或者移动互联网上进行广告投放。广告DSP可以支持按点击计费(Cost Per Click,CPC)类型的广告投放,也可以支持按下载率计费(Cost Per Download,CPD)类型的广告投放,或者,还可以支持其他计费模式的广告投放,此处不做限制。

考虑到用户、广告主、广告DSP等各方面的受益情况,广告DSP在对待投放广告进行投放之前,需要调用广告转化率预估模型对待投放广告的转化率进行预估,进而根据待投放广告的预估转化率与广告主对待投放广告出价的乘积来对待投放广告进行排序,并根据排序结果进行广告投放。即广告转化率预估模型对广告转化率预估的准确率直接影响到广告排序结果。因此,广告转化率预估模型的选择尤为重要。

在本实施例中,待投放广告的类型可以是CPC类型,也可以是CPD类型,此处不做限制。对于CPC类型的广告而言,广告的点击率即为广告的转化率,也就是说,广告转化率预估模型即为广告点击率预估模型;对于CPD类型的广告而言,广告的点击率与下载率的乘积为广告的转化率,也就是说,广告转化率预估模型由广告点击率预估模型与广告下载率预估模型组合得到。

其中,广告的点击率为广告的点击量占广告的曝光量的比例;广告的下载率为通过点击广告进入相应的产品下载界面后,下载该广告对应的产品的下载量占广告点击量的比例。

参见图1,图1是本发明实施例提供的一种预估广告转化率的方法的示意流程图。本实施例中预估广告转化率的方法的执行主体为搭载广告DSP的服务器。如图1所示的预估广告转化率的方法可以包括以下步骤:

S11:获取预设时段内展示广告生成的历史日志数据,并对所述历史日志数据进行预处理,得到样本集。

在本实施例中,在对待投放广告的转化率进行预估时,为了提高广告转化率预估模型预估的准确率,服务器可以实时或定时获取近期展示广告时生成的历史日志数据,并基于获取到的历史日志数据对预设的广告转化率预估模型进行训练,且对训练好的广告转化率预估模型进行优劣评估,进而选择预估准确率较高的广告转化率预估模型来对待投放广告的转化率进行预估。

在本实施例中,预设的广告转化率预估模型可以包括至少两种不同的广告转化率预估模型。

具体的,服务器可以每隔预设时间间隔获取一次预设时段内展示广告生成的历史日志数据。其中,预设时间间隔和预设时段均可以根据实际需求设置,此处不做限制。例如,预设时间间隔可以为1天,预设时段可以为当天之前的30天。服务器每隔1天获取一次当天之前的30天内展示广告所产生的历史日志数据,也就是说,服务器每天可以基于不同的历史日志数据训练并更新一次广告转化率预估模型。

其中,历史日志数据中的每条数据都是一次广告展示的完整记录,其记录了该次广告展示对应的广告特征、用户特征、上下文环境特征等多类特征,以及用户对该次广告展示的行为反馈信息(即用户行为反馈信息)。

在本实施例中,对于CPC类型的广告而言,用户对广告展示的行为反馈信息用于表征用户是否点击了该广告;对于CPD类型的广告而言,用户对广告展示的行为反馈信息用于表征用户在点击该广告后,是否下载或购买了该广告对应的商品。

在本实施例中,广告特征、用户特征、上下文环境特征等均是与广告相关的特征。每类特征均可以包括至少一个基础特征,所有基础特征的总和可以为N个,N为正整数。在实际应用中,每类特征所包含的基础特征可以根据实际需求进行设置,此处不做限制。例如,广告特征可以包括但不限于以下几种基础特征:广告主所属行业类别、推广商品所属类别、推广类型、广告类型、广告尺寸、创意素材内容分类、创意素材主题颜色等。用户特征可以包括但不限于以下几种基础特征:用户年龄、用户性别、用户职业、用户的兴趣爱好、用户的历史浏览记录等。上下文环境特征可以包括但不限于以下几种基础特征:设备类型、联网方式、运营商类型、系统平台、应用媒体等。

示例性的,展示广告时生成的历史日志数据可以如下表1所示:

表1

在本实施例中,由于广告转化率预估模型的输入值和输出至均为数字形式,因此,服务器获取到历史日志数据后,需要将文本形式的历史日志数据转化为数字形式的数据。具体的,服务器获取到预设时段内展示广告生成的历史日志数据后,对获取到的历史日志数据进行预处理,得到样本集。

对历史日志数据进行预处理包括:对每条历史日志数据中的用户行为反馈信息进行预处理,以及对每条历史日志数据中的各个基础特征的值进行预处理。

对每条历史日志数据中的用户行为反馈信息进行预处理可以为:将用户行为反馈信息转换为该历史日志数据对应的广告的实际转化率。例如,对于CPC类型的广告而言,可以根据广告标识,统计某一广告对应的曝光次数和被点击次数,并将该广告的被点击次数与曝光次数的比值识别为该广告的实际转化率。

对每条历史日志数据中的各个基础特征的值进行预处理可以包括:对每个基础特征的值进行归一化或离散化处理,将每个基础特征的值映射在区间[0,1]内。而对于一些获取不到观测值的基础特征,可以赋予其缺省值等。

通过上述预处理过程得到的样本集中的每条样本均包括广告的实际转化率以及与广告相关的N个基础特征的值,且N个基础特征的值均在区间[0,1]内。

S12:基于所述样本集,分别对广告转化率预估模型的预设控制模型和预设实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型。

在本实施例中,在对历史日志数据进行预处理得到样本集后,服务器可以基于样本集,分别对广告转化率预估模型的预设控制模型和预设实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型。

具体的,服务器可以采用预设的随机种子,将样本集按照预设比例随机划分为训练样本集和测试样本集。训练样本集用于对广告转化率预估模型进行训练,测试样本集用于对训练好的广告转化率预估模型进行测试。预设比例可以根据实际需求设置,此处不做限制。例如预设比例可以为7:3。即从样本集中随机抽取70%的样本作为训练样本集,剩余30%的样本作为测试样本集。

服务器可以基于训练样本集对广告转化率预估模型的预设控制模型进行训练,得到第一广告转化率预估模型,以及基于训练样本集对广告转化率预估模型的预设实验模型进行训练,得到第二广告转化率预估模型。

在本实施例中,广告转化率预估模型的预设控制模型可以为第一逻辑回归(logistic regression,LR)模型。其中,LR模型为本领域公知的一种分类器模型,其可以基于某一物体对应的多个特征值对该物体进行分类,由于LR模型的原理为本领域所公知,因此,此处不再对LR模型的原理进行详细说明。

可以理解的是,广告转化率预估模型的预设控制模型还可以为其他分类器模型,例如,可以为现有的支持向量机模型,此处不做限制。

需要说明的是,对模型的训练过程即为确定模型中每个自变量(例如每个特征)对应的权重的过程。

在本实施例中,基于训练样本集对预设控制模型进行训练可以为:将训练样本集中每条样本的N个基础特征的值作为所述第一LR模型的输入值,将训练样本集中每条样本的实际转化率作为第一LR模型的输出值,对第一LR模型进行训练。将训练好的第一LR模型识别为第一广告转化率预估模型。

需要说明的是,在本实施例中,第一广告转化率预估模型用于基于与某一待投放广告相关的N个基础特征的值来预估该广告的转化率。

广告转化率预估模型的预设实验模型可以包括梯度上升决策树(Gradient Boosting Decision Tree,GBDT)模型和第二LR模型。其中,GBDT模型为本领域公知的一种迭代形式的决策树模型,该模型由至少两颗决策树构成,所有决策树的输出累加起来作为GBDT模型的最终输出。由于GBDT模型的原理为本领域所公知,因此,此处不再对GBDT模型的原理进行详细说明。

在本实施例中,基于训练样本集对预设实验模型进行训练可以为:将训练样本集中每条样本的N个基础特征的值作为GBDT模型的输入值,将训练样本集中每条样本的实际转化率作为GBDT模型的输出值,对GBDT模型进行训练,得到训练好的GBDT模型;将训练样本集中每条样本的N个基础特征的值输入至训练好的GBDT模型,并将GBDT模型的输出值以及训练样本集中每条样本的N个基础特征的值作为第二LR模型的输入值,将训练样本集中每条样本的实际转化率作为第二LR模型的输出值,对第二LR模型进行训练,得到训练好的第二LR模型;将训练好的GBDT模型和训练好的第二LR模型进行组合,得到所述第二广告转化率预估模型。

在本实施例中,训练好的GBDT模型用于从与广告相关的N个基础特征中挑选有效特征,并将有效特征的值进行交叉得到交叉特征的值。

有效特征指对模型的预估结果影响较大的基础特征,即与模型的预估结果相关性较大的基础特征。例如,若不同年龄段的用户对某一广告的喜好完全不同,当用户年龄这一基础特征的值不同,其他基础特征的值相同时,广告转化率预估模型预估出的广告转化率的值相差较大,那么说明用户年龄这一基础特征对预估的广告转化率的影响较大,因此,用户年龄这一基础特征即为有效特征。交叉特征指将不同的有效特征进行交叉而得到的能够显著提高模型预估准确率的特征。例如,将广告类型这一有效特征与用户性别这一有效特征进行交叉,可以得到男性(或女性)用户在某一类型的广告上的转化率这一交叉特征。

在本实施例中,将训练好的GBDT模型和训练好的第二LR模型进行组合具体为:将训练好的GBDT模型的输出作为训练好的第二LR模型的部分输入。即训练好的GBDT模型的输入值为与广告相关的N个基础特征的值,训练好的LR模型的输入值为GBDT模型的输出值以及与广告相关的N个基础特征的值,训练好的LR模型的输出值为广告的预估转化率。

即本实施例是将训练样本集中每条样本的N个基础特征的值输入至训练好的GBDT模型,并将GBDT模式输出的交叉特征的值与N个基础特征的值共同作为第二LR模型的输入值,将实际转化率作为第二LR模型的输出值,对第二LR模型进行训练,进而得到训练好的第二LR模型。

需要说明的是,在本实施例中,服务器在不同时刻所获取到的历史日志数据不同,得到的样本集不同,因此,通过不同样本集训练出来的第一广告转化率预估模型或第二广告转化率预估模型不同。

S13:根据预设的评估指标对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果。

在本实施例中,在训练得到第一广告转化率预估模型和第二广告转化率预估模型之后,服务器可以根据测试样本集对第一广告转化率预估模型和第二广告转化率预估模型进行测试,并基于测试结果以及预设的评估指标对第一广告转化率预估模型和第二广告转化率预估模型进行评估,进而得到评估结果。

在本实施例中,预设的评估指标可以根据实际需求设置,此处不做限制。例如,预设的评估指标可以包括但不限于以下指标中的至少任意两种的组合:接收者操作特性(receiver operating characteristic,ROC)曲线对应的预设面积值、归一化信息熵及校准度。

其中,ROC曲线用于表征广告转化率预估模型对应的真正类率与假正类率的相互关系。其中,真正类率指真正类样本占测试样本集中所有正样本的比例,假正类率指假正类样本占测试样本集中所有负样本的比例。正样本指实际转化率大于或等于预设转化率阈值的样本,负样本指实际转化率小于预设转化率阈值的样本。其中,预设转化率阈值可以根据实际需求设置,此处不做限制。真正类样本指实际为正样本,且被广告转化率预估模型预测为正样本的样本,假正类样本指实际为负样本,但被广告转化率预估模型预测为正样本的样本。ROC曲线是以假正类率为横坐标,以真正类率为纵坐标,基于广告转化率预估模型的测试结果(即预估结果)所绘制出的曲线。ROC曲线的预设面积值指ROC曲线下的面积值,即ROC曲线与横坐标之间构成的区域的面积值。

归一化信息熵指广告转化率预估模型进行n次转化率预估所对应的log损失的平均损失与测试样本集整体的实际转化率对应的log损失的比值。

校准度指测试样本集中所有样本对应的预估转化率与实际转化率的比值的平均值。

在本实施例中,对第一广告转化率预估模型和第二广告转化率预估模型进行测试,得到测试结果具体可以为:根据第一广告转化率预估模型对测试样本集中每条样本(即每条测试样本)对应的广告转化率进行预估,得到每条测试样本对应的第一预估转化率,以及根据第二广告转化率预估模型对每条测试样本对应的广告转化率进行预估,得到每条测试样本对应的第二预估转化率。其中,每条测试样本对应的第一预估转化率即为对第一广告转化率预估模型进行测试得到的测试结果,每条测试样本对应的第二预估转化率即为对第二广告转化率预估模型进行测试得到的测试结果。

以评估指标包括ROC曲线对应的预设面积值、归一化信息熵及校准度为例,服务器基于测试结果以及预设的评估指标对第一广告转化率预估模型和第二广告转化率预估模型进行评估,进而得到评估结果具体可以为:

根据每条测试样本对应的第一预估转化率以及每条测试样本对应的实际转化率,确定第一广告转化率预估模型的ROC曲线对应的预设面积值、归一化信息熵及校准度;根据每条测试样本对应的第二预估转化率以及每条测试样本对应的实际转化率,确定第二广告转化率预估模型的ROC曲线对应的预设面积值、归一化信息熵及校准度;将第一广告转化率预估模型的ROC曲线对应的预设面积值、归一化信息熵及校准度分别与第二广告转化率预估模型的ROC曲线对应的预设面积值、归一化信息熵及校准度进行比较,进而得到评估结果。

根据每条测试样本对应的第一预估转化率以及每条测试样本对应的实际转化率,确定第一广告转化率预估模型的ROC曲线对应的预设面积值可以为:

根据每条测试样本对应的第一预估转化率、每条测试样本对应的实际转化率以及预设转化率阈值,确定第一广告转化率预估模型对应的真正类率和假正类率,并基于每条测试样本对应的第一预估转化率绘制ROC曲线,且计算ROC曲线下的面积值。

根据每条测试样本对应的第一预估转化率以及每条测试样本对应的实际转化率,确定第一广告转化率预估模型的归一化信息熵可以为:

根据以下公式确定第一广告转化率预估模型对应的归一化信息熵:

其中,NE为归一化信息熵;n为测试样本集的个数;yi为每条测试样本对应的真实值,yi的取值范围为{-1,1},-1表示该测试样本为负样本,1表示测试样本为正样本;yi可以根据测试样本的实际转化率确定,例如,若测试样本的实际转化率大于预设转化率阈值,则该测试样本为正样本,yi为1;若测试样本的实际转化率小于预设转化率阈值,则该样本为负样本,yi为-1;pi为每条测试样本对应的预估转化率;p为测试样本集中正样本占总的测试样本的比例。

根据每条测试样本对应的第一预估转化率以及每条测试样本对应的实际转化率,确定第一广告转化率预估模型的ROC曲线对应的校准度可以为:计算每条测试样本的第一预估转化率与实际转化率的比值,并计算测试样本集中所有样本的第一预估转化率与实际转化率的比值的平均值,该平均值即为校准度。

可以理解的是,根据每条测试样本对应的第二预估转化率以及每条测试样本对应的实际转化率,确定第二广告转化率预估模型的ROC曲线对应的预设面积值、归一化信息熵及校准度的方法同上,此处不再赘述。

需要说明的是,在本实施例中,ROC曲线对应的预设面积值越大,模型越优;归一化信息熵越小,模型越优;校准度越接近1,模型越优。

S14:基于所述评估结果,从所述第一广告转化率预估模型和所述第二广告转化率预估模型中确定目标广告转化率预估模型,并根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。

服务器得到评估结果后,基于评估结果,从第一广告转化率预估模型和第二广告转化率预估模型中确定目标广告转化率预估模型,并根据目标广告转化率预估模型对待投放广告的转化率进行预估。

具体的,若评估结果为第一广告转化率预估模型优于第二广告转化率预估模型,则说明第一广告转化率预估模型对广告转化率预估的准确率高于第二广告转化率预估模型对广告转化率预估的准确率,此时服务器将第一广告转化率预估模型识别为目标广告转化率预估模型;若评估结果为第二广告转化率预估模型优于第一广告转化率预估模型,则说明第二广告转化率预估模型对广告转化率预估的准确率高于第一广告转化率预估模型对广告转化率预估的准确率,此时服务器将第二广告转化率预估模型识别为目标广告转化率预估模型。

服务器在确定了目标广告转化率预估模型后,在预设时间间隔内,若接收到预估广告转化率的请求,则根据目标广告转化率预估模型对待投放广告的转化率进行预估。待投放的广告可以为一条,也可以为至少两条,此处不做限制。

根据目标广告转化率预估模型对待投放广告的转化率进行预估,具体可以为:将待投放广告对应的多个基础特征的值进行预处理并输入至目标广告转化率预估模型中,将目标广告转化率预估模型的输出值识别为待投放广告对应的预估转化率。

上述方案,服务器获取预设时段内展示广告生成的历史日志数据,并对所述历史日志数据进行预处理,得到样本集;基于所述样本集,分别对广告转化率预估模型的控制模型和实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型;其中,所述控制模型为第一逻辑回归模型,所述实验模型包括梯度上升决策树模型和第二逻辑回归模型;根据预设的评估指标对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果;基于所述评估结果,从所述第一广告转化率预估模型和所述第二广告转化率预估模型中确定目标广告转化率预估模型,并根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。由于用于训练模型的样本集是基于预设时段内展示广告生成的历史数据生成的,且在训练好模型后,对模型进行评估,并根据实时评估结果确定目标广告转化率预估模型,基于目标广告转化率预估模型预估广告的转化率,从而提高了广告转化率预估的准确率。

参见图2,图2是本发明另一实施例提供的一种预估广告转化率的方法的示意流程图。本实施例中预估广告转化率的方法的执行主体为搭载广告DSP的服务器。如图2所示的预估广告转化率的方法可以包括以下步骤:

S21:获取预设时段内展示广告生成的历史日志数据,并对所述历史日志数据进行预处理,得到样本集。

本实施例中的S21与上一实施例中的S11相同,具体请参阅上一实施例中的S11的相关描述,此处不赘述。

S22:基于所述样本集,分别对广告转化率预估模型的预设控制模型和预设实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型。

在本实施例中,在对历史日志数据进行预处理得到样本集后,服务器可以基于样本集,分别对广告转化率预估模型的预设控制模型和预设实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型。

具体的,服务器可以采用预设的随机种子,将样本集按照预设比例随机划分为训练样本集和测试样本集。训练样本集用于对广告转化率预估模型进行训练,测试样本集用于对训练好的广告转化率预估模型进行测试。预设比例可以根据实际需求设置,此处不做限制。例如预设比例可以为7:3。即从样本集中随机抽取70%的样本作为训练样本集,剩余30%的样本作为测试样本集。

在本实施例中,广告转化率预估模型的预设控制模型为第一逻辑回归(logistic regression,LR)模型。广告转化率预估模型的预设实验模型包括梯度上升决策树(Gradient Boosting Decision Tree,GBDT)模型和第二LR模型。

其中,GBDT模型为本领域公知的一种迭代形式的决策树模型,该模型由至少两颗决策树构成,所有决策树的输出累加起来作为GBDT模型的最终输出。LR模型为本领域公知的一种分类器模型,其可以基于某一物体对应的多个特征值对该物体进行分类,由于GBDT模型和LR模型的原理均为本领域所公知,因此,此处不再对GBDT模型和LR模型的原理进行详细说明。

在本实施例中,S22具体可以包括S221~S222。

S221:基于所述训练样本集,对所述第一逻辑回归模型进行训练,将训练好的所述第一逻辑回归模型识别为所述第一广告转化率预估模型。

在本实施例中,服务器基于训练样本集对第一LR模型进行训练,并将训练好的第一LR模型识别为第一广告转化率预估模型。第一广告转化率预估模型用于基于与某一待投放广告相关的N个基础特征的值来预估该广告的转化率。

更具体的,S221可以包括以下步骤:

对所述第一逻辑回归模型对应的预设模型参数进行设置;

将所述训练样本集中每条样本的N个基础特征的值作为所述第一逻辑回归模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述第一逻辑回归模型的输出值,对所述第一逻辑回归模型进行训练;

将训练好的所述第一逻辑回归模型识别为所述第一广告转化率预估模型。

在本实施例中,在通过训练样本集对第一LR模型进行训练时,为了训练得到更优的第一广告转化率预估模型,服务器可以根据预设模型参数的取值范围对第一LR模型对应的预设模型参数进行设置。

其中,第一LR模型对应的预设模型参数可以包括但不限于:正交化控制参数、最大迭代次数、迭代收敛阈值、纠错次数等。

第一LR模型对应的预设模型参数的取值范围可以根据实际需求设置,此处不做限制。例如,正交化控制参数的取值可以为0,最大迭代次数的取值范围可以为{100,200,300},迭代收敛阈值的取值范围可以为:{10-5,10-6},纠错次数的取值范围可以为:{10,15,20}。

服务器可以将第一LR模型对应的各个预设模型参数的值设置为各个预设模型参数的取值范围中的任意值。例如,可以将最大迭代次数的值设置为100或200或300。

在设置好第一LR模型对应的预设模型参数的值之后,服务器可以将训练样本集中每条样本的N个基础特征的值作为第一LR模型的输入值,将训练样本集中每条样本的实际转化率作为第一LR模型的输出值,对第一LR模型进行训练,并将训练好的第一LR模型识别为第一广告转化率预估模型。

S222:基于所述训练样本集,对所述梯度上升决策树模型进行训练,并基于所述训练样本集以及训练好的所述梯度上升决策树模型,对所述第二逻辑回归模型进行训练,将训练好的所述梯度上升决策树模型和训练好的所述第二逻辑回归模型进行组合,得到所述第二广告转化率预估模型;其中,所述梯度上升决策树模型的输出值为所述第二逻辑回归模型对应的部分输入值。

在本实施例中,服务器基于训练样本集对GBDT模型进行训练,并基于训练样本集以及训练好的GBDT模型,对第二LR模型进行训练,将训练好的GBDT模型和训练好的第二LR模型进行组合,得到第二广告转化率预估模型。

其中,训练好的GBDT模型用于从与广告相关的N个基础特征中挑选有效特征,并将有效特征的值进行交叉得到交叉特征的值。

有效特征指对模型的预估结果影响较大的基础特征,即与模型的预估结果相关性较大的基础特征。例如,若不同年龄段的用户对某一广告的喜好完全不同,当用户年龄这一基础特征的值不同,其他基础特征的值相同时,广告转化率预估模型预估出的广告转化率的值相差较大,那么说明用户年龄这一基础特征对预估的广告转化率的影响较大,因此,用户年龄这一基础特征即为有效特征。交叉特征指将不同的有效特征进行交叉而得到的能够显著提高模型预估准确率的特征。例如,将广告类型这一有效特征与用户性别这一有效特征进行交叉,可以得到男性(或女性)用户在某一类型的广告上的转化率这一交叉特征。

将训练好的GBDT模型和训练好的第二LR模型进行组合具体为:将训练好的GBDT模型的输出作为训练好的第二LR模型的部分输入。即训练好的GBDT模型的输入值为与广告相关的N个基础特征的值,训练好的LR模型的输入值为GBDT模型的输出值以及与广告相关的N个基础特征的值,训练好的LR模型的输出值为广告的预估转化率。

即本实施例是将训练样本集中每条样本的N个基础特征的值输入至训练好的GBDT模型,并将GBDT模式输出的交叉特征的值与N个基础特征的值共同作为第二LR模型的输入值,将实际转化率作为第二LR模型的输出值,对第二LR模型进行训练,进而得到训练好的第二LR模型。

更具体的,S222可以包括以下步骤:

对所述梯度上升决策树模型和所述第二逻辑回归模型各自对应的预设模型参数进行设置;

将所述训练样本集中每条样本的N个基础特征的值作为所述梯度上升决策树模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述梯度上升决策树模型的输出值,对所述梯度上升决策树模型进行训练;

将所述训练样本集中每条样本的N个基础特征的值输入至训练好的所述梯度上升决策树模型,并将所述梯度上升决策树模型的输出值以及所述训练样本集中每条样本的N个基础特征的值作为所述第二逻辑回归模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述第二逻辑回归模型的输出值,对所述第二逻辑回归模型进行训练;

将训练好的所述梯度上升决策树模型和训练好的所述第二逻辑回归模型进行组合,得到所述第二广告转化率预估模型。

在本实施例中,在通过训练样本集对GBDT模型和第二LR模型进行训练时,为了得到更优的GBDT模型和更优的第二LR模型,服务器可以根据预设模型参数的取值范围对GBDT模型和第二LR模型各自对应的预设模型参数进行设置。

其中,GBDT模型对应的预设模型参数可以包括但不限于:树的最大箱数、树的最大深度、最小信息增益、子节点最小实例数、子采样率、学习率、迭代次数、容忍系数等。第二LR模型对应的预设模型参数可以包括但不限于:正交化控制参数、最大迭代次数、迭代收敛阈值、纠错次数等。

GBDT模型以及第二LR模型各自对应的预设模型参数的取值范围可以根据实际需求设置,此处不做限制。

例如,GBDT模型对应的树的最大箱数的取值范围可以为{25,30},树的最大深度的取值范围可以为{5,6},最小信息增益的取值可以为0,子节点最小实例数的取值可以为1、子采样率的取值可以为1、学习率的取值可以为0.1、迭代次数的取值可以为30、容忍系数的取值可以为0.01。第二LR模型对应的正交化控制参数的取值可以为0,最大迭代次数的取值范围可以为{100,200,300},迭代收敛阈值的取值范围可以为:{10-5,10-6},纠错次数的取值范围可以为:{10,15,20}等。

服务器可以将GBDT模型对应的各个预设模型参数的值设置为其对应的各个预设模型参数的取值范围中的任意值。例如,可以将树的最大深度的值设置为5或6。服务器可以将将第二LR模型对应的各个预设模型参数的值设置为其对应的各个预设模型参数的取值范围中的任意值。例如,可以将最大迭代次数的值设置为100或200或300。

在设置好GBDT模型和第二LR模型各自对应的预设模型参数的值之后,服务器可以将训练样本集中每条样本的N个基础特征的值作为GBDT模型的输入值,将训练样本集中每条样本的实际转化率作为GBDT模型的输出值,对GBDT模型进行训练。在训练好GBDT模型后,服务器可以将训练样本集中每条样本的N个基础特征的值输入至训练好的GBDT模型,并将GBDT模型的输出值以及训练样本集中每条样本的N个基础特征的值作为第二LR模型的输入值,将训练样本集中每条样本的实际转化率作为第二LR模型的输出值,对第二LR模型进行训练。在训练好第二LR模型之后,服务器可以将训练好的GBDT模型和训练好的第二LR型进行组合,得到第二广告转化率预估模型。

S23:根据预设的评估指标对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果。

在本实施例中,在训练得到第一广告转化率预估模型和第二广告转化率预估模型之后,服务器可以根据测试样本集对第一广告转化率预估模型和第二广告转化率预估模型进行测试,得到测试结果,并基于测试结果以及预设的评估指标对第一广告转化率预估模型和第二广告转化率预估模型进行评估,进而得到评估结果。

其中,预设的评估指标可以根据实际需求设置,此处不做限制。

例如,预设的评估指标可以包括但不限于以下指标中的至少任意两种的组合:接收者操作特性(receiver operating characteristic,ROC)曲线对应的预设面积值、归一化信息熵及校准度。

其中,ROC曲线用于表征广告转化率预估模型对应的真正类率与假正类率的相互关系。其中,真正类率指真正类样本占测试样本集中所有正样本的比例,假正类率指假正类样本占测试样本集中所有负样本的比例。正样本指实际转化率大于或等于预设转化率阈值的样本,负样本指实际转化率小于预设转化率阈值的样本。其中,预设转化率阈值可以根据实际需求设置,此处不做限制。真正类样本指实际为正样本,且被广告转化率预估模型预测为正样本的样本,假正类样本指实际为负样本,但被广告转化率预估模型预测为正样本的样本。ROC曲线是以假正类率为横坐标,以真正类率为纵坐标,基于广告转化率预估模型的测试结果所绘制出的曲线。ROC曲线的预设面积值指ROC曲线下的面积值,即ROC曲线与横坐标之间构成的区域对应的面积值。

归一化信息熵指广告转化率预估模型进行n次转化率预估所对应的log损失的平均损失与测试样本集整体的实际转化率对应的log损失的比值。

校准度指测试样本集中所有样本对应的预估转化率与实际转化率的比值的平均值。

在本实施例中,S23具体可以包括S231~S235。

S231:将所述测试样本集中每条样本的N个基础特征的值输入至所述第一广告转化率预估模型,得到所述每条样本对应的第一预估转化率。

在本实施例中,在通过测试样本集对第一广告转化率预估模型进行测试时,服务器可以将测试样本集中每条样本的N个基础特征的值输入至第一广告转化率预估模型,并将第一广告转化率预估模型的输出值识别为测试样本集中每条样本对应的第一预估转化率。

S232:根据所述每条样本对应的第一预估转化率和实际转化率,确定所述第一广告转化率预估模型对应的接收者操作特性曲线、归一化信息熵及校准度。

服务器通过第一广告转化率预估模型得到测试样本集中每条样本对应的第一预估转化率后,可以根据测试样本集中每条样本对应的第一预估转化率和每条样本对应的实际转化率,确定第一广告转化率预估模型对应的接收者操作特征曲线、归一化信息熵及校准度。

根据测试样本集中每条样本(即每条测试样本)对应的第一预估转化率以及每条测试样本对应的实际转化率,确定第一广告转化率预估模型对应的ROC曲线可以为:根据每条测试样本对应的第一预估转化率、每条测试样本对应的实际转化率以及预设转化率阈值,确定第一广告转化率预估模型对应的真正类率和假正类率,并基于每条测试样本对应的第一预估转化率绘制ROC曲线。

根据每条测试样本对应的第一预估转化率以及每条测试样本对应的实际转化率,确定第一广告转化率预估模型的归一化信息熵可以为:

根据以下公式确定第一广告转化率预估模型对应的归一化信息熵:

其中,NE为归一化信息熵;n为测试样本集的个数;yi为每条测试样本对应的真实值,yi的取值范围为{-1,1},-1表示该测试样本为负样本,1表示测试样本为正样本;yi可以根据测试样本的实际转化率确定,例如,若测试样本的实际转化率大于预设转化率阈值,则该测试样本为正样本,yi为1;若测试样本的实际转化率小于预设转化率阈值,则该样本为负样本,yi为-1;pi1为每条测试样本对应的第一预估转化率;p为测试样本集中正样本占总的测试样本的比例。

根据每条测试样本对应的第一预估转化率以及每条测试样本对应的实际转化率,确定第一广告转化率预估模型的ROC曲线对应的校准度可以为:计算每条测试样本的第一预估转化率与实际转化率的比值,并计算测试样本集中所有样本的第一预估转化率与实际转化率的比值的平均值,该平均值即为校准度。

S233:将所述测试样本集中每条样本的N个基础特征的值输入至所述第二广告转化率预估模型,得到所述每条样本对应的第二预估转化率。

在本实施例中,在通过测试样本集对第二广告转化率预估模型进行测试时,服务器可以将测试样本集中每条样本的N个基础特征的值输入至第二广告转化率预估模型,并将第二广告转化率预估模型的输出值识别为测试样本集中每条样本对应的第二预估转化率。

S234:根据所述每条样本对应的第二预估转化率和实际转化率,确定所述第二广告转化率预估模型对应的接收者操作特性曲线、归一化信息熵及校准度。

服务器通过第二广告转化率预估模型得到测试样本集中每条样本对应的第二预估转化率后,可以根据测试样本集中每条样本对应的第二预估转化率和每条样本对应的实际转化率,确定第二广告转化率预估模型对应的接收者操作特征曲线、归一化信息熵及校准度。

其中,根据每条测试样本对应的第二预估转化率以及每条测试样本对应的实际转化率,确定第二广告转化率预估模型对应的ROC曲线可以为:根据每条测试样本对应的第二预估转化率、每条测试样本对应的实际转化率以及预设转化率阈值,确定第二广告转化率预估模型对应的真正类率和假正类率,并基于每条测试样本对应的第二预估转化率绘制ROC曲线。

根据每条测试样本对应的第二预估转化率以及每条测试样本对应的实际转化率,确定第二广告转化率预估模型的归一化信息熵可以为:

根据以下公式确定第一广告转化率预估模型对应的归一化信息熵:

其中,NE为归一化信息熵;n为测试样本集的个数;yi为每条测试样本对应的真实值,yi的取值范围为{-1,1},-1表示该测试样本为负样本,1表示测试样本为正样本;yi可以根据测试样本的实际转化率确定,例如,若测试样本的实际转化率大于预设转化率阈值,则该测试样本为正样本,yi为1;若测试样本的实际转化率小于预设转化率阈值,则该样本为负样本,yi为-1;pi2为每条测试样本对应的第二预估转化率;p为测试样本集中正样本占总的测试样本的比例。

根据每条测试样本对应的第二预估转化率以及每条测试样本对应的实际转化率,确定第二广告转化率预估模型的ROC曲线对应的校准度可以为:计算每条测试样本的第二预估转化率与实际转化率的比值,并计算测试样本集中所有样本的第二预估转化率与实际转化率的比值的平均值,该平均值即为校准度。

S235:根据所述第一广告转化率预估模型和所述第二广告转化率预估模型各自对应的接收者操作特性曲线、归一化信息熵及校准度,对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果。

在本实施例中,在确定了第一广告转化率预估模型和第二广告转化率预估模型各自对应的接收者操作特性曲线、归一化信息熵及校准度后,服务器可以根据第一广告转化率预估模型和第二广告转化率预估模型各自对应的接收者操作特性曲线、归一化信息熵及校准度,对第一广告转化率预估模型和第二广告转化率预估模型进行评估,得到评估结果。

具体的,服务器根据第一广告转化率预估模型和第二广告转化率预估模型各自对应的接收者操作特性曲线、归一化信息熵及校准度,对第一广告转化率预估模型和第二广告转化率预估模型进行评估,可以为:计算第一广告转化率预估模型的ROC曲线对应的预设面积值,并计算第二广告转化率预估模型的ROC曲线对应的预设面积值;将第一广告转化率预估模型的ROC曲线对应的预设面积值、归一化信息熵及校准度分别与第二广告转化率预估模型的ROC曲线对应的预设面积值、归一化信息熵及校准度进行比较,进而得到评估结果。

需要说明的是,在本实施例中,ROC曲线对应的预设面积值越大,模型越优;归一化信息熵越小,模型越优;校准度越接近1,模型越优。

例如,在本实施例中,若第一广告转化率预估模型的ROC曲线对应的预设面积值为0.756,归一化信息熵为0.897,校准度为1.005。第二广告转化率预估模型的ROC曲线对应的预设面积值为0.771,归一化信息熵为0.881,校准度为0.996。由于第二广告转化率预估模型的ROC曲线对应的预设面积值大于第二广告转化率预估模型的ROC曲线对应的预设面积值,第二广告转化率预估模型的归一化信息熵小第二广告转化率预估模型的归一化信息熵,第二广告转化率预估模型的校准度更接近1,因此,评估结果为第二广告转化率预估模型优于第一广告转化率预估模型。

在本实施例中,在设置好第一LR模型、GBDT模型及第二LR模型各自对应的预设模型参数后,为了保证在所设定的预设模型参数下训练出来的模型的稳定性,服务器可以采用多组随机种子来对样本集进行划分,进而得到多组不同的测试样本集。服务器可以基于多组不同的测试样本集对第一广告转化率预估模型和第二广告转化率预估模型进行多次测试,并根据多次测试得到的ROC曲线对应的预设面积值的均值、归一化信息熵的均值及校准度的均值,对第一广告转化率预估模型和第二广告转化率预估模型进行评估。

S24:基于所述评估结果,从所述第一广告转化率预估模型和所述第二广告转化率预估模型中确定目标广告转化率预估模型,并根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。

服务器得到评估结果后,基于评估结果,从第一广告转化率预估模型和第二广告转化率预估模型中确定目标广告转化率预估模型,并根据目标广告转化率预估模型对待投放广告的转化率进行预估。

在本实施例中,S24具体可以包括以下步骤:

若所述评估结果为所述第一广告转化率预估模型优于所述第二广告转化率预估模型,则将所述第一广告转化率预估模型识别为目标广告转化率预估模型;

若所述评估结果为所述第二广告转化率预估模型优于所述第一广告转化率预估模型,则将所述第二广告转化率预估模型识别为目标广告转化率预估模型;

根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。

若评估结果为第一广告转化率预估模型优于第二广告转化率预估模型,则说明第一广告转化率预估模型对广告转化率预估的准确率高于第二广告转化率预估模型对广告转化率预估的准确率,此时服务器将第一广告转化率预估模型识别为目标广告转化率预估模型;若评估结果为第二广告转化率预估模型优于第一广告转化率预估模型,则说明第二广告转化率预估模型对广告转化率预估的准确率高于第一广告转化率预估模型对广告转化率预估的准确率,此时服务器将第二广告转化率预估模型识别为目标广告转化率预估模型。

服务器在确定了目标广告转化率预估模型后,在预设时间间隔内,若接收到预估广告转化率的请求,则根据目标广告转化率预估模型对待投放广告的转化率进行预估。待投放的广告可以为一条,也可以为至少两条,此处不做限制。

根据目标广告转化率预估模型对待投放广告的转化率进行预估,具体可以为:将待投放广告对应的多个基础特征的值进行预处理并输入至目标广告转化率预估模型中,将目标广告转化率预估模型的输出值识别为待投放广告对应的预估转化率。

上述方案,服务器获取预设时段内展示广告生成的历史日志数据,并对所述历史日志数据进行预处理,得到样本集;基于所述样本集,分别对广告转化率预估模型的控制模型和实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型;其中,所述控制模型为第一逻辑回归模型,所述实验模型包括梯度上升决策树模型和第二逻辑回归模型;根据预设的评估指标对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果;基于所述评估结果,从所述第一广告转化率预估模型和所述第二广告转化率预估模型中确定目标广告转化率预估模型,并根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。由于用于训练模型的样本集是基于预设时段内展示广告生成的历史数据生成的,且在训练好模型后,对模型进行评估,并根据实时评估结果确定目标广告转化率预估模型,基于目标广告转化率预估模型预估广告的转化率,从而提高了广告转化率预估的准确率。

本发明实施例还提供一种服务器,该服务器包括用于执行前述任一项所述的预估广告转化率的方法的单元。具体的,参见图3,图3是本发明实施例提供的一种服务器的示意性框图。本实施例的服务器300可以包括预处理单元301、模型训练单元302、模型评估单元303及转化率预估单元304。

预处理单元301用于获取预设时段内展示广告生成的历史日志数据,并对所述历史日志数据进行预处理,得到样本集。

模型训练单元302用于基于所述样本集,分别对广告转化率预估模型的预设控制模型和预设实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型。

模型评估单元303用于根据预设的评估指标对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果。

转化率预估单元304用于基于所述评估结果,从所述第一广告转化率预估模型和所述第二广告转化率预估模型中确定目标广告转化率预估模型,并根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。

进一步的,所述样本集包括训练样本集;所述控制模型为第一逻辑回归模型,所述实验模型包括梯度上升决策树模型和第二逻辑回归模型。

模型训练单元302包括第一模型训练单元3021和第二模型训练单元3022。

第一模型训练单元3021用于基于所述训练样本集,对所述第一逻辑回归模型进行训练,将训练好的所述第一逻辑回归模型识别为所述第一广告转化率预估模型。

第二模型训练单元3022用于基于所述训练样本集,对所述梯度上升决策树模型进行训练,并基于所述训练样本集以及训练好的所述梯度上升决策树模型,对所述第二逻辑回归模型进行训练,将训练好的所述梯度上升决策树模型和训练好的所述第二逻辑回归模型进行组合,得到所述第二广告转化率预估模型;其中,所述梯度上升决策树模型的输出值为所述第二逻辑回归模型对应的部分输入值。

进一步的,所述训练样本集中的每条样本均包括广告的实际转化率以及与广告相关的N个基础特征的值,N为正整数。

第一模型训练单元3021具体用于:对所述第一逻辑回归模型对应的预设模型参数进行设置;将所述训练样本集中每条样本的N个基础特征的值作为所述第一逻辑回归模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述第一逻辑回归模型的输出值,对所述第一逻辑回归模型进行训练;将训练好的所述第一逻辑回归模型识别为所述第一广告转化率预估模型。

第二模型训练单元3022具体用于:对所述梯度上升决策树模型和所述第二逻辑回归模型各自对应的预设模型参数进行设置;将所述训练样本集中每条样本的N个基础特征的值作为所述梯度上升决策树模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述梯度上升决策树模型的输出值,对所述梯度上升决策树模型进行训练;将所述训练样本集中每条样本的N个基础特征的值输入至训练好的所述梯度上升决策树模型,并将所述梯度上升决策树模型的输出值以及所述训练样本集中每条样本的N个基础特征的值作为所述第二逻辑回归模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述第二逻辑回归模型的输出值,对所述第二逻辑回归模型进行训练;将训练好的所述梯度上升决策树模型和训练好的所述第二逻辑回归模型进行组合,得到所述第二广告转化率预估模型。

进一步的,所述预设的评估指标包括以下评估指标中至少任意两种的组合:接收者操作特性曲线对应的预设面积值、归一化信息熵及校准度。

进一步的,所述样本集包括测试样本集;所述测试样本集中的每条样本均包括广告的实际转化率以及与广告相关的N个基础特征的值,N为正整数。

模型评估单元303包括:第一测试单元3031、第一确定单元3032、第二测试单元3033、第二确定单元3034、评估结果确定单元3035。

第一测试单元3031用于将所述测试样本集中每条样本的N个基础特征的值输入至所述第一广告转化率预估模型,得到所述每条样本对应的第一预估转化率。

第一确定单元3032用于根据所述每条样本对应的第一预估转化率和实际转化率,确定所述第一广告转化率预估模型对应的接收者操作特性曲线、归一化信息熵及校准度。

第二测试单元3033用于将所述测试样本集中每条样本的N个基础特征的值输入至所述第二广告转化率预估模型,得到所述每条样本对应的第二预估转化率。

第二确定单元3034用于根据所述每条样本对应的第二预估转化率和实际转化率,确定所述第二广告转化率预估模型对应的接收者操作特性曲线、归一化信息熵及校准度。

评估结果确定单元3035用于根据所述第一广告转化率预估模型和所述第二广告转化率预估模型各自对应的接收者操作特性曲线、归一化信息熵及校准度,对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果。

进一步的,转化率预估单元304具体用于:若所述评估结果为所述第一广告转化率预估模型优于所述第二广告转化率预估模型,则将所述第一广告转化率预估模型识别为目标广告转化率预估模型;若所述评估结果为所述第二广告转化率预估模型优于所述第一广告转化率预估模型,则将所述第二广告转化率预估模型识别为目标广告转化率预估模型;根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。

上述方案,服务器获取预设时段内展示广告生成的历史日志数据,并对所述历史日志数据进行预处理,得到样本集;基于所述样本集,分别对广告转化率预估模型的控制模型和实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型;其中,所述控制模型为第一逻辑回归模型,所述实验模型包括梯度上升决策树模型和第二逻辑回归模型;根据预设的评估指标对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果;基于所述评估结果,从所述第一广告转化率预估模型和所述第二广告转化率预估模型中确定目标广告转化率预估模型,并根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。由于用于训练模型的样本集是基于预设时段内展示广告生成的历史数据生成的,且在训练好模型后,对模型进行评估,并根据实时评估结果确定目标广告转化率预估模型,基于目标广告转化率预估模型预估广告的转化率,从而提高了广告转化率预估的准确率。

参见图4,图4是本发明再一实施例提供的一种服务器的示意框图。如图4所示的本实施例中的服务器400可以包括:一个或多个处理器401、一个或多个输入设备402、一个或多个则输出设备403及一个或多个存储器404。上述处理器401、输入设备402、则输出设备403及存储器404通过通信总线405完成相互间的通信。存储器404用于存储计算机程序,所述计算机程序包括程序指令。处理器401用于执行存储器404存储的程序指令。其中,处理器401被配置用于调用所述程序指令执行以下操作:

获取预设时段内展示广告生成的历史日志数据,并对所述历史日志数据进行预处理,得到样本集;

基于所述样本集,分别对广告转化率预估模型的预设控制模型和预设实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型;

根据预设的评估指标对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果;

基于所述评估结果,从所述第一广告转化率预估模型和所述第二广告转化率预估模型中确定目标广告转化率预估模型,并根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。

进一步的,所述样本集包括训练样本集;所述控制模型为第一逻辑回归模型,所述实验模型包括梯度上升决策树模型和第二逻辑回归模型;处理器401具体被配置用于调用所述程序指令执行以下操作:

基于所述训练样本集,对所述第一逻辑回归模型进行训练,将训练好的所述第一逻辑回归模型识别为所述第一广告转化率预估模型;

基于所述训练样本集,对所述梯度上升决策树模型进行训练,并基于所述训练样本集以及训练好的所述梯度上升决策树模型,对所述第二逻辑回归模型进行训练,将训练好的所述梯度上升决策树模型和训练好的所述第二逻辑回归模型进行组合,得到所述第二广告转化率预估模型;其中,所述梯度上升决策树模型的输出值为所述第二逻辑回归模型对应的部分输入值。

进一步的,所述训练样本集中的每条样本均包括广告的实际转化率以及与广告相关的N个基础特征的值,N为正整数;处理器401具体被配置用于调用所述程序指令执行以下操作:

对所述第一逻辑回归模型对应的预设模型参数进行设置;

将所述训练样本集中每条样本的N个基础特征的值作为所述第一逻辑回归模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述第一逻辑回归模型的输出值,对所述第一逻辑回归模型进行训练;

将训练好的所述第一逻辑回归模型识别为所述第一广告转化率预估模型。

进一步的,所述训练样本集中的每条样本均包括广告的实际转化率以及与广告相关的N个基础特征的值,N为正整数;处理器401具体被配置用于调用所述程序指令执行以下操作:

对所述梯度上升决策树模型和所述第二逻辑回归模型各自对应的预设模型参数进行设置;

将所述训练样本集中每条样本的N个基础特征的值作为所述梯度上升决策树模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述梯度上升决策树模型的输出值,对所述梯度上升决策树模型进行训练;

将所述训练样本集中每条样本的N个基础特征的值输入至训练好的所述梯度上升决策树模型,并将所述梯度上升决策树模型的输出值以及所述训练样本集中每条样本的N个基础特征的值作为所述第二逻辑回归模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述第二逻辑回归模型的输出值,对所述第二逻辑回归模型进行训练;

将训练好的所述梯度上升决策树模型和训练好的所述第二逻辑回归模型进行组合,得到所述第二广告转化率预估模型。

进一步的,所述预设的评估指标包括以下评估指标中至少任意两种的组合:接收者操作特性曲线对应的预设面积值、归一化信息熵及校准度。

进一步的,所述样本集包括测试样本集;所述测试样本集中的每条样本均包括广告的实际转化率以及与广告相关的N个基础特征的值,N为正整数;处理器401具体被配置用于调用所述程序指令执行以下操作:

将所述测试样本集中每条样本的N个基础特征的值输入至所述第一广告转化率预估模型,得到所述每条样本对应的第一预估转化率;

根据所述每条样本对应的第一预估转化率和实际转化率,确定所述第一广告转化率预估模型对应的接收者操作特性曲线、归一化信息熵及校准度;

将所述测试样本集中每条样本的N个基础特征的值输入至所述第二广告转化率预估模型,得到所述每条样本对应的第二预估转化率;

根据所述每条样本对应的第二预估转化率和实际转化率,确定所述第二广告转化率预估模型对应的接收者操作特性曲线、归一化信息熵及校准度;

根据所述第一广告转化率预估模型和所述第二广告转化率预估模型各自对应的接收者操作特性曲线、归一化信息熵及校准度,对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果。

进一步的,处理器401具体被配置用于调用所述程序指令执行以下操作:

若所述评估结果为所述第一广告转化率预估模型优于所述第二广告转化率预估模型,则将所述第一广告转化率预估模型识别为目标广告转化率预估模型;

若所述评估结果为所述第二广告转化率预估模型优于所述第一广告转化率预估模型,则将所述第二广告转化率预估模型识别为目标广告转化率预估模型;

根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。

应当理解,在本发明实施例中,所称处理器401可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备402可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备403可以包括显示器(LCD等)、扬声器等。

该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。

具体实现中,本发明实施例中所描述的处理器401、输入设备402、输出设备403可执行本发明实施例提供的预估广告转化率的方法的第一实施例和第二实施例中所描述的实现方式,也可执行本发明实施例所描述的服务器的实现方式,在此不再赘述。

在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:

获取预设时段内展示广告生成的历史日志数据,并对所述历史日志数据进行预处理,得到样本集;

基于所述样本集,分别对广告转化率预估模型的预设控制模型和预设实验模型进行训练,得到第一广告转化率预估模型和第二广告转化率预估模型;

根据预设的评估指标对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果;

基于所述评估结果,从所述第一广告转化率预估模型和所述第二广告转化率预估模型中确定目标广告转化率预估模型,并根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。

进一步的,所述样本集包括训练样本集;所述控制模型为第一逻辑回归模型,所述实验模型包括梯度上升决策树模型和第二逻辑回归模型;所述计算机程序被处理器执行时具体实现:

基于所述训练样本集,对所述第一逻辑回归模型进行训练,将训练好的所述第一逻辑回归模型识别为所述第一广告转化率预估模型;

基于所述训练样本集,对所述梯度上升决策树模型进行训练,并基于所述训练样本集以及训练好的所述梯度上升决策树模型,对所述第二逻辑回归模型进行训练,将训练好的所述梯度上升决策树模型和训练好的所述第二逻辑回归模型进行组合,得到所述第二广告转化率预估模型;其中,所述梯度上升决策树模型的输出值为所述第二逻辑回归模型对应的部分输入值。

进一步的,所述训练样本集中的每条样本均包括广告的实际转化率以及与广告相关的N个基础特征的值,N为正整数;所述计算机程序被处理器执行时具体实现:

对所述第一逻辑回归模型对应的预设模型参数进行设置;

将所述训练样本集中每条样本的N个基础特征的值作为所述第一逻辑回归模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述第一逻辑回归模型的输出值,对所述第一逻辑回归模型进行训练;

将训练好的所述第一逻辑回归模型识别为所述第一广告转化率预估模型。

进一步的,所述训练样本集中的每条样本均包括广告的实际转化率以及与广告相关的N个基础特征的值,N为正整数;所述计算机程序被处理器执行时具体实现:

对所述梯度上升决策树模型和所述第二逻辑回归模型各自对应的预设模型参数进行设置;

将所述训练样本集中每条样本的N个基础特征的值作为所述梯度上升决策树模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述梯度上升决策树模型的输出值,对所述梯度上升决策树模型进行训练;

将所述训练样本集中每条样本的N个基础特征的值输入至训练好的所述梯度上升决策树模型,并将所述梯度上升决策树模型的输出值以及所述训练样本集中每条样本的N个基础特征的值作为所述第二逻辑回归模型的输入值,将所述训练样本集中每条样本的实际转化率作为所述第二逻辑回归模型的输出值,对所述第二逻辑回归模型进行训练;

将训练好的所述梯度上升决策树模型和训练好的所述第二逻辑回归模型进行组合,得到所述第二广告转化率预估模型。

进一步的,所述预设的评估指标包括以下评估指标中至少任意两种的组合:接收者操作特性曲线对应的预设面积值、归一化信息熵及校准度。

进一步的,所述样本集包括测试样本集;所述测试样本集中的每条样本均包括广告的实际转化率以及与广告相关的N个基础特征的值,N为正整数;所述计算机程序被处理器执行时具体实现:

将所述测试样本集中每条样本的N个基础特征的值输入至所述第一广告转化率预估模型,得到所述每条样本对应的第一预估转化率;

根据所述每条样本对应的第一预估转化率和实际转化率,确定所述第一广告转化率预估模型对应的接收者操作特性曲线、归一化信息熵及校准度;

将所述测试样本集中每条样本的N个基础特征的值输入至所述第二广告转化率预估模型,得到所述每条样本对应的第二预估转化率;

根据所述每条样本对应的第二预估转化率和实际转化率,确定所述第二广告转化率预估模型对应的接收者操作特性曲线、归一化信息熵及校准度;

根据所述第一广告转化率预估模型和所述第二广告转化率预估模型各自对应的接收者操作特性曲线、归一化信息熵及校准度,对所述第一广告转化率预估模型和所述第二广告转化率预估模型进行评估,得到评估结果。

进一步的,所述计算机程序被处理器执行时具体实现:

若所述评估结果为所述第一广告转化率预估模型优于所述第二广告转化率预估模型,则将所述第一广告转化率预估模型识别为目标广告转化率预估模型;

若所述评估结果为所述第二广告转化率预估模型优于所述第一广告转化率预估模型,则将所述第二广告转化率预估模型识别为目标广告转化率预估模型;

根据所述目标广告转化率预估模型对待投放广告的转化率进行预估。

所述计算机可读存储介质可以是前述任一实施例所述的服务器的内部存储单元,例如服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序及所述服务器所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的服务器和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本持有所提供的几个实施例中,应该理解到,所揭露的服务器和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1