一种广告投放方法及装置的制造方法_2

文档序号:9866434阅读:来源:国知局
上广告点击率较低的问题,本发明提供了一种广告投放 方法及装置,W下结合附图W及实施例,对本发明进行进一步详细说明。应当理解,此处所 描述的具体实施例仅仅用W解释本发明,并不限定本发明。
[00%] 实施例1
[0027] 本实施例提供了一种广告投放方法,图1是本发明实施例1提供的广告点击率的预 测方法的流程图,如图1所示,该方法包括如下步骤:
[0028] 步骤101:根据广告的历史访问数据确定用户对广告的偏好信息;
[0029] 对广告的点击日志或展示日志对cookie(储存在用户本地终端上的数据)、会话标 识ID(IDentity,身份标识)、广告ID进行整合;
[0030] 通过广告的点击日志或展示日志中的广告素材ID与广告素材信息库进行整合得 到广告素材的行业描述信息;
[0031] 通过点击日志或展示日志中的cookie与用户信息进行连接整合得到该用户的属 性信息与偏好信息;
[0032] 对经过整合的数据进行清洗,去掉不合法的cookie。
[0033] 步骤102:对用户对广告的偏好信息进行特征提取;
[0034] 在对偏好信息进行特征提取之后,如果偏好信息中的特征为具有有限类别的离散 型特征,对该离散型特征进行离散化编码;如果偏好数据中的特征为连续型特征,则根据预 设模型算法的类型确定是否对连续型特征进行离散化编码。
[0035] 其中,对用户对广告的偏好信息进行特征提取包括:提取用户对广告的偏好信息 中的发生点击或展示广告时的上下文环境信息、广告的描述信息、点击W及展示广告的用 户属性信息W及用户对广告的偏好信息。
[0036] 步骤103: W提取到的特征数据为训练数据,按照预设的算法模型进行训练得到训 练模型;
[0037] 其中,W提取到的特征数据为训练数据,按照预设的算法模型进行训练得到训练 模型,包括:使用逻辑回归模型和/或树模型算法对训练数据进行训练,得到训练模型。
[0038] 使用逻辑回归模型和/或树模型算法对训练数据进行训练,得到训练模型,包括:
[0039] 在仅使用逻辑回归模型的情况下,使用逻辑回归模型在训练数据的向量空间中计 算每一个特征维度的权重值,针对广告的点击日志或展示日志中的每一条记录计算权重值 与对应特征值的加权和,再将加权和代入逻辑回归函数;在仅适用树模型的情况下,使用一 个树对训练数据进行训练,逐渐加入新的树对上一次训练得到的模型进行增强,得到训练 模型;在同时使用逻辑回归模型W及树模型的情况下,使用树模型对广告的点击日志或展 示日志中的每条记录进行分区,得到新的特征集合,使用逻辑回归模型对新的特征集合进 行训练。
[0040] 步骤104:使用训练模型对广告测试数据进行预测,得到广告的预测点击率;
[0041] 该步骤104具体可W包括:在得到广告的预测点击率之后,使用广告的验证数据确 定广告的最佳点击率阔值;如果广告的预测点击率大于最佳点击率阔值,则投放该广告,否 则放弃投放该广告。
[0042] 步骤105:根据的广告预测点击率投放广告。
[0043] 实施例2
[0044] 本实施例提供了一种广告投放方法,该方法在充分挖掘与利用用户对广告的偏好 信息的情况下,结合广告素材等多方面数据,选择合适的算法模型来进行广告点击率的预 测。在本实施例中利用如下四方面数据作为广告点击率预测的数据源:
[0045] User Profiles(用户配置文件):通过分析用户在视频网站里观看视频与点击广 告等行为挖掘出用户对广告行业偏好信息与视频网站频道偏好信息,另外,还包括用户的 性别与年龄等信息,每条信息由用户的cookie标识唯一表示;
[0046] 素材信息库:品牌广告的素材信息库,包括该广告所处的行业、子行业与品类信 息;
[0047] 广告点击日志:用户点击广告时记录下的相关信息,如时间、设备类型、操作系统 W及所在投放ID等;
[0048] 广告展示日志:广告展示时记录下的相关信息,如时间、设备类型、操作系统W及 所在投放ID等。
[0049] 将W上四方数据进行数据整合与清洗后,对整合与清洗后的数据进行格式化,形 成适合算法模型进行训练的数据格式,最后通过选择合适的算法模型进行训练得到预测广 告点击率的训练模型并验证,如图2所示,详细过程包括W下几个阶段:
[0050] 数据整合与清洗:用户如果观看了某支广告,并点击了该广告,那么广告展示日志 和广告点击日志会同时记录下该日志,且两条日志中记录的cookie、会话IDW及广告位ID 是相同的。如果用户只观看了该广告而没有点击该广告,则仅在广告展示日志里记录有该 广告。基于此,对广告点击日志或展示日志通过cookie、会话ID、广告ID进行整合,如果某个 用户在某次会话中既观看又点击了该广告,则把运条点击日志记为正样本。如果用户在某 次会话中只观看但并无点击该广告,则把运条日志记为负样本。然后,通过日志里的广告素 材ID可W与素材信息库进行连接整合得到广告素材的行业描述信息,最后通过日志里的 cookie可W与User Profiles里的用户信息进行连接整合得到该用户的属性信息与用户对 广告的偏好信息。
[0051] 其中,上述数据清洗的工作主要是通过一些验证去掉一些不合法的cookie,或者 对一些缺失数据进行处理。
[0052] 特征抽取与格式化:
[0053] 对整合与清洗过的数据要进行特征抽取与格式化,得到用于训练的特征,其中,抽 取的特征包括的信息具体可W抽取如下Ξ个方面:
[0054] 上下文信息特征,即发生当前广告行为时的上下文环境信息,比如:时间、地点、广 告位、频道、子频道、设备类型等;
[0055] 广告信息特征,即广告素材的描述信息,比如:广告行业、子行业与品类信息;
[0056] 用户信息特征,即当前用户的基础信息与偏好信息,比如:用户的性别、年龄、广告 偏好、频道偏好。
[0057] 需要对运些特征进行格式化,变成适合算法训练的数据格式,运里分两类特征,类 别特征与连续特征,需要分别进行处理。
[005引类别特征:类别特征包括设备类型、用户性别运样的具有有限几种类别的特征。需 要对它进行离散化编码,使得算法能够有效理解,采用普遍的化e-hot encoding(-位有效 编码)技术对类别特征进行编码。
[0059] 连续特征:连续特征包括素材时长、视频时长,某投放的历史CTR(Click-化rough- Rate,点击到达率)统计值等。连续特征是否需要进行离散化要根据选择的算法模型而定, 例如,逻辑回归模型由于要对各维度数据进行线性组合,所W需要进行离散化处理,而使用 树模型则不需要进行离散化。连续特征离散化一般采用分段离散的方法,比如广告素材时 长,可W分5s为一段进行One-hot encoding编码。
[0060] 模型训练:
[0061] 在本实施中具体可W选择Ξ种算法模型对数据进行训练。分别是逻辑回归模型 化ogistic Regression)、G抓T(Gradient
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1