一种品牌广告效果优化的离散计算方法_2

文档序号:9826549阅读:来源:国知局
>[0051 ]广告展示日志信息:指的是广告展示时记录下的相关信息,示例性的包括时间,设 备类型,操作系统和所在投放ID中的一个或多个;其中所述投放ID指的是所在的广告投放 活动的ID。
[0052]广告点击日志信息:用户点击广告时记录下的相关信息,示例性的包括时间,设备 类型,操作系统和所在投放ID中的一个或多个;
[0053]将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息。
[0054]在一个优选的实施例中,上述四种信息以用户的cookie标识唯一表示,从而能够 在数据的清洗中通过验证去除不需要的属性(或者说去除不合法的cookie),或者对一些缺 失的数据进行补充,整合。例如,cookie中包含有不需要用户的登录时间,或者不需要用户 的性别,则能够在整合的数据中去除上述的属性。又例如,在某个cookie中缺少用户的年 龄,在利用其它包含该用户的cookie中所具有的用户的年龄进行补充、整合。
[0055] 例如:某用户如果观看了某支广告,并点击了该广告,那么广告展示日志和广告点 击日志将分别同时记录下日志,且两条日志的cookie、会话Id以及广告位Id是相同的。如果 只观看了而没有点击该广告,则只在广告展示日志里记录有日志。对广告点击日志和广告 展示日志通过cookie,会话Id,广告Id进行整合,某个用户在某次会话中既观看又点击了该 广告,则把这条点击日志记为正样本。如果用户在某次会话中只观看但并无点击该广告,则 把这条日志记为负样本。然后,通过日志里的广告素材Id可以与素材信息库进行连接整合 得到广告素材的行业描述信息,最后通过日志里的cookie可以与用户信息库里的用户信息 进行连接整合得到该用户的人口属性与偏好信息。
[0056] 特征提取及格式化步骤S120:对清洗及整合后的数据进行特征提取与格式化,将 格式化后的数据按照一定的比例进行分配得到模型训练数据和模型验证数据;即模型训练 数据和模型验证数据都是相同格式的数据,仅仅是分配的数量不同而已。进一步优选的,模 型训练数据和模型验证数据的比例为7: 3。
[0057]进一步的,所述特征提取进一步包括抽取三方面不同的特征,包括:
[0058]上下文信息特征,即发生当前广告行为时的上下文环境信息,例如:时间、地点、广 告位、频道、子频道和设备类型;
[0059] 广告信息特征,即广告素材的描述信息,例如:广告行业,子行业与品类信息;
[0060] 用户信息特征,即当前用户的基础信息与偏好信息,例如:性别、年龄、广告偏好和 频道偏好。
[0061] 进一步的,所述格式化包括将上述三种特征进行格式化,变成适合算法训练的数 据格式。这里分两类特征,类别特征与连续特征,需要分别进行处理。
[0062] 所述类别特征:指的是具有有限几种类别的特征,包括设备类型、性别等,需要对 它进行离散化编码,使得算法计算时能够有效理解。采用普遍的独热编码(One-hot encoding)技术对类别特征进行编码。
[0063] 所述连续特征,指的是具有连续范围的特征,包括素材时长,视频时长,某投放的 历史CTR统计值等。连续特征是否需要进行离散化要根据选择的算法模型而定。当采用逻辑 回归模型由于要对各维度数据进行线性组合,所以需要进行离散化处理,而使用树模型则 不需要进行离散化。连续特征离散化一般采用分段离散的方法,比如广告素材时长,可以分 5s为一段进行One-hot encoding编码。
[0064] 模型训练及验证步骤S130:使用模型训练数据利用逻辑回归模型算法(Logistic Regression)得到逻辑回归模型,使用模型验证数据在逻辑回归模型中进行验证,得到预测 的点击率阈值;
[0065] 逻辑回归模型算法(Logistic Regression):逻辑回归模型是一个应用十分普遍 的模型,它在整个向量空间中计算每一个特征维度的权重,对每一条记录,都计算这些权重 与对应特征值的加权和,再把结果应用一个Log i s t i c函数得到点击率预测概率值。
[0066] 模型测试及投放步骤S140:使用最近的广告投放的所述四种数据,利用特征提取 及格式化步骤S120的方法得到所述模型测试数据,将所述模型测试数据输入到逻辑回归模 型中获得的点击率值与预先设定的点击率阈值比较,大于等于所述点击率阈值则进行投 放,小于点击率阈值则不投放。
[0067] 参见图2,进一步公开了模型训练与测试体系的示意图。利用原始数据根据步骤 S110和S120得到第一份格式化数据,例如第一天的数据,并将该格式化数据分为模型训练 数据和模型验证数据;通过模型训练得到逻辑回归模型,并利用模型验证数据进行验证,从 而调整得到点击率阈值。
[0068] 将第一份格式化数据之后投放广告得到的数据,例如第二天的数据,也利用步骤 S110和S120得到第二份格式化数据,并将该格式化数据作为测试数据通过逻辑回归模型得 到点击率值与预先设定的点击率阈值比较,大于等于预先设定的点击率阈值则进行投放, 小于预先设定的点击率阈值则不投放。这样,能够得知是否应当继续投放广告,从而进行第 三天的投放。
[0069]而在广告继续投放时,也继续利用第三天的数据通过步骤S110和S120得到格式化 数据,并将该格式化数据作为测试数据通过逻辑回归模型得到点击率值与预先设定的点击 率阈值比较,从而判断是否投放数据。后续的广告投放也采用类似的方式,这样,每天投放 的广告得到的数据都能为后一天广告是否投放进行参考,从而实现了广告投放的动态判 断。
[0070]进一步的,在所述模型训练及验证步骤S130中:将逻辑回归模型算法(Logistic Regression)与梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT)结 合,得到逻辑回归模型。
[0071]其中,逻辑回归模型算法(Logistic Regression)的模型构建算法,采用常规算 法 ^ 也可参考 https: //en. wikipedia. org/wiki/Logistic_regress ion 〇
[0072] 梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT)采用常规 算法 ^ 也可参考 https://en.wikipedia.org/wiki/Decision_tree 〇
[0073] 实施例1:
[0074] 使用视频网站里一天的广告点击日志,广告展示日志,广告素材信息,用户信息进 行数据整合与清洗后对特征进行抽取与格式化。一共提取35项特征,其中上下文特征包括: 时间、城市、设备类型等;广告素材特征包括:素材行业,子行业,品类;用户信息特征包括: 性别,年龄,广告偏好,频道偏好;组合特征包括:时间与设备类型组合,性别与广告行业组 合等,即已存在的属性进行组合变成新的特性。抽取后的这些特征要经过One-hot encoding编码进行离散化,因此这35项特征一共映射到5369维特征空间中。每个样本将表 示为5369维的向量和自身是正样本或负样本标识的记录。由于5369维是一个很大的特征空 间,而且整个数据矩阵是非常稀疏的,所以只存储有值的特征维度。如图3,第一列是正负样 本的标识,1表示正样本,〇表示负样本,后面的每列是以维度为key,该维度特征值为value 的组合key: value数据。
[0075]经过建模后,进行验证、测试,可以使用精确率,召回率,F值与按该模型投放的新 点击率四项指标来描述模型的好坏。结果如表1所示。
[0077] 表1:逻辑回归模型效果
[0078] 本发明充分地利用了视频网站中被挖掘出的大量用户信息,包括人口基础信息和 偏好,还能够结合素材本身的行业描述,对这些数据整合、清洗;再进行特征抽取与格式化, 获取用于模型训练的特征;通过得到特征数据进行逻辑回归模型训练得到优化模型并验 证,利用随后的测试数据经过与点击率阈值的比较进行广告投放判断。经过实践证明,本发 明提高了对新广告投放的各项指标均有大幅提高,更精准地向用户投放广告,提高点击率。
[0079] 参见图4,本发明还公开了一种广告效果优化的离散计算装置,包括如下单元:
[0080] 数据源清洗及整合单元S210:获得四种数据作为点击率优化模型的数据源,所述 四种数据包括:
[0081] 用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户 关高行业偏好信息以及视频网站偏好信息,
[0082] 素材信息数据:指的是品牌广告的素材信息,
[0083]广告展示日志信息:指的是广告展示时记录下的相关信息,
[0084 ]广告点击日
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1