一种n+广告投放优化方法_2

文档序号:8457703阅读:来源:国知局
ginal_804_811 (train0riginal_804_806),该数据集包含 以下属性:cookie,视频分类(62类离散),是否长视频,视频时长(分段离散),是否注册, 史来vv计数(分段离散),史来session计数,本次session的vv计数,是否再次访问。
[0028] 其中,整合规则为:首先,accessCookieAttrs_804 与vvCookieAttrs_804 通过 cookieOsessionld值进行连接得到temp_804,包含属性:cookie(只取cookieOsessionld 的cookie部分),视频分类(62类离散),是否长视频,视频时长(分段离散),是否注册,史 来VV计数(分段离散),史来session计数,本次session的VV计数,时间戳。其中视频时 长以10分钟为一段进行分段离散,史来vv计数以10为一段进行分段离散,cookie不唯一。 然后,temp_804再与cookieNum_805_811进行连接生成类标签,若temp_804中的某cookie 在cookieNum_805_811中存在,贝是否再来label为1,若不存在,贝对该同一cookie的所 有记录求时间戳最大值的记录,该记录的label为0,其余的label为1,此种情况表示:如 果某cookie在8. 04这一天出现多次,但在之后一周内并未出现,那么该cookie在8. 04这 一天最后一次出现时(时间戳最大)的label为0,其余时间出现时因为之后还会再出现所 以label为 1 ;
[0029] 步骤1. 5,将步骤1. 4得到的数据集train0riginal_804_811进行简单抽样得到三 份新的数据集,分别为CART训练数据集train0riginal_804_811_train,10w条记录;剪枝 数据集train0riginal_804_811_prune,5w条记录;测试数据集train0riginal_804_811_ test,5w条记录,其中,a、b、c用于标识时间,本实施例中a到c为一周的时间跨度。
[0030] 第二步,建立CART分类树模型。
[0031] 使用训练数据集train0riginal_804_811_train进行建树,建树后使用剪枝数 据集train0riginal_804_811_prune对树进行后剪枝得到模型树,最后通过测试数据集 train0riginal_804_811_test进行简单的测试。经过反复调整输入参数并测试能够得到 最佳分类性能。最终生成的模型树为:nplus_tree_804_811.model,输入参数值最终调整为 ratio_threshold:0. 94,num_threshold:200,gini_threshold:0. 002
[0032] 第三步,进行N+广告投放预测与算法性能的评估。
[0033] 使用新一周(2014. 08. 12-2014. 08. 18)的数据进行N+广告投放预测与算法 性能评估。重复步骤1.1-1. 4生成新一周(2014. 08. 12-2014. 08. 18)的数据,记为: simulateCookie_812_818,属性为:cookie@sessionId,视频分类(62类离散),是否长视 频,视频时长(分段离散),是否注册,vvstep史来计数(分段离散),sevvstep本次session 计数,seidcount史来session计数。
[0034] 设定是否投放的阈值threshold,设定有效接触广告的次数为N(2 <N< 6),顺序 遍历simulateCookie_812_818的数据,对每条数据应用模型预测是否投放,如果投放,贝1J将该cookie加入hash表〈cookie,cookieNum〉;对每条数据,先看hash表中是否存在投放 记录,如果存在投放记录,则该cookieNum++,如果不存在投放记录,则判断是否需要投放, 这样得到一个投放记录结果。检查cookie对应的cookieNum是否大于等于N值,来计算的 正确率和召回率,得到的结果如下表1所示:
[0035]
【主权项】
1. 一种N+广告投放优化方法,包括: 第一步,抽取目标客户浏览视频的标记值(即cookie)特征数据,生成CART分类树的 训练、剪枝、测试数据; 第二步,建立CART分类树模型; 第三步,抽取新的一段时间内的数据,进行N+广告投放预测与算法性能评估。
2. 如权利要求1所述的方法,其中第一步生成CART分类树的训练、剪枝、测试数据的步 骤进一步包括: 步骤1.1,从视频平台数据系统中记录视频广播播放日志的access日志表中抽取某一 天的cookie数据,记为:accessCookieAttrs_a; 步骤1.2,从视频平台数据系统中记录用户相关属性信息的vvlog日志表中抽取该天 的cookie数据,记为:vvCookieAttrs_a; 步骤1. 3,统计access日志表中一定时间跨度内cookie出现的次数,记为:cookieNum-b-c; 步骤I. 4,整合连接上述三个步骤得到的三个数据集:accessCookieAttrs_a, vvCookieAttrs_a,cookieNum_b_c,生成是否再来类属标签,得到新的数据集,记为: trainOriginal_a-c ; 步骤1. 5,将步骤1. 4得到的数据集trainOriginal_a_c进行抽样得到三份新的数据 集,分别为CART训练数据集trainOriginal_a_c_train,剪枝数据集trainOriginal_a_c_ prune,测试数据集trainOriginal_a_c_test, 其中,a、b、c用于标识时间,a到c为一周的时间跨度。
3. 如权利要求2所述的方法,第二步进一步包括: 使用CART训练数据集trainOriginal_a_c_train建立分类树,建树后使用剪枝数据集trainOriginal_a_c_prune对树进行后剪枝得到模型树,通过测试数据集trainOriginal_ a_c_test进行测试,经过反复调整测试能够得到最佳分类性能。
4. 如权利要求3所述的方法,第三步进一步包括: 重复步骤1.卜1. 4生成新的一段时间的数据,记为:simulateCookie_d_e;设定 是否投放的阈值threshold,设定有效接触广告的次数为N,其中2< 6,顺序遍历 SimUlateC〇〇kie_812_818的数据,对每条数据应用模型预测是否投放,如果投放,则将该cookie加入hash表〈cookie,cookieNum〉;对每条数据,先看hash表中是否存在投放记录, 如果存在投放记录,则该cookieNum++,如果不存在投放记录,则判断是否需要投放,这样得 到一个投放记录结果。
【专利摘要】本发明提供一种N+广告投放优化方法,该方法将对目标客户浏览视频的标记值(即cookie)在未来一段时间(例如一周)内出现N次的概率做一个预测并得到预测值,设定一个概率阈值threhold,该预测值大于等于该阈值才对该cookie进行广告投放,小于则不投放。业内对该广告投放也称作播种,不投放则称作不播种。该方法能有效降低资源浪费,并能保证收益。
【IPC分类】G06Q30-02
【公开号】CN104778608
【申请号】CN201510174030
【发明人】雷龙艳, 章岑, 朱凯泉, 房晓宇, 江建博, 潘柏宇, 卢述奇
【申请人】合一信息技术(北京)有限公司
【公开日】2015年7月15日
【申请日】2015年4月13日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1