一种面向大规模媒体数据的在线广告推荐系统及方法

文档序号:6543670阅读:173来源:国知局
一种面向大规模媒体数据的在线广告推荐系统及方法
【专利摘要】一种面向大规模媒体数据的在线广告推荐系统及方法,涉及计算广告学【技术领域】。本发明在线广告推荐系统中的广告调度引擎模块分别与用户端、广告管理模块、流量分析模块连接。流量分析模块分别与广告检索模块、用户行为查询模块、网页管理模块之间进行参数交换。用户行为挖掘模块分别与广告管理模块、用户行为查询模块连接,且广告管理模块还与广告检索模块连接。本发明在线广告推荐方法,完成了当用户访问网页时,根据用户信息识别用户,查询用户兴趣和理解用户行为,并根据预测的用户行为检索匹配广告,最终将在线广告推荐给用户。本发明具有良好的自学习能力,能有效提升广告推荐的智能水平,适合大数据背景下的在线广告推荐。
【专利说明】一种面向大规模媒体数据的在线广告推荐系统及方法
【技术领域】
[0001]本发明涉及计算广告学【技术领域】,具体来讲是一种面向大规模媒体数据的在线广告推荐系统及方法。
【背景技术】
[0002]利用网站上的广告横幅、文本链接、多媒体等在互联网刊登或发布广告,并通过网络传递到互联网用户的广告运作方式,与传统的四大传播媒体(报纸、杂志、电视、广播)广告相比,互联网广告具有得天独厚的优势,是实施现代营销媒体战略的重要手段。
[0003]目前,互联网广告的代表性广告形式为电子商务个性化推荐广告。该广告形式主要通过将用户的浏览历史构建精准匹配表来预测用户可能的点击倾向性。这种广告投放方法是基于文本精确匹配技术的扫描策略,尽管该方法处理速度快,但是其存在模糊识别能力不强、学习能力不足的缺点。近年来,随着媒体数据规模的爆炸式增长以及用户规模的急剧攀升,该缺点引发的问题越来越突出。例如,将随机抽取一天中100万电信运营商客户的浏览数据作为采样,发现浏览器的访问请求地址在2亿7千万条。在这种规模下,几乎无法用传统的精确匹配方式来在线推荐广告。因此,传统的精确匹配查询方式不适合大数据背景下的在线广告推荐。

【发明内容】

[0004]针对现有技术中存在的缺陷,本发明的目的在于提供一种面向大规模媒体数据的在线广告推荐系统及方法,具有良好的自学习能力,能在不降低广告预测准确度的前提下,有效提升广告推荐的智能水平,适合大数据背景下的在线广告推荐。
[0005]为达到以上目的,本发明提供一种面向大规模媒体数据的在线广告推荐系统,包括广告管理模块、广告检索模块、用户行为挖掘模块、用户行为查询模块、网页管理模块、流量分析模块以及广告调度引擎模块。所述广告调度引擎模块分别与用户端、广告管理模块、流量分析模块连接,用于完成整个广告调度执行的环境引导。所述流量分析模块分别与广告检索模块、用户行为查询模块、网页管理模块之间进行参数交换,并完成广告排序。所述用户行为挖掘模块分别与广告管理模块、用户行为查询模块连接,用于对用户的行为进行分析及预测。所述广告检索模块与广告管理模块连接,用于完成广告数据索引的构建,并对广告数据索引进行检索。所述广告管理模块,用于存储最新的广告投放策略集合。所述用户行为查询模块,用于完成用户行为信息的查询。所述网页管理模块,用于完成网页数据的管理。
[0006]在上述技术方案的基础上,所述用户行为挖掘模块包括策略更新部分和行为流检测部分。所述策略更新部分通过在线构造双Buffer动态数据区来完成最新策略的实时更新和并发使用。所述行为流检测部分用于以web服务的形式接收在线日志,并通过建立基于倒排表的索引结构来完成用户行为倾向性的预测。
[0007]在上述技术方案的基础上,所述在线日志包含用户的最新点击行为或者搜索行为。
[0008] 在上述技术方案的基础上,所述索引结构由两部分组成,一部分为分类器级别的信息列表,包含分类器ID、分类器权重、分类器内部的核心参数以及分类器包含的支持向量数量;另一部分为由哈希表构成的倒排索引,所述倒排索引的每一个key代表一个词,value表示包含这个词的支持向量集合。
[0009]在上述技术方案的基础上,所述倒排索引的每一个支持向量通过ID进行唯一标识,其中支持向量ID是一个无符号64bit的整数,高32bit用于存储支持向量所在的分类器ID,低32bit用于存储该支持向量在对应的分类器中的相对ID。
[0010]本发明还提供一种面向大规模媒体数据的在线广告推荐方法,具有如下步骤:
[0011]S1:当用户访问网页时,广告调度引擎模块从用户端获取用户ip、ua、url、region信息,并将所述信息传递给流量分析模块的请求端。
[0012]S2:网页管理模块和用户行为查询模块分别从流量分析模块处获取所需的用户参数,并按专家知识权重归并计算,完成用户兴趣的查询和近期行为的理解。
[0013]S3:广告检索模块根据广告基础分类体系,联合用户行为挖掘模块在线预测的结果,对广告数据索引进行检索,得到满足投放条件的广告列表。
[0014]S4:流量分析模块获取到满足投放条件的广告列表后,完成广告预测排序,并返回给广告调度引擎模块。
[0015]S5:广告调度引擎模块将最终的广告排序返回给用户端并进行展示。
[0016]在上述技术方案的基础上,步骤S3中,所述用户行为挖掘模块在线预测结果的步骤为:
[0017]S31:用户行为挖掘模块对所接收的用户在线日志按照词典进行快速的分词。
[0018]S32:依次获取到每一个词,按照其在词典中的词典序,在所建立的索引结构中进行检索,得到包含该词的所有支持向量。
[0019]S33:按照公式
【权利要求】
1.一种面向大规模媒体数据的在线广告推荐系统,其特征在于:包括广告管理模块(I)、广告检索模块(2)、用户行为挖掘模块(3)、用户行为查询模块(4)、网页管理模块(5)、流量分析模块(6)以及广告调度引擎模块(7);所述广告调度引擎模块(7)分别与用户端、广告管理模块(I)、流量分析模块(6)连接,用于完成整个广告调度执行的环境引导;所述流量分析模块(6)分别与广告检索模块(2)、用户行为查询模块(4)、网页管理模块(5)之间进行参数交换,并完成广告排序;所述用户行为挖掘模块(3)分别与广告管理模块(I)、用户行为查询模块(4)连接,用于对用户的行为进行分析及预测;所述广告检索模块(2)与广告管理模块(I)连接,用于完成广告数据索引的构建,并对广告数据索引进行检索;所述广告管理模块(1),用于存储最新的广告投放策略集合;所述用户行为查询模块(4),用于完成用户行为信息的查询;所述网页管理模块(5),用于完成网页数据的管理。
2.如权利要求1所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述用户行为挖掘模块(3)包括策略更新部分和行为流检测部分;所述策略更新部分通过在线构造双Buffer动态数据区来完成最新策略的实时更新和并发使用;所述行为流检测部分用于以web服务的形式接收在线日志,并通过建立基于倒排表的索引结构来完成用户行为倾向性的预测。
3.如权利要求2所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述在线日志包含用户的最新点击行为或者搜索行为。
4.如权利要求2所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述索引结构由两部分组成,一部分为分类器级别的信息列表,包含分类器ID、分类器权重、分类器内部的核心参数以及分类器包含的支持向量数量;另一部分为由哈希表构成的倒排索引,所述倒排索引的每一个key代表一个词,value表示包含这个词的支持向量集合。
5.如权利要求4所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述倒排索引的每一个支持向量通过ID进行唯一标识,其中支持向量ID是一个无符号64bit的整数,高32bit用于存储支持向量所在的分类器ID,低32bit用于存储该支持向量在对应的分类器中的相对ID。
6.一种基于权利要求1所述的面向大规模媒体数据的在线广告推荐方法,其特征在于,包括如下步骤: S1:当用户访问网页时,广告调度引擎模块(7)从用户端获取用户的ip、ua、url、region信息,并将所述信息传递给流量分析模块(6)的请求端; S2:网页管理模块(5)和用户行为查询模块(4)分别从流量分析模块(6)处获取所需的用户参数,并按专家知识权重归并计算,完成用户兴趣的查询和近期行为的理解; S3:广告检索模块(2)根据广告基础分类体系,联合用户行为挖掘模块(3)在线预测的结果,对广告数据索引进行检索,得到满足投放条件的广告列表; 54:流量分析模块(6)获取到满足投放条件的广告列表后,完成广告预测排序,并返回给广告调度引擎模块(7); 55:广告调度引擎模块(7)将最终的广告排序返回给用户端并进行展示。
7.如权利要求6所述的面向大规模媒体数据的在线广告推荐方法,其特征在于:步骤S3中,所述用户行为挖掘模块(3)在线预测结果的步骤为:S31:用户行为挖掘模块(3)对所接收的用户在线日志按照词典进行快速的分词; S32:依次获取到每一个词,按照其在词典中的词典序,在所建立的索引结构中进行检索,得到包含该词的所有支持向量; S33:按照公式
8.如权利要求7所述的面向大规模媒体数据的在线广告推荐方法,其特征在于:所述步骤S32中,所述索引结构由两部分组成,一部分为分类器级别的信息列表,包含分类器ID、分类器权重、分类器内部的核心参数以及分类器包含的支持向量数量;另一部分为由哈希表构成的倒排索引,所述倒排索引的每一个key代表一个词,value表示包含这个词的支持向量集合。
9.如权利要求8所述的面向大规模媒体数据的在线广告推荐方法,其特征在于:所述索引结构是通过以下步骤离线建立的: S321:基于一定时间内所截获的大量用户的原始浏览和搜索行为数据,按照蒙特卡洛分布比例进行样本随机抽取,得到一个SVM分类器的训练样本集,基于这种方式在每一个训练样本集中均能训练出一个SVM分类器; S322:将训练得到的一个SVM分类器按照支持向量进行提取,按照每一个支持向量包含的词,插入到倒排索引中; S323:判断当前分类器的支持向量是否全部插入,如果是,转入S326,如果否,转入S324 ; S324:判断倒排索引中哈希表的槽位冲突比是否超过λ,如果是,转入S325,如果否,转入S322 ; S325:自动调整哈希表来完成倒排索引的重构,之后转入S322 ; S326:将该分类器的信息插入到分类器级别的信息列表中; S327:判断所有分类器是否全部插入,如果是,结束,如果否,转入S322。
10.如权利要求9所述的面向大规模媒体数据的在线广告推荐方法,其特征在于:所述索引结构建立以后,根据分类器的ID,获取到分类器中包含的第一个支持向量地址P ;当指针P为非空时,沿着指针P依次进行删除操作,当支持向量列表为空,删除该key对应的支持向量链,当支持向量列表为非空,将该支持向量从双向链表中摘除;当指针P为空时,删除相应的分类器信息。
【文档编号】G06F17/30GK103955842SQ201410148218
【公开日】2014年7月30日 申请日期:2014年4月14日 优先权日:2014年4月14日
【发明者】糜万军, 金俏, 李军, 李馥岑, 邱建刚, 杨绪升 申请人:武汉烽火普天信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1