基于云计算的受众行为分析广告定向系统的制作方法

文档序号:6430752阅读:130来源:国知局

专利名称::基于云计算的受众行为分析广告定向系统的制作方法
技术领域
:本发明涉及网络广告发布、web文本挖掘及信息检索技术,尤其涉及一种基于云计算的受众行为分析广告定向系统(简称“ABT系统”)。
背景技术
:中国的互联网广告正处于蓬勃的发展时期,根据CNNIC《第沈次中国互联网络发展状况统计报告》显示,截至2010年6月底,我国网民规模达4.2亿人,互联网普及率持续上升增至31.8%。随着互联网络的高速发展,网络广告也得到了较快的发展。网络已经成为继电视广播、报刊杂志和户外广告以外的第四大广告媒体。随着上网人数的不断增加以及网络技术的不断进步,网络广告将成为最为经济有效的广告形式之一。互联网广告区别于传统广告最大的优势在于定向技术使得广告投放的针对性更强,并且具有传统广告无法比拟的交互特性和数据跟踪监测能力。现在,市场上的互联网广告,一般会通过媒体选择辅以时间、地域等技术定向手段来实现针对性投放,个别国际领先的搜索引擎公司还采用了页面内容定向的手段来进一步提高广告投放的针对性和准确性。但是,真正的精准投放,是需要一对一地把广告精确地投放给真正对他感兴趣的人,这样才能用最少的流量资源取得最好的投放效果,才能最大程度发挥出互联网广告区别于传统媒体的优势。目前,广告主对于精准投放的认识逐渐形成,精准投放的需求日益强烈,而由于技术和媒体资源的壁垒,这部分市场还处于比较初级的阶段,市场空间巨大。而广告精准投放,提升广告效果,既是互联网广告投放最重要目标,也是整个互联网广告市场乃至互联网行业发展的核心推动力。基于云计算的受众行为分析广告定向系统致力于广告精准投放,提升广告效果,既是互联网广告投放最重要目标,也是整个互联网广告市场乃至互联网行业发展的核心推动力。因而,旨在把广告投放给真正感兴趣的人这种用户层面上的精准定向,成为了未来互联网广告领域最重要研究方向。
发明内容有鉴于此,本发明的主要目的在于提供一种基于云计算的受众行为分析广告定向系统,利用数据挖掘分析、云存储和云计算技术对互联网用户的行为进行研究,实现针对每一个互联网受众,准确分析判断其用户属性、兴趣爱好,从而根据其兴趣点及附加属性,准确地投放相应类型的广告。为达到上述目的,本发明的技术方案是这样实现的—种基于云计算的受众行为分析广告定向ABT系统,该系统主要包括用户轨迹存储模块、用户行为分析模块、复合搜索模块、网页内文分析模块、实时定向模块、集群调度及管理模块;其中用户轨迹存储模块,在广告投放过程中,用于针对用户浏览记录进行用户访问轨迹信息的收集和存储,所述用户访问轨迹信息是所述ABT系统中进行用户行为分析的主要数据来源;用户行为分析模块,采用Map/Reduce计算模型,用以保证大数据量下计算的系统性能,其用户行为分析的数据来源主要包括受众自然浏览行为、受众自然搜索行为、广告交互行为、电子商务交互行为;复合搜索模块,用于提供统一资源定位符URL即页面地址到页面重点关键词的转换,还用于为BT定向的用户行为提供分析服务,同时提供用户即时兴趣匹配的页面分词功能;网页内文分析模块,作为所述ABT系统中的搜索引擎,用于确保网页正文的高权重关键词广告投放;实时定向模块,用于对所述ABT系统的投放模块提供针对单个用户信息的检索服务;集群调度及管理模块,用于对各个子节点的节点服务器列表进行登记维护;对各个服务器中的HDFS、Map/Reduce、Hbase的web状态进行查询转发;用于完成任务流程中各项任务启动的通知,任务完成的标记,任务失败的状态查询;还用于对失败的任务进行重新调度、重新分配;以及提供整体任务完成情况和全局数值分析的简单报表服务。其中,所述用户轨迹存储模块,包括若干数据传输子模块、线程控制子模块、转储调度子模块、DFS中间件及HDFS系统;其中,数据传输子模块,用于在Map/Reduce计算过程中对数据的输入、输出及数据的冗余备份;线程控制子模块,用于对分布式计算的各个任务的线程起到调配的作用;转储调度子模块,用于对数据存储的同步、异步以及迁移构造合理的方案;DFS中间件及HDFS系统,用于分布式的数据库访问的事务处理。较佳地,所述的HDFS系统进一步包括命名节点NameNode、数据节点DataNode和客户端Client;其中,所述NameNode是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制;所述NameNode将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息;所述DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode;以及,所述Client是需要获取分布式文件系统文件的应用程序或功能模块。其中,所述用户行为分析模块,采用Map/Reduce计算模型,用以保证大数据量下的计算性能的要求,所述用户行为分析的数据来源主要有几下几个方面受众自然浏览行为,记录用户的自然访问页面轨迹;受众自然搜索行为,记录用户通过搜索引擎跳转到页面的搜索关键词;广告交互行为,记录用户对广告的点击记录;电子商务交互行为,记录用户在电商企业的购买行为。所述网页内文分析模块,利用实时抓取程序将用户的浏览页面实时抓取回来并存入分布式数据库中作为页面源代码,然后正文提取模块及时的读取页面源代码从复杂的网页结构中利用智能算法抽取出网页的正文,接着读入基础词库进行正文的分词,从而得到用户浏览的页面关键词。所述集群调度及管理模块,其管理端的调度的通信机制采用SSH通讯;进一步地,若该模块的可靠性存在问题,备用方案则采用单机corntab调度。本发明所提供的基于云计算的受众行为分析广告定向系统(ABT系统),具有以下优点通过多维一体的受众行为分析体系,收集和分析海量用户行为数据,其最核心的部分是用户兴趣分类的计算模型,它成功地解决了以下几个技术问题1、实时搜索技术互联网用户对网页的浏览行为是跟踪用户行为一项重要数据来源,也是针对独立用户来讲最为广泛的数据来源。通过广告位布码等多种方式,实现对用户的互联网浏览行为尽可能多地全面跟踪,是首先要实现的。但收集来的用户访问记录(以下简称监测点)的URL并没有直接的意义,必须要通过专用的搜索引擎技术来查询出URL对应的页面内容。这需要我们自有的搜索技术来进行支持,属于垂直搜索的范畴。传统的搜索引擎技术能够保证以自然周乃至自然日的周期对页面进行重新抓取更新,但这是无法满足广告定向业务中对页面内容抓取的需求,因为媒体页面的更新是快速的和实时的,在新的新闻内容页或其他页面出现后,对这些监测点的记录,或在这些页面上显示广告,就必须要求搜索系统能够满足实时搜索的需求,实时地抓取页面内容的内容进行正文提取及分词(后详)等下一步处理。搜索引擎技术属于互联网行业内比较尖端的技术,而实时搜索技术,是搜索引擎技术的延伸,是一门刚刚新兴起来的
技术领域
,研究起来相对困难,在页面更新的定位、索引方法、数据处理能力、爬虫效率等问题方面,有很多问题尚待突破。2、中文智能分词技术由于中文的复杂性和独特性,中文语言处理相对复杂。我们积累了大量的用户浏览网页记录,为了提高分词的语料的准确性,我们手工的对于上万篇的页面人工分词,建立了可靠的语料库,通过隐马尔科夫模型(HiddenMarkovModel,HMM)算法训练模型,得出算法中各个状态的参数值,之后开始对文本分词,分词的可能性很多,采用维特比(Viterbi)算法,求得可能性最大的状态序列。后续我们不断丰富的训练语料来调整参数进而优化分词的准确率。在这部分技术的应用之,技术的整合和针对中文处理时效果的控制,仍有很多突破点。3、基于后缀树聚类的文本聚类技术通过收集用户历史访问行为,在中文分词的基础之上,把浏览页面看作一个若干短语的字符串,对短语进行过滤,保留下词库中的重点关键词,收集经常一起出现的关键词、或者短语,然后找出其关联和相互关系,通过对多个页面的分析能够发现几个短语在相提并论的话题。后缀树把文档看作是一个由若干短语组成的字符串,而不是看作一组词集。该算法非常适合于解决基本的字符串问题,例如发现最长重复子串,相似字符串匹配,字符串比较,文本压缩和英文文档聚类等,处理速度很快。4、Map/Reduce云计算技术云计算有很多种实现方式,但在当今功能最完善的云计算框架中,基于Hadoop的Map/Reduce框架兼顾解决了高可靠性、灵活性及极佳的排序及哈希性能。Map/Reduce主要反映了映射和规约两个概念,映射操作按照需求操作独立元素组里的每个元素,这个操作是独立的,所以映射操作时高度并行的。规约操作对一个元素组的元素进行合适的归并,也具有不错的并行性。在对Map/Reduce框架的实际应用中,程序框架结构的设计、程序的Map及Reduce函数设计、中间分类器的设计,仍有许多研究的空白。5、Hbase非关系型数据库技术Hbase是一种非关系型的分布式数据库技术,S卩“云数据库”技术。它是一个面向列的分布式数据库,其思想源于Google的BigTable系统。我们的大量数据都是存储在Hbase中,以满足随机读写的需求(RandomR/W)。Hbase目前尚处于起步的阶段,其split操作,compact操作及相关性能及数据调度及使用有很多问题尚待突破。对于数据处理过程,充分采用Thrift中间件等技术,提高系统兼容性及性能,并应用了Hive数据仓库对部分数据结果进行了ETL,从而将一些需要关系型处理的数据进行了仓库化存储,弥补了Hbase进行数据持久化时的一些弊端。图1为本发明基于云计算的受众行为分析广告定向系统(ABT系统)总体框架示意图;图2为本发明ABT系统的用户轨迹存储模块示意图;图3为图2所示HDFS的架构示意图;图4为本发明ABT系统的用户行为分析模块及其相关模块的关系示意图;图5为本发明ABT系统网页内文分析模块利用加权算法计算出最高权重词的原理示意图;图6为本发明ABT系统实时定向模块结构示意图;图7为本发明ABT系统实现针对广告受众的匹配选择过程示意图;图8为本发明ABT系统对广告投放后的用户数据深度挖掘及分析的用户实际样本示意图(局部);图9为本发明ABT系统基于统计学算法的正文识别结果示意图;图10为本发明ABT系统关键词自动扩展系统词库拓展示意图;图11为本发明ABT系统采用基于用户浏览行为的兴趣计算结果示意图。具体实施例方式下面结合附图及本发明的实施例对本发明的系统作进一步详细的说明。在互联网广告投放
技术领域
,国际上围绕受众行为定向工作主要有以下几个方面的技术一、实时搜索技术互联网用户对网页的浏览行为是跟踪用户行为一项重要数据来源,也是针对独立用户来讲最为广泛的数据来源。通过广告位代码等多种方式,实现对用户的互联网浏览行为尽可能多地全面跟踪,是首先要实现的。但收集来的用户访问记录(以下简称监测点)的URL并没有直接的意义,必须要通过专用的搜索引擎技术来查询出URL对应的页面内容。这需要我们自有的搜索技术来进行支持,属于垂直搜索的范畴。传统的搜索引擎技术能够保证以自然周乃至自然日的周期对页面进行重新抓取更新,但这是无法满足广告定向业务中对页面内容抓取的需求,因为媒体页面的更新是快速的和实时的,在新的新闻内容页或其他页面出现后,对这些监测点的记录,或在这些页面上显示广告,就必须要求搜索系统能够满足实时搜索的需求,实时地抓取页面的内容进行正文提取及分词等下一步处理。搜索引擎技术属于互联网行业内比较尖端的技术,而实时搜索技术,是搜索引擎技术的延伸,实现起来相对困难,在页面更新的定位、索引方法、数据处理能力、爬虫效率等问题方面,有很多难点。二、基于规则和统计的内文抽取技术由于互联网网站多种多样,使得网页结构都异常复杂,但是网页的正文才是用户所要关注的关键,这对于广告投放异常重要,只有我们获得正文内容才能知道用户的兴趣所在才能更能精准的定向广告,我们采用基于规则和基于统计结合的方法,先摒弃不可能含有网页正文的标签,再从剩余的标签中计算出网页的链接字符数和非链接字符数,构建标签树形结构查找出文本字数概率最大值的标签,加入规则过滤选取正文和title中的标题,已经取得了良好的效果。三、中文智能分词技术由于中文的复杂性和独特性,中文语言处理相对复杂。悠易互通积累了大量的用户浏览网页记录,为了提高分词的语料的准确性,悠易互通手工的对于上万篇的页面人工分词,建立了可靠的语料库,通过隐马尔科夫模型(HiddenMarkovModel,HMM)算法训练模型,得出算法中各个状态的参数值,之后开始对文本分词,分词的可能性很多,采用维特比(Viterbi)算法,求得可能性最大的状态序列。悠易互通不断丰富的训练语料来调整参数进而优化分词的准确率。在这部分技术的应用之,技术的整合和针对中文处理时效果的控制,仍有很多突破点。四、基于后缀树聚类的文本聚类技术通过收集用户历史访问行为,在中文分词的基础之上,把浏览页面看作一个若干短语的字符串,对短语进行过滤,保留下词库中的重点关键词,收集经常一起出现的关键词、或者短语,然后找出其关联和相互关系,通过对多个页面的分析能够发现几个短语在相提并论的话题。后缀树把文档看作是一个由若干短语组成的字符串,而不是看作一组词集。该算法非常适合于解决基本的字符串问题,例如发现最长重复子串,相似字符串匹配,字符串比较,文本压缩和英文文档聚类等,处理速度很快。五、Map/Reduce云计算技术云计算有很多种实现方式,但在当今功能最完善的云计算框架中,基于Hadoop的Map/Reduce框架兼顾解决了高可靠性、灵活性及极佳的排序及哈希性能。Map/Reduce主要反映了映射和规约两个概念,映射操作按照需求操作独立元素组里的每个元素,这个操作是独立的,所以映射操作时高度并行的。规约操作对一个元素组的元素进行合适的归并,也具有不错的并行性。在对Map/Reduce框架的实际应用中,程序框架结构的设计、程序的Map及Reduce8函数设计、中间分类器的设计,仍有许多研究的空白。六、Hbase非关系型数据库技术Hbase是一种非关系型的分布式数据库技术,S卩“云数据库”技术。它是一个面向列的分布式数据库,其思想源于Google的BigTable系统。我们的大量数据都是存储在Hbase中,以满足随机读写的需求(RandomR/W)。Hbase目前尚处于起步的阶段,其split操作,compact操作及相关性能及数据调度及使用,有很多问题尚待突破。我们也一直致力于这部分的开发及二次开发,取得了不做的成果。对于数据处理过程,充分采用Thrift中间件等技术,提高系统兼容性及性能,并应用了Hive数据仓库对部分数据结果进行了ETL,从而将一些需要关系型处理的数据进行了仓库化存储,弥补了Hbase进行数据持久化时的一些弊端。本发明的ABT系统拥有相对独立的数据体系和运算模型,其基础结构为一个基于云计算(CloudComputing)和分布式存储(DistributedStorage)的计算机/应用集群,用于承载ABT应用5亿受众、50亿行为记录级别的海量数据运算和存储。其在很大程度上充分运用了最新的分布式存储及计算技术,实现传统程序无法实现的数据计算能力。从而为实现用户行为精准地跟踪计算提供了保证。业务流程方面,ABT负责受众行为的跟踪、分析、存储、挖掘、检索、提供。其设计目可概括为以下几点第一、为AMP平台精准广告定向投放提供用户行为数据支持;第二、为AMP所覆盖的媒体全局范围内的用户浏览等数据提供整体数值分析;第三、为将来基于用户兴趣的广告位属性数据库提供数据准备;第四、为将来覆盖广告主网站的广告后行为优化/电子商务支持系统提供数据准备;第五、积累用户行为数据,努力建立全国互联网广告受众数据库,为行业纵向分析等其他后续数据业务进行数据积累。其基本原理是按照下述流程跟踪和获取用户信息步骤1、实现基于广告系统日志的受众浏览及广告行为跟踪,保证对广告系统日志的完全利用;步骤2、结合搜索模块的数据接口,每日提取出用户的普通浏览行为分布和其所针对的关键词数据;步骤3、结合广告管理模块的数据,每日提取出用户广告浏览、点击、播放、关闭行为和其所针对的关键词数据;步骤4、每周进行用户行为公式化分析(行为挖掘)和汇总转储;步骤5、每周进行现有用户行为公式化分析结果的更正;步骤6、保留长时段的每日用户行为分析结果(保留30天数据点),提供基于时间轴的用户兴趣点变化取向分析的(基于公式分析,一期暂不实现)的数据;步骤7、基于最终公式化分析的结果,为广告投放模块提供高性能的实时用户属性查询接口。从总体上看,本发明要解决的内容主要分两个部分海量数据处理、用户行为分析挖掘算法研究。两部分互相结合互相促进。1)海量数据处理以云计算技术为主线,着重解决云计算复杂逻辑中的多重索引及二次排序技术。此外还包括具有数据持久性特性的云存储,以及海量数据下最终用户属性数据在广告投放中的实时定向技术的研究。2)用户行为分析算法以用户聚类技术为主线,结合用户的浏览行为、广告交互行为、电商交互行为的多维度分析。通过对用户广告效果的回收修正,不断完善数据挖掘和聚类的具体结构,提高用户兴趣提取的准确性。通过项目实施,在解决海量数据处理能力和用户行为分析中数据建模、聚类方法和数据有效性把控的关键科学和技术问题的过程,建立具有自主研发能力的、稳定的专业团队。提高用户行为分析的效率和准确性,建立基于用户兴趣进行精准广告投放的模式,不断提高广告效果。图1为本发明基于云计算的受众行为分析广告定向系统总体框架示意图,如图1所示,所述ABT用户行为广告定向系统,主要由基于分布式存储的用户轨迹存储模块、基于云计算的用户行为分析模块、垂直搜索模块、网页内文分析模块、实时定向模块、集群调度及管理子模块组成;其中1)基于分布式存储的用户轨迹存储模块(可简称“用户轨迹存储模块”)用户轨迹存储,是基于对广告投放过程中,广告位置代码所产生的用户浏览记录进行用户访问轨迹信息的收集的。这部分的用户访问轨迹,是ABT系统中进行用户行为分析的一项主要数据来源。为了实现数据的自动转储、转储完整性判断、数据冗余性和容灾性、数据的并发读取特性等功能,我们基于HDFS分布式文件系统开发了ABT系统的用户轨迹存储模块。其基本结构如图2所示,该用户轨迹存储模块,包括若干数据传输子模块、线程控制子模块、转储调度子模块、DFS中间件及HDFS系统。数据传输子模块主要用于在Map/Reduce计算过程中对数据的输入、输出及数据的冗余备份。线程控制子模块主要用于对分布式计算的各个任务的线程起到调配的作用。转储调度子模块主要用于对数据存储的同步、异步以及迁移构造合理的方案。DFS中间件及HDFS系统主要用于分布式的数据库访问的事务处理。这里,HDFS系统的数据完整性,依赖于其复制因子结构对容灾性能的帮助,在单独节点服务器故障、甚至整个机柜受损的情况下,通过DataBlocks的冗余性及自平衡特性,仍能保证数据的完整性和可用性。具体结构如图3所示。图中展现了整个HDFS三个重要角色命名节点(NameNode)、数据节点(DataNode)和客户端(Client)。所述NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。所述DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。所述Client可以是需要获取分布式文件系统文件的应用程序或功能模块。这里通过三个操作来说明他们之间的交互关系文件写入①Client向NameNode发起文件写入的请求。②NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。③Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。文件读取①Client向NameNode发起文件读取的请求。②NameNode返回文件存储的DataNode的信息。③Client读取文件信息。文件Block复制①NameNode发现部分文件的Block不符合最小复制数或者部分DataNode失效。②通知DataNode相互复制Block。③DataNode开始直接相互复制。2)基于云计算的用户行为分析模块(可简称“用户行为分析模块”)用户行为分析模块,采用了Map/Reduce计算模型,以保证大数据量下的计算性能的要求。用户行为分析的数据来源主要有几下几个方面①受众自然浏览行为记录用户的自然访问页面轨迹;②受众自然搜索行为记录用户通过搜索引擎跳转到页面的搜索关键词;③广告交互行为记录用户对广告的点击记录;④电子商务交互行为记录用户在电商企业的购买行为。它们之间的关系,以及用户行为分析模块在ABT系统中的关系用户的自然浏览记录、广告交互及电商购买行为容易被记录下来存储到分布式文件系统中,之后通过数据分析程序把这些记录再加上在广告前端获得的用户搜索行为,建立用户属性及兴趣模型,通过计算得出用户属性,之后在前端广告投放系统在作用于广告的精准投放,他们相铺相成、互相作用。具体流程,如图4所示。3)复合搜索模块复合垂直搜索系统提供URL到页面重点关键词的转换。意为传统垂直搜索和针对媒体上不断新增的新页面的实时补充抓取程序相结合。为BT定向的用户行为分析服务,同时提供用户即时兴趣匹配的页面分词功能。复合搜索模块采用M/R方式进行并行Spider抓取,每个Spider又是多线程运行的,能够提供高并发的页面抓取,并且具有优秀的链接跟踪能力、防爬虫黑洞的技术等。最重要的是,通过基于广告位触发通知的实时搜索技术的引入,由广告位触发通知,结合了受众行为分析广告精准定向的具体业务需求,完美地解决了实时搜索技术中新页面的定位难点ο4)网页内文分析模块网页内文分析,是ABT系统中搜索引擎的关键所在。确保网页正文的高权重关键词广告投放。使用概率统计计算得出页面中table、div等标签中文本字数概率最大值的标签,结合网页噪音过滤算法选取网页正文和title中的标题。我们通过识别出页面的正文,加上TF/IDF和标题加权算法计算出本页面最高权重关键词,具体步骤如下步骤1、将普通网页HTML转换成符合标准的XHTML,类似工具HTMLTidy。步骤2、将修复后的网页html生成dom树。步骤3、根据〈title〉标签抽取标题。步骤4、识别网页编码可以查看http请求头的charset或者查看网页代码中的meta中的charset。步骤5、去掉和正文无关的网页节点标签及内容script、style、Button、meta、iframe等。步骤6、计算整篇网页中的非链接字符总数。步骤7、遍历网页中的table、diV节点,并计算节点中非链接字符数量与网页总的非链接字符数量相除,选择比值大于0.8的节点存入有序集合。步骤8、过滤包含注释文本的节点,例如郑重声明、版权所有、关于我们等,制作一个常用的网站注释过滤库。步骤9、将title分词(去除停止词)在已取得的集合中,选择包含关键词最多的节点,如果包含关键词相同则以集合顺序为准,如果不包含关键词则选择第一个。最终,通过上述方法将选择的节点抽取文本作为正文,并进行下一步的分词处理,其原理如图5所示。网页内文分析模块,利用实时抓取程序将用户的浏览页面实时抓取回来并存入分布式数据库中作为页面源代码,然后正文提取模块及时的读取页面源代码从复杂的网页结构中利用智能算法抽取出网页的正文,接着读入基础词库进行正文的分词,从而我们就能知道用户浏览的页面关键词了。5)实时定向模块广告进行用户行为定向,需要ABT系统的实时定向模块负责对广告系统的投放模块提供针对单个用户信息的数据检索服务。实时定向模块就是在广告投放时,广告投放核心对需要进行BT定向的广告,向此模块发起查询,查询当前访客的兴趣信息及当前页面的上下文内容关键词信息。这些信息是通过上述ABT系统中的若干模块通过统计分析得来的最终数据,在Hbase系统中进行存储,将作为最终广告定向的判断条件。通过采用Apache自写DSO作为最终的Socket查询终端,可以实现更好的缓冲性能,降低REST及HBase压力,服务线程等具体参数控制灵活,加之功能强大,可以实现与REST的不对称匹配,便于系统部署灵活性。在DSO和Hbase的连接层,采用了RestAPI作为中间件系统,具有结构灵活可控的优点。此外,有余Rest服务器部署在Hbase的多个regionserver上,还采用了HAProxy负载均衡系统对查询及rest中间件服务进行了分流,确保服务的稳定性。其整体模块结构如图6所示。HAproxy负载均衡负责接受广告页面js代码传递过来的广告请求,并将大量请求有效的均衡到集群服务器上。Memcache由memcache组成的集群可以快速的回应负载均衡转过来的请求,一击命中大大提高了查询速度。RESTGateway服务是一个tibase的第三方操作插件,通过它第三方程序可以方12便的在memcache命中不了的情况之下查询tibase数据库,来回应请求。Hbase:分布式数据库主要用来存储用户的浏览记录、网页正文、分词结果和分析后的用户兴趣。6)集群调度及管理模块Hadoop的HDFS及MapReduce调度依赖于Hadoop本身的调度机制,HBase对于HregionServer的调度也依赖于其本身的调度机制。在上述任务流程中,整体调度模块(以下简称ABTMaster)将和Hadoop的Master服务器公用一台服务器,其需要处理的任务有(1)对各个子结点的结点服务器列表进行登记维护,整理如下(见表1)。表1:权利要求1.一种基于云计算的受众行为分析广告定向ABT系统,其特征在于,该系统主要包括用户轨迹存储模块、用户行为分析模块、复合搜索模块、网页内文分析模块、实时定向模块、集群调度及管理模块;其中用户轨迹存储模块,在广告投放过程中,用于针对用户浏览记录进行用户访问轨迹信息的收集和存储,所述用户访问轨迹信息是所述ABT系统中进行用户行为分析的主要数据来源;用户行为分析模块,采用Map/Reduce计算模型,用以保证大数据量下计算的系统性能,其用户行为分析的数据来源主要包括受众自然浏览行为、受众自然搜索行为、广告交互行为、电子商务交互行为;复合搜索模块,用于提供统一资源定位符URL即页面地址到页面重点关键词的转换,还用于为BT定向的用户行为提供分析服务,同时提供用户即时兴趣匹配的页面分词功能;网页内文分析模块,作为所述ABT系统中的搜索引擎,用于确保网页正文的高权重关键词广告投放;实时定向模块,用于对所述ABT系统的投放模块提供针对单个用户信息的检索服务;集群调度及管理模块,用于对各个子节点的节点服务器列表进行登记维护;对各个服务器中的HDFS、Map/Reduce,Hbase的web状态进行查询转发;用于完成任务流程中各项任务启动的通知,任务完成的标记,任务失败的状态查询;还用于对失败的任务进行重新调度、重新分配;以及提供整体任务完成情况和全局数值分析的简单报表服务。2.根据权利要求1所述的基于云计算的受众行为分析广告定向系统,其特征在于,所述用户轨迹存储模块,包括若干数据传输子模块、线程控制子模块、转储调度子模块、DFS中间件及HDFS系统;其中,数据传输子模块,用于在Map/Reduce计算过程中对数据的输入、输出及数据的冗余备份;线程控制子模块,用于对分布式计算的各个任务的线程起到调配的作用;转储调度子模块,用于对数据存储的同步、异步以及迁移构造合理的方案;DFS中间件及HDFS系统,用于分布式的数据库访问的事务处理。3.根据权利要求1或2所述的基于云计算的受众行为分析广告定向系统,其特征在于,所述的HDFS系统进一步包括命名节点NameNode、数据节点DataNode和客户端Client;其中,所述NameNode是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制;所述NameNode将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息;所述DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode;以及,所述Client是需要获取分布式文件系统文件的应用程序或功能模块。4.根据权利要求1所述的基于云计算的受众行为分析广告定向系统,其特征在于,所述用户行为分析模块,采用Map/Reduce计算模型,用以保证大数据量下的计算性能的要求,所述用户行为分析的数据来源主要有几下几个方面受众自然浏览行为,记录用户的自然访问页面轨迹;受众自然搜索行为,记录用户通过搜索引擎跳转到页面的搜索关键词;广告交互行为,记录用户对广告的点击记录;电子商务交互行为,记录用户在电商企业的购买行为。5.根据权利要求1所述的基于云计算的受众行为分析广告定向系统,其特征在于,所述网页内文分析模块,利用实时抓取程序将用户的浏览页面实时抓取回来并存入分布式数据库中作为页面源代码,然后正文提取模块及时的读取页面源代码从复杂的网页结构中利用智能算法抽取出网页的正文,接着读入基础词库进行正文的分词,从而得到用户浏览的页面关键词。6.根据权利要求1所述的基于云计算的受众行为分析广告定向系统,其特征在于,所述集群调度及管理模块,其管理端的调度的通信机制采用SSH通讯;进一步地,若该模块的可靠性存在问题,备用方案则采用单机corntab调度。全文摘要本发明公开了一种基于云计算的受众行为分析广告定向ABT系统,该系统主要包括用户轨迹存储模块、用户行为分析模块、复合搜索模块、网页内文分析模块、实时定向模块、集群调度及管理模块。本发明能够利用数据挖掘分析、云存储和云计算技术对互联网用户的行为进行研究,实现针对每一个互联网受众,准确分析判断其用户属性、兴趣爱好,从而根据其兴趣点及附加属性,准确地投放相应类型的广告。文档编号G06Q30/00GK102236867SQ20111023226公开日2011年11月9日申请日期2011年8月15日优先权日2011年8月15日发明者刘奎飞,张杰申请人:悠易互通(北京)广告有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1