一种移动广告大数据的定向推送及用户跨屏识别方法_2

文档序号:9911210阅读:来源:国知局
的浏览内 容分析出用户的浏览习惯(例如经常浏览的内容,这部分内容即可能为用户较为感兴趣的 内容),然后生成对应的浏览习惯及行为兴趣数据。
[0047] 步骤S2,推广投放服务器根据用户的访问者ID,在检测到用户再次在广告网络中 进行浏览行为时,即再次在广告网络上要求展现广告网络时,根据预存的用户的浏览习惯 及行为兴趣数据,从广告数据库中选取符合该用户浏览习惯的广告数据推送至用户的终 端。需要说明的是,一个用户可以对应多个访问者ID,例如:邮箱、用户名、关联APP应用的账 户名等。
[0048] 推广投放服务器内置有广告数据库,该广告数据库中存储有大量的广告数据,每 个广告数据可以包括有多个标签,该标签用于标示广告类型、内容等。例如:运动、化妆品、 成衣、老人等。在广告数据库中,可以依据用户标签对大量的广告数据进行分类存储,从而 便于后续查找和添加。
[0049]推广投放服务器在检测到用户通过访问者ID再次访问页面时,通过该访问者ID查 找出之前已经分析出的对应的浏览习惯及行为兴趣数据,根据该浏览习惯及行为兴趣数据 从广告数据库中,查找出符合该用户浏览习惯的广告数据。由此,根据上述浏览习惯及行为 兴趣数据,推广投放服务器可以有针对性的主动推送符合该用户浏览习惯的广告数据,即 用户感兴趣的广告内容。这种有针对性的主动向用户推送广告数据,可以达到最优的广告 投放效率。
[0050]在本步骤中,数据分析服务器将用户的历史浏览及行为数据、浏览习惯及行为兴 趣数据与该用户的访问者ID进行关联存储。
[0051]在本发明的一个实施例中,数据分析服务器可以采用Hadoop HDFS分布式文件系 统存储上述历史浏览及行为数据、浏览习惯及行为兴趣数据和向用户推送的广告数据。 [0052]具体地,本发明选用Apache社区的Hadoop HDFS分布式文件系统作为底层架构。 HDFS被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS是一 个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适 合大规模数据集上的应用。HDFS放宽了 一部分P0SIX约束,来实现流式读取文件系统数据的 目的。
[0053] HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost) 硬件上。而且它 提供高 吞吐量 (h i gh throughput) 来访问应 用程序 的数据 ,适合那些 有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求 (requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。 [0054]运行在HDFS之上的程序有很大量的数据集。典型的HDFS文件大小是GB到TB的级 另IJ。所以,HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽,一个集群中支持数 百个节点,一个集群中还应该支持千万级别的文件。
[0055] HDFS是一个的主从结构,一个HDFS集群是由一个名字节点,它是一个管理文件命 名空间和调节用户端访问文件的主服务器,当然还有一些数据节点,通常是一个节点一个 机器,它来管理对应节点的存储。HDFS对外开放文件命名空间并允许用户数据以文件形式 存储。
[0056]内部机制是将一个文件分割成一个或多个块,这些块被存储在一组数据节点中。 名字节点用来操作文件命名空间的文件或目录操作,如打开,关闭,重命名等等。它同时确 定块与数据节点的映射。数据节点来负责来自文件系统用户的读写请求。数据节点同时还 要执行块的创建,删除,和来自名字节点的块复制指令。
[0057] 在改进的HDFS应用框架下:HDFS的Replication因子设置为默认的3;Hbase文件的 Replication因子暂时先为3,如有必要增加为5 ;DataNode不必使用RAID,如果采用简单 RAID结构,可以采用RAID0,不采用RAID1。
[0058]推广投放服务器根据用户的访问者ID检测该用户是否访问页面,如果检测到用户 访问页面,则根据该访问者ID查找对应的浏览习惯及行为兴趣数据,并进一步根据查找到 的浏览习惯及行为兴趣数据从广告数据库中选取符合用户浏览习惯的广告数据推送至用 户。
[0059]步骤S3,推广投放服务器在检测到用户采用多个访问者ID在至少一个其他终端设 备上访问页面时,将多个访问者ID建立关联,并认定为同一个访问者实体,主动向上述其他 终端设备推送符合该用户浏览习惯的广告数据,以实现针对该用户的用户跨屏同步实现。 [0060]在步骤S3中,推广投放服务器采用用户分析工具对用户的访问者身份进行排重计 算,以判断该用户是否采用访问者ID登录页面,并将属于同一个用户的多个设备的访问者 ID建立关联,认定关联的所述多个访问者ID属于同一个访问者实体。由此,一个用户可以关 联多个访问者ID,只要用户采用其中一个访问页面,系统就可自动智能判断是该用户,并根 据该用户的浏览习惯及行为兴趣数据进行推送。这种智能用户身份判断方式,不仅为用户 访问带来了便利性,也提高了数据推送的精度。
[0061]下面对步骤S3的用户同屏实现进行详细说明。
[0062]用户分析工具依靠 IP或Cookie来定义访问者。一个IP地址或一个Cookie就代表一 个访问者。早期的日志分析工具依靠 IP地址,但由于存在多个人公用一个IP地址的情况,例 如网吧,或者学校机房等等。因此现在大部分的用户分析工具都是以Cookie来定义访问者。 Cookie是存储在访问者浏览器中的一个文本文件,用来记录访问者的身份信息。当然也有 一些分析工具可以进行定制,当访问者浏览器禁用Cookie时通过IP地址继续定义并追踪访 问者。
[0063] 在纯移动设备环境下,采用设备的IΜ EI (国际移动设备标识ID)或这个ID F A / Android ID来标识设备,其实现的作用类似于CookieJDFA是美国苹果公司在新版的I0S操 作系统设备上实现的基于设备级别去标识设备用户的专用于广告应用的ID机制,Android ID是安卓操作系统下类似的ID机制,以下简称为设备Device ID。
[0064] 用于定义访问者的Cookie或Device ID中有一串唯一的数字,这串唯一的数字就 是访问者的设备ID。访问者设备ID会在访问者每次访问网站或浏览页面时跟随其他指标一 起返回用户分析工具的服务器。用户分析工具通过这串Cookie中的唯一数字ID来区分访问 者的身份。如果发现多条日志中的访问者ID都相同,则判断这些访问或页面浏览行为来自 同一个访问者。
[0065] 在本发明的一个实施例中,在步骤S3中,用户分析工具采用以下至少一种方式对 用户的访问者身份进行排重计算。换言之,用户分析工具提供的是唯一身份访问者数据。以 下测试可以说明用户分析工具是如何对访问者进行排重计算的。
[0066] (1)根据时间维度对用户的访问者身份进行排重。
[0067] (2)根据访问者的来源维度对用户的访问者身份进行排重,其中,访问者的来源维 度包括访问者登录广告竞价服务页面的媒介。
[0068] (3)根据访问者历史访问页面对用户的访问者身份进行排重。
[0069] (4)根据设备访问的网络环境、IP地址、用户代理UA信息对访问者身份进行排重。
[0070]综上所述,为了保证唯一身份访问者的数据准确,数据分析工具会从整个网站的 维度对访问者进行排重计算。而这一切的前提都是用户分析工具能够在不同维度下识别并 区分出这个访问者。但在实际的访问场景中,有一些维度用户分析工具没有办法进行排重 操作。例如不同的浏览器,和不同的终端设备。因为用户分析工具赖以定义访问者的ID存储 在Cookie中,而Cookie是基于浏览器端的。换句话说就是访问者在不同的浏览器或设备中 会拥有不同的访问者ID。这就导致了用户分析工具没有办法在浏览器和设备维度下对访问 者进行排重。
[0071 ]图4为根据本发明实施例的跨屏实现的示意图。
[0072]从技术和指标计算的角度来看,跨屏追踪的这个新功能的主要作用就是用来在不 同浏览器及设备间精确定义和识别访问者,并对访问者进行跨屏幕,跨设备的识别和排重。 使获得的唯一身份访问者数据更加精确。
[0073]推广跨屏追踪一项基本原理,是通过访问者的唯一身份标识在不同的设备间定义 和识别访问者。然后在服务器端按照唯一身份对访问者使用的设备,访问行为进行排除和 汇总处理。但在跨屏追踪中,这个唯一身份标识不再来自于Cookie中的访问者ID。而是依赖 于访问者在网站中的唯一身份标识。如果要对访问者进行跨屏追踪,需要在的媒体资源全 局代码中添加一行代码用于获取这个访问者在网站中的唯一身份ID。并将这个ID返回给推 广分析服务器。进行后续的排重和汇总处理。
[0074] 例如,以blueWhale_teSt作为访问者唯一身份标识为例。这段代码在的页面全局 代码当代码被执行,可以发现和验证两件事情:
[0075] 第一,访问者被成功的赋予了唯一身份标识后,可以在返回数据中看到本次的访 问和页面浏览行为属于用户bluewhale_test。
[0076] 第二,这个访问者唯一身份标识并没有存储在Cookie中,而是直接发送到分析的 服务器。
[0077]当这个访问者在其他设备登陆网站时,也将同样为其赋予bluewhale_test的标 识。这样在服务器端就可以对这个访问者进行识别,并将其在不同设备间的访问行为进行 归并计算,以实现跨越屏幕和终端的访问者追踪。
[0078] 没用用户登录的环节,采用下述方式进行用户识别:
[0079] 当一个访问者在网站进行了注册或者登陆操作,那么用户追踪系统会将访问者的 用户名作为唯一身份访问者ID对访问者进行标识。用户追踪系统在后台还会做一件事情, 就是将当前访问者的唯一身份ID与其cookie中的访问者ID进行关联。
[0080] 在不删除Cookie的情况下,下次这位访问者到访网站时无论是否进行登陆操作, 系统都能再次识别出其,并且将其与之前的历史行为进行关联。当这名访客登录后,系统将 cookie中的访问者ID与URM的唯一身份ID进行关联。URM唯一身份ID用来识别用户,基于 cookie的不同访问者ID就会赋予到唯一身份ID中。如果任何一个唯一身份ID发送到用户追 踪系统,相关的cookie访问者ID也会添加到其中。URM唯一身份ID只在第一次关联的时候用 到。之后,关联机制便独立于URM唯一身份ID。这样当访问者不再进行登陆操作时,也能根据 之前建立起来的关联关系对访问者进行识别。
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1