一种分布式互联网行为分析方法、装置及系统的制作方法

文档序号:7988388阅读:192来源:国知局
一种分布式互联网行为分析方法、装置及系统的制作方法
【专利摘要】本发明公开了一种分布式互联网行为分析方法、装置及系统,通过将个性化较强日志分析装置分布式部署在各省,将共同通用的网页分析装置集中建设。这样,每个日志分析装置可以灵活的选用日志分析方式,避免了在网络上传输海量的日志数据,提高了网络分析的效率,减少了网络分析的时间。同时避免了网页分析装置的重复建设,降低了网络建设成本。
【专利说明】一种分布式互联网行为分析方法、装置及系统
【技术领域】
[0001]本发明涉及数据业务【技术领域】,尤其涉及一种分布式网互联网行为分析方法、装置及系统。
【背景技术】
[0002]通过分析用户上网行为,可以挖掘用户的生活轨迹和生活需求,深度认识客户,充分理解需求,进而实现基于移动互联网的精准营销,同时通过对用户上网行为的分析,把握市场动脉,也为探索基于客户生活的新产品、新模式奠定了研究基础。
[0003]现有技术基于网页内容的客户行为分析和服务系统包括位于运营商数据中心的信息调度分析展示系统、与核心路由器连接的信息推送器、与运营商计费系统相连的R ad i U S处理器,信息调度分析展示系统包括策略管理器、信息展示器、用户行为分析器。通过对用户上网的日志来分析用户个性化特征。
[0004]现有技术主要存在以下几个缺陷:
[0005]一、采集数据量大,日志数据以目前用户量状态,每个省每天600G-1T的日志访问量,仅wap日志,如果加上gn日志,数量3-4倍。
[0006]二、数据分析手段缺乏,针对互联网的分析方法众多。
[0007]三、将日志数据集中后分析,数据传输成为瓶颈,每日IT的数据传输,网络瓶颈严重。如果分省建立,互联网分析属于重复建设内容,无需每个省单独建立。

【发明内容】

[0008]为了解决现有技术中日志数据量过大,数据传输困难的技术问题,本发明提出一种分布式互联网行为分析方法、装置及系统。
[0009]本发明的一个方面,提供一种分布式互联网行为分析方法,包括:分布式部署的多个日志分析装置获取所在地的用户上网日志,从用户上网日志中提取网页URL,将网页URL上报到集中式部署的网页分析装置;网页分析装置根据网页URL获取对应的网页并对网页进行分析,得到网页的URL关联信息,将网页的URL关联信息发送到各个日志分析装置;日志分析装置根据网页的URL关联信息对用户的互联网行为进行分析。
[0010]本发明的另一个方面,提供一种日志分析装置,包括:获取模块,用于获取所在地的用户上网日志;提取模块,用于从用户上网日志中提取网页URL5URL信息库,用于存储URL关联信息;上报模块,用于将网页URL上报到集中式部署的网页分析装置;行为分析模块,用于根据从网页分析装置获取的网页的URL关联信息对用户的互联网行为进行分析。
[0011]本发明的另一个方面,提供一种网页分析装置,包括:网页获取模块,用于根据网页URL获取对应的网页;网页分析模 块,用于对网页进行分析,得到网页的URL关联信息;URL信息库,用于存储网页的URL关联信息;同步模块,用于将网页的URL关联信息同步到各个日志分析装置的信息库中。
[0012]本发明的另一个方面,提供一种分布式互联网行为分析系统,包括:分布式部署的多个日志分析装置和集中式部署的网页分析装置;日志分析装置,用于获取所在地的用户上网日志,从用户上网日志中提取网页URL,将网页URL上报到集中式部署的网页分析装置;根据从网页分析装置获取的网页的URL关联信息对用户的互联网行为进行分析;网页分析装置,用于根据网页URL获取对应的网页并对网页进行分析,得到网页的URL关联信息,将网页的URL关联信息存储到网页分析装置的URL信息库中;将网页的URL关联信息发送到各个日志分析装置。
[0013]本发明的分布式互联网行为分析方法、装置及系统,通过将个性化较强日志分析装置分布式部署在各省,将共同通用的网页分析装置集中建设。这样,每个日志分析装置可以灵活的选用日志分析方式,避免了在网络上传输海量的日志数据,提高了网络分析的效率,减少了网络分析的时间。同时避免了网页分析装置的重复建设,降低了网络建设成本。
【专利附图】

【附图说明】
[0014]图1是本发明分布式互联网行为分析系统实施例的结构图;
[0015]图2是本发明日志分析装置实施例的结构图;
[0016]图3是本发明网页分析装置实施例的结构图;
[0017]图4是本发明分布式互联网行为分析方法实施例的流程图;
[0018]图5是本发明日志分析装置实时上报网页URL的流程图;
[0019]图6是本发明日志分析装置非实时上报网页URL的流程图。
【具体实施方式】
[0020]本发明中,将互联网行为分析系统分为日志分析装置及网页分析装置。日志分析装置实现用户上网日志的装载、统计分析、应用等多种功能。网页分析装置实现对网页的爬取、解析、分类等多种功能。将个性化较强日志分析装置分布式部署在各省,将共同通用的网页分析装置集中建设。以下结合附图对本发明进行详细说明。
[0021]如图1所示,本发明分布式互联网行为分析系统实施例包括:分布式部署在各省的多个日志分析装置lla、llb、llc…和集中式部署的网页分析装置12。
[0022]日志分析装置获取所在地的用户上网日志,从用户上网日志中提取网页URL,将网页URL上报到集中式部署的网页分析装置。
[0023]具体地,如果日志分析装置的URL信息库中已存储了一些网页URL,则判断其URL信息库中是否已存在该网页URL,当其信息库中不存在该网页URL时,将网页URL上报到集中式部署的网页分析装置。
[0024]网页分析装置根据网页URL获取对应的网页并对网页进行分析,得到网页的URL关联信息,将网页的URL关联信息同步到各个日志分析装置的URL信息库中。
[0025]日志分析装置从网页分析装置获取到网页的URL关联信息后,对用户的互联网行为进行分析。
[0026]URL关联信息包括:网页的URL、标题、正文、关键词、标签、类另I」、META信息等等。
[0027]其中,日志分析装置与网页分析装置的接口包括:
[0028]IFl接口:日志分析子系统定期以网页分析子系统的URL信息库和规则/配置管理库为准,进行同步。同时还提交各种统计汇总结果,共全网分析使用。[0029]IF2接口:日志分析子系统定期向网页分析子系统提供URL全量,以及未分类的URL列表。IFl接口和IF2接口支持通过Ftp协议、Http协议或基于socket的私有协议传输数据。
[0030]如图2所示,本发明中日志分析装置的具体结构包括:获取模块21、提取模块22、URL信息库23、判断模块24、上报模块25和行为分析模块26。获取模块获取所在地的用户上网日志;提取模块从用户上网日志中提取网页URL ;URL信息库存储URL关联信息;判断模块判断URL信息库中是否已存在该网页URL ;上报模块当URL信息库中不存在该网页URL时,将网页URL上报到集中式部署的网页分析装置;行为分析模块根据用户上网日志对用户的互联网行为进行分析。
[0031]该日志分析装置还包括计时模块27,用于判断是否到达指定上报时间;上报模块,用于当到达指定上报时间时,将所有不存在的网页URL以文件方式发送到网页分析装置。
[0032]该日志分析装置还包括下载模块28。计时模块判断是否到达指定下载时间;下载模块当到达指定下载时间时,从网页分析装置的URL信息库下载包含网页的URL关联信息的文件。
[0033]如图3所示,本发明网页分析装置的具体结构包括:网页获取模块31、网页分析模块32、URL信息库33和同步模块34。网页获取模块根据网页URL获取对应的网页;网页分析模块对网页进行分析,得到网页的URL关联信息;URL信息库存储网页的URL关联信息;同步模块将网页的URL关联信息同步到各个日志分析装置的信息库中。
[0034]其中日志分析装置和网页分析装置中都有URL信息库。以网页分析装置URL信息库中的URL关联信息为准,向日志分析装置进行同步。
[0035]如图4所示,本发明分布式互联网行为分析方法实施例包括以下流程:
[0036]步骤402,分布式部署在各省的日志分析装置获取所在地的用户上网日志;
[0037]步骤404,日志分析装置从用户上网日志中提取网页URL ;日志分析装置对日志数据的清洗,包括去除断行,填充空字段等,读取其中的URL字段,用于进一步分析,可以采用hadoop 的 mapreduce 技术实现;
[0038]步骤406,日志分析装置判断其信息库中是否已存在该网页URL ;如果存在,执行步骤408,如果不存在,执行步骤410 ;
[0039]步骤408,日志分析装置直接取得该网页URL类别,对用户的互联网行为进行分析;
[0040]步骤410,日志分析装置将网页URL上报到集中式部署的网页分析装置;
[0041]步骤412,网页分析装置根据网页URL获取对应的网页并对网页进行分析,得到网页的URL关联信息,将该网页的URL关联信息存储到网页分析装置的URL信息库中;
[0042]网页分析装置采用爬虫的方式爬取该URL对应的网页,进而解析获取文本,将网页放入web网页库;可以采用贝叶斯svm等方法对网页文本进行分类,并将网页的URL关联信息放入网页分析装置的URL信息库中;
[0043]步骤414,网页分析装置的URL信息库将网页的URL关联信息同步到各个日志分析装置的URL信息库中,之后执行步骤408。
[0044]日志分析装置与网页分析装置的URL信息库的同步可以有实时或离线两种方式:[0045]1、实时方式
[0046]如图5所示,具体流程如下:
[0047]步骤502,日志分析装置得到已有URL信息库中不存在的网页URL ;
[0048]步骤504,日志分析装置采用API访问方式向网页分析装置提交该条URL,即把URL作为参数调用网页分析装置查询API ;
[0049]步骤506,网页分析装置分析得到URL关联信息后返回,并更新自身信息库;
[0050] 步骤508,日志分析装置接收到URL关联信息后插入URL信息库。
[0051]2、非实时方式
[0052]间隔一定时间,例如I小时,或者I天,以文件方式向网页分析装置传送不存在的URL。如图6所示,具体流程如下:
[0053]步骤602,日志分析装置判断是否到达指定上报时间;
[0054]步骤604,当到达指定上报时间时,将所有不存在的网页URL以文件方式发送到网页分析装置,可以通过ftp或者其他方式发送;
[0055]步骤606,日志分析装置判断是否到达指定下载时间;
[0056]步骤608,当到达指定下载时间时,从网页分析装置的URL信息库下载包含网页的URL关联信息的文件;
[0057]步骤610,将更新内容增补至本地URL信息库。
[0058]本发明的分布式互联网行为分析方法、装置及系统,通过将个性化较强日志分析装置分布式部署在各省,将共同通用的网页分析装置集中建设。这样,每个日志分析装置可以灵活的选用日志分析方式,避免了在网络上传输海量的日志数据,提高了网络分析的效率,减少了网络分析的时间。同时避免了网页分析装置的重复建设,降低了网络建设成本。
[0059]应说明的是:以上实施例仅用以说明本发明而非限制,本发明也并不仅限于上述举例,一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围中。
【权利要求】
1.一种分布式互联网行为分析方法,其特征在于,包括: 分布式部署的多个日志分析装置获取所在地的用户上网日志,从所述用户上网日志中提取网页URL,将所述网页URL上报到集中式部署的网页分析装置; 所述网页分析装置根据所述网页URL获取对应的网页并对所述网页进行分析,得到所述网页的URL关联信息,将所述网页的URL关联信息发送到各个日志分析装置; 所述日志分析装置根据所述网页的URL关联信息对用户的互联网行为进行分析。
2.根据权利要求1所述的方法,其特征在于,日志分析装置将所述网页URL上报到集中式部署的网页分析装置包括: 日志分析装置判断其URL信息库中是否已存在该网页URL,当其URL信息库中不存在该网页URL时,将所述网页URL上报到所述网页分析装置。
3.根据权利要求1所述的方法,其特征在于,所述网页分析装置根据所述网页URL获取对应的网页并对所述网页进行分析包括: 所述网页分析装置通过爬虫方式爬取所述网页URL对应的网页; 对所述网页进行分析,得到所述网页的URL关联信息包括:URL、标题、正文、关键词、标签、类别及META信息。
4.根据权利要求1所述的方法,其特征在于,所述日志分析装置将所述网页URL上报到集中式部署的网页 分析装置包括: 所述日志分析装置以API查询方式将所述网页URL发送到所述网页分析装置。
5.根据权利要求1所述的方法,其特征在于,还包括:所述网页分析装置将所述网页的URL关联信息存储到网页分析装置的URL信息库中; 所述日志分析装置将所述网页URL上报到集中式部署的网页分析装置包括: 所述日志分析装置判断是否到达指定上报时间,当到达指定上报时间时,将所有不存在的网页URL以文件方式发送到所述网页分析装置; 所述网页分析装置将所述网页的URL关联信息发送到各个日志分析装置包括: 所述日志分析装置判断是否到达指定下载时间,当到达指定下载时间时,从所述网页分析装置的URL信息库下载包含所述网页的URL关联信息的文件。
6.根据权利要求1所述的方法,其特征在于,所述日志分析装置与网页分析装置之间通过Ftp协议、Http协议或基于socket的私有协议传输数据。
7.—种日志分析装置,其特征在于,包括: 获取模块,用于获取所在地的用户上网日志; 提取模块,用于从所述用户上网日志中提取网页URL ; URL信息库,用于存储URL关联信息; 上报模块,用于将所述网页URL上报到集中式部署的网页分析装置; 行为分析模块,用于根据从网页分析装置获取的网页的URL关联信息对用户的互联网行为进行分析。
8.根据权利要求7所述的日志分析装置,其特征在于,还包括: 判断模块,用于判断URL信息库中是否已存在该网页URL ; 所述上报模块,用于当URL信息库中不存在该网页URL时,将所述网页URL上报到集中式部署的网页分析装置。
9.根据权利要求7所述的日志分析装置,其特征在于,还包括: 计时模块,用于判断是否到达指定上报时间; 所述上报模块,用于当到达指定上报时间时,将所有不存在的网页URL以文件方式发送到所述网页分析装置。
10.根据权利要求7所述的日志分析装置,其特征在于,还包括:下载模块, 所述计时模块,用于判断是否到达指定下载时间; 所述下载模块,用于当到达指定下载时间时,从所述网页分析装置的URL信息库下载包含所述网页的URL关联信息的文件。
11.一种网页分析装置,其特征在于,包括: 网页获取模块,用于根据所述网页URL获取对应的网页; 网页分析模块,用于对所述网页进行分析,得到所述网页的URL关联信息; URL信息库,用于存储所述网页的URL关联信息; 同步模块,用于将所述网页的URL关联信息同步到各个日志分析装置的信息库中。
12.—种分布式互联网行为分析系统,其特征在于,包括:分布式部署的多个日志分析装置和集中式部署的网页分析装置; 所述日志分析装置,用于获取所在地的用户上网日志,从所述用户上网日志中提取网页URL,将所述网页URL上报到集中式部署的网页分析装置;根据从网页分析装置获取的网页的URL关联信息对用户的互联网行为进行分析; 所述网页分析装置,用于根据所述网页URL获取对应的网页并对所述网页进行分析,得到所述网页的URL关联信息,将所述网页的URL关联信息存储到网页分析装置的URL信息库中;将所述网页的URL关联信息发送到各个日志分析装置。
【文档编号】H04L29/08GK103905266SQ201210581807
【公开日】2014年7月2日 申请日期:2012年12月27日 优先权日:2012年12月27日
【发明者】徐萌, 何鸿凌, 钱岭, 杜宇健 申请人:中国移动通信集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1