互联网行为分析系统及其工作方法

文档序号:6402426阅读:416来源:国知局
专利名称:互联网行为分析系统及其工作方法
技术领域
本发明涉及数据分析处理领域,特别涉及一种互联网行为分析系统及其工作方法。
背景技术
当前移动互联网发展迅猛,3G迎来井喷式发展,移动业务发展市场竞争激烈,3G地位争夺战愈加白热化,流量经营将成为移动互联网3G发展的重中之重。通信运营商在进行流量经营时,常常面临以下问题和困惑:I)不知道用户的流量去向,用户每个月的流量主要干了什么,用在哪些方面,目前都不清楚,从而也不能真正了解用户的需求,不知道用户上网喜欢干什么,也不能真正进行针对性的引导和推荐,盲目推荐有时会引起用户反感,导致用户投诉,反而起到不好的效果;2)不清楚用户的使用场景,不知道用户通常在哪些场景下会使用手机上网,没有准确的把握营销时机,用户反馈率不高,导致很多时候用户对运营商推荐的内容在没看的情况下就直接删除了;3)不能很好的将用户的宽带上网偏好移植到手机上,如果搞清楚用户的宽带上网偏好,就可以推荐相应的移动客户端 ,将宽带上网偏好移植到手机上。

发明内容
因此,本发明的目的在于提供一种互联网行为分析系统,能对海量数据进行处理和加工,实现对用户上网行为的识别。本发明的又一目的在于提供一种互联网行为分析系统的工作方法,能对海量数据进行处理和加工,实现对用户上网行为的识别。为实现上述目的,本发明提供了一种互联网行为分析系统,其包括基于Hadoop架构搭建的分布式云计算处理平台、通信运营商数据通信网络以及接口服务器,该分布式云计算处理平台经由交换机以及防火墙通讯连接该通信运营商数据通信网络,该接口服务器负责下载通信运营商的用户上网日志并且通讯连接该通信运营商数据通信网络;该分布式云计算处理平台包括以分布式并行方式通讯连接的主处理服务器、多个节点服务器以及操作终端,该主处理服务器负责接口数据存储,所有节点服务器对接口数据同时并行处理,操作终端向操作者提供操作该分布式云计算处理平台的界面,该分布式云计算处理平台将所述用户上网日志分成APP清单和URL清单分别进行处理,将该APP清单与客户端应用库进行匹配进行APP兴趣点汇总,将该URL清单与关键词库和网址分类库进行匹配进行URL兴趣点汇总,综合所述APP兴趣点汇总和URL兴趣点汇总得出反映用户互联网行为的表。其中,所述反映用户互联网行为的表包括分别对应于用户访问网址、使用APP、在网页上进行搜索、上网时段及使用终端的字段。其中,所述客户端应用库包括分别对应于IP及端口、域名以及网址的字段。
其中,所述关键词库包括对应于关键词的字段。其中,所述网址分类库包括对应于网址的字段。其中,所述分布式云计算处理平台根据APP兴趣点汇总结果生成用户APP清单和用户APP兴趣点汇总表。其中,所述分布式云计算处理平台根据URL兴趣点汇总结果生成用户URL清单和用户URL兴趣点汇总表。为实现上述目的,本发明还提供了一种互联网行为分析系统的工作方法,其包括:步骤1、利用接口服务器下载通信运营商的用户上网日志;步骤2、将所述用户上网日志交由Hadoop架构的分布式云计算处理平台进行处理并区分为APP清单和URL清单;步骤3、将所述APP清单与客户端应用库进行匹配,对APP兴趣点打标签,进而对APP兴趣点汇总;步骤4、将所述URL清单与关键词库和网址分类库进行匹配,对URL兴趣点打标签,进而对URL兴趣点汇总;步骤5、根据APP兴趣点汇总结果生成用户APP清单和用户APP兴趣点汇总表;步骤6、根据URL兴趣点汇总结果生成用户URL清单和用户URL兴趣点汇总表;步骤7、根 据用户APP兴趣点汇总表和用户URL兴趣点汇总表得出反映用户互联网行为的表。其中,所述反映用户互联网行为的表包括分别对应于用户访问网址、使用APP、在网页上进行搜索、上网时段及使用终端的字段。其中,将所述URL清单与关键词库和网址分类库进行匹配的过程包括:步骤41、通过网络爬虫爬取对应URL的网页内容,保留文本内容作为待分类文本;步骤42、通过分词技术对网页内容分词;步骤43、计算关键词在关键词库中的分布矩阵;步骤44、计算关键词在关键词库中的分布系数;步骤45、计算关键词对关键词库中各类的覆盖度、支持度、置信度;步骤46、准备多个预先已确定分类的待分类文本作为样本,用枚举的方法得到判断文本分类的拟合公式;步骤47、对于待分类的文本用步骤46得到的拟合公式计算各类的得分,实现对待分类文本的分类。综上所述,本发明的互联网行为分析系统构建一个基于分布式云计算的大数据处理平台,能对海量数据进行处理和加工,实现对用户上网行为的识别。本发明的互联网行为分析系统的工作方法能对海量数据进行处理和加工,可以实现对用户上网行为的识别,针对客户的互联网行为打上相应的标签。


下面结合附图,通过对本发明的具体实施方式
详细描述,将使本发明的技术方案及其他有益效果显而易见。
附图中,图1为本发明互联网行为分析系统一较佳实施例的结构示意图;图2为本发明互联网行为分析系统的工作方法一较佳实施例的流程图。
具体实施例方式本发明技术方案中所涉及名词的解释:URL:统一资源定位符(URL,英语Uniform Resource Locator的缩写)也被称为网页地址,是因特网上标准的资源的地址。APP:是Application的缩写,指运行于手机终端上的应用客户端。Hadoop: 一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。网络爬虫:被称为网页蜘蛛、网络机器人,是一种按照一定的规则,自动的抓取万维网信息的程序或者 脚本。分词:中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。参见图1,其为本发明互联网行为分析系统一较佳实施例的结构示意图。本发明的互联网行为分析系统主要包括基于Hadoop架构搭建的分布式云计算处理平台1、通信运营商数据通信网络(DCN)2以及接口服务器3,该分布式云计算处理平台I经由交换机4以及防火墙5通讯连接该通信运营商数据通信网络2,该接口服务器3负责下载通信运营商的用户上网日志并且通讯连接该通信运营商数据通信网络2 ;该分布式云计算处理平台I主要包括以分布式并行方式通讯连接的主处理服务器11、多个节点服务器12以及操作终端13,该主处理服务器11负责接口数据存储,所有节点服务器12对接口数据同时并行处理,操作终端13通过路由器14接入分布式云计算处理平台1,向操作者提供操作该分布式云计算处理平台I的界面,该分布式云计算处理平台I将所述用户上网日志分成APP清单和URL清单分别进行处理,将该APP清单与客户端应用库进行匹配进行APP兴趣点汇总,将该URL清单与关键词库和网址分类库进行匹配进行URL兴趣点汇总,综合所述APP兴趣点汇总和URL兴趣点汇总得出反映用户互联网行为的表。图1中通过交换机4以及防火墙5进行网络隔离,保证安全,保留一部分节点服务器12作为预留扩展,另外也可以根据需要再增加节点服务器12的数量。本发明基于Hadoop架构,搭建一个分布式云计算的大数据处理平台,易于扩展,可灵活增加节点服务器,增加节点服务器可实现线性扩展,线性增加存储、查询和加载性能;能进行自动化的并行处理,无需人工分区或优化,加载或访问方式与一般数据库相同,易于操作;最优化的I/o处理,所有节点服务器同时并行处理,节点之间完全无共享,无I/O冲突;海量数据分布在所有的多个节点上,每个节点服务器只处理其中一部分数据,支持TB级乃至PB级数据处理。基于分布式云计算的大数据处理平台构建方法:通过云计算平台,实现对海量数据的存储和处理,易扩展,易维护。参见图2,其为本发明互联网行为分析系统的工作方法一较佳实施例的流程图,如图1所示的互联网行为分析系统可以参照图2所示的流程图进行工作。参见图2,本发明互联网行为分析系统的工作方法主要包括源数据接口层、数据处理层(Hadoop)及汇总层,图2是以中国电信为例来说明互联网行为分析的具体处理流程,包括:步骤1、利用接口服务器通过FTP方式下载C网上网日志;步骤2、C网上网日志交由Hadoop架构的分布式云计算处理平台进行处理,区分为APP清单和URL清单,并进行清单去冗;步骤3、将APP清单与客户端应用库进行匹配,对APP兴趣点打标签,进而对APP兴趣点汇总,客户端应用库可以包括分别对应于IP及端口、域名以及网址的字段;步骤4、将URL清单与关键词库和网址分类库进行匹配,对URL兴趣点打标签,进而对URL兴趣点汇总,关键词库可以包括对应于关键词的字段,网址分类库可以包括对应于网址的字段;步骤5、根据APP兴趣点汇总结果生成C网用户APP清单和C网用户APP兴趣点汇总表;步骤6、根据URL兴趣点汇总结果生成C网用户URL清单和C网用户URL兴趣点汇总表;步骤7、根据用户APP兴趣点汇总表和用户URL兴趣点汇总表得出C网用户上网偏好表,该C网用户上网偏好表可以包括分别对应于用户访问网址、使用APP、在网页上进行搜索、上网时段及使用终端的字段。实现了对互联网行为标签体系设计:通过对用户访问网址、使用APP、在网页上进行搜索、上网时段、使用终端等方面,构建用户互联网行为标签库。其中,步骤4中将所述URL清单与关键词库和网址分类库进行匹配的过程基于网页内容分类的文本挖掘技术和算法:基于对网页文本内容的解析,根据文本中出现的关键词的词义,基于特定的算法,识别该网页所属的分类;包括:步骤41、通过网络爬虫爬取对应URL的网页内容,保留文本内容作为待分类文本;通过网络爬虫,爬取网页内容,剔除图片、视频等无效资源,保留文本内容;步骤42、通过分词技术对网页内容分词;步骤43、计算关键词在关键词库中的分布矩阵(属于某类则填1,否则填O或留空,
各类都要进行一一判 别),例如下表:
权利要求
1.一种互联网行为分析系统,其特征在于,包括基于Hadoop架构搭建的分布式云计算处理平台、通信运营商数据通信网络以及接口服务器,该分布式云计算处理平台经由交换机以及防火墙通讯连接该通信运营商数据通信网络,该接口服务器负责下载通信运营商的用户上网日志并且通讯连接该通信运营商数据通信网络;该分布式云计算处理平台包括以分布式并行方式通讯连接的主处理服务器、多个节点服务器以及操作终端,该主处理服务器负责接口数据存储,所有节点服务器对接口数据同时并行处理,操作终端向操作者提供操作该分布式云计算处理平台的界面,该分布式云计算处理平台将所述用户上网日志分成APP清单和URL清单分别进行处理,将该APP清单与客户端应用库进行匹配进行APP兴趣点汇总,将该URL清单与关键词库和网址分类库进行匹配进行URL兴趣点汇总,综合所述APP兴趣点汇总和URL兴趣点汇总得出反映用户互联网行为的表。
2.如权利要求1所述的互联网行为分析系统,其特征在于,所述反映用户互联网行为的表包括分别对应于用户访问网址、使用APP、在网页上进行搜索、上网时段及使用终端的字段。
3.如权利要求1所述的互联网行为分析系统,其特征在于,所述客户端应用库包括分别对应于IP及端口、域名以及网址的字段。
4.如权利要求1所述的互联网行为分析系统,其特征在于,所述关键词库包括对应于关键词的字段。
5.如权利要求1所述的 互联网行为分析系统,其特征在于,所述网址分类库包括对应于网址的字段。
6.如权利要求1所述的互联网行为分析系统,其特征在于,所述分布式云计算处理平台根据APP兴趣点汇总结果生成用户APP清单和用户APP兴趣点汇总表。
7.如权利要求1所述的互联网行为分析系统,其特征在于,所述分布式云计算处理平台根据URL兴趣点汇总结果生成用户URL清单和用户URL兴趣点汇总表。
8.—种如权利要求1所述的互联网行为分析系统的工作方法,其特征在于,包括: 步骤1、利用接口服务器下载通信运营商的用户上网日志; 步骤2、将所述用户上网日志交由Hadoop架构的分布式云计算处理平台进行处理并区分为APP清单和URL清单; 步骤3、将所述APP清单与客户端应用库进行匹配,对APP兴趣点打标签,进而对APP兴趣点汇总; 步骤4、将所述URL清单与关键词库和网址分类库进行匹配,对URL兴趣点打标签,进而对URL兴趣点汇总; 步骤5、根据APP兴趣点汇总结果生成用户APP清单和用户APP兴趣点汇总表; 步骤6、根据URL兴趣点汇总结果生成用户URL清单和用户URL兴趣点汇总表; 步骤7、根据用户APP兴趣点汇总表和用户URL兴趣点汇总表得出反映用户互联网行为的表。
9.如权利要求8所述的互联网行为分析系统的工作方法,其特征在于,所述反映用户互联网行为的表包括分别对应于用户访问网址、使用APP、在网页上进行搜索、上网时段及使用终端的字段。
10.如权利要求8所述的互联网行为分析系统的工作方法,其特征在于,将所述URL清单与关键词库和网址分类库进行匹配的过程包括: 步骤41、通过网络爬虫爬取对应URL的网页内容,保留文本内容作为待分类文本; 步骤42、通过分词技术对网页内容分词; 步骤43、计算关键词在关键词库中的分布矩阵; 步骤44、计算关键词在关键词库中的分布系数; 步骤45、计算关键词对关键词库中各类的覆盖度、支持度、置信度; 步骤46、准备多个预先已确定分类的待分类文本作为样本,用枚举的方法得到判断文本分类的拟合公式; 步骤47、对于待分类的文本用步骤46得到的拟合公式计算各类的得分,实现对待分类文本的分 类。
全文摘要
本发明涉及一种互联网行为分析系统及其工作方法。该互联网行为分析系统包括分布式云计算处理平台、通信运营商数据通信网络以及接口服务器,该分布式云计算处理平台经由交换机以及防火墙通讯连接该通信运营商数据通信网络,该接口服务器负责下载通信运营商的用户上网日志并且通讯连接该通信运营商数据通信网络;该分布式云计算处理平台包括以分布式并行方式通讯连接的主处理服务器、多个节点服务器以及操作终端。本发明还提供了该互联网行为分析系统的工作方法。本发明的互联网行为分析系统及其工作方法能对海量数据进行处理和加工,实现对用户上网行为的识别,针对客户的互联网行为打上相应的标签。
文档编号G06F17/30GK103248677SQ20131014493
公开日2013年8月14日 申请日期2013年4月24日 优先权日2013年4月24日
发明者陈起, 罗赞, 朱孟祥, 王正, 张利民 申请人:深圳天源迪科信息技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1