一种网站流量统计的方法

文档序号:7775481阅读:670来源:国知局
一种网站流量统计的方法
【专利摘要】本发明提供了一种网站流量统计的方法,该方法包括:I、整合日志文件;II、初始化;III、根据日志文件进行流量分类,确定自然流量;IV、分析所述自然流量;V、显示分析结果,释放内存空间。本发明的网站流量统计的方法针对第三代搜索引擎,剔除内网流量和爬虫流量,实现数据划分的详细规则、地域流量的统计、关键词搜索量昨日对比,从而实现更精确的网站管理。
【专利说明】一种网站流量统计的方法
【技术领域】
[0001]本发明涉及一种互联网领域的统计方法,具体讲涉及一种网站流量统计的方法。【背景技术】
[0002]目前,随着网络的普及,大数据时代的带来,网站自身的流量随之增长,随之而来的问题也就出现了,如:如何对网站内容进行数字化的展示,详细了解网站内容的访问量等,因此需要提供一种量化、具体化的数字呈现,解决上述问题,更好的了解用户访问网站的行为,满足用户需求提供支持,同时也为分析网站自身访问情况提供可靠的数据基础,为网站提供优化设计和功能提供指向。
[0003]目前能进行流量统计的方法有百度分析、CNZZ统计、google分析、维度统计等方式,普遍的技术实现都是在页面内键入javascript的代码,根据代码的加载次数,来量化网站的主要访问指标,即:独立访客数量(UV),页面的浏览次数(PV)等等,但这些方法都存在一定局限性,比如:无法排除内部流量(公司内部、自身服务器程序发出的请求),无法排除爬虫的流量(同类大公司的爬虫爬取网页的内容),无法定位推广页面推广效果,无法排除人为、机器模拟刷新页面增加的流量等等。
[0004]因此,提供一种网站流量的数据化、细致化的统计方法具有非凡的意义,也是极其
重要的。

【发明内容】

[0005]为了克服上述现有技术的不足,本发明提供了一种更加详细、高效的网站流量统计的方法,该方法针对第三代搜索引擎,对原有网站流量信息做了进一步的细化,增加了数据划分的详细规则、地域流量的统计、关键词搜索量昨日对比,并可以做历史的详细查询,具有表格导出等一系列的功能,并针对第三代搜索,对搜索关键词的代数做出了区分,便于对网络中出现的热词进行制作和管理。
[0006]实现上述目的所采用的解决方案为:
[0007]一种网站流量统计的方法,其改进之处在于:所述方法包括:
[0008]1、整合日志文件;
[0009]I1、初始化;
[0010]II1、根据日志文件进行流量分类,确定自然流量;
[0011]IV、分析所述自然流量;
[0012]V、显示分析结果,释放内存空间。
[0013]进一步的,所述步骤I的日志为后台按单位时间运行产生的分布在不同服务器中的日志;
[0014]所述步骤I包括日志整合模块将不同服务器记录的日志进行整合。
[0015]进一步的,所述步骤II包括,流量统计系统的配置文件和日志文件的初始化;判断初始化是否成功,若初始化失败,则保存日志文件并记录失败原因;若成功则进入后续步骤。
[0016]进一步的,所述流量统计系统包括日志整合模块、流量监控模块和信息展示模块;所述流量监控模块包括流量分类模块、自然流量分析模块和数据库;所述数据库用于存数日志文件的数据库和进行流量分类的数据库;
[0017]所述日志整合存储模块用于获取服务器中的日志文件并整合,存储整合后的日志文件并发送给所述流量分类模块;所述流量分类模块对流量进行分类,踢除内网流量和爬虫流量获得自然流量;将所述自然流量的信息发送至自然流量分析模块;所述自然流量分析模块对信息进行分析,并由所述信息显示模块展示。
[0018]进一步的,所述步骤III包括,流量分类模块根据日志文件确定爬虫流量和内网流量,除去所述爬虫流量和内网流量获得自然流量。
[0019]进一步的,所述日志文件包括请求时间、IP地址、检索词、前一页面URL、请求串、浏览器信息、独立访客md5。
[0020]进一步的,所述步骤IV包括,自然流量分析模块根据日志文件分析所述自然流量,获得地域统计信息、访客流量、页面信息、推荐活动流量和关键词流量;分析并存储关键词;将数据传输至信息展示模块。
[0021]进一步的,所述地域统计信息、访客流量、页面信息、推荐活动流量和关键词流量分别通过日志文件中的IP地址、cookie、页面网址、推荐活动页面的数据和关键词信息获得。
[0022]进一步的,根据所述关键词信息确定受访问的关键词及其访问次数,获得关键词的排行信息和升降信息。
[0023]进一步的,所述步骤IV包括,信息展示模块将流量分析模块的信息展示;系统释放内存空间。
[0024]与现有技术相比,本发明具有以下有益效果:
[0025]( I)本发明的方法屏蔽内部访问产生的网站访问流量和其他网站的爬虫(非人为)流量,确保自然流量的精确,提供更加精准的自然流量。
[0026](2)本发明的方法精确获得自然流量,从而精确的确认某一页面的访问量,确认该页面在某一段时间内的访问量、产生的新访客、访问的ip地址数。
[0027](3)本发明的方法精确获得自然流量,从而实现用户搜索的关键词的历史查询,有效的提供某段时间的关键词的访问量等信息,为词条的管理、制作等提供依据。
[0028](4)本发明的方法提供了地域信息,能够精确的省、市,能够详细的了解这一地域的情况,进一步管理管理网页,减少盲目性。
[0029](5)本发明的方法提供新老访客信息,通过新老访客信息,能够明确某一时间段内推广的效果,提高公司的运维效率。
【专利附图】

【附图说明】
[0030]图1为网站流量统计方法的流程图;
[0031 ] 图2为日志文件分析流程图;
[0032]图3为网站流量统计系统图。【具体实施方式】
[0033]下面结合附图对本发明的【具体实施方式】做进一步的详细说明。
[0034]如图3所示,图3为网站流量统计系统图。流量统计系统包括日志整合模块、流量监控模块和信息展示模块。流量监控模块包括流量分类模块、自然流量分析模块和数据库;数据库用于存数日志文件的数据库和进行流量分类的数据库;日志整合存储模块用于获取服务器中的日志文件并整合,存储整合后的日志文件并发送给流量分类模块;流量分类模块对流量进行分类,踢除内网流量和爬虫流量获得自然流量;将自然流量的信息发送至自然流量分析模块;自然流量分析模块对信息进行分析,并由信息显示模块展示。
[0035]如图1所示,图1为网站流量统计方法的流程图;网站流量统计的方法包括以下:
[0036]步骤一、整合后台程序运行的日志文件(单位时间内的日志文件,I天、2天),获得分别在不同的服务器的后台程序运行的日志文件,作为流量分析的日志文件。
[0037]步骤二、启动流量统计程序,初始化日志文件,进行相关的配置文件的加载和数据库的初始化,配置文件包括IP地址定位信息,获取数据库的表名,登录用户名;
[0038]判断是否初始化成功,若初始化失败,则记录日志,记录失败的原因,以便日后的查询;如果成功则进入后续步骤。
[0039]步骤三、流量监控模块依次读取每行日志,按照分隔符依次取出各个字段的值,并按照一定规则进行详细的数据统计。流量分类模块根据日志文件确定爬虫流量和内网流量,除去所述爬虫流量和内网流量获得自然流量,如图2日志文件分析流程图所示。
[0040]步骤四、自然流量分析模块根据日志文件分析所述自然流量,获得地域统计信息、访客流量、页面信息、推荐活动流量和关键词流量;分析并存储关键词;将数据传输至信息展示模块。
[0041]步骤五、数据统计完成后,依次更新数据表中对应的表格,显示数据查询结果。后台的释放空间,回收内存。
[0042]如图2所示,图2为日志文件分析流程图。流量分析包括以下步骤:
[0043]步骤一)、确定自然流量。
[0044]对于每一行日志文件,都有着自己的属性,包含:请求时间、IP地址、检索词、是否禁查、结果代数、结果条目数、前一页面url (记录跳转页面)、请求串(记录目前正在访问的页面)、浏览器信息、新/老访客、独立访客md5 (由机器时间、访问IP、访问地址等计算出的
唯一字符串)等等。
[0045]流量统计,对第三代搜索引擎的日志文件的信息进行详细的数据划分,包括:爬虫流量,内网流量,自然流量。
[0046]内网流量,根据IP地址字段确定,用于屏蔽公司内部的流量,同时去除程序服务器自身发出请求,获得更真实的数据。同时可对内网流量进行详细分析,内网多为公司内部和合作方伙伴,公司的网站服务器产生的内网流量,如PHP/5.3、Java/*等请求,均来自内网。内网IP属于浮动的IP,可以由管理后台进行添加、修改、删除。
[0047]爬虫流量,用于剔除了外部公司的爬虫产生的数据,比如百度的BaiduSpider,谷歌的爬虫Goolebot,搜狗的sogou,搜搜的sousouSpider等等,剔除掉上述爬虫产生的数据,以便能更好的进行数据统计。踢出爬虫流量可根据日志文件中的爬虫信息,判断是否为爬虫,若有则踢出其产生的流量,如下表I为爬虫列表。[0048]
【权利要求】
1.一种网站流量统计的方法,其特征在于:所述方法包括: 1.整合日志文件; I1、初始化; II1、根据日志文件进行流量分类,确定自然流量; IV、分析所述自然流量; V、显示分析结果,释放内存空间。
2.如权利要求1所述的一种网站流量统计的方法,其特征在于:所述步骤I的日志为后台按单位时间运行产生的分布在不同服务器中的日志; 所述步骤I包括日志整合模块将不同服务器记录的日志进行整合。
3.如权利要求1所述的一种网站流量统计的方法,其特征在于:所述步骤II包括,流量统计系统的配置文件和日志文件的初始化;判断初始化是否成功,若初始化失败,则保存日志文件并记录失败原因;若成功则进入后续步骤。
4.如权利要求3所述的一种网站流量统计的方法,其特征在于:所述流量统计系统包括日志整合模块、流量监控模块和信息展示模块;所述流量监控模块包括流量分类模块、自然流量分析模块和数据库;所述数据库用于存数日志文件的数据库和进行流量分类的数据库; 所述日志整合存储模块用于获取服务器中的日志文件并整合,存储整合后的日志文件并发送给所述流量分类模块;所述流量分类模块对流量进行分类,踢除内网流量和爬虫流量获得自然流量;将所述自然流量的信息发送至自然流量分析模块;所述自然流量分析模块对信息进行分析,并由所述信息显示模块展示。
5.如权利要求1所述的一种网站流量统计的方法,其特征在于:所述步骤III包括,流量分类模块根据日志文件确定爬虫流量和内网流量,除去所述爬虫流量和内网流量获得自然流量。
6.如权利要求5所述的一种网站流量统计的方法,其特征在于:所述日志文件包括请求时间、IP地址、检索词、前一页面URL、请求串、浏览器信息、独立访客md5。
7.如权利要求5所述的一种网站流量统计的方法,其特征在于:所述步骤IV包括,自然流量分析模块根据日志文件分析所述自然流量,获得地域统计信息、访客流量、页面信息、推荐活动流量和关键词流量;分析并存储关键词;将数据传输至信息展示模块。
8.如权利要求7所述的一种网站流量统计的方法,其特征在于:所述地域统计信息、访客流量、页面信息、推荐活动流量和关键词流量分别通过日志文件中的IP地址、cookie、页面网址、推荐活动页面的数据和关键词信息获得。
9.如权利要求8所述的一种网站流量统计的方法,其特征在于:根据所述关键词信息确定受访问的关键词及其访问次数,获得关键词的排行信息和升降信息。
10.如权利要求1所述的一种网站流量统计的方法,其特征在于:所述步骤IV包括,信息展示模块将流量分析模块的信息展示。
【文档编号】H04L12/26GK103546326SQ201310538076
【公开日】2014年1月29日 申请日期:2013年11月4日 优先权日:2013年11月4日
【发明者】张言, 康智理, 许国栋 申请人:北京中搜网络技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1