一种网站分类排名的管理方法及管理系统与流程

文档序号:12887195阅读:161来源:国知局
本发明属于网站
技术领域
:,特别涉及网站分类排名的管理方法及管理系统。
背景技术
::网站排名是按照客观、真实、公正原则,以网站访问流量统计数据为依据适时发布“nnt流量”。nnt流量是是一款基于p2p分享机制和沙盒安全原理,能快速提高网站流量和alexa排名的真实流量。其中,影响网站排名的因素有很多,例如:点击率、网站流量和alexa排名、用户特征、网站黏度等等。对于任何一家公司网站来说,想要在公司网站推广中取得成功,使得网站排名靠前是关键。对于任意一个用户来说,想要获取优质网站内的内容,主要依靠网站排名顺序。因而,无论是对公司还是用户来说,网站排名十分重要。目前,在大数据应用场景下,随着用户上网的数据海量增加。面对海量用户所访问的网站数据,对海量网站访问数据进行分类和计算后,对网站进行排名成为本领域亟待解决的问题。技术实现要素:本发明提供的技术方案如下:本发明提供一种网站分类排名的管理方法,包括以下步骤:s10、根据获取到的批量网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息;s20、查看所述链接参考信息在预设匹配样本库中是否匹配到对应的网站名称;s30、当所述链接参考信息匹配到对应的网站名称时,则分别对所述访问用户信息、所述链接参考信息对应的网站名称进行归类合并;s40、根据归类合并后的访问用户信息及网站名称,统计出每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数;s50、根据每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数,对每类网站名称进行网站排名。进一步,还包括以下步骤:s31、当所述链接参考信息未匹配到对应的网站名称时,则直接丢弃该链接参考信息对应的网站访问数据。进一步,所述步骤s10进一步包括:s11、根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;s12、解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。进一步,所述步骤s30进一步还包括:s301、对所述网站访问数据对应的访问用户信息所进行归类合并;s302、根据归类合并后的访问用户信息,对所述访问用户信息进行排序。进一步,所述步骤s30进一步还包括:s303、根据排序后的访问用户信息所访问的网站访问数据,以及所述网站访问数据对应的链接参考信息;对所述链接参考信息对应的网站名称进行归类合并;s304、根据归类合并后的网站名称,对所述链接参考信息对应的网站名称进行排序。进一步,所述步骤s50进一步包括:s51、根据每类网站名称的网站访问总数大小、或者每类网站名称的访问用户数量大小,对每类网站名称进行网站排名。进一步,所述步骤s50进一步还包括:s52、根据每类网站名称的网站访问总数、该类网站名称的访问用户数量,计算出每类网站名称对应每位访问用户的网站访问平均数;s53、根据每类网站名称对应的网站访问平均数大小,对每类网站名称进行网站排名。本发明还提供一种网站分类排名的管理系统,包括:提取模块,用于根据获取到的批量网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息;查看模块,用于查看所述链接参考信息在预设匹配样本库中是否匹配到对应的网站名称;合并处理模块,用于当所述链接参考信息匹配到对应的网站名称时,分别对所述访问用户信息、所述链接参考信息对应的网站名称进行归类合并;统计模块,用于根据归类合并后的访问用户信息及网站名称,统计出每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数;排名处理模块,用于根据每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数,对每类网站名称进行网站排名。进一步,还包括:丢弃处理模块,还用于当所述链接参考信息未匹配到对应的网站名称时,直接丢弃该链接参考信息对应的网站访问数据。进一步,还包括:划分模块,用于根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;所述提取模块,用于解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。与现有技术相比,本发明提供的网站分类排名的管理方法及管理系统,具有以下有益效果:1)、本发明从批量网站访问数据中提取访问用户信息、链接参考信息,在链接参考信息匹配到网站名称后,对访问用户信息、链接参考信息进行归类合并,统计网站访问总数、访问用户数量,并进行排名;从而高效得进行网站分类排名。2)、本发明在链接参考信息未匹配到网站名称时,直接将链接参考信息对应的网站访问数据丢弃;从而减轻计算任务、解除所占用的资源;有利于程序稳定快速运行。3)、本发明将批量网站访问数据划分成片,解析每片网站访问数据,分散计算任务,有利于高效、稳定地对网站名称进行排名。4)、本发明提取访问用户信息,对访问用户信息进行归类合并后,进行排列,从而得到有序的访问用户信息。其次,对网站访问数据进行归类合并后,进行排列;从而得到有序的访问用户信息及该访问用户信息下有序的网站访问数据。附图说明下面将以明确易懂的方式,结合附图说明优选实施方式,对一种网站分类排名的管理方法及管理系统的上述特性、技术特征、优点及其实现方式予以进一步说明。图1是本发明一种网站分类排名的管理方法的流程示意图;图2是本发明另一种网站分类排名的管理方法的流程示意图;图3是本发明再一种网站分类排名的管理方法的流程示意图;图4是本发明一种网站分类排名的管理系统的组成结构示意图;图5是本发明又一种网站分类排名的管理方法的流程示意图;图6是本发明中编写task任务的示意图。附图标号说明:10、划分模块,20、提取模块,30、查看模块,40、合并处理模块,50、排序处理模块,60、丢弃处理模块,70、统计模块,80、计算模块,90、排名处理模块。具体实施方式为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。如图1所示,根据本发明的一个实施例,一种网站分类排名的管理方法,包括以下步骤:s10、根据获取到的批量网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息;所述访问用户信息包括用户终端mac地址;所述链接参考信息包括url关键字,例如sogou;s20、查看所述链接参考信息(sogou)在预设匹配样本库中是否匹配到对应的网站名称(搜狗);s30、当所述链接参考信息匹配到对应的网站名称时,分别对所述访问用户信息、所述链接参考信息对应的网站名称进行归类合并;优选的,还包括:s31、当所述链接参考信息未匹配到对应的网站名称时,直接丢弃该链接参考信息对应的网站访问数据。s40、根据归类合并后的访问用户信息及网站名称,统计出每类网站名称对应的网站访问总数、以及该类网站名称的访问用户数量;s50、根据每类网站名称的网站访问总数、以及该类网站名称的访问用户数量,对每类网站名称进行网站排名。具体的,首先,需要构建分布式系统的集群环境,所述集群环境包括主节点和从节点,以及主节点、从节点的个数;例如:安装linuxcentos7在11个机器里(4个master,7个slave),并保证磁盘根目录不低于40g。安装基于无环有向图分布式mr-reduce计算分析。maser:管理各个task的依赖关系,并按顺依赖关系执行他们。此外,编写基于该计算的task任务的查询分析任务-url关键字匹配,task任务按照input、processor、output分别完成计算;task:对任务的抽象,每个task由一个input、ouput和processor组成。processor:对计算的抽象,它从一个input中获取数据,经处理后,通过output输出。编写基于mr的mac地址统计。分别提交任务到yarn,yarn是hadoop的资源管理系统。hadoop是一个由apache基金会所开发的分布式系统基础架构;充分利用集群进行高速运算和存储。运行任务将任务结果存储在mysql。对查询结果进行可视化输出。本发明在通过部署计算分析的链接参考信息(url关键字)分类中,将分析url关键字计算与路由器mac地址的计算统计分开,将url关键字匹配的计算部署基于无环有向图分布式mr-reduce计算分析,这样能将计算压力转移,提高计算性能和效率。如图2所示,根据本发明的另一个实施例,一种网站分类排名的管理方法,包括以下步骤:s11、根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;s12、解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。所述访问用户信息包括用户终端mac地址;所述链接参考信息包括url关键字,例如sogou;s20、查看所述链接参考信息(sogou)在预设匹配样本库中是否匹配到对应的网站名称(搜狗);s301、对所述网站访问数据对应的访问用户信息进行归类合并;s302、根据归类合并后的访问用户信息,对所述访问用户信息进行排序。s303、根据归类合并后的访问用户信息所访问的网站访问数据,以及所述网站访问数据对应的链接参考信息;对所述链接参考信息对应的网站名称进行归类合并;s304、根据归类合并后的网站名称,对所述链接参考信息对应的网站名称进行排序。优选的,还包括:s31、当所述链接参考信息未匹配到对应的网站名称时,直接丢弃该链接参考信息对应的网站访问数据。s40、根据排序后的访问用户信息及网站名称,统计出每类网站名称对应的网站访问总数、以及该类网站名称的访问用户数量;s50、根据每类网站名称的网站访问总数、以及该类网站名称的访问用户数量,对每类网站名称进行网站排名。具体的,利用数据收集装置(例如路由器)收集海量网站访问数据;input输入批量网站访问数据,输入的数据可能是一堆文本。将批量网站访问数据split划分成若干的分片,每个分片交给一个map处理。map会解析每行数据,提取有效的数据作为输出,map的输出就是一条一条的key-value。tasktracker会把数据进行复制和排序,输出的key和value进行partition的划分(paritioner对数据进行分片),并把partition相同的map输出,合并为相同的reduce的输入。通过shuffle之后,变成reduce的输入,这是相同的key对应的value被组合成了一个迭代器。ruducer处理:把数据输出,每个相同的key,一定在一个reduce中处理完;每一个reduce至少对应一份输出(可以通过扩展multipleoutputformat来得到多分输出)。其中,input默认是一行一条记录,每天记录都放在value里边。output每次搜集一条k-v记录,一个k可以对应多个value,在reduce里面体现为一个iterator。mapper可以选择性地继承mapreducebase这个基类,只是把一些方法实现了而已。mapper必须实现mapper接口,这是一个泛型接口,需要执行输入和输出的key-value的类型,这些类型通常都是wriable接口的实现类。实现map方法有四个参数:前两个参数是输入的key和value;第三个参数是ouputcollector,用于收集输出;第四个参数是reporte,用来报告一些状态,可以用于debug。reduce也可以选择继承mapreducebase这个基类,功能跟mapper一样。cer必须实现reducer接口,这个接口同样是泛型接口,意义跟mapper的类似。实现reduce方法也有四个参数:第一个参数是输入的key;第二个参数是输入的value的迭代器,可以遍历所有的value,相当于一个列表;第三个参数是outputcollector跟map的一样,是输出的搜集器,每次搜集都是key-value的形式;第四个参数是report,其作用跟map的reporte相同。combiner的作用是将map的输出,先计算一遍,得到初步的合并结果,减少reduce的计算压力。combiner的编写方法跟reduce是一样的,是一个reducer的实现类。当reducer符合函数f(a,b)=f(f(a),f(b))时,combinner可以与reduce相同。比如:sum(a,b,c,d,e,f,g)=sum(sum(a,b),sum(c,d,e,f),sum(g))还有max,min等等。编写正确的combiner可以优化整个mapreduce程序的性能。combiner可以跟reducer不同。设置inputs&output:先判断输入是否存在;判断输出是否已经存在。设置mapper、reducer、combiner。各个实现类的class对象,xxxx.class。设置inputformat&outputformat&types:input和outputformat都有两种:一种是textfile,一种是sequencefile。textfile是文本组织的形式,sequencefile是二进制组织的形式。types的设置,根据输入和输出的数据类型,设置各种writable接口的实现类的class对象。设置reducecount:reducecount可以为0,当数据无需reduce的时候。reduce数量最好稍微少于当前可用的slots的数量,这样reduce就能在一波计算中算好。如图3所示,根据本发明的再一个实施例,一种网站分类排名的管理方法,包括以下步骤:s11、根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;s12、解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。所述访问用户信息包括用户终端mac地址;所述链接参考信息包括url关键字,例如sogou;s20、查看所述链接参考信息(sogou)在预设匹配样本库中是否匹配到对应的网站名称(搜狗);s301、对所述网站访问数据对应的访问用户信息进行归类合并;s302、根据归类合并后的访问用户信息,对所述访问用户信息进行排序。s303、根据排序后的访问用户信息所访问的网站访问数据,以及所述网站访问数据对应的链接参考信息;对所述链接参考信息对应的网站名称进行归类合并;s304、根据归类合并后的网站名称,对所述链接参考信息对应的网站名称进行排序。优选的,还包括:s31、当所述链接参考信息未匹配到对应的网站名称时,直接丢弃该链接参考信息对应的网站访问数据。s40、根据归类合并后的访问用户信息及链接参考信息,统计出每类网站名称对应的网站访问总数、以及该类网站名称的访问用户数量;s51、根据每类网站名称的网站访问总数大小、或者每类网站名称的访问用户数量大小,对每类网站名称进行网站排名。或者:s52、根据每类网站名称的网站访问总数、该类网站名称的访问用户数量,计算出每类网站名称对应每位访问用户的网站访问平均数;s53、根据每类网站名称对应的网站访问平均数大小,对每类网站名称进行网站排名。具体的,通过数据收集装置(如家用路由器)获取批量的原始数据,具体如下:在数据库中对数据进行匹配,其匹配结果如下:对访问用户信息进行归类合并后、排序,其结果如下:统计出每类网站名称对应的网站访问总数、以及该类网站名称的访问用户数量,其结果如下:启用mr计算得出结果数据(访问了几次),如果该批数据中存在前述匹配不到的,则忽略数据。000000003555、000000003511腾讯网站访问2次;000000003555搜狐网站访问1次;000000001abb爱奇艺网站访问1次。如图4所示,根据本发明的一个实施例,一种网站分类排名的管理系统,包括:提取模块20,用于根据获取到的批量网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息;所述访问用户信息包括用户终端mac地址;所述链接参考信息包括url关键字,例如sogou;优选的,划分模块10,用于根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;所述提取模块20,用于解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。查看模块30,用于查看所述链接参考信息(sogou)在预设匹配样本库中是否匹配到对应的网站名称(搜狗);合并处理模块40,用于当所述链接参考信息匹配到对应的网站名称时,分别对所述访问用户信息、所述链接参考信息对应的网站名称进行归类合并。优选的,还包括:所述合并处理模块40,用于对所述网站访问数据对应的访问用户信息进行归类合并;排序处理模块50,用于根据归类合并后的访问用户信息,对所述访问用户信息进行排序;所述合并处理模块40,用于根据排序后的访问用户信息所访问的网站访问数据,以及所述网站访问数据对应的链接参考信息;对所述链接参考信息对应的网站名称进行归类合并;所述排序处理模块50,用于根据归类合并后的网站名称,对所述链接参考信息对应的网站名称进行排序。优选的,还包括:丢弃处理模块60,用于当所述链接参考信息未匹配到对应的网站名称时,直接丢弃该链接参考信息对应的网站访问数据。统计模块70,用于根据归类合并后的访问用户信息及链接参考信息,统计出每类网站名称对应的网站访问总数、以及该类网站名称的访问用户数量;排名处理模块90,用于根据每类网站名称的网站访问总数大小、或者每类网站名称的访问用户数量大小,对每类网站名称进行网站排名。或者:计算模块80,用于根据每类网站名称的网站访问总数、该类网站名称的访问用户数量,计算出每类网站名称对应每位访问用户的网站访问平均数;排名处理模块90,用于根据每类网站名称对应的网站访问平均数大小,对每类网站名称进行网站排名。本发明在基于基于无环有向图分布式mr-reduce计算分析的大数据分析平台上,借着基于无环有向图分布式mr-reduce计算分析的分布式计算及分类的方法,完成网站的高效分类及排名,比普通的hadoop计算更快且效率高。如图5、图6所示,根据本发明的又一个实施例,一种网站分类排名的管理方法,包括以下步骤:安装linuxcentos7在11个机器里,(如,4个master,7个slave);并保证磁盘根目录不低于40g。maser:管理各个task的依赖关系,并按顺依赖关系执行他们。安装基于无环有向图分布式mr-reduce计算分析;编写基于该计算的task任务的查询分析任务-url关键字匹配,task任务按照input、processor、output分别完成计算;详细流程如图6所示。task:对任务的抽象,每个task由一个input、ouput和processor组成。编写基于mr的mac地址统计;分别提交任务到yarn;运行任务将任务结果存储在mysql;对查询结果进行可视化输出。启动无环有向图的mr-reduce计算任务,会将计算分解为map和reduce:其中,map包括:input、processor、sort、merge、output;reduce包括:input、shuffle、sort、merge、processor、output。input:对输入数据源的抽象,它解析输入数据格式,并吐出一个个key/value。output:对输出数据源的抽象,它将用户程序产生的key/value写入文件系统。processor:对计算的抽象,它从一个input中获取数据,经处理后,通过output输出。sort:统计频次结果排序。merge:归类合并。shuffle:把maptask的输出结果有效地传送到reduce端。ambari:apacheambari是一种基于web的工具,支持apachehadoop集群的供应、管理和监控。ambari目前已支持大多数hadoop组件,包括hdfs、mapreduce、hive、pig、spark等。应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
:的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1