一种网络服务大数据分析方法、云计算平台及挖掘系统的制作方法

文档序号:9708435阅读:313来源:国知局
一种网络服务大数据分析方法、云计算平台及挖掘系统的制作方法
【技术领域】
[0001]本发明涉及通信技术领域,尤其涉及一种网络服务大数据分析方法、云计算平台及挖掘系统。
【背景技术】
[0002]随着现代科技的快速发展,网络高度发达,互联网被不断的应用到社会的各个方面。人们的生活也随之发生改变,越来越多的通过网络来获取信息资源和相互交流。门户网站、社交网站、微博论坛等等成为人们每天必定访问的目标。与此同时,隐藏在网络中的信息量也随之呈指数级增长。对于热点网站来说,单日的访问数据信息可能突破万亿字节级另IJ。一著名社交网站在2014年公布了其单日处理用户上传的数据量突破了 500TB。网络的发展已经进入了大数据时代。
[0003]然而,不同用户的上网习惯和目的是不同的。对于互联网企业来说,用户信息是其最重要的资源,如何从访问信息中分析挖掘出用户的网络行为特点,为用户提供个性化的服务吸引用户,成为了一个重要问题。同时,用户期望能够用最快捷的方式获得自己想要的信息,希望访问的网站能够推送自己感兴趣的新闻和话题。对互联网企业来说,可以据用户活跃数对网站进行相应改进和升级;对用户而言,可以获得感兴趣的推送以提高用户体验。
[0004]但是,传统的分析访问信息数据的方式在面对大数据时有着诸多弊端。例如,数据提取、转换和加载(extract-transform-load,ETL)在处理大数据时,硬件开销过于庞大且性能一般,已经无法满足现在数据大爆炸时代的需求。基于以上需求关系,一种能够从海量访问信息中高效的分析用户网络行为的系统具有了重要意义。
[0005]也就是说,现有技术中的数据挖掘方法,存在不能满足当前处理大数据时对硬件开销的需求。

【发明内容】

[0006]本申请实施例通过提供一种网络服务大数据分析方法、云计算平台及挖掘系统,解决了现有技术中的数据挖掘方法,存在的不能满足当前处理大数据时对硬件开销的需求的技术问题。
[0007]一方面,本申请实施例提供了如下技术方案:
[0008]—种网络服务大数据分析方法,应用于云计算平台中,所述云计算平台与网站服务器、数据库服务器及网页服务器均连接,所述方法包括:
[0009]接收所述网站服务器发送的日志数据;
[0010]按照预设的条件过滤所述日志数据,并将所述日志数据存储于分布式文件存储系统目录中;
[0011]当接收到所述网页服务器发送的挖掘任务指令时,基于所述挖掘任务指令,按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;
[0012]输出所述挖掘结果至所述数据库服务器。
[0013]可选的,所述接收所述网站服务器发送的日志数据之后,还包括:发送删除指令至所述网站服务器,以使所述网站服务器删除所述日志数据。
[0014]可选的,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:按照预设的与所述挖掘任务指令对应的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据。
[0015]可选的,当所述挖掘任务指令的种类为排序类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:使用分布式并行计算模型挖掘所述日志数据;当所述挖掘任务指令的种类为统计分析类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:对所述日志数据进行结构化处理,将所述日志数据映射为数据库表;挖掘所述数据库表。
[0016]可选的,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:使用分布式并行计算模型挖掘所述日志数据,获得中间数据;对所述中间数据进行结构化处理,将所述中间数据映射为数据库表;挖掘所述数据库表。
[0017]另一方面,本申请实施例还提供了一种云计算平台,所述云计算平台与网站服务器、数据库服务器及网页服务器均连接,所述云计算平台包括:
[0018]传输单元,用于接收所述网站服务器发送的日志数据;
[0019]预处理单元,与所述传输单元连接;用于接收所述传输单元传输的所述日志数据,并按照预设的条件过滤所述日志数据;
[0020]存储单元,与所述预处理单元连接;用于将所述预处理单元过滤后的日志数据存储于所述存储单元的分布式文件存储系统目录中;
[0021]分析挖掘单元,与所述传输单元和所述存储单元均连接;用于当所述传输单元接收到所述网页服务器发送的挖掘任务指令时,基于所述挖掘任务指令,按照预设的规则挖掘所述存储单元的所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;
[0022]导出单元,与所述分析挖掘单元连接,以输出所述挖掘结果至所述数据库服务器。
[0023]可选的,所述传输单元还用于,发送删除指令至所述网站服务器,以使所述网站服务器删除所述日志数据。
[0024]可选的,所述分析挖掘单元还用于:当所述挖掘任务指令的种类为排序类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:使用分布式并行计算模型挖掘所述日志数据;当所述挖掘任务指令的种类为统计分析类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:对所述日志数据进行结构化处理,将所述日志数据映射为数据库表。
[0025]再一方面,还提供了一种挖掘系统,包括:云计算平台、网站服务器、数据库服务器和网页服务器;所述云计算平台与所述网站服务器、所述数据库服务器及所述网页服务器均连接;
[0026]所述网站服务器用于,发送日志数据至所述云计算平台;
[0027]所述云计算平台用于,接收所述日志数据,按照预设的条件过滤所述日志数据,并将所述日志数据存储于分布式文件存储系统目录中;
[0028]所述网页服务器用于,发送挖掘任务指令至所述云计算平台;
[0029]所述云计算平台用于,基于所述挖掘任务指令,按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;输出所述挖掘结果至所述数据库服务器;
[0030]所述数据库服务器用于存储所述挖掘结果。
[0031 ]可选的,所述数据库服务器和所述网页服务器连接;所述网页服务器还用于,发送查询指令至所述数据库服务器;所述数据库服务器还用于,基于所述查询指令输出所述挖掘结果至所述网页服务器,以使所述网页服务器能显示出所述挖掘结果。
[0032]本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
[0033]1、本申请实施例提供的方法、平台及系统,利用云计算平台来收集各网站服务器的日志数据,再在接收到网页服务器发送的挖掘任务指令后,对收集的日志数据进行挖掘,并将挖掘结果发送给数据库服务器存储,由于云计算平台的扩展性极强,可以满足对海量数据的高效挖掘需求。
[0034]2、本申请实施例提供的方法、平台及系统,通过网页服务器来发起挖掘任务指令,能实现通过在网页服务器上执行操作,就可以发起挖掘任务指令,以调度网页服务器、网站服务器、云平台、数据库服务器这四个子系统,并依次自动执行这四个子系统内部所有与获取信息挖掘结果的相关操作,最终得到挖掘的结果,便于用户操作,提高了系统的挖掘效率。进一步,在发起挖掘任务指令,自动执行相关操作的中间过程中,各个中间操作的结果都可以回传到网页服务器上,并显示出来,在其中一步操作出现错误的时候,就会停在该操作所在的位置,便于在出现错误时候的问题查找定位。
[0035]3、本申请实施例提供的方法、平台及系统,可以同时对接入系统的多个网站服务器的日志数据进行挖掘分析以及存储处理,而不需要网站服务器存储日志数据,减少网站服务器对日志数据的分析工作量和存储压力,提高网站服务器的处理速度。
【附图说明】
[0036]图1为本申请实施例中挖掘系统的结构图;
[0037]图2为本申请实施例中通过网页服务器控制数据挖掘的示意图;
[0038]图3为本申请实施例中云计算平台的结构图;
[0039]图4为本申请实施例中网络服务大数据分析方法的步骤图。
【具体实施方式】
[0040]本申请实施例通过提供一种网络服务大数据分析方法、云计算平台及挖掘系统,解决了现有技术中的数据挖掘方法,存在的不能满足当前处理大数据时对硬件开销的需求的技术问题。实现了满足对海量数据的高效挖掘需求。
[0041]为了解决上述现有技术存在的技术问题,本申请实施例提供的技术方案的总体思路如下:
[0042]一种网络服务大数据分析方法,应用于云计算平台中,所述云计算平台与网站服务器、数据库服务器及网页服务器均连接,所述方法包括:
[0043]接收所述网站服务器发送的日志数据;
[0044]按照预设的条件过滤所述日志数据,并将所述日志数据存储于分布式文件存储系统目录中;
[0045]当接收到所述网页服务器发送的挖掘任务指令时,基于所述挖掘任务指令,按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;
[0046]输出所述挖掘结果至所述数据库服务器。
[0047]通过上述内容可以看出,利用云计算平台来收集各网站服务器的日志数据,再在接收到网页服务器发送的挖掘任务指令后,对收集的日志数据进行挖掘,并将挖掘结果发送给数据库服务器存储,由于云计算平台的扩展性极强,可以满足对海量数据的高效挖掘需求。
[0048]为了更好的理解上述技术方案,下面将结合说明书附图以及具体的
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1