本发明涉及互联网推广效果分析的领域,具体涉及一种基于分布式云计算方法,特别是基于分布式计算进行互联网海量数据分析的方法。
背景技术:
互联网推广效果分析越来越受大中型企业关注。通过分析报告制定下一阶段推广方向及推广目标,实现量化分析,作为决策的重要依据。
理想的推广效果分析报告,需要抓取的原始数据量巨大,需要对海量数据进行多个纬度分析,形成报表。且分析周期以周为单位。
如此海量的数据抓取及多维度数据分析工作,需要大规模的宽带带宽资源和cpu计算资源。传统服务器集群的方式已经不能满足大规模互联网推广效果分析工作。
因此,互联网推广效果分析需要一种海量高效的计算和带宽调度方法。使推广效果分析能够实现更加深度的数据挖掘和更多维度的报表汇总分析。
技术实现要素:
本发明的目的在于提供一种基于分布式云计算的推广效果分析方法,通过分布式云计算方式调度海量闲置计算机资源,有效控制了成本,解决了推广效果分析领域宽带及计算资源成本过高问题。
所述推广效果分析所需的原始数据组成包括但不限于搜索引擎搜索结果、社交平台实时数据、群组互动数据、竞争对手数据。
所述搜索引擎搜索结果数据,所需数据以百万计,由于非接口的搜索引擎搜索频率限制,若几小时内完成搜索并汇总搜索结果,需要近万台计算机同时工作。
所述社交平台实时数据,需分组采集,采集规模达上千条/秒,由于微博等社交平台的访问频率限制,需要数十台计算机同时工作。
所述群组互动数据,需分组采集,采集规模一般为几千条/秒,需要进行账号登陆授权操作,系统开销较大,需要数百台计算机同时工作。
所述竞争对手数据,数据定向采集,数据包含搜索引擎结果和社交平台数据,需要多台计算机同时工作。
附图说明
图1为本发明的实施例中推广效果分析原始数据组成图。
图2为本发明的实施例中推广数据效果分析流程图。
具体实施方式
以下结合附图,具体说明本发明。
首先,结合附图1,推广效果分析原始数据由1-1、1-2、1-3、1-4组成,每种数据都可分解成并行任务。
然后,结合附图2,对基于云计算的推广效果分析流程进行详细描述。
1、首先设置好原始数据抓取范围,设置数十万个关键词、关注数万个社交\群组账号、竞争对手关键词等2-1;
2、数据抓取分解成可并行的计算任务,将关键词\账号等进行分解分组,并为不同种类的任务设置不同的抓取算法,确保分解后的计算任务相互弱关联,无上下文关系2-2;
3、通过接入分布式云计算平台,将分解后的任务分发到分布式云计算平台,并完成预结算2-3;
4、分布式云计算平台将具体的计算任务分派到海量计算节点中,计算节点按照设定的算法参与计算,并返回计算结果2-4;
5、客户侧结果搜集服务器搜集结果数据,并进行汇总分析。如计算量比较大,还可进行计算任务再分解,再投入到分布式云计算平台计算结果2-5;
6、最终为互联网推广效果分析工作,生成数据报表和图表2-6。