一种云平台下统计分析的实现方法

文档序号:7852839阅读:348来源:国知局

专利名称::一种云平台下统计分析的实现方法
技术领域
:本发明涉及计算机技术,更具体地涉及在云平台下对统计分析的实现方法。
背景技术
:随着海量数据,大数据时代的来临,商业应用要面对大数据的处理能力的要求越来越高。针对于大数据的分析处理,目前多采用分布式存储技术及分布式计算技术。对于当前流行的分析型的商业应用程序,都有自身分析的技术及模型,需要把数据收集到自身的程序中再进行针对的分析技术。但当面对大数据分析时,当前的很多商业应用程序如果同时加载大数据到应用程序所在的服务器上,会造成超负载致使程序崩溃;即使商业应用程序是多节点部署,可一定程度分担负载,但仍需解决各节点间通信问题
发明内容本发明要解决的技术问题是能够避免超负载对整个分析系统造成影响,以满足海量数据实时分析的需求,并提高用户体验和整个系统性能。更具体地,本发明公开了一种云平台下统计分析的实现方法,所述方法包括I、将多台服务器联网,调配成云平台,所述多台服务器被配置成一台主服务器,Map服务器,Reduce服务器;2、将原始数据列表预先部署到所述云平台上,其中,所述原始数据列表被打散成多个子列表,每个子列表存储到一个Map服务器;3、当用户进行分析数据时,数据引擎将待分析的数据逐步转换为数学模型和数学公式,以得出中间结果;4、把所述中间结果,传输到Reduce服务器,再通过相应的统计计算得到最终的统计结果;5、将最终统计结果返回,用可视化的展现形式呈现给用户。根据上述的云平台下统计分析的实现方法,其中数据引擎进行统计函数的计算,并将所述所有Map服务器上的子列表进行统计计算,得出中间结果。根据上述的云平台下统计分析的实现方法,其中将每个Map服务器作为一个数据节点,且将原始数据列表分布存储到数据节点上。本发明的益处是减少了大数据的传输,直接将原始数据部署到具有计算能力的服务器上。部署过程可以是在不占用重要时间,集中的,一次性、分布式部署到服务器上。将计算工作分解到各节点处理,减少了网络的传输量并减少了数据计算量,拓展了大数据分析的延展性,为分布式数据处理提供了新的模型和利器。附图I是本发明所述的云平台下统计分析的实现方法的流程图。具体实施例方式以下将结合附图I详细描述本发明的实现方法,为解决本发明所述的技术问题,本发明所述的云平台下统计分析的实现方法通过如下的技术方案实施I.将四台服务器联网,同时安装商务智能平台软件。一台主服务器,接收客户请求,通过分析引擎,分解任务,再转发任务。三台配置成Map服务器。一台配置成Reduce服务器。2.将原始数据部署到Map服务器。通过主服务器上的数据库管理界面,连接到数据库,读取原始数据列表,再将数据列表分成3个子数据列表,分别存储到Map服务器上。例如某一销售部门的某一销售数据列表被命名为table,包含字段为产品名,销售额,日期。通过部署,被分解成tablel,table2,table3,分别存储到三台Map服务器上。3.用户请求主服务器,例如查询当年每个季度的各产品的销售额的汇总。主服务器将商业模型转化成具体的数学计算模型,并拆分成具体的Job,分发给Map服务器和Reduce服务器。通过论证和实施,可支持绝大部分统计函数以满足商业智能的统计分析需求。支持的统计函数包括求和,统计数目,统计不同数据值的数目,乘积,中位数,均值,最大值,最小值,数范围,四分位数,众数,平方和,方差,总体方差,标准差,标准误差,总体标准差,权重之和,权重均值,协方差,相关系数。表I是所列函数表。上述函数都能分解成Map服务器和Reduce服务器能操作的单元,具体的实施如下a)原子函数此类型的函数是可直接分解为Map和Reduce操作.例如Count(统计数目)函数,其map操作是Count(统计数目),reduce操作是Sum(求和)。表2是原子函数表。b)中间函数为了支持一些原子函数,需要一些保存中间结果的函数。例如Mode(众数)函数是原子函数,即统计出现次数最多的数据值。为实现该原子函数,需要两个中间函数Map和ModeMap为Map和Reduce的操作。前者Map函数是记录了映射关系,即每个数值及出现次数。后者ModeMap函数是把所有映射关系再统计出一个新映射关系,并且可以返回众数。表3是中间函数表。c)表达式函数此类函数是一个复合函数,可由多个原子函数构成。例如Range(数范围)函数,其结果是由Max(最大值)函数的结果减去Min(最大值)函数的结果而产生的。表4是表达式函数表。d)每个函数统计行为都被分解成一个工作序列。加入一个新值,然后是直接更新结果还是存储到中间结果列表中,返回结果。中间结果以什么数据结构被存储下来,并被序列化下去,是保证计算正确的关键因素。表5和表6是存储结构表。4.Map服务器接收到Job,将存储的子列表里当年每个季度的各产品的销售额汇总统计出来,生成中间结果,发送给Reduce服务器。5.Reduce服务器接收到所有中间结果后,再汇总得到最终结果,送回主服务器。主服务器将结果用可视化的形式呈现给用户。本发明的在云平台下对统计分析的实现方法,通过分布式存储和分布式计算,把商业智能分析所需的统计分析推到多台服务器上,避免超负载对整个分析系统造成影响,以满足海量数据实时分析的需求,并提高用户体验和整个系统性能。表I函数列表权利要求1.一种云平台下统计分析的实现方法,所述方法包括1、将多台服务器联网,调配成云平台,所述多台服务器被配置成主服务器,Map服务器,Reduce服务器;2、将原始数据列表预先部署到所述云平台上,其中,所述原始数据列表被打散成多个子列表,每个子列表存储到一个Map服务器;3、当用户进行分析数据时,数据引擎将待分析的数据逐步转换为数学模型和数学公式,以得出中间结果;4、把所述中间结果,传输到Reduce服务器,再通过相应的统计计算得到最终的统计结果;5、将最终统计结果返回,以可视化展现形式呈现给用户。2.根据权利要求I的云平台下统计分析的实现方法,其中数据引擎进行统计函数的计算,并将所述所有Map服务器上的子列表进行统计计算,得出中间结果。3.根据权利要求I或2的云平台下统计分析的实现方法,其中将每个Map服务器作为一个数据节点,且将原始数据列表分布存储到数据节点上。全文摘要本发明涉及一种云平台下统计分析的实现方法,所述方法包括将多台服务器联网,调配成云平台,所述多台服务器被配置成主服务器,Map服务器,Reduce服务器;将原始数据列表预先部署到所述云平台上,其中,所述原始数据列表被打散成多个子列表,每个子列表存储到一个Map服务器;当用户进行分析数据时,数据引擎将待分析的数据逐步转换为数学模型和数学公式,以得出中间结果;把所述中间结果,传输到Reduce服务器,再通过相应的统计计算得到最终的统计结果;将最终统计结果返回,用可视化的展现形式呈现给用户。文档编号H04L29/08GK102739778SQ20121018139公开日2012年10月17日申请日期2012年6月5日优先权日2012年6月5日发明者包丽霞申请人:包丽霞
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1