基于分布式计算平台的gpeh数据解析方法和装置制造方法

文档序号:7820080阅读:395来源:国知局
基于分布式计算平台的gpeh数据解析方法和装置制造方法
【专利摘要】本发明公开了一种基于分布式计算平台的GPEH数据解析方法和装置,首先获取GPEH原始数据;然后将GPEH原始数据上传到HDFS;最后利用MapReduce读取上传到HDFS的数据并进行解析,将解析后的数据输出到HDFS。本发明采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,对于海量数据的处理,具有高容错特性和可行性,解析周期随着集群资源扩展而缩短;可根据实际业务需求定制解析程序;存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。
【专利说明】基于分布式计算平台的GPEH数据解析方法和装置

【技术领域】
[0001]本发明涉及大数据【技术领域】,特别是涉及一种基于分布式计算平台的GPHl数据解析方法和装置。

【背景技术】
[0002]GPEH(General performance event handling,通过系统定义事件的采集和统计来定位问题)是 WCDMA (Wideband Code Divis1n Multiple Access,宽带码分多址)的一个重要功能。对于采集的GPHl原始数据进行解析,可用于无线网络规划、无线网络评估、无线网络资源管理等应用,为通信运营商提供强有力的支撑。
[0003]目前GPHl信令数据解析通常采用大型服务器进行处理,将原始的GPHl二进制数据通过反加密算法利用多线程资源进行解析,对于小规模GPHl数据可以在一定时间内解析完成。为了全面、准确、快速的进行无线网络规划支撑,底层的GPHl数据需求量巨大(数据总量可达PB级),使用大型服务器解析完成GPHl数据消耗时间难以接受。
[0004]传统GPHl数据解析通常采用单一机器,机器解析性能受机器硬件条件限制,无法随解析数据量增大而扩展;并且机器的存储、管理和分析数据量也相对较小;对于大数据量数据处理周期长。


【发明内容】

[0005]基于上述情况,本发明提出了一种基于分布式计算平台的GPHl数据解析方法,采用MapReduce ( 一种编程模型)计算框架对GPHl数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,数据处理周期随机器计算能力增加而缩短,并且存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。
[0006]为了实现上述目的,本发明技术方案的实施例为:
[0007]—种基于分布式计算平台的GPHl数据解析方法,包括以下步骤:
[0008]获取GPffi原始数据;
[0009]将所述GPIiH 原始数据上传到 HDFS (Hadoop Distributed File System,分布式文件系统);
[0010]利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
[0011]针对现有技术问题,本发明还提出了一种基于分布式计算平台的GPHl数据解析装置,采用MapReduce并行计算框架实现对GPE:H数据的快速、准确解析,结构简单、成本低,符合实际应用。
[0012]本发明技术方案的实施例为:
[0013]一种基于分布式计算平台的GPHl数据解析装置,包括:
[0014]获取模块,用于获取GPEH原始数据;
[0015]传输模块,用于将所述GPHl原始数据上传到HDFS ;
[0016]解析模块,用于利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
[0017]与现有技术相比,本发明的有益效果为:本发明基于分布式计算平台的GPHl数据解析方法和装置,采用MapReduce计算框架对GPHl数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,对于海量数据的处理,具有高容错特性和可行性,解析周期随着集群资源扩展而缩短;可根据实际业务需求定制解析程序;存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。

【专利附图】

【附图说明】
[0018]图1为一个实施例中基于分布式计算平台的GPHl数据解析方法流程图;
[0019]图2为一个实施例中利用MapReduce对上传到HDFS的数据进行读取并解析的方法流程图;
[0020]图3为基于图1所示方法一个具体示例中基于分布式计算平台的GPHl数据解析方法流程图;
[0021]图4为一个实施例中基于分布式计算平台的GPHl数据解析装置结构示意图;
[0022]图5为一个实施例中解析模块结构示意图。

【具体实施方式】
[0023]为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的【具体实施方式】仅仅用以解释本发明,并不限定本发明的保护范围。
[0024]一个实施例中基于分布式计算平台的GPHl数据解析方法,如图1所示,包括以下步骤:
[0025]步骤SlOl:获取GPHl原始数据;
[0026]步骤S102:将所述GPHl原始数据上传到HDFS ;
[0027]步骤S103:利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
[0028]从以上描述可知,本发明基于分布式计算平台的GPHl数据解析方法,采用MapReduce计算框架对GPHl数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,数据处理周期随机器计算能力增加而缩短,并且存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。
[0029]作为一个实施例,所述利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS的步骤,如图2所示,包括:
[0030]步骤S201:将上传到所述HDFS的数据分配给空闲的datanode节点(数据节点),所述datanode节点读取分配到的数据;
[0031]步骤S202:调用EventExpalinMapper函数将所述datanode节点读取到的数据以〈key (键),value (值)> 格式输出给Explainvalue函数进行解析;
[0032]步骤S203:调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS ;
[0033]重复上述步骤S201-步骤S203的处理过程直到MapReduce完成对上传到HDFS的所有数据的解析,在该过程中,各个datanode节点数据处理为并行处理;
[0034]上述MapReduce程序可以根据实际业务需求定制解析程序;并行解析数据量随着集群规模可以动态扩展,能够满足解析海量数据的时间性能要求;使用MapReduce解析GPEH数据之后,可进一步使用大数据相关技术进行统计分析处理。
[0035]作为一个实施例,在所述获取GPHl原始数据之后,将所述GPHl原始数据上传到HDFS之前,还包括步骤:
[0036]根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述GPEH原始数据进行切分;
[0037]数据切分将GPHl原始数据制作成MapReduce便于处理的形式,加快后续处理,提高数据解析效率,应用价值高。
[0038]作为一个实施例,在所述将解析后的数据输出到所述HDFS之后,还包括步骤:
[0039]导出输出到所述HDFS的解析后的数据,方便用户查看、使用解析结果,适合应用。
[0040]作为一个实施例,将所述GPHl原始数据上传到HDFS的步骤包括:
[0041 ] 调用writeToHDFS函数将所述GPEH原始数据上传到HDFS,符合实际应用,保证后续处理正常运行。
[0042]为了更好地理解本方法,以下详细阐述一个本发明基于分布式计算平台的GPHl数据解析方法应用实例。
[0043]如图3所示,该应用实例可以包括以下步骤:
[0044]步骤S301:获取GPHl原始数据;
[0045]步骤S302:根据MapReduce中设定的解析数据大小,调用EventSplitMain函数对上述GPHl原始数据进行切分;数据切分将GPHl原始数据制作成MapReduce便于处理的形式,加快后续处理,提高数据解析效率;
[0046]步骤S303:调用writeToHDFS函数将切分处理后的GPEH原始数据上传到HDFS,保证后续处理正常运行;
[0047]步骤S304:利用上述MapReduce将上传到HDFS的数据分配给空闲的datanode节点,分配到任务的datanode节点读取分配的数据;调用EventExpalinMapper函数将上述datanode节点读取到的数据以〈key, value〉格式输出,输出给EventExpalinMapper函数中的Explainvalue函数进行解析;调用EventOrderReduce函数对上述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到HDFS ;在处理完成之后,datanode节点变为空闲状态;
[0048]重复上述步骤S304的处理过程直到MapReduce完成对上传到HDFS的所有数据的解析,在该过程中,各个datanode节点数据处理为并行处理;
[0049]步骤S305:导出输出到所述HDFS的解析后的数据。
[0050]本应用实例采用MapReduce计算框架对GPHl数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,对于海量数据的处理,具有高容错特性和可行性,解析周期随着集群资源扩展而缩短;MapReduCe程序可以根据实际业务需求定制解析程序;存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展;使用MapReduce解析GPEH数据之后,可进一步使用大数据相关技术进行统计分析处理。
[0051]一个实施例中基于分布式计算平台的GPHl数据解析装置,如图4所示,包括:
[0052]获取模块401,用于获取GPHl原始数据;
[0053]传输模块402,用于将所述GPHl原始数据上传到HDFS403 ;
[0054]解析模块404,用于利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS403。
[0055]如图4所示,本装置各模块连接关系的一个优选的实施例为:获取模块401、传输模块402依次顺序连接,传输模块402的输出端连接HDFS403的输入端,HDFS403连接解析模块404。
[0056]首先获取模块401获取GPEH原始数据;然后传输模块402将GPEH原始数据上传到HDFS403 ;最后解析模块404利用MapReduce读取上传到HDFS403的数据并进行解析,将解析后的数据输出到HDFS403。
[0057]从以上描述可知,本发明基于分布式计算平台的GPHl数据解析装置,采用MapReduce并行计算框架实现对GPE:H数据的快速、准确解析,结构简单、成本低,符合实际应用。
[0058]作为一个实施例,所述解析模块404如图5所示,包括:
[0059]读取单元4041,用于将上传到所述HDFS403的数据分配给空闲的datanode节点,所述datanode节点读取分配到的数据;
[0060]解析单元4042,用于调用EventExpalinMapper函数将所述datanode节点读取到的数据以〈key, value〉格式输出给Explainvalue函数进行解析;
[0061]输出单兀4043,用于调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS403 ;
[0062]重复上述分配单元4041-输出单元4043的处理过程直到MapReduce完成对上传到HDFS403的所有数据的解析,在该过程中,各个datanode节点数据处理为并行处理;
[0063]上述解析模块404中的各个组成单元可以根据实际业务需求定制处理程序;并行解析数据量随着集群规模可以动态扩展,能够满足解析海量数据的时间性能要求;使用MapReduce解析GPHl数据之后,可进一步使用大数据相关技术进行统计分析处理。
[0064]作为一个实施例,还包括:
[0065]切分模块405,用于根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述获取模块401获取的GPEH原始数据进行切分;
[0066]所述传输模块402将所述切分模块405切分后的GPHl原始数据上传到HDFS403 ;
[0067]数据切分将GPHl原始数据制作成MapReduce便于处理的形式,加快后续处理,提高数据解析效率,应用价值高。
[0068]作为一个实施例,还包括:
[0069]导出模块406,用于导出所述解析模块输出到所述HDFS403的解析后的数据,方便用户查看、使用解析结果,适合应用。
[0070]作为一个实施例,所述传输模块402包括:
[0071]writeToHDFS传输单元,用于调用writeToHDFS函数将所述GPE:H原始数据上传到HDFS403,符合实际应用,保证后续处理正常运行。
[0072]以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
【权利要求】
1.一种基于分布式计算平台的GPHl数据解析方法,其特征在于,包括以下步骤: 获取GPEH原始数据; 将所述GPHl原始数据上传到HDFS ; 利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
2.根据权利要求1所述的基于分布式计算平台的GPHl数据解析方法,其特征在于,所述利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS的步骤包括: 将上传到所述HDFS的数据分配给空闲的datanode节点,所述datanode节点读取分配到的数据; 调用EventExpalinMapper函数将所述datanode节点读取到的数据以〈key, value〉格式输出给Explainvalue函数进行解析; 调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS。
3.根据权利要求1或2所述的基于分布式计算平台的GPHl数据解析方法,其特征在于,在所述获取GPEH原始数据之后,将所述GPEH原始数据上传到HDFS之前,还包括步骤: 根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述GPE:H原始数据进行切分。
4.根据权利要求3所述的基于分布式计算平台的GPHl数据解析方法,其特征在于,在所述将解析后的数据输出到所述HDFS之后,还包括步骤: 导出输出到所述HDFS的解析后的数据。
5.根据权利要求1所述的基于分布式计算平台的GPHl数据解析方法,其特征在于,将所述GPHl原始数据上传到HDFS的步骤包括: 调用writeToHDFS函数将所述GPHl原始数据上传到HDFS。
6.一种基于分布式计算平台的GPHl数据解析装置,其特征在于,包括: 获取模块,用于获取GPEH原始数据; 传输模块,用于将所述GPHl原始数据上传到HDFS ; 解析模块,用于利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
7.根据权利要求6所述的基于分布式计算平台的GPHl数据解析装置,其特征在于,所述解析模块包括: 读取单元,用于将上传到所述HDFS的数据分配给空闲的datanode节点,所述datanode节点读取分配到的数据; 解析单元,用于调用EventExpalinMapper函数将所述datanode节点读取到的数据以〈key, value〉格式输出给Explainvalue函数进行解析; 输出单元,用于调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS。
8.根据权利要求6或7所述的基于分布式计算平台的GPHl数据解析装置,其特征在于,还包括: 切分模块,用于根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述获取模块获取的GPEH原始数据进行切分; 所述传输模块将所述切分模块切分后的GPEH原始数据上传到HDFS。
9.根据权利要求8所述的基于分布式计算平台的GPHl数据解析装置,其特征在于,还包括: 导出模块,用于导出所述解析模块输出到所述HDFS的解析后的数据。
10.根据权利要求6所述的基于分布式计算平台的GPHl数据解析装置,其特征在于,所述传输模块包括: writeToHDFS传输单元,用于调用writeToHDFS函数将所述GPHl原始数据上传到HDFS。
【文档编号】H04L29/08GK104391916SQ201410663142
【公开日】2015年3月4日 申请日期:2014年11月19日 优先权日:2014年11月19日
【发明者】蒋超, 杜翠凤, 吴靖 申请人:广州杰赛科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1