基于分布式计算平台的gpeh数据解析方法和装置制造方法

文档序号：7820080阅读：395来源：国知局

基于分布式计算平台的gpeh数据解析方法和装置制造方法
【专利摘要】本发明公开了一种基于分布式计算平台的GPEH数据解析方法和装置，首先获取GPEH原始数据；然后将GPEH原始数据上传到HDFS；最后利用MapReduce读取上传到HDFS的数据并进行解析，将解析后的数据输出到HDFS。本发明采用MapReduce计算框架对GPEH数据进行解析，可根据数据规模定制集群机器数目，集群机器共同完成数据处理，对于海量数据的处理，具有高容错特性和可行性，解析周期随着集群资源扩展而缩短；可根据实际业务需求定制解析程序；存储容量为集群机器所有可用存储之和，可随集群机器数目增加而扩展。
【专利说明】基于分布式计算平台的GPEH数据解析方法和装置

【技术领域】
[0001]本发明涉及大数据【技术领域】，特别是涉及一种基于分布式计算平台的GPHl数据解析方法和装置。

【背景技术】
[0002]GPEH(General performance event handling,通过系统定义事件的采集和统计来定位问题)是 WCDMA (Wideband Code Divis1n Multiple Access,宽带码分多址)的一个重要功能。对于采集的GPHl原始数据进行解析，可用于无线网络规划、无线网络评估、无线网络资源管理等应用，为通信运营商提供强有力的支撑。
[0003]目前GPHl信令数据解析通常采用大型服务器进行处理，将原始的GPHl二进制数据通过反加密算法利用多线程资源进行解析，对于小规模GPHl数据可以在一定时间内解析完成。为了全面、准确、快速的进行无线网络规划支撑，底层的GPHl数据需求量巨大(数据总量可达PB级)，使用大型服务器解析完成GPHl数据消耗时间难以接受。
[0004]传统GPHl数据解析通常采用单一机器，机器解析性能受机器硬件条件限制，无法随解析数据量增大而扩展；并且机器的存储、管理和分析数据量也相对较小；对于大数据量数据处理周期长。

【发明内容】

[0005]基于上述情况，本发明提出了一种基于分布式计算平台的GPHl数据解析方法，采用MapReduce ( 一种编程模型)计算框架对GPHl数据进行解析，可根据数据规模定制集群机器数目，集群机器共同完成数据处理，数据处理周期随机器计算能力增加而缩短，并且存储容量为集群机器所有可用存储之和，可随集群机器数目增加而扩展。
[0006]为了实现上述目的，本发明技术方案的实施例为:
[0007]—种基于分布式计算平台的GPHl数据解析方法，包括以下步骤:
[0008]获取GPffi原始数据；
[0009]将所述GPIiH 原始数据上传到 HDFS (Hadoop Distributed File System,分布式文件系统)；
[0010]利用MapReduce读取上传到所述HDFS的数据并进行解析，将解析后的数据输出到所述HDFS。
[0011]针对现有技术问题，本发明还提出了一种基于分布式计算平台的GPHl数据解析装置，采用MapReduce并行计算框架实现对GPE:H数据的快速、准确解析,结构简单、成本低，符合实际应用。
[0012]本发明技术方案的实施例为:
[0013]一种基于分布式计算平台的GPHl数据解析装置，包括:
[0014]获取模块，用于获取GPEH原始数据；
[0015]传输模块，用于将所述GPHl原始数据上传到HDFS ；
[0016]解析模块，用于利用MapReduce读取上传到所述HDFS的数据并进行解析，将解析后的数据输出到所述HDFS。
[0017]与现有技术相比，本发明的有益效果为:本发明基于分布式计算平台的GPHl数据解析方法和装置，采用MapReduce计算框架对GPHl数据进行解析，可根据数据规模定制集群机器数目，集群机器共同完成数据处理，对于海量数据的处理，具有高容错特性和可行性，解析周期随着集群资源扩展而缩短；可根据实际业务需求定制解析程序；存储容量为集群机器所有可用存储之和，可随集群机器数目增加而扩展。

【专利附图】

【附图说明】
[0018]图1为一个实施例中基于分布式计算平台的GPHl数据解析方法流程图；
[0019]图2为一个实施例中利用MapReduce对上传到HDFS的数据进行读取并解析的方法流程图；
[0020]图3为基于图1所示方法一个具体示例中基于分布式计算平台的GPHl数据解析方法流程图；
[0021]图4为一个实施例中基于分布式计算平台的GPHl数据解析装置结构示意图；
[0022]图5为一个实施例中解析模块结构示意图。

【具体实施方式】
[0023]为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的【具体实施方式】仅仅用以解释本发明，并不限定本发明的保护范围。
[0024]一个实施例中基于分布式计算平台的GPHl数据解析方法，如图1所示，包括以下步骤:
[0025]步骤SlOl:获取GPHl原始数据；
[0026]步骤S102:将所述GPHl原始数据上传到HDFS ；
[0027]步骤S103:利用MapReduce读取上传到所述HDFS的数据并进行解析，将解析后的数据输出到所述HDFS。
[0028]从以上描述可知，本发明基于分布式计算平台的GPHl数据解析方法，采用MapReduce计算框架对GPHl数据进行解析，可根据数据规模定制集群机器数目，集群机器共同完成数据处理，数据处理周期随机器计算能力增加而缩短，并且存储容量为集群机器所有可用存储之和，可随集群机器数目增加而扩展。
[0029]作为一个实施例，所述利用MapReduce读取上传到所述HDFS的数据并进行解析，将解析后的数据输出到所述HDFS的步骤，如图2所示，包括:
[0030]步骤S201:将上传到所述HDFS的数据分配给空闲的datanode节点(数据节点)，所述datanode节点读取分配到的数据；
[0031]步骤S202:调用EventExpalinMapper函数将所述datanode节点读取到的数据以〈key (键)，value (值)> 格式输出给Explainvalue函数进行解析；
[0032]步骤S203:调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序，并将总体排序后的数据输出到所述HDFS ；
[0033]重复上述步骤S201-步骤S203的处理过程直到MapReduce完成对上传到HDFS的所有数据的解析，在该过程中，各个datanode节点数据处理为并行处理；
[0034]上述MapReduce程序可以根据实际业务需求定制解析程序；并行解析数据量随着集群规模可以动态扩展，能够满足解析海量数据的时间性能要求；使用MapReduce解析GPEH数据之后，可进一步使用大数据相关技术进行统计分析处理。
[0035]作为一个实施例，在所述获取GPHl原始数据之后，将所述GPHl原始数据上传到HDFS之前，还包括步骤:
[0036]根据所述MapReduce中设定的解析数据大小，调用EventSplitMain函数对所述GPEH原始数据进行切分；
[0037]数据切分将GPHl原始数据制作成MapReduce便于处理的形式，加快后续处理，提高数据解析效率，应用价值高。
[0038]作为一个实施例，在所述将解析后的数据输出到所述HDFS之后，还包括步骤:
[0039]导出输出到所述HDFS的解析后的数据，方便用户查看、使用解析结果，适合应用。
[0040]作为一个实施例，将所述GPHl原始数据上传到HDFS的步骤包括:
[0041 ] 调用writeToHDFS函数将所述GPEH原始数据上传到HDFS，符合实际应用，保证后续处理正常运行。
[0042]为了更好地理解本方法，以下详细阐述一个本发明基于分布式计算平台的GPHl数据解析方法应用实例。
[0043]如图3所示，该应用实例可以包括以下步骤:
[0044]步骤S301:获取GPHl原始数据；
[0045]步骤S302:根据MapReduce中设定的解析数据大小,调用EventSplitMain函数对上述GPHl原始数据进行切分；数据切分将GPHl原始数据制作成MapReduce便于处理的形式，加快后续处理，提高数据解析效率；
[0046]步骤S303:调用writeToHDFS函数将切分处理后的GPEH原始数据上传到HDFS，保证后续处理正常运行；
[0047]步骤S304:利用上述MapReduce将上传到HDFS的数据分配给空闲的datanode节点，分配到任务的datanode节点读取分配的数据；调用EventExpalinMapper函数将上述datanode节点读取到的数据以〈key, value〉格式输出，输出给EventExpalinMapper函数中的Explainvalue函数进行解析；调用EventOrderReduce函数对上述Explainvalue函数解析后的数据进行总体排序，并将总体排序后的数据输出到HDFS ;在处理完成之后，datanode节点变为空闲状态；
[0048]重复上述步骤S304的处理过程直到MapReduce完成对上传到HDFS的所有数据的解析，在该过程中，各个datanode节点数据处理为并行处理；
[0049]步骤S305:导出输出到所述HDFS的解析后的数据。
[0050]本应用实例采用MapReduce计算框架对GPHl数据进行解析，可根据数据规模定制集群机器数目，集群机器共同完成数据处理，对于海量数据的处理，具有高容错特性和可行性，解析周期随着集群资源扩展而缩短；MapReduCe程序可以根据实际业务需求定制解析程序；存储容量为集群机器所有可用存储之和，可随集群机器数目增加而扩展；使用MapReduce解析GPEH数据之后，可进一步使用大数据相关技术进行统计分析处理。
[0051]一个实施例中基于分布式计算平台的GPHl数据解析装置，如图4所示，包括:
[0052]获取模块401，用于获取GPHl原始数据；
[0053]传输模块402，用于将所述GPHl原始数据上传到HDFS403 ；
[0054]解析模块404，用于利用MapReduce读取上传到所述HDFS的数据并进行解析，将解析后的数据输出到所述HDFS403。
[0055]如图4所示，本装置各模块连接关系的一个优选的实施例为:获取模块401、传输模块402依次顺序连接，传输模块402的输出端连接HDFS403的输入端，HDFS403连接解析模块404。
[0056]首先获取模块401获取GPEH原始数据；然后传输模块402将GPEH原始数据上传到HDFS403 ;最后解析模块404利用MapReduce读取上传到HDFS403的数据并进行解析，将解析后的数据输出到HDFS403。
[0057]从以上描述可知，本发明基于分布式计算平台的GPHl数据解析装置，采用MapReduce并行计算框架实现对GPE:H数据的快速、准确解析,结构简单、成本低，符合实际应用。
[0058]作为一个实施例,所述解析模块404如图5所示,包括:
[0059]读取单元4041,用于将上传到所述HDFS403的数据分配给空闲的datanode节点，所述datanode节点读取分配到的数据；
[0060]解析单元4042,用于调用EventExpalinMapper函数将所述datanode节点读取到的数据以〈key, value〉格式输出给Explainvalue函数进行解析；
[0061]输出单兀4043,用于调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序，并将总体排序后的数据输出到所述HDFS403 ；
[0062]重复上述分配单元4041-输出单元4043的处理过程直到MapReduce完成对上传到HDFS403的所有数据的解析，在该过程中，各个datanode节点数据处理为并行处理；
[0063]上述解析模块404中的各个组成单元可以根据实际业务需求定制处理程序；并行解析数据量随着集群规模可以动态扩展，能够满足解析海量数据的时间性能要求；使用MapReduce解析GPHl数据之后，可进一步使用大数据相关技术进行统计分析处理。
[0064]作为一个实施例，还包括:
[0065]切分模块405,用于根据所述MapReduce中设定的解析数据大小，调用EventSplitMain函数对所述获取模块401获取的GPEH原始数据进行切分；
[0066]所述传输模块402将所述切分模块405切分后的GPHl原始数据上传到HDFS403 ；
[0067]数据切分将GPHl原始数据制作成MapReduce便于处理的形式，加快后续处理，提高数据解析效率，应用价值高。
[0068]作为一个实施例，还包括:
[0069]导出模块406，用于导出所述解析模块输出到所述HDFS403的解析后的数据，方便用户查看、使用解析结果，适合应用。
[0070]作为一个实施例，所述传输模块402包括:
[0071]writeToHDFS传输单元，用于调用writeToHDFS函数将所述GPE:H原始数据上传到HDFS403，符合实际应用，保证后续处理正常运行。
[0072]以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。
【权利要求】
1.一种基于分布式计算平台的GPHl数据解析方法，其特征在于，包括以下步骤: 获取GPEH原始数据；将所述GPHl原始数据上传到HDFS ；利用MapReduce读取上传到所述HDFS的数据并进行解析，将解析后的数据输出到所述HDFS。
2.根据权利要求1所述的基于分布式计算平台的GPHl数据解析方法，其特征在于，所述利用MapReduce读取上传到所述HDFS的数据并进行解析，将解析后的数据输出到所述HDFS的步骤包括: 将上传到所述HDFS的数据分配给空闲的datanode节点,所述datanode节点读取分配到的数据；调用EventExpalinMapper函数将所述datanode节点读取到的数据以〈key, value〉格式输出给Explainvalue函数进行解析；调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序，并将总体排序后的数据输出到所述HDFS。
3.根据权利要求1或2所述的基于分布式计算平台的GPHl数据解析方法，其特征在于，在所述获取GPEH原始数据之后，将所述GPEH原始数据上传到HDFS之前，还包括步骤: 根据所述MapReduce中设定的解析数据大小，调用EventSplitMain函数对所述GPE:H原始数据进行切分。
4.根据权利要求3所述的基于分布式计算平台的GPHl数据解析方法，其特征在于，在所述将解析后的数据输出到所述HDFS之后，还包括步骤: 导出输出到所述HDFS的解析后的数据。
5.根据权利要求1所述的基于分布式计算平台的GPHl数据解析方法，其特征在于，将所述GPHl原始数据上传到HDFS的步骤包括: 调用writeToHDFS函数将所述GPHl原始数据上传到HDFS。
6.一种基于分布式计算平台的GPHl数据解析装置，其特征在于，包括: 获取模块，用于获取GPEH原始数据；传输模块，用于将所述GPHl原始数据上传到HDFS ；解析模块，用于利用MapReduce读取上传到所述HDFS的数据并进行解析，将解析后的数据输出到所述HDFS。
7.根据权利要求6所述的基于分布式计算平台的GPHl数据解析装置，其特征在于，所述解析模块包括: 读取单元，用于将上传到所述HDFS的数据分配给空闲的datanode节点,所述datanode节点读取分配到的数据；解析单元，用于调用EventExpalinMapper函数将所述datanode节点读取到的数据以〈key, value〉格式输出给Explainvalue函数进行解析；输出单元，用于调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序，并将总体排序后的数据输出到所述HDFS。
8.根据权利要求6或7所述的基于分布式计算平台的GPHl数据解析装置，其特征在于，还包括: 切分模块，用于根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述获取模块获取的GPEH原始数据进行切分；所述传输模块将所述切分模块切分后的GPEH原始数据上传到HDFS。
9.根据权利要求8所述的基于分布式计算平台的GPHl数据解析装置，其特征在于，还包括: 导出模块，用于导出所述解析模块输出到所述HDFS的解析后的数据。
10.根据权利要求6所述的基于分布式计算平台的GPHl数据解析装置，其特征在于，所述传输模块包括: writeToHDFS传输单元，用于调用writeToHDFS函数将所述GPHl原始数据上传到HDFS。
【文档编号】H04L29/08GK104391916SQ201410663142
【公开日】2015年3月4日申请日期:2014年11月19日优先权日:2014年11月19日
【发明者】蒋超, 杜翠凤, 吴靖申请人:广州杰赛科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋超;杜翠凤;吴靖;
技术所有人：广州杰赛科技股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。