一种基于hadoop的ltemro数据统计方法及系统的制作方法

文档序号:8447489阅读:1606来源:国知局
一种基于hadoop的lte mro数据统计方法及系统的制作方法
【技术领域】
[0001]本发明涉及一种LTE网络数据统计方法技术领域,特别涉及一种基于HADOOP的LTE MRO数据统计方法及系统。
【背景技术】
[0002]随着4G牌照的发放中国正式进入4G时代,与此同时运营商也紧锣密鼓的开始了基础网络建设。中国移动集团计划2014年要完成近50万个TD-LTE站点的建设。当前移动互联网的飞速发展,要求LTE网络从起步阶段就要成为精品网络。
[0003]而以往2/3G网,络运营的经验表明,站点完成建设后网络结构就基本确定。如何在LTE网络起步阶段就确保其结构合理性成为运营者亟待解决的重要课题。LTE MRO数据是指基站周期性收集手机终端所处无线环境信息的测量报告(measurement result)采样数据,客观的反映了无线网络的真实情况,对于诊断网络结构问题具有重要意义。
[0004]MRO (Mobility Robustness Optimizat1n移动鲁棒性优化)是对切换的相关参数进行自动优化的一个功能,是SON (Self-Organizat1n Network自组织网络)的组成部分之一。切换参数设置的不合理,会导致切换过早、过晚或乒乓切换的情况,这样将会影响用户体验以及浪费网络资源。MRO通过对不同切换场景的识别,并对它们进行统计,根据统计结果对切换的相关参数进行优化,使得网路中的切换失败、掉话以及不必要的切换降到最少。
[0005]随着无线网络中网元与厂商的增加,网络维护的复杂度、技术要求和成本等也在大幅上升。为了降低网络维护的复杂度与成本,LTE系统要求无线网络支持自组织行为,即E-UTRAN支持SON。SON需要支持自配置与自优化功能。MRO为自优化功能之一,通过识别异常切换的场景,自动优化切换的相关参数,以提高网络的切换成功率以及资源利用率。
[0006]MRO通过对不同切换情况的识别,并对它们进行统计,根据统计结果对切换的相关参数进行优化,使得网络中的切换失败、掉话和不必要的切换降到最少。
[0007]然而MRO文件为小文件,但数据庞大,传统的数据分析处理手段对此望而却步。分析人员只能针对重点保障区域提取对应数据做小范围的局部分析,无法开展全网的整体性网络结构分析。
[0008]Hadoop的出现为解决上述问题提供了技术手段。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop框架中最核心设计是Map/Reduce和HDFS(HadoopDistributed File System)。Map/Reduce是Google的一项核心的技术,它是对并行计算的编程模型的一种简化,它可以让那些并行计算经验不足的开发人员也可以开发这些并行应用。分布式文件系统HDFS的来源是受Google文件系统GFS (Google File System)的启发,一个建立在大型集群上并且可靠存储大数据集的文件系统。HDFS与Map/Reduce相辅相成,构成了 Hadoop分布式计算的坚实的存储基石。
[0009]Hive是Apache基金会下的一个在Hadoop上构建数据仓库的开源软件,它支持通过类SQL的HQL语言操作结构化数据。Hive的主要功能是将类SQL的HQL语言翻译成Map/Reduce代码并在Hadoop上运行。Hive的出现使Hadoop做大数据分析变的简单,节省了数据分析人员编译和调试Map/Reduce代码的繁琐工作。
[0010]Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
[0011]而LTE MRO文件本身的特点是其为海量小文件,为Hadoop的处理带来难度,而本发明基于Hadoop和Hive构建了一种统计LTE MRO等大数据的一种方法,能很好的满足电信等行业的大数据量统计需求。

【发明内容】

[0012]为了解决现有技术的问题,本发明提供了一种基于HADOOP的LTE MRO数据统计方法及系统,其实现了类似LTE MRO文件的海量小文件,解决了海量数据给电信运营商带来的处理压力,提供了高效智能统计和数据挖掘的途径。
[0013]本发明所采用的技术方案如下:
一种基于HADOOP的LTE MRO数据统计方法,包括以下步骤:
A、集群所有节点部署并开启自开发的多线程ftp下载工具,此工具实时扫描基站文件服务器;
B、集群所有节点部署并开发自研发多线程LTEMRO文件解析程序,此程序将文件进行了格式化,将格式化文件写入本地磁盘;
C、Hadoop分布式文件系统挂载通过使用Hadoop的Fuse-DFS模块,将Hadoop文件系统作为一个标准文件系统进行挂载在Iinux系统上;
D、根据业务需求,在Hive数据仓库中建源数据层,中间层和应用层,并在不同的层中建响应分区表,这些表根据日期和厂商进行分区,便于数据导出和修复;
E、同时根据业务需求,开发Hql语句并写入文本文件,由调度程序统一调度;
F、调度程序统一调度执行Hql,从Hive源数据层表中抽取数据,依次生成中间层表和应用表数据;
G、应用层数据生成后,调度程序会调用Sqoop,将Hive新生成数据导入Oracle;
H、监控程序后台运行,实时接收实时调度程序和定时调度程序的执行结果,并实时扫描Hadoop和Hive日志,如有失败任务,则重新执行。
[0014]步骤A中,若存在LTE MRO新文件,则启动线程,采用ftp服务实时下载文件,单文件下载完成后,对本地远程的此文件进行md5校验,若不成功重新下载。
[0015]步骤F中,Hive通过入口函数收到Hql,首先根据关键字用语法解析器和词法解析器将Hql转换成抽象语法树,然后对此语法树进行优化生成新的语法树,最后生成执行计划plan, xml,根据plan, xml启动Hadoop的Map/Reduce程序得到hql的执行结果。
[0016]一种基于HADOOP的LTE MRO数据统计系统,包括Hadoop集群,在集群各datanode节点部署实时调度模块和定时调度模块,所述的实时调度模块会实时扫描基站服务器上的LTE MRO文件,并多线程ftp下载,解析,在集群各datanode节点,通过Fuse-DFS模块将Hdfs挂在到系统,定时调度模块会定时按照指定数量合并解析后文件,并写入Hdfs,合并后文件采用厂商+时间+线程号命名,便于任务失败时,产出重做。
[0017]在所述集群namenode节点部署Hadoop Sqoop模块,统计完成后,调用shell命令通过Sqoop将应用层新生成数据写入Oracle数据库供展现给用户。
[0018]在所述集群namenode服务器部署监控模块,监控模块后台执行,实时接收各模块执行结果,并且实时扫描Hadoop,Hive日志,若有错误产生,报警并重新执行任务。
[0019]根据业务人员撰写的业务需求和数据模型的涉及文档(包含LTE MRO原始文件格式,字段说明及应用层表结构,说明等),设计LTE MRO源文件下载方式,设计数据仓库hive中源数据层,中间层,应用层表结构及个字段对应关系及etl逻辑等;在服务器上部署Hadoop集群和Oracle数据库。
[0020]在集群各datanode节点部署实时调度模块和定时调度模块。实时调度模块会实时扫描基站服务器上的LTE MRO文件,并多线程ftp下载,解析。在集群各datanode节点,通过Fuse-DFS模块将Hdfs挂在到系统,定时调度模块会定时按照指定数量合并解析后文件,并写入Hdfs。合并后文件采用厂商+时间+线程号命名,便于任务失败时,产出重做。
[0021]根据业务文档开发Hive各层Hql语句,并将Hql语句形成文本文件放入指定路径。定时调度模块会定时执行相应日期的Hql,将统计结果写入响应表。
[0022]集群namenode节点部署Hadoop Sqoop模块,统计完成后,调用shell命令通过Sqoop将应用层新生成数据写入Oracle数据库供展现给用户。
[0023]集群namenode服务器部署监控模块。监控模块后台执行,实时接收各模块执行结果,并且实时扫描Hadoop,Hive日志,若有错误产生,报警并重新执行任务。
[0024]本发明提供的技术方案带来的有益效果是:
本发明给出了处理类似LTE MRO等海量小文件的方法,极大的提高了处理效率,大大减少了统计时间。入Hdfs (Hadoop分布式文件系统)前对文件进行并行解析合并,减少了namenode (名字节点)压力,通过Hive进行数据统计,既满足了效率需求,又降低了开发门槛,同时保持了良好的扩展性。
【附图说明】
[0025]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1