一种基于hadoop的ltemro数据统计方法及系统的制作方法_2

文档序号:8447489阅读:来源:国知局
所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本发明的一种基于HADOOP的LTE MRO数据统计方法及系统的系统架构图。
[0027]图2为本发明的一种基于HADOOP的LTE MRO数据统计方法及系统的方法流程图。
【具体实施方式】
[0028]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0029]实施例一
本实施例的基于Hadoop的LTE MRO数据统计方法及系统采用以下步骤:
1、集群所有节点部署并开启自开发的多线程ftp下载工具,此工具实时扫描基站文件服务器,若存在LTE MRO新文件,则启动线程,采用ftp服务实时下载文件,单文件下载完成后,对本地远程的此文件进行md5校验,若不成功重新下载,从而保证了数据的准确性。此工具保证了,将远程原始文件下载到本地服务器。
[0030]2、集群所有节点部署并开发自研发多线程LTE MRO文件解析程序,此程序将文件进行了格式化,将格式化文件写入本地磁盘。
[0031]3、hdfs挂载通过使用Hadoop的Fuse-DFS模块,将Hadoop文件系统作为一个标准文件系统进行挂载在Iinux系统上,可以使用Lnix的工具与这个文件系统交互,也可以通过任意一种编程语言使用POSIX库来访问此文件系统。
[0032]任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,每一个object占用150 bytes的内存空间,同时也为访问带来效率问题。大量的小文件会超出计算机硬件所能满足的极限。HAR files方式和Sequence Files方式也不能全部解决内存和效率问题。LTE MRO数据为大小为几百k到几M的小文件,所以对解析后数据,采用汇聚方式,按指定数量进行合并,并将合并后文件写入Hdfs。Hdfs外汇聚方式则大大减少了 namenode的内存压力和访问压力,提高了文件访问效率。
[0033]4、根据业务需求,在Hive数据仓库中建源数据层,中间层和应用层,并在不同的层中建响应分区表,这些表根据日期和厂商进行分区,便于数据导出和修复。源数据层即临时数据层,数据由库外文件加载,此层数据不需要长期保存;中间层由源数据层根据各过滤规则统计得到;应用层由中间层数据统计得到。
[0034]同时根据业务需求,开发Hql语句并写入文本文件,由调度程序统一调度。如有新业务需求,业务人员开发新Hql语句,写入文本文件放入指定位置即可。
[0035]5、调度程序统一调度执行Hql,从Hive源数据层表中抽取数据,依次生成中间层表和应用表数据。Hive通过入口函数收到Hql,首先根据关键字用语法解析器和词法解析器将Hql转换成抽象语法树,然后对此语法树进行优化生成新的语法树,最后生成执行计划plan, xml,根据plan, xml启动Hadoop的Map/Reduce程序得到hql的执行结果。
[0036]Hive不仅可以编写Hql语句统计数据,而且可以编写函数等调用Map/Reduce进行更复杂的挖掘,所以此系统具有良好的扩展性。
[0037]6、应用层数据生成后,调度程序会调用Sqoop,将Hive新生成数据导入Oracle。由于Hive中表按天和厂商分区,将日期分期中数据导出即可。
[0038]7、监控程序后台运行,实时接收实时调度程序和定时调度程序的执行结果,并实时扫描Hadoop和Hive日志,如有失败任务,则重新执行。
[0039]以本系统在某省移动实施为例,LTE MRO源数据产生于基站服务器,全省有21176个基站服务器,每个基站服务器每15分钟产生一个压缩文件(大小几百K到几M),压缩文件总数据量大约86G (压缩比例大约1:26)。采用的hadoop集群包括6台服务器,I台 namenode,5 台 datanode。服务器操作系统版本,Red Hat Enterprise Linux Serverrelease 6.5, Hadoop片反本为2.4,Hive版本为0.13.1,sqoop版本为1.4.5。服务器的硬件配置为:Cpu:1ntel (R) Xeon(R) CPU E5-2430 O i 2.20GHz (6 core) *4 ;Disk: 8* 900GBSATA ;128G内存;万兆网卡。
[0040]全省MRO —天的数据加载入hdfs大约需32分钟,Hive统计大约需55分钟。而如此大量的数据传统关系型数据库是无法处理的。由此可见基于hadoop平台的此发明大大缩短了处理时间,从而及时向用户及时提供统计报告。
[0041]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种基于HADOOP的LTE MRO数据统计方法,包括以下步骤: A、集群所有节点部署并开启自开发的多线程ftp下载工具,此工具实时扫描基站文件服务器; B、集群所有节点部署并开发自研发多线程LTEMRO文件解析程序,此程序将文件进行了格式化,将格式化文件写入本地磁盘; C、Hadoop分布式文件系统挂载通过使用Hadoop的Fuse-DFS模块,将Hadoop文件系统作为一个标准文件系统进行挂载在Iinux系统上; D、根据业务需求,在Hive数据仓库中建源数据层,中间层和应用层,并在不同的层中建响应分区表,这些表根据日期和厂商进行分区,便于数据导出和修复; E、同时根据业务需求,开发Hql语句并写入文本文件,由调度程序统一调度; F、调度程序统一调度执行Hql,从Hive源数据层表中抽取数据,依次生成中间层表和应用表数据; G、应用层数据生成后,调度程序会调用Sqoop,将Hive新生成数据导入Oracle; H、监控程序后台运行,实时接收实时调度程序和定时调度程序的执行结果,并实时扫描Hadoop和Hive日志,如有失败任务,则重新执行。
2.根据权利要求1所述的一种基于HADOOP的LTEMRO数据统计方法,其特征在于,所述的步骤A中,若存在LTE MRO新文件,则启动线程,采用ftp服务实时下载文件,单文件下载完成后,对本地远程的此文件进行md5校验,若不成功重新下载。
3.根据权利要求1所述的一种基于HADOOP的LTEMRO数据统计方法,其特征在于,所述的步骤F中,Hive通过入口函数收到Hql,首先根据关键字用语法解析器和词法解析器将Hql转换成抽象语法树,然后对此语法树进行优化生成新的语法树,最后生成执行计划plan, xml,根据plan, xml启动Hadoop的Map/Reduce程序得到hql的执行结果。
4.一种基于HADOOP的LTE MRO数据统计系统,包括Hadoop集群,在集群各datanode节点部署实时调度模块和定时调度模块,所述的实时调度模块会实时扫描基站服务器上的LTE MRO文件,并多线程ftp下载,解析,在集群各datanode节点,通过Fuse-DFS模块将Hdfs挂在到系统,定时调度模块会定时按照指定数量合并解析后文件,并写入Hdfs,合并后文件采用厂商+时间+线程号命名,便于任务失败时,产出重做。
5.根据权利要求4所述的一种基于HADOOP的LTEMRO数据统计系统,其特征在于,在所述集群namenode节点部署Hadoop Sqoop模块,统计完成后,调用shell命令通过Sqoop将应用层新生成数据写入Oracle数据库供展现给用户。
6.根据权利要求4所述的一种基于HADOOP的LTEMRO数据统计系统,其特征在于,在所述集群namenode服务器部署监控模块,监控模块后台执行,实时接收各模块执行结果,并且实时扫描Hadoop,Hive日志,若有错误产生,报警并重新执行任务。
【专利摘要】本发明涉及一种LTE网络数据统计方法技术领域,特别涉及一种基于HADOOP的LTE MRO数据统计方法及系统。本发明一种基于HADOOP的LTE MRO数据统计系统,包括Hadoop集群,在集群各datanode节点部署实时调度模块和定时调度模块,所述的实时调度模块会实时扫描基站服务器上的LTE MRO文件,并多线程ftp下载,解析,在集群各datanode节点,通过Fuse-DFS模块将Hdfs挂在到系统,定时调度模块会定时按照指定数量合并解析后文件,并写入Hdfs,合并后文件采用厂商+时间+线程号命名,便于任务失败时,产出重做。本发明实现了类似LTE MRO文件的海量小文件,解决了海量数据给电信运营商带来的处理压力,提供了高效智能统计和数据挖掘的途径。
【IPC分类】H04L29-08, G06F17-30
【公开号】CN104767795
【申请号】CN201510113891
【发明人】逄立业
【申请人】浪潮通信信息系统有限公司
【公开日】2015年7月8日
【申请日】2015年3月17日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1