一种基于hadoop的ltemro数据统计方法及系统的制作方法_2

文档序号：8447489阅读：来源：国知局

所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0026]图1为本发明的一种基于HADOOP的LTE MRO数据统计方法及系统的系统架构图。
[0027]图2为本发明的一种基于HADOOP的LTE MRO数据统计方法及系统的方法流程图。
【具体实施方式】
[0028]为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。
[0029]实施例一
本实施例的基于Hadoop的LTE MRO数据统计方法及系统采用以下步骤:
1、集群所有节点部署并开启自开发的多线程ftp下载工具，此工具实时扫描基站文件服务器，若存在LTE MRO新文件，则启动线程，采用ftp服务实时下载文件，单文件下载完成后，对本地远程的此文件进行md5校验，若不成功重新下载，从而保证了数据的准确性。此工具保证了，将远程原始文件下载到本地服务器。
[0030]2、集群所有节点部署并开发自研发多线程LTE MRO文件解析程序，此程序将文件进行了格式化，将格式化文件写入本地磁盘。
[0031]3、hdfs挂载通过使用Hadoop的Fuse-DFS模块，将Hadoop文件系统作为一个标准文件系统进行挂载在Iinux系统上，可以使用Lnix的工具与这个文件系统交互，也可以通过任意一种编程语言使用POSIX库来访问此文件系统。
[0032]任何一个文件，目录和block，在HDFS中都会被表示为一个object存储在namenode的内存中，每一个object占用150 bytes的内存空间，同时也为访问带来效率问题。大量的小文件会超出计算机硬件所能满足的极限。HAR files方式和Sequence Files方式也不能全部解决内存和效率问题。LTE MRO数据为大小为几百k到几M的小文件，所以对解析后数据，采用汇聚方式，按指定数量进行合并，并将合并后文件写入Hdfs。Hdfs外汇聚方式则大大减少了 namenode的内存压力和访问压力，提高了文件访问效率。
[0033]4、根据业务需求，在Hive数据仓库中建源数据层，中间层和应用层，并在不同的层中建响应分区表，这些表根据日期和厂商进行分区，便于数据导出和修复。源数据层即临时数据层，数据由库外文件加载，此层数据不需要长期保存；中间层由源数据层根据各过滤规则统计得到；应用层由中间层数据统计得到。
[0034]同时根据业务需求，开发Hql语句并写入文本文件，由调度程序统一调度。如有新业务需求，业务人员开发新Hql语句，写入文本文件放入指定位置即可。
[0035]5、调度程序统一调度执行Hql，从Hive源数据层表中抽取数据，依次生成中间层表和应用表数据。Hive通过入口函数收到Hql，首先根据关键字用语法解析器和词法解析器将Hql转换成抽象语法树，然后对此语法树进行优化生成新的语法树，最后生成执行计划plan, xml，根据plan, xml启动Hadoop的Map/Reduce程序得到hql的执行结果。
[0036]Hive不仅可以编写Hql语句统计数据，而且可以编写函数等调用Map/Reduce进行更复杂的挖掘，所以此系统具有良好的扩展性。
[0037]6、应用层数据生成后，调度程序会调用Sqoop，将Hive新生成数据导入Oracle。由于Hive中表按天和厂商分区，将日期分期中数据导出即可。
[0038]7、监控程序后台运行，实时接收实时调度程序和定时调度程序的执行结果，并实时扫描Hadoop和Hive日志，如有失败任务，则重新执行。
[0039]以本系统在某省移动实施为例，LTE MRO源数据产生于基站服务器，全省有21176个基站服务器，每个基站服务器每15分钟产生一个压缩文件(大小几百K到几M)，压缩文件总数据量大约86G (压缩比例大约1:26)。采用的hadoop集群包括6台服务器，I台 namenode，5 台 datanode。服务器操作系统版本，Red Hat Enterprise Linux Serverrelease 6.5, Hadoop片反本为2.4，Hive版本为0.13.1，sqoop版本为1.4.5。服务器的硬件配置为:Cpu:1ntel (R) Xeon(R) CPU E5-2430 O i 2.20GHz (6 core) *4 ；Disk: 8* 900GBSATA ；128G内存；万兆网卡。
[0040]全省MRO —天的数据加载入hdfs大约需32分钟，Hive统计大约需55分钟。而如此大量的数据传统关系型数据库是无法处理的。由此可见基于hadoop平台的此发明大大缩短了处理时间，从而及时向用户及时提供统计报告。
[0041]以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1.一种基于HADOOP的LTE MRO数据统计方法，包括以下步骤: A、集群所有节点部署并开启自开发的多线程ftp下载工具，此工具实时扫描基站文件服务器； B、集群所有节点部署并开发自研发多线程LTEMRO文件解析程序，此程序将文件进行了格式化，将格式化文件写入本地磁盘； C、Hadoop分布式文件系统挂载通过使用Hadoop的Fuse-DFS模块，将Hadoop文件系统作为一个标准文件系统进行挂载在Iinux系统上； D、根据业务需求，在Hive数据仓库中建源数据层，中间层和应用层，并在不同的层中建响应分区表，这些表根据日期和厂商进行分区，便于数据导出和修复； E、同时根据业务需求，开发Hql语句并写入文本文件，由调度程序统一调度； F、调度程序统一调度执行Hql，从Hive源数据层表中抽取数据，依次生成中间层表和应用表数据； G、应用层数据生成后，调度程序会调用Sqoop，将Hive新生成数据导入Oracle; H、监控程序后台运行，实时接收实时调度程序和定时调度程序的执行结果，并实时扫描Hadoop和Hive日志，如有失败任务，则重新执行。
2.根据权利要求1所述的一种基于HADOOP的LTEMRO数据统计方法，其特征在于，所述的步骤A中，若存在LTE MRO新文件，则启动线程，采用ftp服务实时下载文件，单文件下载完成后，对本地远程的此文件进行md5校验，若不成功重新下载。
3.根据权利要求1所述的一种基于HADOOP的LTEMRO数据统计方法，其特征在于，所述的步骤F中，Hive通过入口函数收到Hql，首先根据关键字用语法解析器和词法解析器将Hql转换成抽象语法树，然后对此语法树进行优化生成新的语法树，最后生成执行计划plan, xml，根据plan, xml启动Hadoop的Map/Reduce程序得到hql的执行结果。
4.一种基于HADOOP的LTE MRO数据统计系统，包括Hadoop集群，在集群各datanode节点部署实时调度模块和定时调度模块，所述的实时调度模块会实时扫描基站服务器上的LTE MRO文件，并多线程ftp下载，解析，在集群各datanode节点，通过Fuse-DFS模块将Hdfs挂在到系统，定时调度模块会定时按照指定数量合并解析后文件，并写入Hdfs，合并后文件采用厂商+时间+线程号命名，便于任务失败时，产出重做。
5.根据权利要求4所述的一种基于HADOOP的LTEMRO数据统计系统，其特征在于，在所述集群namenode节点部署Hadoop Sqoop模块，统计完成后，调用shell命令通过Sqoop将应用层新生成数据写入Oracle数据库供展现给用户。
6.根据权利要求4所述的一种基于HADOOP的LTEMRO数据统计系统，其特征在于，在所述集群namenode服务器部署监控模块，监控模块后台执行，实时接收各模块执行结果，并且实时扫描Hadoop，Hive日志，若有错误产生，报警并重新执行任务。
【专利摘要】本发明涉及一种LTE网络数据统计方法技术领域，特别涉及一种基于HADOOP的LTE MRO数据统计方法及系统。本发明一种基于HADOOP的LTE MRO数据统计系统，包括Hadoop集群，在集群各datanode节点部署实时调度模块和定时调度模块，所述的实时调度模块会实时扫描基站服务器上的LTE MRO文件，并多线程ftp下载，解析，在集群各datanode节点，通过Fuse-DFS模块将Hdfs挂在到系统，定时调度模块会定时按照指定数量合并解析后文件，并写入Hdfs，合并后文件采用厂商+时间+线程号命名，便于任务失败时，产出重做。本发明实现了类似LTE MRO文件的海量小文件，解决了海量数据给电信运营商带来的处理压力，提供了高效智能统计和数据挖掘的途径。
【IPC分类】H04L29-08, G06F17-30
【公开号】CN104767795
【申请号】CN201510113891
【发明人】逄立业
【申请人】浪潮通信信息系统有限公司
【公开日】2015年7月8日
【申请日】2015年3月17日

完整全部详细技术资料下载

当前第2页1 2