基于移动互联网海量信息的流式预处理系统及其方法

文档序号:9708433阅读:525来源:国知局
基于移动互联网海量信息的流式预处理系统及其方法
【技术领域】
[0001]本发明属于大数据领域,具体涉及基于移动互联网海量信息的流式预处理系统及其方法。
【背景技术】
[0002]近年来,移动运营商网络已成为了天然的大数据贮存和流动的载体。移动互联网拥有的数据源丰富多样,包括上网行为数据、位置数据、信令数据、微博数据、即时通信数据、网页、音频数据、视频文件和图片等,且这些数据会不断产生。为了能从这些流式数据中实时地提取有用的信息,过滤掉无用的信息,往往需要对其进行快速处理,接着再以规范化的形式存入数据中心,用以提供高效的查询服务。
[0003]这类大数据服务对比一般的数据服务,有其自身的特点:首先,业务数据为大数据,新到来的流式数据规模小,结构简单;其次,数据流持续到达,业务数据持续增长,定期更新;最后,需在大数据之上对流式数据作出快速处理。
[0004]目前,比较流行的数据处理技术方案是使用Hadoop的MapReduce编程模型,MapReduce不仅能并行处理大规模数据,而且扩展性很好,每增加一台服务器,其就能将差不多的计算能力接入到集群中。然而,MapReduce仅支持离线数据计算,即数据要处理,必须先存储,因此它并不适合海量流式信息的预处理这种对实时性要求很高的应用。
[0005]在流式数据处理方面,S4是一个受MapReduce启发的分布式流式数据处理系统,但是它主要用于解决搜索,错误探测,网络交友等现实应用,并不适合移动互联网海量信息的提取、过滤操作。

【发明内容】

[0006]本发明的目的在于克服现有技术存在的缺点和不足,提供一种基于移动互联网海量信息的流式预处理系统及其方法,用以解决当前技术无法实时、可靠地处理流式数据的问题。
[0007]实现本发明目的的技术方案是:
一、基于移动互联网海量信息的流式预处理系统(简称系统)
本系统包括移动互联网,设置有接口机、Kafka集群、Spark集群和Hadoop集群;
移动互联网、接口机、Kafka集群、Spark集群和Hadoop集群依次连通。
[0008]二、基于移动互联网海量信息的流式预处理方法(简称方法)
本方法包括以下步骤:
①移动互联网海量数据以文件的形式通过FTP的方式上传到接口机指定目录;
②接口机文件轮询模块定时扫描接口机指定目录,获取目录中的文件列表,发送至文件解析模块;
③文件解析模块解析文件并格式化其内容,将其发送至流数据缓存模块;
④流数据缓存模块通过Zookeeper连接Kafka集群,将数据批量写入Kafka集群; ⑤Spark主节点中的SparkStreaming控制模块通过Zookeeper连接Kafka集群,读取Kafka集群中缓存的数据,存入HDFS日志存储目录,生成预处理任务分发至各个Spark工作节点,并周期性地设置检查点,如果任务执行失败,可以通过读取HDFS存储的日志重新执行任务;
⑥预处理模块按照指定的处理流程处理数据,最终写入HBase数据库。
[0009]本发明具有下列优点和积极效果:
①弥补了MapReduce不支持流式数据处理的不足;
②处理速度快,且具有容错性;
③通过整合分布式消息系统、分布式流式处理框架、hadoop分布式文件系统三种大数据领域的技术,为其它大数据技术之间的模块化整合提供了参考。
[0010]总之,本发明能够对所有移动互联网的海量信息进行实时处理,可以为运营商的实时业务提供技术支持。
【附图说明】
[0011 ]图1是本系统的结构方框图;
图2是Spark Streaming控制模块3A1读取Kafka集群200中缓存的数据并生成预处理任务的流程图;
图3是预处理模块311按照指定流程处理数据的流程图其中:
000一移动互联网;
100—接口机,
110—第I接口机,
120—第2接口机……
1M0—第M接口机,
M是自然数,1<M<5;
101—文件轮询模块,102—文件解析模块,103—流数据缓存模块;
200—Kaf ka 集群,
210一第IKafka节点,
220—第2Kafka节点……
2N0—第NKafka节点,
N为自然数,10;
300—Spark 集群,
3A0一Spark主节点,
3A1一Spark Streaming控制模块;
310一第ISpark工作节点,
320一第2Spark工作节点......300—第OSpark工作节点,O为自然数,I < O < 10;
311 —预处理模块;
400一Hadoop 集群, 410—第IHadoop节点,
420一第2Hadoop节点,......4P0—第PHadoop节点,P为自然数,I SPS 10,
401— HDFS日志存储目录,402—HBase数据库。
[0012]英译汉
FTP:FiIe Transfer Protocol,文件传输协议;
Zookeeper:是一个分布式的,开放源码的分布式应用程序协调服务,它是一个为分布式应用提供一致性服务的软件;
Linux:—种操作系统
Kafka: 一种尚吞吐量的分布式发布订阅消息系统;
Spark: —种快速的大数据分布式处理引擎;
Spark Streaming:建立在Spark上的实时计算框架,用于大规模流式数据处理;
Hadoop: 一个能够对大量数据进行分布式处理的软件框架;
HDFS: Hadoop的分布式文件系统;
MapReduce: MapReduce是一种编程模型,用于大规模数据集的并行运算;
HBase: 一个分布式的,面向列的Hadoop数据库;
RDD:Resilient Distributed,DataSet弹性分布式数据集,Spark核心的数据结构; DStream: Spark Streaming特有的数据结构,连续的RDDs。
【具体实施方式】
[0013]以下结合附图和实施例详细说明:
一、系统
1、总体
如图1,本系统包括移动互联网000,设置有接口机100、Kaf ka集群200、Spark集群300和Hadoop 集群400 ;
依次连通的移动互联网000、接口机100、Kafka集群200、Spark集群300和Hadoop集群
400。
[0014]2、功能部件
O)移动互联网000
移动互联网000指互联网的技术、平台、商业模式和应用与移动通信技术结合并实践的活动的总称。
[0015]I)接口机100
接口机100包括第I接口机110、第2接口机120……第M接口机IMO;
每个接口机包括依次交互的文件轮询模块101、文件解析模块102和数据缓存模块103。
[0016](I)文件轮询模块101是一种定时扫描ftp目录、获取文件列表的模块,它将文件列表发送至文件解析模块102;
(2)文件解析模块102是一种解析文件内容并将其格式化的模块,它将内容发送至数据缓存模块103;
(3)数据缓存模块103是一种通过Zookeeper连接Kafka集群200,将数据批量写入集群中缓存的模块。
[0017]2)Kafka 集群 200
Kafka集群200包括第IKaf ka节点210、第2Kaf ka节点220……第NKafka节点2N0 ;
每个Kaf ka节点是一种内嵌有Kaf ka开源消息系统的Linux服务器,各节点之间使用Zookeeper协调管理。
[0018]3)Spark 集群 300
Spark集群300包括Spark主节点3A0和分别与其(Spark主节点3A0 )连接的第I Spark工作节点310、第2Spark工作节点320......第OSpark工作节点300;
每个节点是一种内嵌
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1