高可靠性的大数据日志采集与传输方法与流程

文档序号:12063917阅读:来源:国知局

技术特征:

1.高可靠性的大数据日志采集与传输方法,其特征是步骤如下,

步骤1设计日志采集架构;设计可以实现并有利于日志采集的平台架构:

设有基于能够采集日志和校验日志的系统架构;flume部署至多个数据源上,flume用于采集数据源的日志数据并发送;Kafka作为数据传输模块,(一般)部署在网络中心节点(即可以快速连通各个数据源的服务器);storm和HDFS部署在最终数据汇总的大数据集群上;设有数据库,用于存储日志文件校验的信息,数据库可以部署在一台独立的服务器上或部署在大数据集群上;

日志校验的交互流程和算法步骤:通过数据源发送校验码的方式使大数据集群根据校验码触发校验;

通过文本校验的交互流程和算法步骤:通过解析获取校验码中数据源日志文件的行数与大数据集群中已获得的实际行数对比,判断文件是否应该重传;

步骤2数据恢复的流程和算法;保障数据因程序中断或网络中断而重新恢复的流程和算法;

步骤3设计文本校验的交互流程和算法。

2.根据权利要求1所述的高可靠性的大数据日志采集与传输方法,其特征是步骤2中,

1)flume读取目前日志文件;读取时会记录当前读取日志文件的偏移量;当因为断电或服务中断,下次启动时会接着上次读取的位置读取文件;

2)当数据源所在服务器会定时发送日志文件的校验信息至大数据集群上;

3)当大数据集群的storm接收到消息校验,会对存储在HDFS上的日志文件进行校验并将校验信息记录至数据库;若校验成功,则发送文件校验成功消息至数据源;若校验不成功,则发送文件重传请求至数据源;

4)当数据源的flume接收到文件校验成功消息时,记录文件发送成功;当接收到文件重传请求时,重新发送日志文件。

3.根据权利要求1所述的高可靠性的大数据日志采集与传输方法,其特征是大数据集群对文件校验流程:

1)当接收到源节点flume发送的校验消息;

2)大数据集群中的storm根据校验消息读取HDFS上已上传的文件并计算文件上的实际行数;

3)将实际行数与校验信息中的校验行数对比,若不一致则发送重新上传请求;若成功,则发送文件成功消息。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1