日志数据的存储方法及系统与流程

文档序号:12747729阅读:来源:国知局

技术特征:

1.一种日志数据的存储方法,其特征在于,包括:

将日志数据按照所属实体簇的不同划分为多个日志记录分片;

将各个日志记录分片分别写入分布式消息队列的不同主题;

采用多线程方式,将所述分布式消息队列的不同主题中存放的日志记录分片并行装载到分布式文件系统。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

通过接收日志数据流中包含的日志和/或读取指定文件中的日志实现日志数据的获取。

3.根据权利要求1所述的方法,其特征在于,所述将日志数据按照所属实体簇的不同划分为多个日志记录分片,包括:

根据实体到实体簇的映射关系,将日志数据按照所属实体簇的不同划分为多个日志记录分片;

其中,日志记录分片中包含有不同实体的日志数据。

4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:

在所述分布式文件系统的每个数据节点上配置一个数据装载器,并为每一数据装载器划分对应的数据装载任务;

所述数据装载任务包含实体簇集以及该实体簇集对应的主题集;

所述主题集为所述实体簇集对应的日志记录分片在分布式消息队列中所存放的多个消息队列主题。

5.根据权利要求4所述的方法,其特征在于,所述采用多线程方式,将所述分布式消息队列的不同主题中存放的日志记录分片并行装载到分布式文件系统,包括:

运行各个数据装载器,以使每一数据装载器根据其对应的数据装载任务,采用多线程方式从所述数据装载任务中包含的实体簇集对应的主题集中拉取日志记录分片,其中,每个线程拉取一个主题的日志记录分片;

将各数据装载器拉取的日志记录分片,以压缩列存储格式保存到分布式文件系统。

6.根据权利要求5所述的方法,其特征在于,所述将各数据装载器拉取的日志记录分片,以压缩列存储格式保存到分布式文件系统,包括:

每一数据装载器分别监控各自启动的多线程所拉取的日志记录分片的数据总量是否达到预设的数据阈值;

若达到预设的数据阈值,则对每一线程所拉取的日志记录分片进行数据排序,并且把各个线程所拉取的日志记录分片进行组合,生成日志数据块;

将所述日志数据块以压缩列存储格式保存到分布式文件系统。

7.根据权利要求6所述的方法,其特征在于,所述将所述日志数据块以压缩列存储格式保存到分布式文件系统之后,还包括:

创建第一元信息表Block表,所述第一元信息表中包含有日志数据块的ID、日志数据块在分布式文件系统上的逻辑文件名,以及该日志数据块包含的实体簇信息,所述实体簇信息至少包括实体簇的ID;

创建第二元信息表Offset表,所述第二元信息表中包含实体簇的ID,以及该实体簇ID对应消息队列的主题的偏移地址。

8.根据权利要求4所述的方法,其特征在于,所述方法还包括:

定期对所述分布式文件系统中每个数据节点上配置的数据装载器对应的数据装载任务进行调整。

9.一种日志数据的存储系统,其特征在于,包括:

数据划分单元,用于将日志数据按照所属实体簇的不同划分为多个日志记录分片;

数据写入单元,用于将各个日志记录分片分别写入分布式消息队列的不同主题;

数据装载单元,用于采用多线程方式,将所述分布式消息队列的不同主题中存放的日志记录分片并行装载到分布式文件系统。

10.根据权利要求9所述的系统,其特征在于,所数系统还包括:

配置单元,用于在所述分布式文件系统的每个数据节点上配置一个数据装载器,并为每一数据装载器划分对应的数据装载任务;

所述数据装载任务包含实体簇集以及该实体簇集对应的主题集;

所述主题集为所述实体簇集对应的日志记录分片在分布式消息队列中所存放的多个消息队列主题;

数据装载单元,具体用于运行各个数据装载器,以使每一数据装载器根据其对应的数据装载任务,采用多线程方式从所述数据装载任务中包含的实体簇集对应的主题集中拉取日志记录分片,其中,每个线程拉取一个主题的日志记录分片;以及,将各数据装载器拉取的日志记录分片,以压缩列存储格式保存到分布式文件系统。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1