一种基于hadoop元数据的冷数据识别方法及系统与流程

文档序号:12124553阅读:来源:国知局

技术特征:

1.一种基于hadoop元数据的冷数据识别方法,其特征在于:该方法包括以下步骤:

(1)准备镜像文件:在NameNode节点的${dfs.namenode.name.dir}/current/目录下找到镜像文件;

(2)解析镜像文件;

(3)根据步骤(2)解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;

(4)根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。

2.根据权利要求1所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(1)中,镜像文件包含hadoop集群文件系统文件和目录的inode信息,inode信息包括:文件名称、目录名称、文件大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息、文件和目录权限信息。

3.根据权利要求2所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(2)的解析包括:hadoop命令行解析和java api解析。

4.根据权利要求3所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(3)中,元数据信息包括:文件名称、目录名称、文件和目录大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息。

5.根据权利要求4所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(4)中,根据元数据信息,统计出各个目录的所有文件总大小、目录最近访问时间、目录最近修改时间、目录所属用户和组。

6.根据权利要求5所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(4)之后,督促用户做更进一步的决策,更进一步的决策包括:删除、提供数据保存时间。

7.一种基于hadoop元数据的冷数据识别系统,其特征在于:该系统包括:

准备镜像文件模块,其配置来在NameNode节点的${dfs.namenode.name.dir}/current/目录下找到镜像文件;

解析镜像文件模块,其配置来对镜像文件进行解析;

数据存储模块,其配置来根据解析镜像文件模块解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;

冷数据识别模块,其配置来根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。

8.根据权利要求7所述的基于hadoop元数据的冷数据识别系统,其特征在于:所述准备镜像文件模块中,镜像文件包含hadoop集群文件系统文件和目录的inode信息,inode信息包括:文件名称、目录名称、文件大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息、文件和目录权限信息。

9.根据权利要求8所述的基于hadoop元数据的冷数据识别系统,其特征在于:所述解析镜像文件模块包括hadoop命令行解析和java api解析。

10.根据权利要求9所述的基于hadoop元数据的冷数据识别系统,其特征在于:所述数据存储模块中,元数据信息包括:文件名称、目录名称、文件和目录大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1