1.一种基于hadoop元数据的冷数据识别方法,其特征在于:该方法包括以下步骤:
(1)准备镜像文件:在NameNode节点的${dfs.namenode.name.dir}/current/目录下找到镜像文件;
(2)解析镜像文件;
(3)根据步骤(2)解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;
(4)根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。
2.根据权利要求1所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(1)中,镜像文件包含hadoop集群文件系统文件和目录的inode信息,inode信息包括:文件名称、目录名称、文件大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息、文件和目录权限信息。
3.根据权利要求2所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(2)的解析包括:hadoop命令行解析和java api解析。
4.根据权利要求3所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(3)中,元数据信息包括:文件名称、目录名称、文件和目录大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息。
5.根据权利要求4所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(4)中,根据元数据信息,统计出各个目录的所有文件总大小、目录最近访问时间、目录最近修改时间、目录所属用户和组。
6.根据权利要求5所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(4)之后,督促用户做更进一步的决策,更进一步的决策包括:删除、提供数据保存时间。
7.一种基于hadoop元数据的冷数据识别系统,其特征在于:该系统包括:
准备镜像文件模块,其配置来在NameNode节点的${dfs.namenode.name.dir}/current/目录下找到镜像文件;
解析镜像文件模块,其配置来对镜像文件进行解析;
数据存储模块,其配置来根据解析镜像文件模块解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;
冷数据识别模块,其配置来根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。
8.根据权利要求7所述的基于hadoop元数据的冷数据识别系统,其特征在于:所述准备镜像文件模块中,镜像文件包含hadoop集群文件系统文件和目录的inode信息,inode信息包括:文件名称、目录名称、文件大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息、文件和目录权限信息。
9.根据权利要求8所述的基于hadoop元数据的冷数据识别系统,其特征在于:所述解析镜像文件模块包括hadoop命令行解析和java api解析。
10.根据权利要求9所述的基于hadoop元数据的冷数据识别系统,其特征在于:所述数据存储模块中,元数据信息包括:文件名称、目录名称、文件和目录大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息。