一种基于路径的文件搜索方法及装置的制造方法

文档序号:8223539阅读:143来源:国知局
一种基于路径的文件搜索方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,尤其涉及一种基于路径的文件搜索方法及装置。
【背景技术】
[0002] 传统的文件系统是基于目录树的元数据管理结构,通过对文件系统中的所有文件 构造目录树,参阅图1所示,通过检索目录树进行文件管理,基于目录树结构的管理方式适 用于文件系统中的文件和目录规模不大的场景。
[0003] 在当今的海量文件系统中,管理的文件规模达到上百万乃至上亿级别,显然,传统 的基于目录树结构的管理方式已远远无法满足海量文件的文件检索的性能要求。为了解决 这一问题,通常将海量文件系统按目录树进行分区,参阅图2所示,每个分区包含一定数量 的文件或目录个数(比如1万个目录或10万个文件),根据查询时输入的文件路径来筛选 出一个或少数几个分区,然后在这些分区中利用其它文件属性进行更细致的搜索,从而加 速元数据搜索。
[0004] 为了实现在所有分区中通过输入路径筛选出一个或几个分区,现有技术通常按照 目录进行分区(比如一个分区包含1万个目录),然后维持一个包括所有目录路径到分区的 映射表(简称路径分区映射表),参阅表1所示。查询时,根据用户输入的路径在路径分区 映射表中找到相应的分区,然后,在这些筛选出的分区内进行搜索需要的文件。
[0005] 表1针对图2中的目录树分区构建的路径分区映射表
【主权项】
1. 一种基于路径的文件捜索方法,其特征在于,包括: 获取待查询文件的路径,W及路径分区映射表,其中,所述路径分区映射表中保存有每 个分区信息W及每个分区信息对应的分区中字典序最大的绝对路径的对应关系; 确定所述待查询文件的路径的字典序,作为待查询字典序;并 根据所述路径分区映射表中的每一个绝对路径确定对应的绝对路径字典序; 基于所述待查询字典序在所有绝对路径字典序中进行检索,获得大于或等于所述待查 询字典序的各绝对路径字典序中的最小绝对路径字典序,并将获得的绝对路径字典序对应 的绝对路径作为目标绝对路径; 根据获得的所述目标绝对路径W及路径分区映射表,确定所述目标绝对路径所归属的 分区信息,作为目标分区信息; 将所述目标分区信息对应的分区中的所有文件,作为所述待查询文件所归属的文件集 合。
2. 如权利要求1所述的方法,其特征在于,在获取待查询文件的目标路径W及路径分 区映射表之前,还包括: 针对本地保存的所有文件构造目录树; 根据所有文件对应的绝对路径字典序对所述目录树进行分区,生成多个分区; 其中,任意两个分区对应的绝对路径字典序范围的交集为空,任意一个分区对应的绝 对路径字典序范围为从绝对路径字典序最小值到绝对路径字典序最大值。
3. 如权利要求1或2所述的方法,其特征在于,在基于所述待查询字典序在所有绝对路 径字典序中进行检索之前,还包括: 将所有绝对路径字典序按照字典序从小到大的顺序进行排序。
4. 如权利要求3所述的方法,其特征在于,基于所述待查询字典序在所有绝对路径字 典序中进行检索,获得大于或等于所述待查询字典序的各绝对路径字典序中的最小绝对路 径字典序,包括: 在按照字典序从小到大进行排序的所有绝对路径字典序中,从第一个绝对路径字典序 开始依次选择两个相邻的第一绝对路径字典序和第二绝对路径字典序; 判定所述待查询字典序大于所述第一绝对路径字典序,且小于或等于第二绝对路径字 典序时,确定所述第二绝对路径字典序为大于或等于所述待查询字典序的各绝对路径字典 序中的最小绝对路径字典序。
5. 如权利要求1-4任一项所述的方法,其特征在于,将所述目标分区信息对应的分区 中的所有文件,作为所述待查询文件所归属的文件集合,包括: 若所述待查询文件的路径为绝对路径,则确定所述目标分区信息对应的分区中的所有 文件为所述待查询文件所归属的文件集合; 否则,判断所述待查询文件的路径是否为所述目标绝对路径的前缀路径; 判定所述待查询文件的路径不是所述目标绝对路径的前缀路径时,确定所述目标分区 信息对应的分区中的所有文件为所述待查询文件所归属的文件集合; 判定所述待查询文件的路径是所述目标绝对路径的前缀路径时,将所述目标分区信息 对应的分区中的所有文件添加至所述待查询文件所归属的原文件集合中。
6. 如权利要求5所述的方法,其特征在于,将所述目标分区信息对应的分区中的所有 文件添加至所述待查询文件所归属的原文件集合中后,还包括: 将所述路径分区映射表按照绝对路径的字典序从小到大进行排序; 在所述路径分区映射表中选择排在所述目标绝对路径下面的下一个绝对路径作为第 二目标绝对路径,并判断所述待查询文件的路径是否为所述第二目标绝对路径的前缀路 径; 判定所述待查询文件的路径是所述第二目标绝对路径的前缀路径时,将所述第二目标 绝对路径对应的分区信息作为第二目标分区信息,将所述第二目标分区信息对应的分区中 的所有文件添加至所述待查询文件当前所归属的文件集合中。
7. -种基于路径的文件捜索装置,其特征在于,包括: 获取单元,用于获取待查询文件的路径,W及路径分区映射表,其中,所述路径分区映 射表中保存有每个分区信息W及每个分区信息对应的分区中字典序最大的绝对路径的对 应关系; 第一确定单元,用于确定所述待查询文件的路径的字典序,作为待查询字典序;并根据 所述路径分区映射表中的每一个绝对路径确定对应的绝对路径字典序; 处理单元,用于基于所述待查询字典序在所有绝对路径字典序中进行检索,获得大于 或等于所述待查询字典序的各绝对路径字典序中的最小绝对路径字典序,并将获得的绝对 路径字典序对应的绝对路径作为目标绝对路径; 第二确定单元,用于根据获得的所述目标绝对路径W及路径分区映射表,确定所述目 标绝对路径所归属的分区信息,作为目标分区信息; 运行单元,用于将所述目标分区信息对应的分区中的所有文件,作为所述待查询文件 所归属的文件集合。
8. 如权利要求7所述的装置,其特征在于,还包括: 分区单元,用于在获取待查询文件的目标路径W及路径分区映射表之前,针对本地保 存的所有文件构造目录树;根据所有文件对应的绝对路径字典序对所述目录树进行分区, 生成多个分区; 其中,任意两个分区对应的绝对路径字典序范围的交集为空,任意一个分区对应的绝 对路径字典序范围为从绝对路径字典序最小值到绝对路径字典序最大值。
9. 如权利要求7或8所述的装置,其特征在于,所述处理单元还用于: 在基于所述待查询字典序在所有绝对路径字典序中进行检索之前,将所有绝对路径字 典序按照字典序从小到大的顺序进行排序。
10. 如权利要求9所述的装置,其特征在于,所述处理单元,具体用于: 在按照字典序从小到大进行排序的所有绝对路径字典序中,从第一个绝对路径字典序 开始依次选择两个相邻的第一绝对路径字典序和第二绝对路径字典序; 判定所述待查询字典序大于所述第一绝对路径字典序,且小于或等于第二绝对路径字 典序时,确定所述第二绝对路径字典序为大于或等于所述待查询字典序的各绝对路径字典 序中的最小绝对路径字典序。
11. 如权利要求7-10任一项所述的装置,其特征在于,所述运行单元,具体用于: 若所述待查询文件的路径为绝对路径,则确定所述目标分区信息对应的分区中的所有 文件为所述待查询文件所归属的文件集合; 否则,判断所述待查询文件的路径是否为所述目标绝对路径的前缀路径; 判定所述待查询文件的路径不是所述目标绝对路径的前缀路径时,确定所述目标分区 信息对应的分区中的所有文件为所述待查询文件所归属的文件集合; 判定所述待查询文件的路径是所述目标绝对路径的前缀路径时,将所述目标分区信息 对应的分区中的所有文件添加至所述待查询文件所归属的原文件集合中。
12.如权利要求11所述的装置,其特征在于,所述运行单元在将所述目标分区信息对 应的分区中的所有文件添加至所述待查询文件所归属的原文件集合中后,还用于: 将所述路径分区映射表按照绝对路径的字典序从小到大进行排序; 在所述路径分区映射表中选择排在所述目标绝对路径下面的下一个绝对路径作为第 二目标绝对路径,并判断所述待查询文件的路径是否为所述第二目标绝对路径的前缀路 径; 判定所述待查询文件的路径是所述第二目标绝对路径的前缀路径时,将所述第二目标 绝对路径对应的分区信息作为第二目标分区信息,将所述第二目标分区信息对应的分区中 的所有文件添加至所述待查询文件当前所归属的文件集合中。
【专利摘要】本发明公开了一种基于路径的文件搜索方法及装置,用以解决现有技术中的路径分区映射表规模庞大,占用的存储空间较大,文件搜索性能下降的问题。该方法为:获取保存有每个分区信息以及每个分区信息对应的分区中字典序最大的绝对路径的对应关系的路径分区映射表;在该路径分区映射表的绝对路径中检索,获得字典序大于或等于待查询文件的路径的字典序的各绝对路径中的字典序最小的绝对路径,作为目标绝对路径;根据该目标绝对路径以及路径分区映射表,确定该待查询文件所归属的文件集合。这样,用于查找文件集合的路径分区映射表中的数据项数较少,极大的节省了存储空间,同时提高了文件检索性能,以及路径分区映射表的查询更新效率。
【IPC分类】G06F17-30
【公开号】CN104537017
【申请号】CN201410795855
【发明人】薛贞文, 张程伟, 于传帅
【申请人】华为技术有限公司
【公开日】2015年4月22日
【申请日】2014年12月18日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1