文件处理方法和装置的制造方法

文档序号:9274725阅读:163来源:国知局
文件处理方法和装置的制造方法
【技术领域】
[0001]本发明涉及数据处理技术领域,特别涉及一种文件处理方法和装置。
【背景技术】
[0002]文件备份作为主机数据备份的重要手段之一,主要是通过执行专门的备份作业(可以理解为程序或者任务等)实现的,其中,每一个备份作业所涉及的文件范围主要是由用户在备份策略中设置的文件备份清单确定的。然而,由于主机文件系统的特性,备份策略不仅支持具体的文件名,也允许在文件清单中使用多种不同级别、不同类型的通配符,用于表示在文件命名上有共性的文件集合。同时,备份策略中的文件清单分为“包含”和“排除”两部分,主机通过对这两部分清单进行集合计算以后,最终确定需要备份的文件范围。
[0003]主机文件清单对多种通配符的支持简化了文件清单的表达,有效减少了备份策略的条目数量,但同时也由于通配符的抽象性和复杂性,增加了文件清单的解析难度,使得对备份策略的分割、组合和变更等变得难以操作。目前,业内对于主机含通配符的文件清单的解析尚无有效的解决方案,只能借助专业人员凭借经验进行人工分析,或者是通过让系统将含通配符的文件名展开,枚举为明细的文件清单后,再进行进一步的处理。然而,由于主机文件系统中文件数量庞大,命名错综复杂,而且随着业务处理的需要,文件清单往往会发生较为频繁的变化。第一种方法全程需要人工参与,无法实现自动化处理,缺乏可靠性,第二种方法由于操作对象为具体的文件清单,不仅需要耗费大量的系统资源,而且由于输出结果条目过多,在实际应用中也存在诸多不便。
[0004]目前,含通配符的文件清单在主机文件管理中的运用非常普遍,例如:批量文件的备份、恢复、删除等主要都是基于这类文件清单的,因此,对含有通配符的文件清单的解析和处理的速度,直接关系到主机文件管理的效率,同时文件清单的解析结果的可靠性,也将直接影响主机数据的安全性和完整性。
[0005]针对如何对含通配符的文件清单进行快速和准确地解析,目前尚未提出有效的解决方案。

【发明内容】

[0006]本发明实施例提供了一种文件处理方法,以达到对含通配符的文件清单进行快速和准确地解析,从而有效提高文件管理的效率和可靠性的目的,该方法包括:
[0007]获取需要解析对比的两组文件的文件清单;
[0008]将两组文件的文件清单中含有通配符的文件名进行两两配对;
[0009]对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列;
[0010]将所述候选拓扑序列还原为含通配符的文件名表达式,并根据还原结果,确定生成该文件名的文件名对之间的交集关系;
[0011]对确定出的各对文件名之间的交集关系进行汇总合并,以确定出两组文件的文件清单之间的交集关系;
[0012]根据确定的两组文件的文件清单之间的交集关系,响应于用户输入的操作指令对两组文件进行处理。
[0013]在一个实施方式中,根据还原结果,确定生成该文件名的文件名对之间的交集关系,包括:
[0014]对还原出的文件名表达式进行合法性检查;
[0015]根据合法性检查的结果,按照以下规则确定生成该文件名的文件名对之间的交集关系:
[0016]如果还原出的文件名表达式未能通过合法性检查,则确定生成该文件名表达式的文件名对的交集为空;
[0017]如果还原出的文件名表达式能通过合法性检查,且还原出的文件名表达式与生成该文件名的文件名对中的一个文件名完全相同,则确定生成该文件名表达式的文件名对之间为包含和被包含关系;
[0018]如果还原出的文件名表达式能通过合法性检查,且与生成该文件名表达式的文件名对中的任意一个文件名都不同,则确定生成该文件名表达式的文件名对之间为相交关系O
[0019]在一个实施方式中,对还原出的文件名表达式进行合法性检查,包括:
[0020]将还原出的文件名表达式中的文件名段数、除去通配符部分的长度、每段文件名的长度与预定的限制规则进行比较;
[0021]如果都满足限制规则,则确定通过合法性检查。
[0022]在一个实施方式中,对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列,包括:
[0023]对两两配对后的文件名中的各对文件名执行如下操作:
[0024]分别构建该对中的两个文件名的等价拓扑有向图;
[0025]对这两个文件名的等价拓扑有向图进行合并,得到合并后的有向图的所有拓扑序列,添加权值并筛选出合法的序列;
[0026]对筛选后的拓扑序列进行相邻节点的合并处理,直至不能再合并为止,以得到合并后的一个或多个交集的候选拓扑序列。
[0027]本发明实施例还提供了一种文件处理装置,以达到对含通配符的文件清单进行快速和准确地解析,从而有效提高文件管理的效率和可靠性的目的,该装置包括:
[0028]获取模块,用于获取需要解析对比的两组文件的文件清单;
[0029]配对模块,用于将两组文件的文件清单中含有通配符的文件名进行两两配对;
[0030]拓扑计算模块,用于对两两配对后的文件名进行基于有向拓扑序列的交集运算,得到交集的候选拓扑序列;
[0031]交集关系确定模块,用于将所述候选拓扑序列还原为含通配符的文件名表达式,并根据还原结果,确定生成该文件名的文件名对之间的交集关系;
[0032]合并模块,用于对确定出的各对文件名之间的交集关系进行汇总合并,以确定出两组文件的文件清单之间的交集关系;
[0033]处理模块,用于根据确定的两组文件的文件清单之间的交集关系,响应于用户输入的操作指令对两组文件进行处理。
[0034]在一个实施方式中,所述交集关系确定模块包括:
[0035]合法性检查单元,用于对还原出的文件名表达式进行合法性检查;
[0036]交集判断单元,用于根据合法性检查的结果,按照以下规则确定生成该文件名的文件名对之间的交集关系:
[0037]如果还原出的文件名表达式未能通过合法性检查,则确定生成该文件名表达式的文件名对的交集为空;
[0038]如果还原出的文件名表达式能通过合法性检查,且还原出的文件名表达式与生成该文件名的文件名对中的一个文件名完全相同,则确定生成该文件名表达式的文件名对之间为包含和被包含关系;
[0039]如果还原出的文件名表达式能通过合法性检查,且与生成该文件名表达式的文件名对中的任意一个文件名都不同,则确定生成该文件名表达式的文件名对之间为相交关系O
[0040]在一个实施方式中,所述合法性检查单元包括:
[0041]比较子单元,用于将还原出的文件名表达式中的文件名段数、除去通配符部分的长度、每段文件名的长度与预定的限制规则进行比较;
[0042]确定子单元,用于当还原出的文件名表达式中的文件名段数、除去通配符部分的长度、每段文件名的长度都满足限制规则的情况下,确定通过合法性检查。
[0043]在一个实施方式中,所述拓扑计算模块具体用于对两两配对后的文件名中的各对文件名执行如下操作:
[0044]分别构建该对中的两个文件名的等价拓扑有向图;
[0045]对这两个文件名的等价拓扑有向图进行合并,得到合并后的有向图的所有拓扑序列,添加权值并筛选出合法的序列;
[0046]对筛选后的拓扑序列进行相邻节点的合并处理,直至不能再合并为止,以得到
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1