一种网站废旧文件的处理方法及系统与流程

文档序号:12666875阅读:324来源:国知局
一种网站废旧文件的处理方法及系统与流程

本发明涉及网站文件处理技术领域,特别是涉及一种网站废旧文件的处理方法及系统。



背景技术:

随着web2.0技术的不断发展,各种应用网站也变得越来越多,网站中容纳的数据和文件量也越来越大,同时也存在很多长期不被访问的废旧文件,如何从大量的数据和文件中辨别出废旧文件并对这些废旧文件进行适当的处理是非常重要的一项工作。

现有技术中,主要依靠网站的运维人员对网站的所有文件进行逐个识别和筛选以辨别出废旧文件,并进一步对废旧文件进行打包或删除的操作。由于网站中的废旧文件量较大,现有技术中对网站的废旧文件处理单纯依靠网站的运维人员的主观辨别即容易出错又增加了运维人员的工作量,降低了工作效率。

因此,如何提供一种解决上述技术问题的网站废旧文件的处理方法及系统成为本领域的技术人员需要解决的问题。



技术实现要素:

本发明的目的是提供一种网站废旧文件的处理方法及系统,在使用过程中提高了对废旧文件处理的准确度和工作效率,减小了工作人员的工作量。

为解决上述技术问题,本发明提供了一种网站废旧文件的处理方法,所述方法包括:

获取用户选择的访问策略,并依据所述访问策略从网站目录下的所有文件中筛选出符合所述访问策略的所有文件;

将符合所述访问策略的各个所述文件显示出来;

获取所述用户的处理指令,并依据所述处理指令对符合所述访问策略的各个所述文件进行处理。

优选的,所述依据用户选择的访问策略从网站目录下的所有文件中筛选出符合所述访问策略的所有文件的过程具体为:

依据用户选择的访问策略从数据库中的所有第一Hash值中筛选出符合所述访问策略的第一Hash值;所述第一Hash值预先存储至所述数据库中;

对网站目录下的所有文件进行遍历,获取各个所述文件的实际路径;

对各个所述实际路径进行计算得到与各个实际路径一一对应的各个第二Hash值;

将各个符合所述访问策略的第一Hash值与各个所述第二Hash值进行对比,匹配出与符合所述访问策略的第一Hash值相等的各个所述第二Hash值,并依据匹配出的各个所述第二Hash值筛选出与其一一对应的文件。

优选的,所述第一Hash值预先存储至所述数据库中的具体过程为:

当访问文件成功时,接收内核发送的访问成功文件的物理路径对应的第一Hash值,并将所述第一Hash值发送至所述数据库中进行存储。

优选的,所述第一Hash值包括访问成功文件的Hash值、成功访问次数、访问时间以及文件属性。

优选的,所述第一Hash值预先存储至所述数据库中的具体过程还包括:

当所述访问成功文件再次被访问成功时,获取并依据所述访问成功文件的第一Hash值将所述成功访问次数加一、更新所述访问时间。

优选的,所述访问策略为成功访问次数、访问时间以及文件属性中的一种或多种的组合。

优选的,所述文件属性包括创建时间、修改时间以及文件大小。

优选的,所述依据所述处理指令对符合所述访问策略的各个所述文件进行处理的过程具体为:

依据所述处理指令判断是否将符合所述访问策略的各个所述文件进行归档,如果是,则将符合所述访问策略的各个所述文件进行压缩得到压缩文件后将符合所述访问策略的各个所述文件删除,并将所述压缩文件进行存储;否则,直接将符合所述访问策略的各个所述文件删除。

优选的,所述方法还包括:

当文件访问失败时,接收内核拼接的访问失败文件的物理路径,并依据拼接的所述物理路径从存储的压缩文件中找出相应的压缩文件,并将所述压缩文件进行解压缩操作恢复所述访问失败文件;依据拼接的所述物理路径计算得出访问失败文件的第三Hash值,并将所述第三Hash值发送至数据库中;所述第三Hash值包括访问失败文件的Hash值、访问失败次数、访问时间以及文件属性。

为解决上述技术问题,本发明提供了一种网站废旧文件的处理系统,所述系统包括:

获取模块,用于获取用户选择的访问策略,并将所述访问策略发送出去;还用于获取所述用户的处理指令,并将所述处理指令发送出去;

筛选模块,用于接收所述访问策略,并依据所述访问策略从网站目录下的所有文件中筛选出符合所述访问策略的所有文件;

显示模块,用于将符合所述访问策略的各个所述文件显示出来;

处理模块,用于依据所述处理指令对符合所述访问策略的各个所述文件进行处理。

本发明提供了一种网站废旧文件的处理方法及系统,包括:获取用户选择的访问策略,并依据访问策略从网站目录下的所有文件中筛选出符合访问策略的所有文件;将符合访问策略的各个文件显示出来;获取用户的处理指令,并依据处理指令对符合访问策略的各个文件进行处理。

本发明可以向用户提供可选择的访问策略,并通过用户选择的访问策略对网站目录下的所有文件进行自动筛选,最终筛选出符合用户要求的文件,并将这些文件显示给用户,再依据用户的处理指令对选出的批量文件进行相应的处理。本发明通过依据用户所选择的访问策略自动筛选符合用户要求的文件,使用户实现了对废旧文件的批量处理,在使用过程中提高了对废旧文件处理的准确度和工作效率,减小了工作人员的工作量。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种网站废旧文件的处理方法的流程示意图;

图2为本发明提供的一种网站废旧文件的处理系统的结构示意图。

具体实施方式

本发明的核心是提供一种网站废旧文件的处理方法及系统,在使用过程中提高了对废旧文件处理的准确度和工作效率,减小了工作人员的工作量。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参照图1,图1为本发明提供的一种网站废旧文件的处理方法的流程示意图。该方法包括:

步骤S101:获取用户选择的访问策略,并依据访问策略从网站目录下的所有文件中筛选出符合访问策略的所有文件;

步骤S102:将符合访问策略的各个文件显示出来;

步骤S103:获取用户的处理指令,并依据处理指令对符合访问策略的各个文件进行处理。

具体的,当用户启动筛选功能时,向用户提供多个访问策略的选项以供用户根据需求进行选择,当用户选择好访问策略后,本系统会依据用户所选择的访问策略对网站目录下的所有文件进行筛选,最终筛选出符合用户所选的访问策略的文件,并将这些文件以相应的文件形式(例如表格的形式)显示给用户,以便用户通过查看所显示文件的信息来进一步对这些文件做相应的处理,同时通过显示界面向用户展示提示信息,以便用户选择相应的处理方式,例如将文件归并或者不对文件进行归并等。

需要说明的是,在实际应用中可以由应用层监听系统实现本方法。

通过本发明所提供的方法,可以使依据用户需求从所有的文件中批量选择出废旧文件,可以加快处理废旧文件的速度。

作为优选的,步骤S101中依据用户选择的访问策略从网站目录下的所有文件中筛选出符合访问策略的所有文件的过程具体为:

步骤S11:依据用户选择的访问策略从数据库中的所有第一Hash值中筛选出符合访问策略的第一Hash值;第一Hash值预先存储至数据库中;

步骤S12:对网站目录下的所有文件进行遍历,获取各个文件的实际路径;

步骤S13:对各个实际路径进行计算得到与各个实际路径一一对应的各个第二Hash值;

步骤S14:将各个符合访问策略的第一Hash值与各个第二Hash值进行对比,匹配出与符合访问策略的第一Hash值相等的各个第二Hash值,并依据匹配出的各个第二Hash值筛选出与其一一对应的文件。

具体的,第一Hash值所包含的信息有访问成功文件的Hash值、成功访问次数、访问时间以及文件属性,访问策略可以是成功访问次数、访问时间以及文件属性中的一种或多种的组合。例如当用户所选择的访问策略为访问时间时,则在实际应用中还需要用户输入具体的参数以形成具体的访问策略,例如设置访问时间为2005年1月1日之前,则应用层监听系统根据具体的访问策略(即访问时间)从数据库中存储的所有的第一Hash值中选择出访问时间为2005年1月1日之前的所有第一Hash值。

在得到符合访问策略的所有第一Hash值后启动遍历功能对网站目录下的所有文件一一进行遍历,并依次获取各个文件的实际路径,并通过计算得出各个实际路径的第二Hash值,可以理解的是,各个第二Hash值与各个文件是一一对应的关系。

接下来需要将各个符合访问策略的第一Hash值与各个第二Hash值进行对比,也就是从所有的第二Hash值中匹配出分别与各个符合访问策略的第一Hash值相等的第二Hash值,通过匹配得出的各个第二Hash值与其对应的文件的映射关系即可从网站目录下的所有文件中筛选出符合访问策略的各个文件。

需要说明的是,这种方法可以快速准确的从大量的文件中筛选出符合用户要求的文件,大大加快了对废旧文件的处理速度。

还需要说明的是,依据用户选择的访问策略从网站目录下的所有文件中筛选出符合访问策略的所有文件的方法不仅限于上述方法,还可以采用其他的方法,本发明对此不作特殊的限定,能实现本发明的目的即可。

作为优选的,第一Hash值预先存储至数据库中的具体过程为:

当访问文件成功时,接收内核发送的访问成功文件的物理路径对应的第一Hash值,并将第一Hash值发送至数据库中进行存储。

需要说明的是,无论是windows系统还是linux系统在用户访问网站文件时都会用适用于自身系统的方式获取访问请求,相应系统的访问函数会依据访问请求对所访问的文件进行回调,内核会依据回调结果判断本次访问是否成功,当访问成功时,内核会获取访问成功文件的物理路径,并对访问成功文件的物理路径进行计算得出与该访问成功文件对应的第一Hash值,具体的计算方法是对物理路径做DEKHASH处理(该方法为本领域技术人员熟知的一种方法,故本申请在此不做详细说明),内核将计算得到的第一Hash值发送至应用层监听系统,通过应用层监听系统将该第一Hash值发送至数据库中进行存储。

具体的,Hash值是定长的全Interger类型数据,有助于数据存储和寻道过程,加快数据的写入/读取速度,能将对系统本身的性能影响降到最小。一方面,定长的数据类型可以减轻数据库的负担,节约存储空间;另一方面,通过对文件的DEK HASH处理,可以大大提高对文件或数据处理的速度。

还需要说明的是,在windows系统中,内核通过ALPC通信模块将第一Hash值发送至应用层监听系统;在linux系统中,内核通过NetLink通信模块将第一Hash值发送至应用层监听系统。

作为优选的,第一Hash值包括访问成功文件的Hash值、成功访问次数、访问时间以及文件属性。

作为优选的,第一Hash值预先存储至数据库中的具体过程还包括:

当访问成功文件再次被访问成功时,获取并依据访问成功文件的第一Hash值将成功访问次数加一、更新访问时间。

需要说明的是,当用户再次访问同一个文件并且访问成功时,此时将依据该文件对应的第一Hash值来对数据库中所存储的该文件的第一Hash值的成功访问次数进行加一的操作,同时更新该文件的访问时间。具体的,第一Hash值在数据库中的存储形式可以以数据库表的形式进行存储,数据库表的格式如下:CREATE TABLE FileHash(Hash INTEGER,AccessTime INTEGER,FailTime INTEGER),其中,Hash保存文件的Hash值,AccessTime标记该文件的成功访问次数,FailTime标记该文件失败访问的次数,并且该数据库表可以根据用户需要以文件的形式导出,以供网站的运维人员参考。

作为优选的,访问策略为成功访问次数、访问时间以及文件属性中的一种或多种的组合。

需要说明的是,本申请中所提供的访问策略不仅限于上述几种,还可以根据用户需要进行自定义,本发明在此不做特殊的限定,能实现本发明的目的即可。

作为优选的,文件属性包括创建时间、修改时间以及文件大小。

当然,文件属性不仅限于包括上述几项内容,还可以包括其他内容,本发明在此不做特殊的限定,能实现本发明的目的即可。

作为优选的,依据处理指令对符合访问策略的各个文件进行处理的过程具体为:

依据处理指令判断是否将符合访问策略的各个文件进行归档,如果是,则将符合访问策略的各个文件进行压缩得到压缩文件后将符合访问策略的各个文件删除,并将压缩文件进行存储;否则,直接将符合访问策略的各个文件删除。

具体的,该方法中当向用户显示符合访问策略的各个文件时,还会通过显示界面向用户展示提示信息,该提示信息具体可以为是否归档,并有“是”和“否”两个选项,用户可以根据具体需要选择相应的选项,应用层监听系统即可获取相应的处理指令,并依据用户的处理指令判断出用户是否需要将这些符合访问策略的文件进行归档。一方面,对于需要归档的文件,当接收到用户的处理指令后,首先对这些符合访问策略的各个文件执行压缩操作,并将压缩后的压缩文件进行存储,同时将这些符合访问策略的各个文件删除,所存储的压缩文件用于当用户需要对这些文件进行访问时可以通过一定的方法将需要访问的文件从该压缩文件中进行恢复;另一方面,对于不需要归档的文件,则依据用户的处理指令直接将这些符合访问策略的各个文件删除。

需要说明的是,在对这些符合访问策略的各个文件执行压缩操作时需要保持压缩路径,以便后续需要对某一文件进行恢复时按照原路径进行解压缩。

需要指出的是,现有技术中运维人员对于大量网站文件处理时,是将所有的文件都存储在硬盘中,降低了系统的可靠性,并且当网站的数据量增加时运维人员只能通过增加硬盘来存储更多的文件,更加降低了系统本身的可靠性,而本发明只需对符合访问策略的各个文件进行压缩存储,并且通过软件进行存储,节约了大量存储空间,使系统的可靠性提高。

作为优选的,方法还包括:

当文件访问失败时,接收内核拼接的访问失败文件的物理路径,并依据拼接的物理路径从存储的压缩文件中找出相应的压缩文件,并将压缩文件进行解压缩操作恢复访问失败文件;依据拼接的物理路径计算得出访问失败文件的第三Hash值,并将第三Hash值发送至数据库中;第三Hash值包括访问失败文件的Hash值、访问失败次数、访问时间以及文件属性。

需要说明的是,当内核监测到用户访问某一个文件失败时,说明该文件已经被删除,此时内核会拼接该访问失败文件的物理路径,本发明所提供的应用层监听系统根据内核发送的拼接后的物理路径从存储的压缩文件中找出相应的压缩文件,并将该压缩文件进行解压缩操作以使该访问失败的文件得以恢复。当该文件恢复后,则还要对该文件的物理路径进行计算,得到所恢复的文件的第三Hash值,并将第三Hash值发送至数据库中进行存储,以便为网站的运维人员的工作提供指导依据。

本发明所提供的文件恢复功能可以有效解决数据被删除后复用的问题。

最后还需要说明的是,本发明在使用时只有在网站运维人员处理的时候才会进行网站目录遍历,对于网站平时的负载较小。

本发明提供了一种网站废旧文件的处理方法,包括获取用户选择的访问策略,并依据访问策略从网站目录下的所有文件中筛选出符合访问策略的所有文件;将符合访问策略的各个文件显示出来;获取用户的处理指令,并依据处理指令对符合访问策略的各个文件进行处理。

本发明可以向用户提供可选择的访问策略,并通过用户选择的访问策略对网站目录下的所有文件进行自动筛选,最终筛选出符合用户要求的文件,并将这些文件显示给用户,再依据用户的处理指令对选出的批量文件进行相应的处理。本发明通过依据用户所选择的访问策略自动筛选符合用户要求的文件,使用户实现了对废旧文件的批量处理,在使用过程中提高了对废旧文件处理的准确度和工作效率,减小了工作人员的工作量。

请参照图2,图2为本发明提供的一种网站废旧文件的处理系统的结构示意图,在上述实施例的基础上:

该系统包括:

获取模块1,用于获取用户选择的访问策略,并将访问策略发送出去;还用于获取用户的处理指令,并将处理指令发送出去;

筛选模块2,用于接收访问策略,并依据访问策略从网站目录下的所有文件中筛选出符合访问策略的所有文件;

显示模块3,用于将符合访问策略的各个文件显示出来;

处理模块4,用于依据处理指令对符合访问策略的各个文件进行处理。

需要说明的是,在实际应用中该系统为应用层监听系统,该系统的功能是通过应用层监听程序实现的。

其中,显示模块3具体为显示器。

作为优选的,筛选模块2包括:

第一筛选单元,用于依据用户选择的访问策略从数据库中的所有第一Hash值中筛选出符合访问策略的第一Hash值;

遍历单元,用于对网站目录下的所有文件进行遍历,获取各个文件的实际路径;

计算单元,用于对各个实际路径进行计算得到与各个实际路径一一对应的各个第二Hash值;

对比单元,用于将各个符合访问策略的第一Hash值与各个第二Hash值进行对比,匹配出与符合访问策略的第一Hash值相等的各个第二Hash值,并依据匹配出的各个第二Hash值筛选出与其一一对应的文件。

作为优选的,处理模块4包括:

判断单元,用于依据处理指令判断是否将符合访问策略的各个文件进行归档,如果是,则触发压缩单元;否则,触发删除单元;

压缩单元,用于将符合访问策略的各个文件进行压缩得到压缩文件,将压缩文件发送出去,并触发删除单元;

删除单元,用于将符合访问策略的各个文件进行删除;

则,系统还包括存储模块,用于接收压缩文件,并将压缩文件进行存储。

作为优选的,系统还包括:

恢复模块,用于当文件访问失败时,接收内核拼接的访问失败文件的物理路径,并依据拼接的物理路径从存储模块中找出相应的压缩文件,并将压缩文件进行解压缩操作以恢复访问失败文件;

计算模块,用于依据拼接的物理路径计算得出访问失败文件的第三Hash值,并将第三Hash值发送至数据库中;第三Hash值包括访问失败文件的Hash值、访问失败次数、访问时间以及文件属性。

本发明在使用过程中提高了对废旧文件处理的准确度和工作效率,减小了工作人员的工作量。

需要说明的是,对于本发明所提供的网站废旧文件的处理系统的具体实现方法请参照上述方法实施例,本发明在此不再赘述。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1