本公开涉及文件处理和金融领域,尤其涉及一种文件处理方法、文件处理装置、电子设备、存储介质和程序产品。
背景技术:
1、很多文件存储服务器存在着过期的资源占用浪费,例如很久之前的无用备份文件,文件属主也不主动删除或忘记删除,导致越来越多的无用文件堆积,占用大量的服务器空间,只能通知所有人排查文件。然而通过人工查询哪些文件需要删除的方式效率较低,而且人工查询方式筛选后的文件存储服务器中可能还会存留大量的无用文件。
技术实现思路
1、鉴于上述问题,本公开提供了一种文件处理方法、文件处理装置、电子设备、存储介质和程序产品。
2、根据本公开的第一个方面,提供了一种文件处理方法,包括:
3、响应于文件处理请求,调用数据接口从目标数据库中获取多个待处理文件以及与每个上述待处理文件对应的文件属性信息,其中,上述文件属性信息包括上述待处理文件的使用信息和读写权限信息;
4、根据上述待处理文件的使用信息利用第一分类算法对多个待处理文件进行分类处理,得到第一分类结果;
5、在上述第一分类结果表明上述待处理文件的使用信息满足预设使用条件的情况下,将上述待处理文件确定为待删除文件;
6、根据上述待删除文件的读写权限信息利用第二分类算法对上述待删除文件进行分类处理,得到第二分类结果;
7、在上述第二分类结果表明上述待删除文件不属于与预设文件类型的情况下,将上述待删除文件确定为目标删除文件。
8、根据本公开的实施例,文件处理方法还包括:
9、在上述第二分类结果表明上述待删除文件属于与预设文件类型的情况下,将上述待删除文件确定为待确认文件。
10、根据本公开的实施例,上述第一分类算法和上述第二分类算法均包括梯度提升机,上述梯度提升机是基于梯度提升树算法构建的;
11、其中,上述梯度提升机是通过如下方式训练的:
12、获取训练样本集,其中,上述训练样本集包括多个训练信息和与每个上述训练信息对应的标签信息,上述训练信息包括训练使用信息或训练权限信息,上述标签信息包括标签使用信息或标签权限信息;
13、将多个上述训练信息输入初始梯度提升机,输出训练分类信息,其中,上述训练分类信息表征每个上述训练信息是否属于删除信息类型;
14、根据上述训练分类信息和多个上述标签信息确定曲线下面积;
15、在上述曲线下面积满足不预设数值的情况下,利用上述初始梯度提升机迭代地对多个上述训练信息进行分类处理,以得到新的训练分类信息;
16、在上述曲线下面积满足预设数值的情况下,将上述初始梯度提升机确定为经训练的上述梯度提升机。
17、根据本公开的实施例,上述根据上述训练分类信息和多个上述标签信息确定曲线下面积,包括:
18、根据上述训练分类信息构建接受者操作特性曲线;
19、根据上述接受者操作特性曲线与参考线确定上述曲线下面积,其中,上述参考线是根据多个上述标签信息构建的。
20、根据本公开的实施例,文件处理方法还包括:
21、获取验证样本集,其中,上述验证样本集包括多个验证信息和与每个上述验证信息对应的验证标签信息,上述验证信息包括验证使用信息或验证权限信息,上述验证标签信息包括使用验证信息或权限验证信息;
22、将多个上述验证信息输入至上述经训练的上述梯度提升机,输出验证分类结果;
23、根据上述验证分类结果和多个上述验证标签信息计算分类准确率;
24、在上述分类准确率不满足准确率阈值的情况下,根据上述验证分类结果迭代地对上述经训练的上述梯度提升机的参数进行调整;
25、在上述分类准确率满足准确率阈值的情况下,将上述经训练的上述梯度提升机确定为最终的梯度提升机。
26、根据本公开的实施例,上述文件属性信息还包括文件属主信息;
27、其中,上述文件处理方法还包括:
28、根据目标文件的文件属主信息,将上述目标文件传输至属主设备,以使得上述属主设备对上述目标文件进行可视化展示,其中,上述目标文件包括以下至少一种:目标删除文件和待确认文件;
29、响应于上述属主设备发送的删除指令,将与上述目标文件对应的上述待处理文件从上述目标数据库中删除。
30、根据本公开的实施例,在进行分类处理之前,还包括:
31、在上述待处理文件的文件属性信息存在数据缺失的情况下,基于预设补全规则对上述文件属性信息进行补全处理,得到新的文件属性信息。
32、根据本公开的实施例,上述文件属性信息还包括以下至少一种:文件属主信息、创建时间信息、组别信息、文件名称信息和上述读写权限信息;
33、其中,上述基于预设补全规则对上述文件属性信息进行补全处理,得到新的文件属性信息,包括:
34、根据上述文件属性信息确定与上述待处理文件关联的文件夹信息;
35、根据与上述文件夹信息对应的属性信息对上述文件属性信息进行补全处理,得到与上述待处理文件对应的上述新的文件属性信息。
36、本公开的第二方面提供了一种文件处理装置,包括:
37、调用模块,用于响应于文件处理请求,调用数据接口从目标数据库中获取多个待处理文件以及与每个上述待处理文件对应的文件属性信息,其中,上述文件属性信息包括上述待处理文件的使用信息和读写权限信息;
38、第一分类模块,用于根据上述待处理文件的使用信息利用第一分类算法对多个待处理文件进行分类处理,得到第一分类结果;
39、第一确定模块,用于在上述第一分类结果表明上述待处理文件的使用信息满足预设使用条件的情况下,将上述待处理文件确定为待删除文件;
40、第二分类模块,用于根据上述待删除文件的读写权限信息利用第二分类算法对上述待删除文件进行分类处理,得到第二分类结果;
41、第二确定模块,用于在上述第二分类结果表明上述待删除文件不属于与预设文件类型的情况下,将上述待删除文件确定为目标删除文件。
42、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
43、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
44、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。
45、通过利用第一分类算法对文件的使用信息进行分类处理,可以根据待处理文件在多个周期内的使用情况确定待处理文件是否为待删除文件,此后利用第二分类算法基于读写权限信息对待删除文件进行二次分类,可以准确地对待删除文件的文件类型进行分类,从而能够得到及时获知该待处理文件是否属于需要删除的目标删除文件,进而能够及时对目标数据库中存储的大量文件进行分类确定是否需要向文件属主提示对存储的某些文件进行清理,避免数据库长期被无用文件占用所造成的资源浪费以及人工对每个待处理文件是否删除进行确认造成的筛选效率低下的问题。