本发明涉及文件处理,尤其涉及一种文件处理方法、装置、电子设备及存储介质。
背景技术:
1、统一资源定位符(universal resource locator,url),又叫做网页地址,是互联网上标准的资源的地址(address)。互联网上的每个文件都有一个唯一的url,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
2、目前,移动端在应用程序中使用大量url的数据时,方案有两种,方案一为:将所有url保存到文件中,如txt文件,将此文件预置到应有程序中,使用时读取此文件;方案二为:将所有url写入程序代码中,运行程序时动态写入到数据库中。
3、然而,方案一中由于url的数据量太大,会导致应用程序整体体积增大;并且在使用数据时,需要将数据读取到内存中,由于数据量太大,容易导致程序崩溃。方案二中由于需要处理的数据量太大,会导致程序执行时间太长。
技术实现思路
1、本发明提供了一种文件处理方法、装置、电子设备及存储介质,以减小url数据的数据量。
2、根据本发明的一方面,提供了一种文件处理方法,包括:
3、获取初始文件,确定所述初始文件中包括的特征字段;
4、确定所述特征字段在所述初始文件中的占用信息,基于各所述特征字段的占用信息确定关键特征字段;
5、设置所述关键特征字段的关联标识,所述关联标识的长度小于预设长度;
6、基于所述关联标识替换所述初始文件中对应的关键特征字段,得到目标文件,所述目标文件的数据量小于所述初始文件的数据量。
7、可选的,所述初始文件中包括多个地址信息;
8、所述确定所述初始文件中包括的特征字段,包括:基于特定字符对各所述地址信息进行特征字段的划分,得到各个地址信息中包括的特征字段;对所述特征字段进行去重处理。
9、可选的,所述特征字段在所述初始文件中的占用信息包括所述特征字段在所述初始文件中的出现频次;
10、所述基于各所述特征字段的占用信息确定关键特征字段,包括:
11、将所述出现频次满足频次阈值的特征字段确定为关键特征字段。
12、可选的,所述特征字段在所述初始文件中的占用信息包括所述特征字段的字段长度和所述特征字段在所述初始文件中的出现频次;
13、所述基于各所述特征字段的占用信息确定关键特征字段,包括:
14、对于任一所述特征字段,基于所述特征字段的字段长度和出现频次,确定所述特征字段的数据量;将所述数据量满足数据量阈值的特征字段确定为关键特征字段。
15、可选的,所述关联标识的长度小于关联特征字段的长度。
16、可选的,所述方法还包括:基于所述关键特征字段和所述关联标识的对应关系,创建对应关系文件,并进行存储,所述对应关系文件用于对所述目标文件进行还原处理。
17、可选的,所述方法还包括:在对所述目标文件使用之前,识别所述目标文件中的关联标识,基于所述对应关系文件确定所述关联标识对应的关键特征字段,将匹配到的关键特征字段替换对应的关联标识,得到所述初始文件。
18、根据本发明的另一方面,提供了一种文件处理装置,其特征在于,包括:
19、特征字段确定模块,用于获取初始文件,确定所述初始文件中包括的特征字段;
20、关键特征字段确定模块,用于确定所述特征字段在所述初始文件中的占用信息,基于各所述特征字段的占用信息确定关键特征字段;
21、关联标识设置模块,用于设置所述关键特征字段的关联标识,所述关联标识的长度小于预设长度;
22、目标文件确定模块,用于基于所述关联标识替换所述初始文件中对应的关键特征字段,得到目标文件,所述目标文件的数据量小于所述初始文件的数据量。
23、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
24、至少一个处理器;以及
25、与所述至少一个处理器通信连接的存储器;其中,
26、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的文件处理方法。
27、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的文件处理方法。
28、本发明实施例的技术方案,通过对初始文件中提取的关键特征字段设置对应的关联标识,并以关联标识替换关键特征字段,得到目标文件,减少文件中url数据的数据量,从而减小文件体积。
29、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种文件处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述初始文件中包括多个地址信息;
3.根据权利要求1所述方法,其特征在于,所述特征字段在所述初始文件中的占用信息包括所述特征字段在所述初始文件中的出现频次;
4.根据权利要求1所述的方法,其特征在于,所述特征字段在所述初始文件中的占用信息包括所述特征字段的字段长度和所述特征字段在所述初始文件中的出现频次;
5.根据权利要求1所述的方法,其特征在于,所述关联标识的长度小于关联特征字段的长度。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
8.一种文件处理装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的文件处理方法。