确定垃圾文件大小的方法和装置及电子设备的制造方法_2

文档序号:9453129阅读:来源:国知局
包括:如果不满足,重新组成新的训练集和测试集,并重新确定新的测试集中每个目标区域的首次可清理的垃圾文件大小。
[0034]可选的,所述确定所述测试集中每个目标区域的首次可清理的垃圾文件大小之后,所述方法还包括:按照首次可清理的垃圾文件大小的从大到小的顺序,对相应目标区域进行垃圾文件清理的处理。
[0035]可选的,所述获取已有的所有目标区域中每个目标区域的特征点数据,包括:获取已有的所有目标区域中每个目标区域的初始数据;根据预设规则,对所述初始数据进行过滤,得到所述特征点数据。
[0036]可选的,所述根据预设规则,对所述初始数据进行过滤,包括:去除所述初始数据中的无效数据。
[0037]可选的,所述特征点数据包括如下项中的至少一项:已有的首次可清理的垃圾文件大小;首次垃圾清理的用户数;非首次可清理的垃圾文件大小;非首次垃圾清理的用户数;安装比例较高的预设个数的安装包中已运营的安装包的占比率;要完成预设比例的覆盖率,剩余待运营的安装包个数;平均安装包个数;不同机型的占比率;检出的首次可清理的垃圾文件大小在预设范围内的用户数的占比率。
[0038]本发明第三方面实施例提出的电子设备,通过得到训练集和测试集,并根据训练集中每个目标区域的特征点数据得到测试集中每个目标区域的首次可清理的垃圾文件大小,可以预估出每个目标区域的首次可清理的垃圾文件大小。
[0039]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0040]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0041]图1是本发明一实施例提出的确定垃圾文件大小的方法的流程示意图;
[0042]图2是本发明实施例中获取已有的所有目标区域中每个目标区域的特征点数据的流程示意图;
[0043]图3是本发明实施例中根据所述训练集中每个目标区域的特征点数据,确定所述测试集中每个目标区域的首次可清理的垃圾文件大小的流程示意图;
[0044]图4是本发明实施例中分类回归树的结构示意图;
[0045]图5是本发明另一实施例提出的确定垃圾文件大小的方法的流程示意图;
[0046]图6是本发明另一实施例提出的确定垃圾文件大小的方法的流程示意图;
[0047]图7是本发明另一实施例提出的确定垃圾文件大小的装置的结构示意图;
[0048]图8是本发明另一实施例提出的确定垃圾文件大小的装置的结构示意图。
【具体实施方式】
[0049]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0050]图1是本发明一实施例提出的确定垃圾文件大小的方法的流程示意图,该方法包括:
[0051]Sll:获取已有的所有目标区域中每个目标区域的用于进行垃圾文件清理的特征点数据。
[0052]其中,获取的特征点数据可以理解为是数据源,以用于后续运算。
[0053]目标区域例如为国家。
[0054]特征点数据包括至少一项,假设用N项表示,则对应已有的所有目标区域,每个目标区域需要获取N项。
[0055]考虑到一些数据是无效的,因此,可选的,参见图2,所述获取已有的所有目标区域中每个目标区域的特征点数据,包括:
[0056]S21:获取已有的所有目标区域中每个目标区域的初始数据。
[0057]其中,初始数据是指每个目标区域能够获取的数据,这些数据可能是无效的。
[0058]S22:根据预设规则,对所述初始数据进行过滤,得到所述特征点数据。
[0059]可选的,所述根据预设规则,对所述初始数据进行过滤,包括:
[0060]去除所述初始数据中的无效数据。
[0061]例如,以目标区域是国家为例,初始数据中包括国家号,如果国家号是无效的国家号,则去掉该无效国家号对应的数据。
[0062]可选的,所述特征点数据包括如下项中的至少一项:
[0063](I)已有的首次可清理的垃圾文件大小。
[0064]首次可清理的垃圾文件大小(以下简称为首扫size)是指第一次使用垃圾文件清理工具对用户设备进行垃圾文件扫描后得到的垃圾文件的大小,本实施例的用户设备可以具体是指移动设备,如手机。
[0065]首扫size可以分为国家的首扫size和用户的首扫size,其中,用户的首扫size是指每个用户在自己的用户设备上首次扫描出的垃圾文件的大小,国家的首扫size是指该国所有用户的首扫size的平均值,当然,可以理解的是,国家的首扫size也可以采用其他算法由用户的首扫size得到。
[0066]虽然最后要预估一个国家的首扫size,但初始时该国家也会有一个首扫size的初始值,该初始值可能准确或者不准确,该初始值就是该国已有的首扫size。
[0067](2)首次垃圾清理的用户数,是指一个国家当前统计时进行首次垃圾文件扫描的所有用户的总数。
[0068](3)非首次可清理的垃圾文件大小,是指一个国家当前统计时不是首扫时清理出的垃圾文件大小。
[0069](4)非首次垃圾清理的用户数,是指一个国家当前统计时不是首扫时清理出的垃圾文件大小。
[0070](5)安装比例较高的预设个数的安装包中已运营的安装包的占比率。
[0071]其中,在不同的国家内,用户会安装不同的安装包,例如,都是具有美图功能的软件,中国安装的安装包是软件A,而美国安装的安装包是软件B。
[0072]因此,可以对每个国家的安装包进行统计,并按照安装比例从高到低的顺序选择预设个数的安装包。
[0073]本实施例中,预设个数包括500和1000,因此,本实施例中,该占比率具体包括:
[0074]安装比例较高的500个安装包中已运营的安装包的占比率;
[0075]安装比例较高的1000个安装包中已运营的安装包的占比率。
[0076]另外,在垃圾文件清理时,需要先对安装包进行运营,例如,确定每个安装包的可以清理的部分等。但是,由于安装包种类繁多,并不一定每个安装包都被运营了,因此会存在该占比率。
[0077]以安装比例较高的500个安装包中已运营的安装包的占比率为例,假设在该500个安装包中已运营的安装包的个数是200个,则占比率是200/500。
[0078]类似的,还可以计算出安装比例较高的1000个安装包中已运营的安装包的占比率。
[0079](6)要完成预设比例的覆盖率,剩余待运营的安装包个数。
[0080]本实施例中,预设比例例如为(70%,60% )。
[0081](70%,60%)的覆盖率是指:一个国家70%的用户安装了已运营的安装包,且,一个用户安装的60 %的安装包已运营。
[0082](7)平均安装包个数,是指一个国家每个用户安装的安装包的个数的平均值。
[0083](8)不同机型的占比关系,例如,将机型划分为高中低三种,则确定出三种机型的比例关系。
[0084](9)检出的首次可清理的垃圾文件大小在预设范围内的用户数的占比率。
[0085]本实施例中,该占比率包括:
[0086]检出的首次可清理的垃圾文件大小在[200M,500M]这一范围的用户数的占比率;
[0087]检出的首次可清理的垃圾文件大小在[500M,1G]这一范围的用户数的占比率。
[0088]如上所述,首扫size包括用户的首扫size,不同用户的首扫size可以不同,因此可以对一个国家的每个用户的首扫size进行统计,例如,得到用户的首扫size在[200M,500M]这一范围的用户的总数,之后再用该范围的用户总数除以该国家的用户总数,得到检出的首次可清理的垃圾文件大小在[200M,500M]这一范围的用户数的占比率。
[0089]S12:根据所述特征点数据,将所述所有目标区域分成训练集和测试集。
[0090]例如,在得到特征点数据后,可以将所有目标区域进行划分,得到清理效果好的一组目标区域,以及,清理效果差的另一组目标区域,其中,清理效果好的一组目标区域组成训练集,清理效果差的另一组目标区域组成测试集。
[0091]具体的,所述根据所述特征点数据,将所述所有目标区域分成训练集和测试集,包括:
[0092]根据所述特征点数据,确定所述所有目标区域中每个目标区域的清理效果;
[0093]按照所述清理效果从好到差的顺序,选择预设个数的目标区域组成训练集;
[0094]将所述所有目标区域中除组成所述训练集的目标区域之外的其他目标区域,组成测试集。
[0095]具体的清理效果可以根据特征点数据确定,例如,选择安装比例较高的500个安装包中已运营的安装包的占比率作为衡量指标,该指标的数值越大表明清理效果越好。
[0096]可以理解的是,选择哪个特征点数据,或者哪些特征点数据的组合作为衡量清理效果
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1