确定垃圾文件大小的方法和装置及电子设备的制造方法_3

文档序号：9453129阅读：来源：国知局

的指标不限于上述示例，可以进行其他配置。
[0097]S13:根据所述训练集中每个目标区域的特征点数据，确定所述测试集中每个目标区域的首次可清理的垃圾文件大小。
[0098]可选的，参见图3，所述根据所述训练集中每个目标区域的特征点数据，确定所述测试集中每个目标区域的首次可清理的垃圾文件大小，包括:
[0099]S31:根据所述训练集中每个目标区域的特征点数据进行训练，得到对应每个目标区域的首次可清理的垃圾文件大小与所述特征点数据之间的函数关系。
[0100]训练算法可以有多种，本实施例以分类回归树算法为例。分类回归树算法是weka软件提供的算法。由于分类回归树算法是已有技术，在此不过多描述，简要描述如下:
[0101]采用分类回归树算法最后会建立一颗树，该树包括多个节点，例如，参见图4，包括根节点41，中间节点42和叶子节点43，叶子节点中保存国家的首扫size与特征点数据之间函数关系，假设国家的首扫size分别用Y表示，特征点数据分别用X = xl, x2，…表示，则参见图4，一个叶子节点中的函数关系用Y = fl(X)表示，另一个叶子节点中的函数关系用Y = f2 (X)表示，其余叶子节点类似。
[0102]根节点和中间节点分别表示相应的特征点数据，例如，根节点41表示已有的首扫size，一个中间节点421表示安装比例较高的500个安装包中已运营的安装包的占比率(图4中简写为top500占比)，另一个中间节点422表示检出的首次可清理的垃圾文件大小在[200M, 500M]这一范围的用户数的占比率(图4中简写为[200M, 500M]占比)。
[0103]另外，在该分类回归树中走的路径可以根据相应的阈值确定，例如，从根节点开始，假设阈值用a表示，则已有的首扫size小于或等于a时，进入中间节点421，否则，当已有的首扫size大于a时，进入中间节点422。
[0104]具体的分类回归树的根节点和中间节点表示的特征点数据，叶子节点中保存的函数关系，以及，各路径的阈值，都可以对训练集内每个国家的特征点数据进行训练后得到。
[0105]S32:根据所述函数关系，以及所述测试集中每个目标区域的特征点数据，得到所述测试集中每个目标区域的首次可清理的垃圾文件大小。
[0106]在得到如图4所示的分类回归树后，就可以根据一个国家的特征点数据得到相应的国家首扫size。例如，从该国已有的首扫size开始，如果该国的已有的首扫size小于a，则进入中间节点421，之后比对该国中间节点421的值与该中间节点的阈值，例如，该国top500占比小于top500占比对应的阈值，则进入中间节点421的左侧节点，假设该左侧节点就是叶子节点，则可以从叶子节点中获取相应的函数关系，例如，得到的函数关系是Y =f I (X)，则可以根据该f I (X)得到该国的首扫size (Y) ο
[0107]另一实施例中，参见图5，所述确定所述测试集中每个目标区域的首次可清理的垃圾文件大小之后，所述方法还包括:
[0108]S51:根据确定出的每个目标区域的首次可清理的垃圾文件大小，计算预设的衡量参数。
[0109]衡量参数是可以配置的。
[0110]本实施例以确定出的各国首扫size的相关系数为例。
[0111]S52:判断所述衡量参数是否满足预设的最优条件。
[0112]根据衡量参数的不同，最优条件可以相应配置。
[0113]假设衡量参数时相关系数，则最优条件是相关系数最大。
[0114]可以理解的是，在评估最优时，还可以进一步进行人工评价。
[0115]S53:如果满足，保存所述确定出的每个目标区域的首次可清理的垃圾文件大小。
[0116]例如，计算出的相关系数最大，贝Ij表明确定出的测试集中每个国家的首扫size是准确的，之后，可以对确定出的国家首扫size进行保存，以便后续为运营等处理提供基础数据。
[0117]另一方面，所述方法还包括:
[0118]如果不满足，重新组成新的训练集和测试集，并重新确定新的测试集中每个目标区域的首次可清理的垃圾文件大小。
[0119]在重新选择训练集和测试集时，可以依据新的指标进行重新选择，例如初始是根据top500占比选择的，重新选择时可以根据(70% , 60% )覆盖率选择等。
[0120]在重新选择出训练集和测试集后，可以参照上述流程重新确定出测试集中每个国家的首扫size。
[0121]可选的，参见图6，所述确定所述测试集中每个目标区域的首次可清理的垃圾文件大小之后，所述方法还包括:
[0122]S61:按照首次可清理的垃圾文件大小的从大到小的顺序，对相应目标区域进行垃圾文件清理的处理。
[0123]该流程也可以具体是在国家首扫size被保存后执行的。
[0124]对相应国家进行垃圾文件清理的处理例如对该国家的安装包进行垃圾清理的运营，例如，找到安装包需要清理的部分。
[0125]该步骤可以对国家的首扫size较大的国家进行优先运营。
[0126]本实施例中，通过得到训练集和测试集，并根据训练集中每个目标区域的特征点数据得到测试集中每个目标区域的首扫size，可以预估目标区域的首扫size。
[0127]图7是本发明另一实施例提出的确定垃圾文件大小的装置的结构示意图，该装置70包括:
[0128]获取模块71，用于获取已有的所有目标区域中每个目标区域的用于垃圾文件清理特征点数据；
[0129]其中，获取的特征点数据可以理解为是数据源，以用于后续运算。
[0130]目标区域例如为国家。
[0131]特征点数据包括至少一项，假设用N项表示，则对应已有的所有目标区域，每个目标区域需要获取N项。
[0132]可选的，所述获取模块71具体用于:
[0133]获取已有的所有目标区域中每个目标区域的初始数据；
[0134]根据预设规则，对所述初始数据进行过滤，得到所述特征点数据。
[0135]可选的，所述获取模块71具体用于根据预设规则，对所述初始数据进行过滤，得到所述特征点数据，包括:
[0136]去除所述初始数据中的无效数据。
[0137]其中，初始数据是指每个目标区域能够获取的数据，这些数据可能是无效的。
[0138]例如，以目标区域是国家为例，初始数据中包括国家号，如果国家号是无效的国家号，则去掉该无效国家号对应的数据。
[0139]可选的，所述特征点数据包括如下项中的至少一项:
[0140](I)已有的首次可清理的垃圾文件大小。
[0141]首次可清理的垃圾文件大小(以下简称为首扫size)是指第一次使用垃圾文件清理工具对用户设备进行垃圾文件扫描后得到的垃圾文件的大小，本实施例的用户设备可以具体是指移动设备，如手机。
[0142]首扫size可以分为国家的首扫size和用户的首扫size，其中，用户的首扫size是指每个用户在自己的用户设备上首次扫描出的垃圾文件的大小，国家的首扫size是指该国所有用户的首扫size的平均值，当然，可以理解的是，国家的首扫size也可以采用其他算法由用户的首扫size得到。
[0143]虽然最后要预估一个国家的首扫size，但初始时该国家也会有一个首扫size的初始值，该初始值可能准确或者不准确，该初始值就是该国已有的首扫size。
[0144](2)首次垃圾清理的用户数，是指一个国家当前统计时进行首次垃圾文件扫描的所有用户的总数。
[0145](3)非首次可清理的垃圾文件大小，是指一个国家当前统计时不是首扫时清理出的垃圾文件大小。
[0146](4)非首次垃圾清理的用户数，是指一个国家当前统计时不是首扫时清理出的垃圾文件大小。
[0147](5)安装比例较高的预设个数的安装包中已运营的安装包的占比率。
[0148]其中，在不同的国家内，用户会安装不同的安装包，例如，都是具有美图功能的软件，中国安装的安装包是软件A，而美国安装的安装包是软件B。
[0149]因此，可以对每个国家的安装包进行统计，并按照安装比例从高到低的顺序选择预设个数的安装包。
[0150]本实施例中，预设个数包括500和1000，因此，本实施例中，该占比率具体包括:
[0151]安装比例较高的500个安装包中已运营的安装包的占比率；
[0152]安装比例较高的1000个安装包中已运营的安装包的占比率。
[0153]另外，在垃圾文件清理时，需要先对安装包进行运营，例如，确定每个安装包的可以清理的部分等。但是，由于安装包种类繁多，并不一定每个安装包都被运营了，因此会存在该占比率。
[0154]以安装比例较高的500个安装包中已运营的安装包的占比率为例，假设在该500个安装包中已运营的安装包的个数是200个，则占比率是200/500。
[0155]类似的，还可以计算出安装比例较高的1000个安装包中已运营的安装包的占比率。
[0156](6)要完成预设比例的覆盖率，剩余待运营的安装包个数。
[0157]本实施例中，预设比例例如为(70%，60% )。
[0158](70%,60%)的覆盖率是指:一个国家70%

完整全部详细技术资料下载

当前第3页1 2 3 4 5