一种垃圾文件的清理方法和装置制造方法

文档序号:6523671阅读:340来源:国知局
一种垃圾文件的清理方法和装置制造方法
【专利摘要】本发明公开了一种垃圾文件的清理方法和装置。本发明实施例提供的一种垃圾文件的清理方法包括:监控用户对垃圾文件的清理操作,收集与该清理操作关联的用户行为及系统资源快照;利用收集到的数据组成训练集;按照选取的聚类算法对训练集进行分类构建,得到需要执行垃圾文件清理的聚类状态;获取当前时刻下用户行为和系统资源快照对应的当前数据;判断当前数据是否与聚类状态相匹配,若是,则向用户弹出清理垃圾文件提示,若否,不向用户弹出清理垃圾文件提示。本发明实现了针对用户的个性化自动垃圾文件清理,提高了用户体验。
【专利说明】一种垃圾文件的清理方法和装置
【技术领域】
[0001]本发明涉及计算机应用【技术领域】,特别涉及一种垃圾文件的清理方法和装置。
【背景技术】
[0002]在计算机系统的安装和使用的过程中,会产生相当多的垃圾文件,这些垃圾文件如不及时清理,会占用大量的磁盘空间,影响系统的运行速度。
[0003]早期的方案中需要用户手动执行垃圾文件的清理,近来出现了一些自动清理垃圾文件的工具,用户点击工具中的“一键清理”按键,即可执行对计算机中所有垃圾文件的清理。然而,这些方式都需要用户自行启动清理操作,为了进一步方便用户,目前又产生了一些自动提示用户执行清理操作的方案。
[0004]现有的自动提示用户执行清理操作的方案至少具有如下缺陷:
[0005]现有方案在实现时通常是根据计算机CPU和内存的使用情况,或者依据系统中垃圾文件的数量而自动弹出提示,通知用户需要执行清理,然而,不同用户对所使用计算机的要求是不一样的,自动弹出提示的时刻对一些用户来说是不需要执行清理的情况,而对另一些用户希望对计算机执行清理时却并没有收到自动弹出的提示。现有的垃圾文件自动清理操作与用户实际需求之间存在偏差,用户体验较差。

【发明内容】

[0006]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种垃圾文件的清理方法和相应的垃圾文件的清理装置。
[0007]依据本发明的一个方面,本发明实施例提供了一种垃圾文件的清理方法,包括:
[0008]监控用户对垃圾文件的清理操作,收集与该清理操作关联的用户行为及系统资源快照;
[0009]利用收集到的数据组成训练集;
[0010]按照选取的聚类算法对训练集进行分类构建,得到需要执行垃圾文件清理的聚类状态;
[0011]获取当前时刻下用户行为和系统资源快照对应的当前数据;
[0012]判断当前数据是否与聚类状态相匹配,若是,则向用户弹出清理垃圾文件提示,若否,不向用户弹出清理垃圾文件提示。
[0013]可选的,与该清理操作关联的用户行为包括该清理操作执行时刻之前第一时间范围至该清理操作执行时刻之后第二时间范围内的用户行为;与该清理操作关联的系统资源快照包括该清理操作执行时刻的系统资源快照。
[0014]可选的,在向用户弹出清理垃圾文件提示之后,上述方法还包括:
[0015]接收到用户发送的不执行垃圾文件清理的指令时,在当前时刻不对垃圾文件进行清理;将当前数据作为不需要执行垃圾文件清理的数据来更新训练集;按照选取的聚类算法对更新后的训练集进行分类构建,得到不需要执行垃圾文件清理的聚类状态。[0016]可选的,在向用户弹出清理垃圾文件提示之后,上述方法还包括:
[0017]若当前时刻对垃圾文件进行了清理,而当前时刻属于第一清理周期时,则确认在该第一清理周期内不需再对用户行为及系统资源快照进行监控,不再执行垃圾文件清理操作。
[0018]可选的,上述方法还包括:将用户行为划分为清理操作、浏览器操作和客户端操作,分别为每次操作生成一个标识ID ;利用ID对每次操作对应的数据进行存取;其中,浏览器操作的数据包括浏览器操作ID、浏览器进程、所访问URL对应的主机名称、运行时间、是否属于清理前行为的标记;客户端操作的数据包括客户端操作ID、软件进程、运行时间、是否属于清理前行为的标记;清理操作的数据包括清理操作ID、清理项目、清理后最近的关机时间、清理前最近的开机时间。
[0019]可选的,上述方法还包括:为每次收集到的系统资源快照生成一个系统资源快照ID ;利用系统资源快照ID对系统资源快照的数据进行存取;其中,系统资源快照的数据包括系统资源快照ID、CPU使用率、内存使用率、网速、系统磁盘可用空间、磁盘总的可用空间。
[0020]可选的,所选取的聚类算法为C4.5算法,上述按照选取的聚类算法对训练集进行分类构建,得到需要执行垃圾文件清理的聚类状态包括:
[0021]步骤A:根据训练集中用户行为和系统资源快照中的数据创建属性列表;
[0022]步骤B:对属性列表中连续型的属性进行离散化处理;
[0023]步骤C:计算属性列表中每个属性的信息增益率;
[0024]步骤D:将信息增益率最大的属性作为一个节点,该属性的不同取值作为分支;
[0025]步骤E:将每个分支下对应的数据集作为训练子集,重复步骤B至步骤D,直至所有属性都处理完毕,完成决策树的构建;
[0026]其中,决策树中的一个节点对应一个需要执行垃圾文件清理的聚类状态或者一个不需要执行垃圾文件清理的聚类状态。
[0027]依据本发明的另一个方面,本发明实施例提供了一种垃圾文件的清理装置,包括:
[0028]收集单元,适于监控用户对垃圾文件的清理操作,收集与该清理操作关联的用户行为及系统资源快照;
[0029]聚类单元,适于利用收集到的数据组成训练集;按照选取的聚类算法对训练集进行分类构建,得到需要执行垃圾文件清理的聚类状态;
[0030]当前数据获取单元,适于获取当前时刻下用户行为和系统资源快照对应的当前数据;
[0031]清理提示单元,适于判断当前数据是否与聚类状态相匹配,若是,则向用户弹出清理垃圾文件提示,若否,不向用户弹出清理垃圾文件提示。
[0032]可选的,收集单元,适于收集上述清理操作执行时刻之前第一时间范围至该清理操作执行时刻之后第二时间范围内的用户行为;以及收集该清理操作执行时刻的系统资源快照。
[0033]可选的,上述装置还包括:清理执行单元,适于在清理提示单元向用户弹出清理垃圾文件提示之后,接收到用户发送的不执行垃圾文件清理的指令时,在当前时刻不对垃圾文件进行清理;
[0034]聚类单元,适于将当前数据作为不需要执行垃圾文件清理的数据来更新训练集;按照选取的聚类算法对更新后的训练集进行分类构建,得到不需要执行垃圾文件清理的聚类状态。
[0035]可选的,清理执行单元,适于在向用户弹出清理垃圾文件提示之后,若当前时刻对垃圾文件进行了清理,而当前时刻属于第一清理周期时,则确认在该第一清理周期内不需再对用户行为及系统资源快照进行监控,不再执行垃圾文件清理操作。
[0036]可选的,聚类单元,适于利用操作ID对每次操作对应的数据进行存取;其中,用户行为划分为清理操作、浏览器操作和客户端操作,每次操作具有一个操作ID ;浏览器操作的数据包括浏览器操作ID、浏览器进程、所访问URL对应的主机名称、运行时间、是否属于清理前行为的标记;客户端操作的数据包括客户端操作ID、软件进程、运行时间、是否属于清理前行为的标记;清理操作的数据包括清理操作ID、清理项目、清理后最近的关机时间、清理前最近的开机时间。
[0037]可选的,聚类单元,适于利用系统资源快照ID对系统资源快照的数据进行存取;其中,每次收集到的系统资源快照具有一个系统资源快照ID,系统资源快照的数据包括系统资源快照ID、CPU使用率、内存使用率、网速、系统磁盘可用空间、磁盘总的可用空间。
[0038]可选的,聚类单元,适于通过如下方式,按照C4.5算法对训练集进行分类构建,得到需要执行垃圾文件清理的聚类状态:
[0039]步骤A:根据训练集中用户行为和系统资源快照中的数据创建属性列表;
[0040]步骤B:对属性列表中连续型的属性进行离散化处理;
[0041]步骤C:计算属性列表中每个属性的信息增益率;
[0042]步骤D:将信息增益率最大的属性作为一个节点,该属性的不同取值作为分支;
[0043]步骤E:将每个分支下对应的数据集作为训练子集,创建该训练子集的属性列表,重复步骤B至步骤D,直至所有属性都处理完毕,完成决策树的构建;
[0044]其中,决策树中的一个节点对应一个需要执行垃圾文件清理的聚类状态或者一个不需要执行垃圾文件清理的聚类状态。
[0045]由上所述,本发明实施例采用了监控并收集与用户对垃圾文件的清理操作关联的用户行为和系统资源快照,基于收集到的数据进行分类构建得到需要执行垃圾文件清理的聚类状态,仅在当前数据与该聚类状态匹配时弹出提示的技术手段等,由于聚类状态是基于每个用户的历史清理行为得到的,能够最大程度地反映出用户最需要进行清理的时刻,从而使弹出自动清理垃圾文件提示的时刻与用户实际期望清理垃圾的时刻相一致,实现了一种针对用户的个性化自动清理方案,提高了用户体验。
[0046]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0047]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0048]图1示出了根据本发明一个实施例的一种垃圾文件的清理方法流程图;
[0049]图2示出了根据本发明又一个实施例的一种垃圾文件的清理方法流程图;
[0050]图3示出了根据本发明又一个实施例的收集数据表的方法流程图;
[0051]图4示出了根据本发明又一个实施例的数据梳理方法示意图;
[0052]图5示出了根据本发明又一个实施例的各数据表的内容及其关系示意图;
[0053]图6示出了根据本发明又一个实施例的一种按照聚类算法对训练集进行分类构建的方法流程图;
[0054]图7示出了根据本发明又一个实施例的一种垃圾文件的清理装置结构示意图。【具体实施方式】
[0055]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0056]本发明一个实施例提供了一种垃圾文件的清理方法,参见图1,该方法包括如下步骤:
[0057]SlOO:监控用户对垃圾文件的清理操作,收集与该清理操作关联的用户行为及系统资源快照。
[0058]系统资源快照反映了计算机运行时机器的硬件状态。本实施例利用机器状态结合用户的历史行为来判定是否弹出自动清理提示。
[0059]S102:利用收集到的数据组成训练集。
[0060]训练集(training set)中包括了用户行为的数据和系统资源快照的数据。
[0061]S104:按照选取的聚类算法对训练集进行分类构建,得到需要执行垃圾文件清理的聚类状态。
[0062]本实施例对选取的聚类算法不进行严格限定,例如,选取的聚类算法可以为C4.5算法、ID3算法、kmeans算法等。
[0063]S106:获取当前时刻下用户行为和系统资源快照对应的当前数据。
[0064]可以每隔一段时间(如I分钟)对是否需要弹出提示进行判断,当前时刻为执行当前是否弹出提示判断的时刻。当前数据中包括了当前时刻对应的用户行为的数据(如当前时刻的前一分钟起至当前时刻的后一分钟内监控到的用户行为的数据)和当前时刻对应的系统资源快照的数据。
[0065]S108:判断当前数据是否与聚类状态相匹配,若是,则向用户弹出清理垃圾文件提示,若否,不向用户弹出清理垃圾文件提示。
[0066]仅在当前数据与需要执行垃圾文件清理的聚类状态相匹配时,向用户弹出清理垃圾文件提示,否则不弹出提示。
[0067]本发明实施例采用了并收集用户对垃圾文件的清理操作的用户行为,基于用户行为进行分类构建得到需要执行垃圾文件清理的聚类状态,仅在当前数据与该聚类状态匹配时弹出提示的技术手段等,由于聚类状态是基于每个用户的历史清理行为得到的,能够最大程度地反映出用户最需要进行清理的时刻,从而使弹出自动清理垃圾文件提示的时刻与用户实际期望清理垃圾的时刻相一致,实现了一种针对用户的个性化自动清理方案,提高了用户体验。
[0068]本发明又一实施例以聚类算法采用C4.5算法的场景为例来说明本方案的垃圾文件的清理方法,参见图2,该方法始于步骤S200,包括如下:
[0069]S200:收集数据表。
[0070]参见图3,示出了本实施例提供的收集数据表的方法,具体包括如下步骤:
[0071]S300:监控用户行为和系统资源快照。
[0072]可以设置一个清理周期(如一天),在一个清理周期中执行一次垃圾文件清理,以避免频繁的垃圾文件清理,给用户带来困扰,影响用户对计算机中其他业务的使用。则在一个清理周期开启时,执行对用户行为和系统资源快照的监控。例如,该监控操作可以在本天计算机的第一次开机操作后持续存在直至在本清理周期内执行了对垃圾文件的清理后结束。
[0073]监控的用户行为的数据可以包括:浏览器操作ID、浏览器进程、所访问URL(Uniform Resource Locator,统一资源定位符)对应的主机名称、浏览器运行时间、客户端操作ID、软件进程、客户端运行时间等等。
[0074]监控的系统资源快照的数据可以包括:CPU使用率、内存使用率、网速、系统磁盘可用空间、磁盘总的可用空间等等。
[0075]S302:判断当前时刻是否存在用户调用垃圾文件清理操作的行为,若是,进入步骤S306,若否,进入步骤S304。
[0076]S304:删除当前时刻的监控记录。
[0077]虽然当前时刻没有发生清理垃圾文件的用户行为,但考虑到当前时刻的监控记录可能需要被记录在下一清理操作对应的数据表中,所以可以保存一定时间后,如保存第一时间后,再将当前时刻的监控记录删除。
[0078]S306:记录用户清理垃圾文件的清理行为,以及清理启动时的系统资源快照。
[0079]如果用户进行了垃圾文件的清理,则保留与该垃圾文件清理操作关联的监控记录,包括与该清理操作关联的用户行为和与该清理操作关联的系统资源快照。与该清理操作关联的用户行为包括该清理操作执行时刻之前第一时间范围至该清理操作执行时刻之后第二时间范围内的用户行为;与该清理操作关联的系统资源快照包括该清理操作执行时刻的系统资源快照。第一时间范围和第二时间范围可以相同,也可以不同。
[0080]例如,保留清理行为执行时刻的前一分钟至清理行为执行时刻的后一分钟的用户行为的数据。这种情景下,上述的第一时间至少为一分钟,即上述的第一时间需要大于预定时间范围。
[0081]S308:将记录到的数据分别写入各数据表中。
[0082]示例性的,将记录到的数据分别写入“清理行为前后的用户行为表”、“清理行为详细表”和“系统资源快照表”。
[0083]“清理行为前后的用户行为表”保存了清理操作的执行时刻前后一段时间内的用户行为的数据(不包括清理操作本身的数据)。
[0084]“清理行为详细表”保存了清理操作本身的数据,例如,清理项目、清理后最近的关机时间、清理前最近的开机时间。
[0085]“系统资源快照表”保存了系统资源快照,例如,CPU使用率、内存使用率、网速、系统磁盘可用空间、磁盘总的可用空间。
[0086]S202:梳理数据表组成训练集。
[0087]本实施例中将用户行为划分为清理操作、浏览器操作和客户端操作,其中,浏览器操作和客户端操作的数据保存在“清理行为前后的用户行为表”中,并且,若浏览器操作或客户端操作属于清理前行为的,记录一个属于清理前行为的标记,若浏览器操作或客户端操作属于清理后行为的,记录一个属于清理后行为的标记,而清理操作的数据保存在“清理行为详细表”中。
[0088]本实施例对“清理行为前后的用户行为表”中数据的梳理方法参见图4,包括如下:
[0089]S400:分析清理操作前后预定时间范围内的用户行为。
[0090]对收集到的数据表中的“清理行为前后的用户行为表”进行分析,得到各种类型的用户行为,包括访问游戏网站、访问视频网站、访问SNS (Social Networking Services,社会性网络服务)网站、访问其他网站、运行客户端游戏软件、运行视频软件、运行办公软件和运行其他软件等用户行为。
[0091]将访问游戏网站、访问视频网站、访问SNS网站、访问其他网站对应的用户行为划分为浏览器操作,其数据为浏览器操作的数据;将运行客户端游戏软件、运行视频软件、运行办公软件和运行其他软件的用户行为划分为客户端操作,其数据为客户端操作的数据。
[0092]S402:将浏览器操作的数据维护进“浏览器操作表”中,将客户端操作的数据维护进“客户端操作表”中。另外,清理操作的数据维护在“清理行为详细表”中,系统资源快照的数据维护在“系统资源快照表”中。
[0093]分别为每次操作生成一个标识ID,即为每次得到的浏览器操作生成一个操作ID,为每次得到的客户端操作生成一个操作ID、为每次清理操作生成一个操作ID,并且,本实施例为每次获取到的系统资源快照也生成一个系统资源快照ID,从而可以利用ID对每次操作对应的数据进行存取。
[0094]S404:将所有数据表及数据表之间的关系维护进数据库中。
[0095]本步骤中的数据表包括“浏览器操作表”、“客户端操作表”、“清理行为详细表”、“系统资源快照表”和“清理行为表”。
[0096]参见图5,示出了本实施例维护的各数据表的内容及其关系,其中“清理行为表”中包括清理操作ID、清理前行为操作ID (包括浏览器操作ID和客户端操作ID)、清理后行为操作ID (包括浏览器操作ID和客户端操作ID)、系统资源快照ID和是否执行清理的标记。通过“清理行为表”的ID信息将多个数据表关联在了一起。
[0097]其中,“浏览器操作表”包括浏览器操作ID、浏览器进程、所访问URL对应的主机名称、运行时间、是否属于清理前行为的标记;
[0098]“客户端操作表”包括客户端操作ID、软件进程、运行时间、是否属于清理前行为的标记;
[0099]“清理行为详细表”包括清理操作ID、清理项目、清理后最近的关机时间、清理前最近的开机时间。[0100]“系统资源快照表”包括系统资源快照ID、CPU使用率、内存使用率、网速、系统磁盘可用空间、磁盘总的可用空间。
[0101]S204:按照C4.5算法进行分类构建。
[0102]本实施例中将数据库中的数据组成训练集,按照C4.5算法对数据集中的数据进行分类构建,C4.5算法是一种构造决策树分析器的算法,具有如下特点:
[0103]I)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
[0104]2)在树构造过程中进行剪枝;
[0105]3)能够完成对连续属性的离散化处理;
[0106]4)能够对不完整数据进行处理。
[0107]C4.5算法具有产生的分类规则易于理解、准确率较高的优点。
[0108]参见图6,示出了本实施例提供的一种按照聚类算法对训练集进行分类构建的方法流程图,包括如下步骤:
[0109]S600:在数据库中查询出所有和清理行为关联的属性。
[0110]训练集由一组数据库记录构成,每个记录是一个由有关字段值组成的特征向量,这些字段被称为属性(attribute)。根据训练集中用户行为和系统资源快照中的数据创建属性列表,如根据图5中示出的数据库可以获知训练集中包括如下属性a)至属性k):
[0111]a)清理项目
[0112]b)清理后最近的关机时间
[0113]c)清理前最近的开机时间
[0114]d)清理前行为
[0115]清理前行为可以包括如下三项:
[0116]1.浏览器进程
[0117]i1.浏览器访问URL对应的主机名称
[0118]ii1.浏览器运行时间
[0119]或者,清理前行为可以包括如下两项:
[0120]iv.客户端的软件进程
[0121]V.客户端软件运行时间
[0122]e)清理后行为
[0123]清理后行为可以包括如下三项:
[0124]1.浏览器进程
[0125]i1.浏览器访问URL对应的主机名称
[0126]ii1.浏览器运行时间
[0127]或者,清理后行为可以包括如下两项:
[0128]iv.客户端的软件进程
[0129]V.客户端软件运行时间
[0130]f) CPU 使用率
[0131]g)内存使用率
[0132]h)网速[0133]i)系统磁盘可用空间
[0134]j)磁盘总的可用空间
[0135]k)是否执行清理
[0136]S602:创建属性列表(attribute_list)。
[0137]根据上述属性a)至属性k)创建属性列表。
[0138]S604:判断属性取值是否为连续的,若是,执行步骤S606,若否,执行步骤S608。
[0139]S606:对该属性进行离散化。
[0140]对于取值连续的属性A而言,A取值为ai(i=l,2,…,η),则分别计算以ai (i=l,2,…,η)为分割点,对应分类的信息增益率,选择最大信息增益率对应的ai,作为该属性分类的分割点。
[0141]S608:计算每个属性的信息增益率。
[0142]可采用如下公式,计算属性的信息增益率:
[0143]
【权利要求】
1.一种垃圾文件的清理方法,包括: 监控用户对垃圾文件的清理操作,收集与该清理操作关联的用户行为及系统资源快昭.利用收集到的数据组成训练集; 按照选取的聚类算法对所述训练集进行分类构建,得到需要执行垃圾文件清理的聚类状态; 获取当前时刻下用户行为和系统资源快照对应的当前数据; 判断当前数据是否与所述聚类状态相匹配,若是,则向用户弹出清理垃圾文件提示。
2.根据权利要求1所述的方法,其中, 所述与该清理操作关联的用户行为包括该清理操作执行时刻之前第一时间范围至该清理操作执行时刻之后第二时间范围内的用户行为; 所述与该清理操作关联的系统资源快照包括该清理操作执行时刻的系统资源快照。
3.根据权利要求1所述的方法,其中,在向用户弹出清理垃圾文件提示之后,所述方法还包括: 接收到用户发送的不执行垃圾文件清理的指令时,在当前时刻不对垃圾文件进行清理; 将所述当前数据作为不需要执行垃圾文件清理的数据来更新训练集; 按照选取的聚类算法对更新后的训练集进行分类构建,得到不需要执行垃圾文件清理的聚类状态。
4.根据权利要求1所述的方法,其中,在向用户弹出清理垃圾文件提示之后,所述方法还包括: 若当前时刻对垃圾文件进行了清理,而当前时刻属于第一清理周期时,则确认在该第一清理周期内不需再对用户行为及系统资源快照进行监控,不再执行垃圾文件清理操作。
5.根据权利要求1所述的方法,其中,所述方法还包括: 将所述用户行为划分为清理操作、浏览器操作和客户端操作,分别为每次操作生成一个标识ID ; 利用ID对每次操作对应的数据进行存取; 其中,所述浏览器操作的数据包括浏览器操作ID、浏览器进程、所访问URL对应的主机名称、运行时间、是否属于清理前行为的标记; 所述客户端操作的数据包括客户端操作ID、软件进程、运行时间、是否属于清理前行为的标记; 所述清理操作的数据包括清理操作ID、清理项目、清理后最近的关机时间、清理前最近的开机时间。
6.根据权利要求5所述的方法,其中,所述方法还包括: 为每次收集到的系统资源快照生成一个系统资源快照ID ; 利用所述系统资源快照ID对系统资源快照的数据进行存取; 其中,所述系统资源快照的数据包括系统资源快照ID、CPU使用率、内存使用率、网速、系统磁盘可用空间、磁盘总的可用空间。
7.根据权利要求6所述的方法,其中,所选取的聚类算法为C4.5算法,所述按照选取的聚类算法对所述训练集进行分类构建,得到需要执行垃圾文件清理的聚类状态包括: 步骤A:根据训练集中用户行为和系统资源快照中的数据创建属性列表; 步骤B:对属性列表中连续型的属性进行离散化处理; 步骤C:计算属性列表中每个属性的信息增益率; 步骤D:将信息增益率最大的属性作为一个节点,该属性的不同取值作为分支; 步骤E:将每个分支下对应的数据集作为训练子集,创建该训练子集的属性列表,重复步骤B至步骤D,直至所有属性都处理完毕,完成决策树的构建; 其中,决策树中的一个节点对应一个需要执行垃圾文件清理的聚类状态或者一个不需要执行垃圾文件清理的聚类状态。
8.一种垃圾文件的清理装置,包括: 收集单元,适于监控用户对垃圾文件的清理操作,收集与该清理操作关联的用户行为及系统资源快照; 聚类单元,适于利用收集到的数据组成训练集;按照选取的聚类算法对所述训练集进行分类构建,得到需要执行垃圾文件清理的聚类状态; 当前数据获取单元,适于获取当前时刻下用户行为和系统资源快照对应的当前数据; 清理提示单元,适于判断当前数据是否与所述聚类状态相匹配,若是,则向用户弹出清理垃圾文件提示。
9.根据权利要求8所述的装置,其中,所述收集单元,适于收集所述清理操作执行时刻之前第一时间范围至该清理操作执行时刻之后第二时间范围内的用户行为;以及收集该清理操作执行时刻的系统资源快照。
10.根据权利要求9所述的装置,其中,所述装置还包括:清理执行单元,适于在所述清理提示单元向用户弹出清理垃圾文件提示之后,接收到用户发送的不执行垃圾文件清理的指令时,在当前时刻不对垃圾文件进行清理; 所述聚类单元,适于将所述当前数据作为不需要执行垃圾文件清理的数据来更新训练集;按照选取的聚类算法对更新后的训练集进行分类构建,得到不需要执行垃圾文件清理的聚类状态。 其中,决策树中的一个节点对应一个需要执行垃圾文件清理的聚类状态或者一个不需要执行垃圾文件清理的聚类状态。
【文档编号】G06F17/30GK103646086SQ201310684386
【公开日】2014年3月19日 申请日期:2013年12月13日 优先权日:2013年12月13日
【发明者】陈佃晓 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1