过滤以及监控程序的行为的方法

文档序号:6458988阅读:192来源:国知局
专利名称:过滤以及监控程序的行为的方法
技术领域
本发明涉及计算机的安全领域,更具体地,涉及对程序的行为进行过滤 和监控的方法。
背景技术
对程序的行为进行拦截与监控是安全软件在防御病毒时常用的手段。在 实践中,基于非特征码检测的安全软件产品通常通过对程序行为的监控与分 析来识别出可疑的程序(例如病毒、木马)。例如,可以基于某些特定的拄截 点(例如,系统资源的调用)拦截和监控程序的行为,包括对文件读写操作、 对注册表读写操作等,然后根据这些行为判断程序的类型(病毒、木马、系 统程序等)。
在统计语言处理中, 一些常用的副词、连词等词类,例如"的"、"得"、 "中,,等,应用过于广泛,以至于在绝大部分的文章中都会出现,因此这些 词汇在文本分类中基本没有作用。相应地,这些词语在统计语言学中称为"停
止词"(Stop Words )。"停止词"在文本分类的过程中常常被删除掉,以免影 响处理。
类似地,程序行为可分为两种类型具有分类意义的行为(又称为"特 征行为,,);不具有分类意义的行为(又称为"非特征行为")。例如,有的行 为是绝大部分程序都使用到的,或者被绝大部分程序频繁使用,这种行为就 不具有分类与分析的意义,属于非特征行为。在程序行为的处理当中,识别 出这种非特征行为,并且在进行分类或者分析处理之前删除掉这些非特征行 为,可以有效的减少非特征行为对程序样本分类的干扰(例如,如果这类非 特征行为被作为病毒特征处理,可能会带来严重的误报问题)。
5现有的一种对程序的行为进行监控方法中,监听待监控的程序的所有行 为,并对所有的行为进行分析和监控。这种方案的缺陷在于数据处理量很大, 复杂度高,且存在较高的出错率(例如,如果这类非特征行为被作为病毒特 征处理,很可能会带来严重的误报问题)。
现有的另 一种对程序的行为进行监控方法中,首先使用人工识别的方式 识别和过滤掉这种非特征行为,再对其余的行为进行和分析。这种监控方法 需要大量的人力,成本很高,监控结果也不够稳定和准确,难以推广。

发明内容
本发明的一个目的在于提供一种过滤程序的行为的方法,这种方法用于 在监控或者分析程序的行为之前过滤掉程序的非特征行为,以减少非特征行 为对监控或者分析的干扰,降低计算机的处理量,提高监控和分析的准确度。
为此,本发明提供的过滤程序的行为的方法,包括以下步骤步骤S1、 构造行为样本库,所述行为样本库包括从若干程序样本收集的行为样本、每 一种行为样本的基于该种行为样本的出现频率计算出来的权重;步骤S2、获 取待处理的程序行为,判断所述行为样本库是否存在与所述程序行为相同的 行为样本,若所述行为样本库不存在与所述程序行为相同的行为样本,就保 留所述程序行为;若所述行为样本库存在与所述程序行为相同的行为样本, 就判断所述行为样本的权重是否落入预设的过滤阈值范围,如果落入就过滤 掉所述程序行为,否则,就保留所述程序行为。
与现有技术相比,本发明在监控或者分析程序的程序行为之前,根据行 为样本库内的行为样本、预设的过滤阈值范围对过滤掉其中的非特征行为,
减少了非特征行为对监控或者分析的干扰,降低了计算机的处理量,提高了 监控和分析的准确度。
优选地在所述行为样本库中,每一种行为样本的出现频率是出现该种行为样本的程序样本的数量与所有程序样本的总量的比值,或者是该种行为
值;行为样本的权重为该种行为样本的出现频率;所述判断行为样本的权重 是否落入预设的过滤阈值范围的步骤具体为如果所述行为样本的出现频率 大于预设的过滤阈值下限,就判定为落入所述预设的过滤阈值范围。在该优 选方案中,根据出现频率判断某个程序行为是否属于需要过滤掉的非特征行 为,因为出现频率过大的行为通常属于不具有分类或分析意义的非特征行为, 因此,本优选方案根据预设的过滤阈值下限过滤掉这些非特征行为。该优选 方案简单,计算量不大,容易实现。
优选地在所述行为样本库中,每一种行为样本的出现频率是出现该种 行为样本的程序样本的数量与所有程序样本的总量的比值,或者是该种行为 样本在所有程序样本中的出现次数与所有程序样本包含的行为样本总量的比
值;行为样本的权重为该种行为样本的逆文本频率指数,行为样本的逆文本 频率指数等于该种行为样本的出现频率的倒数的对数;所述判断行为样本的 权重是否落入预设的过滤阈值范围的步骤具体为如果所述行为样本的逆文 本频率指数小于预设的过滤阈值上限,就判定为落入所述预设的过滤阈值范 围。在该优选方案中,根据逆文本频率指数判断某个行为是否属于需要过滤 掉的非特征行为,在统计学领域,逆文本频率指数是公认的量度相关性、价 值的一种重要参数。通常,逆文本频率指数过小的行为通常属于不具有分类 或分析意义的非特征行为,因此,本优选方案根据预设的过滤阈值上限过滤 掉这些非特征行为。该优选方案采用逆文本频率指数来识别和过滤掉"非特 征行为",效果更好,过滤结果更可靠。
优选地,所述行为样本库还包括所有程序样本的总量、所有行为样本的 总量;所述方法还包括更新所述行为样本库,所述更新包括若步骤S2中所 述行为样本库不存在与所述程序行为相同的行为样本,则在步骤S2之后,将 所述程序行为作为新的行为样本添加到所述行为样本库中,更新所述行为样本库的程序样本的总量、行为样本的总量并重新计算每一种行为样本的权重。 在该优选方案中,根据当前的处理情况对行为样本进行及时的更新,使得行 为样本库包含的内容更广、更全面以及更准确,从而进一步提高了过滤的准 确性。
优选地,所述更新还包括若步骤S2中所述行为样本库存在与所述程序 行为相同的行为样本,则在步骤S2之后,更新所述行为样本库的程序样本的 总量、行为样本的总量并重新计算每一种行为样本的权重。同样地,在该优 选方案中,根据当前的处理情况对行为样本进行及时的更新,使得行为样本 库包含的内容更广、更全面以及更准确,从而进一步提高了过滤的准确性。
另一方面,本发明的另一个发明目的在于提供一种监控程序的行为的方 法,这种方法能过滤掉程序的非特征行为,以减少非特征行为对监控或者分 析的干扰,降低计算机的处理量,提高监控和分析的准确度。
为此,本发明提供的监控程序的行为的方法,包括步骤S0:收集被监 控的程序的程序行为;步骤S4:分析和监控所述程序行为;在所述步骤S0 和步骤S4之间,还包括以下步骤步骤Sl、构造行为样本库,所述行为样 本库包括从若干程序样本收集的行为样本、每一种行为样本的基于该种行为 样本的出现频率计算出来的权重;步骤S2、获取所述# 控的程序的程序行 为,判断所述行为样本库是否存在与所述程序行为相同的行为样本,若所述 行为样本库不存在与所述程序行为相同的行为样本,就保留所述程序行为; 若所述行为样本库存在与所述程序行为相同的行为样本,就判断所述行为样 本的权重是否落入预设的过滤阈值范围,如果落入就过滤掉所述程序行为, 否则,就保留所述程序行为。
类似地,与现有技术相比,本发明提供的监控程序的行为的方法在监控 或者分析程序的行为之前,根据行为样本库内的行为样本、预设的过滤阈值 范围对程序的行为进行比较,过滤掉非特征行为,从而以减少非特征行为对监控或者分析的干扰,降低了计算机的处理量,提高了监控和分析的准确度。
优选地在所述行为样本库中,每一种行为样本的出现频率是出现该种 行为样本的程序样本的数量与所有程序样本的总量的比值,或者是该种行为 样本在所有程序样本中的出现次数与所有程序样本包含的行为样本总量的比 值;行为样本的权重为该种行为样本的出现频率;所述判断行为样本的权重 是否落入预设的过滤阈值范围的步骤具体为如果所述行为样本的出现频率 大于预设的过滤阔值下限,就判定为落入所述预设的过滤阈值范围。在该优 选方案中,根据出现频率判断某个行为是否属于需要过滤掉的"非特征行为", 因为出现频率过大的行为通常属于不具有分类或分析意义的"非特征行为", 因此,本优选方案根据预设的过滤阈值下限过滤掉这些非特征行为。该优选 方案简单,计算量不大,容易实现。
优选地在所述行为样本库中,每一种行为样本的出现频率是出现该种 行为样本的程序样本的数量与所有程序样本的总量的比值,或者是该种行为
值;行为样本的权重为该种行为样本的逆文本频率指数,行为样本的逆文本 频率指数等于该种行为样本的出现频率的倒数的对数;所述判断行为样本的 权重是否落入预设的过滤阔值范围的步骤具体为如果所述行为样本的逆文 本频率指数小于预设的过滤阈值上限,就判定为落入所述预设的过滤阈值范 围。在该优选方案中,根据逆文本频率指数判断某个行为是否属于需要过滤 掉的非特征行为,在统计学领域,逆文本频率指数是公认的量度相关性、价 值的一种重要参数。通常,逆文本频率指数过小的行为通常属于不具有分类 或分析意义的非特征行为,因此,本优选方案根据预设的过滤阈值上限过滤 掉这些非特征行为。该优选方案采用逆文本频率指数来识别和过滤掉"非特 征行为",效果更好,过滤结果更可靠。
优选地,所述行为样本库还包括所有程序样本的总量、所有行为样本的 总量;所述方法还包括更新所述行为样本库,所述更新包括若步骤S2中所述行为样本库不存在与所述程序行为相同的行为样本,则在步骤S2之后,将 所述程序行为作为新的行为样本添加到所述行为样本库中,更新所述行为样 本库的程序样本的总量、行为样本的总量并重新计算每一种行为样本的权重。 在该优选方案中,根据当前的处理情况对行为样本进行及时的更新,使得行 为样本库包含的内容更广、更全面以及更准确,从而进一步提高了过滤的准 确性。
优选地,所述更新还包括若步骤S2中所述行为样本库存在与所述程序 行为相同的行为样本,则在步骤S2之后,更新所述行为样本库的程序样本的 总量、行为样本的总量并重新计算每一种行为样本的权重。同样地,在该优 选方案中,根据当前的处理情况对行为样本进行及时的更新,使得行为样本 库包含的内容更广、更全面以及更准确,从而进一步提高了过滤的准确性。


图l是本发明一个实施例中构造行为样本库的流程图2是应用图1所示的行为样本库对程序的行为进行过滤的流程图3是本发明另一个实施例中构造行为样本库的流程图4是应用图3所示的行为样本库对程序的行为进行过滤的流程图。
具体实施例方式
本发明涉及监控或者分析程序的行为方法,尤其是涉及在监控或者分析 程序的行为之前过滤掉程序的非特征行为的方法。实施本发明,能减少非特 征行为对监控或者分析的干扰,降低计算机的处理量,提高监控和分析的准 确度。
10为此,首先构造行为样本库,所述行为样本库包括从若干程序样本收集 的行为样本、每一种行为样本的基于该种行为样本的出现频率计算出来的权 重。其中,行为样本的权重用来表示这种行为的价值、相关性或者重要性。 权重可以是但不限于出现频率、根据出现频率估计的出现概率,或者逆文本 频率指数。进一步地,行为样本的出现频率可以是出现该种行为样本的程序 样本的数量与所有程序样本的总量的比值。例如,假如构造行为样本库的过
程中,收集了 100个程序样本的行为样本,如果有30个程序样本出现了行为 样本A,那么,行为样本A的出现频率为30/100=30%。替换地,-f亍为样本的
本包含的行为样本总量的比值,例如,在上述的例子中,假如所述100个程 序样本总共具有9000个行为样本,而行为样本A的出现次数是2500次,那 么,行为样本A的出现频率为2500/9000 - 27.8% 。
行为样本库构造好之后,可用于对程序行为进行过滤。具体地,先获取 待处理的程序行为,判断所述行为样本库是否存在与所述程序行为相同的行 为样本,若所述行为样本库不存在与所述程序行为相同的行为样本,就保留 所述程序行为;若所述行为样本库存在与所述程序行为相同的行为样本,就 判断所述行为样本的权重是否落入预设的过滤阈值范围,如果落入就过滤掉 所述程序行为,否则,就保留所述程序行为。
下面结合附图对本发明进行更详细的阐述。
实施例一
图1是本发明一个实施例中构造行为样本库的流程图,图2是应用图1 所示的行为样本库对程序的行为进行过滤的流程图。
如图1所示,开始步骤S100之后,在步骤S102中,收集大量的程序样 本的行为,得到大量的行为样本,并记录所收集到的行为样本的总量D。根据统计学原理,样本的规模越大,得到的统计结果越接近真实值。因此,在 构造行为样本库的过程中,优选收集尽可能多的程序样本的行为样本。本领 域的技术人员应当意识到,利用现有的技术,可以通过设置拦截点等方式收 集大量程序样本的行为,例如对文件读写操作、对注册表读写操作等。
接着,步骤S104中,计算行为样本的出现次数Dwi,其中,Dwi表示第i 种行为样本在出现在所述行为样本库中的次数,显然,Dw实际上等于该行为
样本库中与第i种行为样本相同的行为样本的数目。
然后,步骤S106中,计算行为样本的出现频率fi,其中,fj表示第i种行 为样本在出现在所述行为样本库中的频率,第i中行为样本的频率fi等于该种 行为样本的出现次数Dwi与行为样本库中行为样本的总量D的比值,即 fi=Dwi/D。如上所迷,出现频率fi作为行为样本的一种表现方式,用于表示这 种行为样本的相关性、重要性等。显然,0<fKl,且fj越大表示该种行为样 本的出现频率或者出现概率越高。如上所述,虽然在该实施例中,将某种行
比值作为该种行为样本的出现频率,但是,也将出现某种行为样本的程序样 本的数量与所有程序样本的总量的比值作为该种行为样本的出现频率。
计算完所有的行为样本的出现频率fi之后,保存上述的行为样本的总量 D、各个行为样本的出现次数Dwi以及出现频率fi,就完成了行为样本库的构 造,如步骤S108所示。
接着,如图2所示,在实际应用时,在开始步骤S200之后,在步骤S201 中,收集或者读取需要处理的程序行为。同样,本领域的技术人员应当意识 到,利用现有的技术,可以通过设置拦截点等方式收集大量程序样本的行为, 例如对文件读写操作、对注册表读写操作等。
接着,步骤S202中,判断所述行为样本库是否存在与所述程序行为相同 的行为样本。如果不存在,就说明该程序行为是一种新的程序行为或者是出 现频率较低的程序行为,不属于非特征行为,因此,保留该程序行为,以便于后续步骤中对该程序行为进行处理(例如监听、分析或者监控),如步骤
S205所示。
反之,如果步骤S202中发现行为样本库存在与所述程序行为相同的行为 样本,就进一步读取该相同的行为样本的出现频率,如步骤S203。
接着,步骤S203之后,在步骤S204中判断该出现频率是否落入预设的 过滤阈值范围。如上所述,由于频率越高的程序行为,就越可能属于非特征 行为,因此,如果某个程序行为的出现频率大于预设的过滤阈值下限,如步 骤S206所示,就可以将该程序行为作为非特征行为,过滤掉该程序行为。这 样,后续的处理流程中,不再需要对该程序行为进行分析、监听、监控等, 有效地减少了后期的处理量,并减少了这种非特征行为对监控或者分析的干 扰,提高了监控和分析的准确度。
相反,如果在步骤S204中,发现该该程序行为的出现频率没有落入预设 的过滤阈值范围,也就是说,如果该出现频率小于预设的过滤阈值下限,就 说明该程序行为的出现频率较低,不属于非特征行为,因此,流程进入步骤 S205,在步骤S205中保留该程序行为,以便于后续步骤中对该程序行为进行 处理(例如监听、分析或者监控)。
步骤S205以及步骤S206结束于步骤S207,至此,整个过滤流程结束。
在这个实施例中,根据出现频率判断某个行为是否属于需要过滤掉的非 特征行为,如果程序行为属于非特征行为,就过滤掉该程序行为,以减轻后 续的处理量,提高后续处理的准确度。这种方案简单,计算量不大,容易实 现。
实施例二
图3是本发明另一个实施例中构造行为样本库的流程图;图4是应用图3 所示的行为样本库对程序的行为进行过滤的流程图。图3所示的构造行为样本库的流程与图1所示的构造流程大同小异。更 具体地,图3所示的步骤S300至步骤S304与图1所示的步骤S100至步骤 S104相同,分别是开始步骤、收集大量的行为样本并记录行为样本的总量D、 计算每一种行为样本的出现次数Dwi。
接着,步骤S306中,计算每一种行为样本的逆文本频率指数(IDF)。如 上所述,逆文本频率指数是公认的量度相关性、价值的一种重要参数。第i 种行为样本的逆文本频率指数1DF(i)等于该第i种行为样本在该行为样本库
中的出现频率的倒数的对数,即/z^(/)二log(1)。其中,D为行为样本库
D術'
中的行为样本的总量;Dwi为第i种行为在行为样本库中出现过的次数。显然, 某种行为样本的IDF (i)与其出现频率(Dwi/D)是成反比的,具体地,如果 第i种行为样本出现得很频繁,这种行为样本的逆文本指数IDF (i)将越小, 1DF(i)的最小值等于0。反之,如果第i种行为样本出现得很少,其IDF(i) 就会越高。因此,当ID F(i)低于某个预设的过滤阈值时,可以认为这个行为 样本属于非特征行为,可以被过滤掉。
构造好行为样本库之后,就可以利用该行为样本库对程序的行为进行识 别和判断。具体如图4所示。
图4所示的步骤S400至步骤S407和图2所示的步骤S200至步骤S207 基本相同,稍有区别的地方在于步骤S403和步骤S404。具体地,在步骤S403
而在步骤S404中,若该IDF值小于预设的过滤阈值上限,就说明该IDF值 落入预设的过滤阈值范围,相应地,该程序行为属于非特征行为,可以过滤 掉(步骤S406);否则,流程从步骤S404中进入步骤S405,即保留该程序行 为,留待后续的处理(分析、监听或者监控)等。
在本实施例采用的方案中,根据逆文本频率指数判断某个行为是否属于 需要过滤掉的非特征行为,在统计学领域,逆文本频率指数是公认的量度相
14关性、价值的一种重要参数。通常,逆文本频率指数过小的行为通常属于不 具有分类或分析意义的非特征行为,因此,本优选方案根据预设的过滤阈值 上限过滤掉这些非特征行为。该优选方案采用逆文本频率指数来识别和过滤 掉非特征行为,效果更好,过滤结果更可靠。
上面已经结合附图对本发明进行阐述。应当意识到,本发明不仅可以用 于过滤掉非特征行为,还可以应用到对程序的监控中,例如应用到安全软件 中。具体地,安全软件利用现有的技术获得被监控的程序的行为后,可以利 用上述的过滤方法过滤掉其中的非特征行为,然后再按照现有的监控方法对 剩余的程序行为进行监控。与现有技术相比,本发明提供的这种监控程序的 行为的方法在监控或者分析程序的行为之前,根据行为样本库内的行为样本、 预设的过滤阈值范围对程序的行为进行比较,过滤掉非特征行为,从而以减 少非特征行为对监控或者分析的干扰,降低了计算机的处理量,提高了监控 和分析的准确度。
作为对上述各种实施例的一种改进,还可以定期地或者实时地更新行为 样本库。为了更好地更新行为样本库,所述行为样本库应当存储着程序样本
的总量、行为样本的总量D等信息。在实施时,例如,如果在图2所示的步 骤S202中发现行为样本库不存在与所述程序行为相同的行为样本,那么,可 以在流程结束之后将所述程序行为作为新的行为样本添加到所述行为样本库 中,更新程序样本的总量、所述行为样本的总量D等信息,并重新计算每一 种行为样本的出现频率。再例如,如果在图4所示的步骤S402中发现行为样 本库不存在与所述程序行为相同的行为样本,那么,可以在流程结束之后将 所述程序行为作为新的行为样本添加到所述行为样本库中,更新所述行为样 本的总量D并重新计算每一种行为样本的逆文本频率指数IDF。这样,通过 对行为样本进行及时的更新,使得行为样本库包含的内容更广、更全面以及更准确,从而进一步提高了过滤的准确性。
类似地,如果图2所示的步骤S202中发现行为样本库存在与所述程序行 为相同的行为样本,那么,在流程结束之后,可以更新所述行为样本的总量 D以及所述相同的行为样本的出现频率,并重新计算每一种行为样本的出现 频率。同样地,如果图4所示的步骤S402中发现行为样本库存在与所述程序 行为相同的行为样本,那么,在流程结束之后,可以更新所述行为样本的总 量D以及所述相同的行为样本的逆文本频率指数IDF。在该优选方案中,根 据当前的处理情况对行为样本进行及时的更新,使得行为样本库包含的内容 更广、更全面以及更准确,从而进一步提高了过滤的准确性。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何 在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本 发明的权利要求保护范围之内。
权利要求
1、一种过滤程序的行为的方法,其特征在于,包括以下步骤步骤S1、构造行为样本库,所述行为样本库包括从若干程序样本收集的行为样本、每一种行为样本的基于该种行为样本的出现频率计算出来的权重;步骤S2、获取待处理的程序行为,判断所述行为样本库是否存在与所述程序行为相同的行为样本,若所述行为样本库不存在与所述程序行为相同的行为样本,就保留所述程序行为;若所述行为样本库存在与所述程序行为相同的行为样本,就判断所述行为样本的权重是否落入预设的过滤阈值范围,如果落入就过滤掉所述程序行为,否则,就保留所述程序行为。
2、 根据权利要求l所述的过滤程序的行为的方法,其特征在于在所述行为样本库中,每一种行为样本的出现频率是出现该种行为样本 的程序样本的数量与所有程序样本的总量的比值,或者是该种行为样本在所 有程序样本中的出现次数与所有程序样本包含的行为样本总量的比值;行为 样本的权重为该种行为样本的出现频率;所述判断行为样本的权重是否落入预设的过滤阁值范围的步骤具体为 如果所述行为样本的出现频率大于预设的过滤阈值下限,就判定为落入所述 预设的过滤阈值范围。
3、 根据权利要求l所述的过滤程序的行为的方法,其特征在于:在所述行为样本库中,每一种行为样本的出现频率是出现该种行为样本 的程序样本的数量与所有程序样本的总量的比值,或者是该种行为样本在所 有程序样本中的出现次数与所有程序样本包含的行为样本总量的比值;行为 样本的权重为该种行为样本的逆文本频率指数,行为样本的逆文本频率指数等于该种行为样本的出现频率的倒数的对数;所述判断行为样本的权重是否落入预设的过滤阈值范围的步骤具体为 如果所述行为样本的逆文本频率指数小于预设的过滤阈值上限,就判定为落入所述预设的过滤阈值范围。
4、 根据权利要求1至3中任意一项所述的过滤程序的行为的方法,其特 征在于所述行为样本库还包括所有程序样本的总量、所有行为样本的总量;所述方法还包括更新所述行为样本库,所述更新行为样本库包括若步 骤S2中所述行为样本库不存在与所述程序行为相同的行为样本,则在步骤 S2之后,将所述程序行为作为新的行为样本添加到所述行为样本库中,更新 所述行为样本库的程序样本的总量、行为样本的总量并重新计算每一种行为 样本的权重。
5、 根据权利要求4所述的过滤程序的行为的方法,其特征在于,所述更 新行为样本库还包括若步骤S2中所述行为样本库存在与所述程序行为相同 的行为样本,则在步骤S2之后,更新所述行为样本库的程序样本的总量、行 为样本的总量并重新计算每一种行为样本的权重。
6、 一种监控程序的行为的方法,包括步骤S0:收集纟皮监控的程序的 程序行为;步骤S4:分析和监控所述程序行为;其特征在于,在所述步骤S0 和步骤S4之间,还包括以下步骤步骤S1、构造行为样本库,所述行为样本库包括从若干程序样本收集的 行为样本、每一种行为样本的基于该种行为样本的出现频率计算出来的权重;步骤S2、获取所述被监控的程序的程序行为,判断所述行为样本库是否 存在与所述程序行为相同的行为样本,若所述行为样本库不存在与所述程序 行为相同的行为样本,就保留所述程序行为;若所述行为样本库存在与所述 程序行为相同的行为样本,就判断所述行为样本的权重是否落入预设的过滤 阈值范围,如果落入就过滤掉所述程序行为,否则,就保留所述程序行为。
7、 根据权利要求6所述的监控程序的行为的方法,其特征在于在所述行为样本库中,每一种行为样本的出现频率是出现该种行为样本 的程序样本的数量与所有程序样本的总量的比值,或者是该种行为样本在所有程序样本中的出现次数与所有程序样本包含的行为样本总量的比值;行为 样本的权重为该种行为样本的出现频率;所述判断行为样本的权重是否落入预设的过滤阈值范围的步骤具体为 如果所述行为样本的出现频率大于预设的过滤阈值下限,就判定为落入所述 预设的过滤阈值范围。
8、 根据权利要求6所述的监控程序的行为的方法,其特征在于在所述行为样本库中,每一种行为样本的出现频率是出现该种行为样本 的程序样本的数量与所有程序样本的总量的比值,或者是该种行为样本在所 有程序样本中的出现次数与所有程序样本包含的行为样本总量的比值;行为 样本的权重为该种行为样本的逆文本频率指数,行为样本的逆文本频率指数 等于该种行为样本的出现频率的倒数的对数;所述判断行为样本的权重是否落入预设的过滤阈值范围的步骤具体为 如果所述行为样本的逆文本频率指数小于预设的过滤阈值上限,就判定为落 入所述预设的过滤阈值范围。
9、 才艮据权利要求6至8中任意一项所述的监控程序的行为的方法,其特 征在于所述行为样本库还包括所有程序样本的总量、所有行为样本的总量;所述方法还包括更新所述行为样本库,所述更新包括若步骤S2中所述 行为样本库不存在与所述程序行为相同的行为样本,则在步骤S2之后,将所 述程序行为作为新的行为样本添加到所述行为样本库中,更新所述行为样本 库的程序样本的总量、行为样本的总量并重新计算每一种行为样本的权重。
10、 根据权利要求9所述的监控程序的行为的方法,其特征在于,所述 更新还包括若步骤S2中所述行为样本库存在与所述程序行为相同的行为样 本,则在步骤S2之后,更新所述行为样本库的程序样本的总量、行为样本的 总量并重新计算每一种行为样本的权重。
全文摘要
本发明涉及过滤以及监控程序的行为的方法,所述过滤程序的行为的方法包括以下步骤构造行为样本库,该行为样本库包括从若干程序样本收集的行为样本、每一种行为样本的基于该种行为样本的出现频率计算出来的权重,所述权重可以是逆文本频率指数、出现概率等;获取待处理的程序行为,判断行为样本库是否存在与该程序行为相同的行为样本,若行为样本库不存在与该程序行为相同的行为样本,就保留该程序行为;若行为样本库存在与该程序行为相同的行为样本,就判断该行为样本的权重是否落入预设的过滤阈值范围,如果落入就过滤掉该程序行为,否则,就保留该程序行为。本发明能减少非特征行为对监控或者分析的干扰,降低处理量,提高准确度。
文档编号G06F21/22GK101645125SQ20081003000
公开日2010年2月10日 申请日期2008年8月5日 优先权日2008年8月5日
发明者黄声声 申请人:珠海金山软件股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1