经由信誉系统的恶意软件检测的制作方法

文档序号:6352027阅读:261来源:国知局
专利名称:经由信誉系统的恶意软件检测的制作方法
技术领域
本发明一般涉及在计算机化系统中的恶意程序代码的检测,更具体地涉及经由信誉系统的恶意软件检测。有限的版权放弃 本专利文件公开的一部分包括声明了版权保护的材料。由于该专利文件或专利公开出现在了美国专利商标局的文件或记录中,因此版权拥有者不会对任何人对该专利文件或专利公开的传真复制提出异议,但保留所有其他任意的权力。
背景技术
计算机是有价值的工具在很大程度上是由于其和其他计算机系统之间通信以及通过计算机网络获取信息的能力。网络典型地包括互联的计算机组,它们通过有线、光纤、无线电或其他数据传输手段连接,来为计算机提供从计算机到计算机传输信息的能力。因特网可能是最知名的计算机网络,使得数百万的人能够访问数百万的其他计算机,例如通过查看网页,发送电子邮件,或通过执行其他计算机到计算机的通信。但是,由于因特网的规模如此之大以及因特网用户的兴趣如此多种多样,因此恶意的用户或罪犯试图以对其他用户造成危险的方式与其他用户的计算机通信不是罕见的。例如,黑客可能试图登录到公司的计算机来偷窃、删除或改变信息。计算机病毒或特洛伊木马程序被分布到其他计算机,或者被大量计算机用户没有察觉地下载或执行。并且,在一个诸如公司的组织中的计算机用户可能有时试图执行未被授权的网络通信,例如,执行文件共享程序或从公司网络内部传输公司机密到因特网。由于这些以及其他原因,许多计算机系统采用多种安全防护意图保护计算机系统免受威胁。防火墙的设计是为了限制在网络上可能发生的通信种类,反病毒程序的设计是为了防止恶意代码被计算机系统加载或执行,恶意软件检测程序的设计是为了检测回邮器、键击记录器以及被设计用于执行诸如从计算机窃取信息或将计算机用作非预期的用途的不希望的操作的其他软件。多种其他的恶意软件,例如,广告软件、间谍软件以及特洛伊木马程序通常通过例如这些防护系统被检测并控制。许多这种防护系统使用已知的恶意软件威胁的签名来检测并控制这些威胁。例如,反病毒软件典型地使用包括代码片段或其他识别信息的大的签名库来扫描诸如硬盘驱动器之类的存储器,并扫描正在执行的程序,从而在其可能造成损害前从计算机系统移出攻击性的代码。
检测新的威胁,或者能够重新排列它们的可执行代码来降低基于签名的检测的有效性的威胁,仍然是反恶意软件应用的一个挑战。考虑到新类型的恶意软件不断地发展,并经常被配置来避免检测,恶意软件的有效及准确的检测仍然是恶意软件检测软件持续面临的挑战。

发明内容
本发明的一些示例实施例包括计算机网络设备,其可操作以接收数字文件并从该文件提取多个高级别特征。使用分类器评估该多个高级别特征来确定该文件是良性的还是恶意的。如果该文件被确定是良性的,则该文件被转发到请求计算机,如果该文件被确定是恶意的,则该文件被阻止。本发明的元件可被采用在诸如防火墙之类的网关设备中或终端主机上,来防止访问恶意的文件。在进一步的示例中,后端恶意软件分析平台被采用来检测并追踪恶意文件。


图I显示了与本发明的示例实施例一致的计算机网络。 图2是图示了与本发明的示例实施例一致的使用高级别文件特征和确定文件是否是恶意软件的决策树分类引擎的流程图。
具体实施例方式在下面的对本发明的示例实施例的详细描述中,通过附图和说明引用特定的示例。这些示例被足够详细地描述使得本领域技术人员能够实施本发明,并用来示出本发明怎样被应用到多种目的或实施例中。本发明的其他实施例存在并在本发明的范围中,并且逻辑的、机械的、电子的以及其他变动可被做出而不背离本发明的主题或范围。然而此处描述的本发明的多种实施例的特征或限制(对合并这些特征或限制的示例实施例是必要的)不限制本发明的整体,并且本发明的任意引用、它的元件、操作以及应用并不限制本发明的整体而是仅用作定义这些示例实施例。因此,下面的详细描述并不限制本发明的范围,其仅由附加的权利要求来定义。本发明的一些示例实施例包括诸如可执行程序之类的电子二进制文件的分类,其使用文件的高级别特征以及决策树,产生关于文件是恶意软件的可能性的有效和准确的确定。因为单独使用签名的恶意软件检测由于恶意软件生产者设计程序来避开检测而变的不够有效,所以其他方法被期望来改善执行不希望的功能的程序的检测速率。为了帮助促进恶意软件检测的速率,在本发明的一些实施例中应用的技术超越了包括恶意软件或被恶意软件感染的软件的签名或其他低级别特征。在不同的实施例中,文件可被以至少三种不同的方式被处理或表示,包括使用文件本身、使用文件的散列、或使用文件的高级别特征。研究显示,高级别特征可被成功地使用来检测恶意的行为,在更详细的一般化的恶意软件检测系统的示例中,通过使用提取器程序来从二进制提取高级别特征。这些特征包括文件大小信息、熵、时间戳、动态链接库、以及其他这种高级别特征。虽然这些特征的每一个自身对二进制的恶意不是决定性的,但所有特征的组合可以产生准确的结果来标识特定的样本是干净的还是脏的。在不同的实施例中,使用几项技术在恶意软件检测的不同关系下工作来提供对恶意软件的更为高效的以及有效的识别,包括对终端主机部署的紧凑快速的分类器,对网关部署的紧凑快速的分类器,对后端样本处理的复杂分类器,和适用于查询的实时分类的复杂快速的分类器。使用提取器,二进制文件被分解为文件的不同的特征或属性,包括能被容易地提取的静态属性以及诸如网络活动或库或其他使用的资源之类的行为数据。同样地,特征可以是密集的(总是存在,例如文件大小)或稀疏的(很少出现,例如,条目点处的开头两个字节是xyzz)。在多个实施例中,文件的高级别特征包括诸如文件大小、文件内的随机性、文件中的开始或结束代码串、以及文件几何。文件几何不仅包括大小,还包括其他特征,例如文件中的段的数量、段的组织、可执行代码段中的内含物和特征,等等。例如,一个具有五个段的文件,其最后一段是具有高熵或高随机性的可执行代码,这样的文件可被有理由猜测为隐 藏在具有其他内容的文件中的恶意代码。为了区分干净的二进制和恶意软件,干净的和脏的样本的数据集被创建。使用这些,机器学习算法被采用来在特征空间导出边界来分离干净的和脏的样本。各种实施方式包括使用诸如决策树之类的紧凑模型来评估数据并将稀疏特征转换为密集特征来形成端点、网关或后端分类系统。在特定部署中,一个小的分类模型是合适的,例如在终端用户计算机系统或便携设备中的实施方式。标准技术会导致大的模型并因此不实用。在一个这样的示例中,一个小的模型文件被产生,带有适度的误判率。被检测为恶意软件的文件被在网络服务器中查找来确定它们是否实际上是恶意软件,以使得服务器做出最终的恶意软件决定。当需要紧凑的模型时,我们使用决策树分类器,我们将其表示为一系列嵌套的条件(if)语句。我们修剪所有不导致恶意分类结果的路径,在这种情况下,默认是干净的/未知的。此外,我们将在输入数据中的所有的稀疏特征转换为密集特征,通过仅仅轻微地影响分类性能而大幅度地减小模型的大小。稀疏特征到密集特征的转换使得在决策树中使用更少数量的决策。替代使用几千个单独的特征,我们使用特征id来查找多个密集特征。我们使用散列实施方式连同压缩的位掩码来以非常高效的方式存储散列数据,导致快速的查找以及小的存储器印迹。例如,开始比特、结束比特、以及文件的其他这种特征可被转换为一个或多个散列值,并与已知的坏文件的散列值做比较。在另一个示例中,例如在终端主机或网关设备中采用适度大小的模型,其具有较低的误判率。被识别为潜在恶意的文件相对于已知的好文件的白名单被进行查询,来进一步减少误判率,该白名单存储在服务器中或在本地中缓存并更新。在一些实施例中,更大的模型可以进一步减少误判率,例如通过使用本地的相对大的查找表,而不为了附加信息或确认来查询服务器。这种模型在足够的计算资源在终端主机上可用的情况下,或当联网的查找服务不可用或分散时是有用的。这些模型可被用于端点、网关、后端或云分类。使用紧凑的模型和稀疏特征转换,模型被计算用于端点分类,例如在决策树中的具有数以万计的模型元素的模型。一般来说,误判率允许使用这一模型作为云或网络查找的查询选择器,但是更高的确信级别是可能的。该技术同样可以结合数据服务器提供的白名单使用,以用于积极地减少误判。最后,分类器可被偏置来避免击中普遍的文件,进一步包括在一些实施例中为了关于文件扩散的信息而使用数据服务器。尽管使用看到大多数好文件的端点检测的小机器除了具有小且高效的分类模型之外还期望具有低误判率,然而在看到更高比例的恶意文件的网关或其他设备中,更高的误判率可以被容忍并是期望的以避免遗漏恶意文件。使用紧凑的模型和稀疏特征转换,一个示例的网关模型被计算为具有大约为O. 1%的误判率,其作为网关分类器是合适的,但是可能高于端点分类所期望的。更复杂的特征可被提取并且诸如稀疏特征之类的更高维度在后端分类中可以被容忍,其中诸如数据服务器之类的系统被用来评估未知的文件或者在其他分类点中符合特定标准的文件。大约数十或数百兆字节数据的更大的模型可被快速有效地应用到数据文件,使用在专用的后端系统中可用的附加的处理能力。在云分类中,提供给后端数据服务器用于查找的数据可被用来对执行中的数据进 行分类,因为特征被提取并发送到专用的服务器来分类。输入的特征与端点分类相似,但是模型文件更大。此外,我们可以结合附加的全局信息,例如基于IP地址的样本分布、扩散级另IJ、查找串等等。最后,利用电子邮件或网络信誉查找巩固这一数据,允许我们在电子邮件以及网络中知道新的爆发并实时做出响应,类似于对于电子邮件和网络信誉如何处理网络欺诈电子邮件和URL。图I显示了与本发明的示例实施例一致的联网的计算环境,包括在多个实施例中的高级别特征数据分类。此处,各种终端用户计算机系统101通过网关102与在103的诸如因特网之类的网络连接。计算机能够连接到外例如105点部计算机系统,外部计算机可提供良性的或是有害的内容。数据服务器104在一些进一步的实施例中被提供,提供后端或云分类以及信誉服务器功能。在操作中,连接到因特网的诸如个人计算机或“智能”手机之类的计算机化设备101的用户从远程计算机系统105请求文件。请求的数据在到达最终用户前穿过因特网103和例如防火墙的网关102。对文件的特征,例如文件几何、随机性、大小、开始代码串以及其他这种特征,执行高级别分析。在本发明的不同实施例中,文件良性或恶意的分类在不同的阶段被执行,例如,在最终用户分类的最终用户的计算机系统101处执行,以使得文件在其被执行或打开之前被扫描。如果它被确定是恶意的,则在网关102处的网关分类可以防止文件到达最终用户,并且网关或其他系统可以依赖数据服务器104来执行云分类,例如当文件是边界线时,或没有提供网关或最终用户分类时。云分类使用诸如多个服务器104之类的分布式计算机系统来提供分类,来更为有效地评估新的或是未知的威胁。在进一步的实施例中,对新的或未知的文件的后端分类被我们用来确定被分析的文件是恶意的,并提供诸如签名和散列数据之类的信息给网关102和云服务器104来帮助未来的威胁检测。对图I的环境的更多详细的部署示例包括使用之前讨论的多个部署模型中的一个将恶意软件检测引擎部署到终端主机101上,部署在网关102上,使用信誉服务器104来分类由终端主机发送的特征,以及后端系统检测与随后的文件信息的特征化(例如签名产生)一起在大的本体(corpus)中检测恶意文件。在这些示例中,信誉服务器和后端系统检测的不同在于,存在信誉服务器以提供消费者查找响应,而后端检测系统被使用来获得对系统已知的文件体中的选中的文件的洞察。图2是与本发明的示例实施例一致的、使用文件的高级别特征来确定其是良性或恶意的示例方法的流程图。在201,例如来自图I的计算机101的用户从远程计算机系统请求文件,例如通过从因特网网站下载可执行文件。在202,远程计算机接收文件请求并发送文件,文件在可以操作用于评估文件以确定文件是恶意的还是良性的网关或端点分类引擎中被接收。在203,高级别文件特征被从文件中提取,并且在204,分类引擎使用这些高级别
特征以及决策树规则,例如通过使用文件几何、随机性、大小、开始代码串数据、各种文件数据的散列值或者其他这种特征来在205确定文件是否与已知的恶意文件具有相似的特性。如果被讨论的文件匹配指示它是恶意文件的决策树规则,则在206,文件被阻止。由于在一些实施例中,导致找到良性文件的规则被从决策树中截去,因此到达决策树分支的末端而没有被发现是恶意的文件被推测为良性的,并且在207,该文件被传递给请求用户。这个使用提取的高级别特征应用到决策树的新的分类技术与传统的基于签名的检查方法相比具有很多优点。首先,该方法主动地工作,因为其对样本的高级别特性进行操作,和低级别描述形成对照,使得能够在详细的数据可用之前检测更多新的或者未知的威胁,提高了提供给用户的保护级别。第二,大量潜在的恶意软件文件能够以非常紧凑的方式表示,减少了定义数据文件的总的大小。第三,从恶意软件文件提取的特征可被用于收集恶意软件的全局情报,提高了后端数据分类系统的效率并且提高了分布到端点或网关的模型的效率。在一些实施例中,这一数据进一步与包括IP信誉数据的统一的服务器查找中的电子邮件或者网络数据相关联,这将进一步改善智能性能。第四,提出的技术是通用的并将会有益于所有级别的恶意软件检测(终端主机、网关、后端以及在线查询)。尽管此处图示并描述了特定的实施例,但本领域普通技术人员可以理解任意的计划来达到相同目的的布置可以替代所示的特定的实施例。本申请意在覆盖本发明此处描述的示例实施例的任意改变或变形。本发明意在仅由权利要求及其等价物的全部范围所限定。
权利要求
1.一种在计算机化系统上过滤数字电子内容的方法,包括 访问数字文件; 从该文件中提取多个高级别特征;以及 使用分类器评估该多个高级别特征以确定该文件是良性的还是恶意的。
2.根据权利要求I所述的过滤数字电子内容的方法,其中评估包括在客户端系统上使用分类器来确定该文件是良性的还是恶意的,以及如果在客户端系统上确定该文件是恶意的,则该文件的散列被发送到信誉服务器以最终确定该文件是良性的还是恶意的。
3.根据权利要求2所述的过滤数字电子内容的方法,其中所述信誉服务器最终确定该文件是良性的还是恶意的包括下列中的至少一项如果该散列匹配已知的恶意文件,则确定该文件是恶意的,以及如果该散列不匹配已知的良性文件,则确定该文件是恶意的。
4.根据权利要求I所述的过滤数字电子内容的方法,其中该分类器包括一个或多个决策树。
5.根据权利要求I所述的过滤数字电子内容的方法,其中该多个高级别特征包括文件大小、文件随机性、开始代码串以及文件几何中的至少一个。
6.根据权利要求I所述的过滤数字电子内容的方法,进一步包括使用从该文件的运行时属性中提取的行为数据评估该二进制文件,以确定该文件是良性的还是恶意的。
7.根据权利要求I所述的过滤数字电子内容的方法,其中评估包括确定由该文件使用的库或资源中的至少一个。
8.根据权利要求I所述的过滤数字电子内容的方法,其中提取和评估中的至少一个在客户端计算机、网关设备、后端服务器和实时云中分类系统中的一个或多个中实现。
9.根据权利要求I所述的过滤数字电子内容的方法,进一步包括如果该文件被确定是良性的,则将该文件转发到请求计算机,以及如果该文件被确定是恶意的,则阻止文件的传递。
10.根据权利要求I所述的过滤数字电子内容的方法,其中评估包括在本地系统上执行第一评估以识别至少一个可疑文件,将该可疑文件的高级别特征转发给信誉服务器以进行最终确定,从该信誉服务器接收对该可疑文件的最终确定,并仅仅阻止由该信誉服务器确定为恶意的那些文件。
11.根据权利要求10所述的过滤数字电子内容的方法,其中该客户端进一步将该文件的散列发送到该信誉服务器。
12.根据权利要求11所述的过滤数字电子内容的方法,其中该信誉服务器追踪该文件散列的一个或多个特征。
13.根据权利要求12所述的过滤数字电子内容的方法,其中追踪该文件散列的一个或多个特征包括以下中的一个或多个每个散列的查询量、自从该散列第一次出现以来的时间、查询该散列的客户端的数目、以及查询该散列的客户端的分布。
14.一种计算机网络设备,包括 网络连接,可操作以访问数字文件;以及 提取模块,可操作以从该文件中提取多个高级别特征;以及 评估模块,可操作以使用分类器来评估该多个高级别特征以确定该文件是良性的还是恶意的。
15.根据权利要求14所述的计算机网络设备,其中该分类器包括决策树。
16.根据权利要求14所述的计算机网络设备,其中该多个高级别特征包括文件大小、文件随机性、开始代码串以及文件几何的中的至少一个。
17.根据权利要求14所述的计算机网络设备,其中该评估模块进一步可操作以使用从该文件的运行时属性中提取的行为数据来评估该二进制文件,以确定该文件是良性的还是恶意的。
18.根据权利要求14所述的计算机网络设备,其中评估包括确定由该文件使用的库或资源中的至少一个。
19.根据权利要求14所述的计算机网络设备,其中该设备包括客户端计算机、网关设备、后端服务器、以及实时云分类系统中的一个或多个。
20.根据权利要求14所述的计算机网络设备,其中该评估模块进一步可操作以如果该文件被确定是良性的,则将该文件转发到一个请求计算机,以及如果该文件被确定是恶意的,则阻止文件的传递。
21.根据权利要求14所述的计算机网络设备,其中评估包括在该网络设备上执行第一评估以识别至少一个可疑文件,将该可疑文件转发给信誉服务器以进行最终确定,从该信誉服务器接收对该可疑文件的最终确定,并仅仅阻止由该信誉服务器确定为恶意的那些文件。
22.—种在其上存储有指令的机器可读介质,该指令在被执行时可操作以使得计算机化系统执行 访问数字文件; 从该文件中提取多个高级别特征;以及 使用分类器评估该多个高级别特征以确定该文件是良性的还是恶意的。
23.根据权利要求22所述的机器可读介质,其中该分类器包括决策树。
24.根据权利要求22所述的机器可读介质,其中该多个高级别特征包括文件大小、文件随机性、开始代码串以及文件几何中的至少一个。
25.根据权利要求22所述的机器可读介质,当该指令被执行时进一步可操作以使用从该文件的运行时属性中提取的行为数据评估该二进制文件,以确定该文件是良性的还是恶意的。
26.根据权利要求22所述的机器可读介质,其中评估包括确定由该文件使用的库或资源中的至少一个。
27.根据权利要求22所述的机器可读介质,其中提取和评估中的至少一个在客户端计算机、网关设备、后端服务器、以及实时云分类系统中的一个或多个中实现。
28.根据权利要求22所述的机器可读介质,当该指令被执行时进一步可操作以如果该文件被确定是良性的,则将该文件转发到一个请求计算机,以及如果该文件被确定是恶意的,则阻止文件的传递。
29.根据权利要求22所述的机器可读介质,其中评估该多个高级别特征包括在本地系统上执行第一评估以识别至少一个可疑文件,将该可疑文件转发给信誉服务器以进行最终确定,从该信誉服务器接收对该可疑文件的最终确定,并仅仅阻止由该信誉服务器确定为恶意的那些文件。
全文摘要
本发明提供了一种经由信誉系统的恶意软件检测的计算机网络设备和方法。计算机网络设备接收数字文件并从该文件中提取多个高级别特征。使用分类器评估该多个高级别特征以确定该文件是良性的还是恶意的。如果该文件被确定是良性的,则该文件被转发到请求计算机,以及如果该文件被确定是恶意的,则该文件被阻止。
文档编号G06F13/14GK102822839SQ201080064821
公开日2012年12月12日 申请日期2010年12月22日 优先权日2009年12月31日
发明者S·克拉塞尔, 唐雨春, 何远尘, 钟振宇 申请人:迈克菲股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1