一种检测文件安全的方法和装置制造方法

文档序号:6535592阅读:192来源:国知局
一种检测文件安全的方法和装置制造方法【专利摘要】本发明公开了一种检测文件安全的方法和装置,其中,所述方法包括:从待检测文件中提取文件特征,并确定提取的文件特征的类别;根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果;将所述第一评分结果与预置经验分数进行比较,确定所述待检测文件的安全级别。通过本发明解决了文件安全检测过程速度慢,效率低,检测结果准确度低的问题。【专利说明】一种检测文件安全的方法和装置【
技术领域
】[0001]本发明涉及互联网【
技术领域
】,具体涉及一种检测文件安全的方法和装置。【
背景技术
】[0002]目前,随着互联网技术的发展,随之而来的病毒文件也越来越多,病毒文件是人为的特制程序代码,其具有如下特点:自我复制能力,很强的感染性,一定的潜伏性,特定的触发性和很大的破坏性。[0003]传统未知文件安全的鉴定方法通常将整个文件上传鉴定服务器中,由鉴定服务器对整个文件的数据进行分析鉴定,得到鉴定结果,从而判断出未知文件的安全性。[0004]传统的文件安全鉴定方法存在如下问题:第一,将整个文件进行上传,当文件比较大时,需要消耗大量时间进行上传操作、且占用较多的资源。第二,对上传的文件中的全部数据进行分析鉴定,耗时久,效率低。第三,只针对上传的文件中的数据信息进行鉴定,然而,随着病毒文件的不断发展,许多病毒文件中的数据信息与安全文件中的数据信息是相同的,因此得到的鉴定结果准确度低。第四,当有多个未知文件同时需要被鉴定时,需要按顺序排队进行鉴定,鉴定速度慢,效率低。【
发明内容】[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种检测文件安全的方法和相应的一种检测文件安全的装置。[0006]依据本发明的一个方面,提供了一种检测文件安全的方法,包括:[0007]从待检测文件中提取文件特征,并确定提取的文件特征的类别;[0008]根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果;[0009]将所述第一评分结果与预置经验分数进行比较,确定所述待检测文件的安全级别。[0010]根据本发明的另一方面,提供了一种检测文件安全的装置,包括:[0011]提取模块,用于从待检测文件中提取文件特征;[0012]第一评分模块,用于根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果;[0013]安全级别确定模块,用于将所述第一评分结果与预置经验分数进行比较,确定所述待检测文件的安全级别。[0014]本发明提供了一种检测文件安全的方法和装置。首先从待检测文件中提取文件特征,提取的待检测文件的文件特征只占用很少的字符(如,IOKB或50KB等),根据对待检测文件的文件特征的进行鉴定,进而判断出未知文件的安全性。由于待检测文件的文件特征很小,因此在待检测文件的文件特征的上传过程中,上传速度快,效率高。同样,由于待检测文件的文件特征很小,因此在对待检测文件的文件特征的鉴定过程中鉴定速度快、效率高。其次,在本发明中,根据所述文件特征的类别确定鉴定器,并通过确定的鉴定器完成待检测文件的鉴定,采用分布式鉴定的方法,满足多个待检测文件同时鉴定的需求,提高了鉴定效率。最后,在本发明中,由于提取的是待检测文件的文件特征,所述待检测文件的文件特征不仅包括所述待检测文件的文件信息,还可以包括待检测文件的文件路径、IP地址等信息,提高了文件安全鉴定结果的准确性。[0015]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。【专利附图】【附图说明】[0016]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:[0017]图1是本发明第一实施例中一种检测文件安全的方法的流程图;[0018]图2是本发明第二实施例中一种检测文件安全的方法的流程图;[0019]图3是本发明第三实施例中一种检测文件安全的装置的结构框图;[0020]图4是本发明第四实施例中一种检测文件安全的装置的结构框图。【具体实施方式】[0021]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。[0022]参照图1,示出了本发明第一实施例中一种检测文件安全的方法的流程图。在本实施例中,所述检测文件安全的方法可以包括:[0023]步骤102,从待检测文件中提取文件特征,并确定提取的文件特征的类别。[0024]在本实施例中,所述待检测文件是一个未知安全级别的文件。在接收到待检测文件之后,对所述待检测文件进行分析,从所述待检测文件中提取相应的文件特征,并将提取的文件特征放入满足设定要求的特征向量内。对提取的文件特征进行分类,例如,可以依据加壳分类标准将所述待检测文件的文件特征分为UPX(UltimatePackerforeXecutables,可执行程序文件)、NSPack、ASPack、UPack、PECompact(压缩可执行文件的工具)等;或者,还可以据编译器的类型将所述待检测文件的文件特征分为VC4(MicrosoftVisualC++,简称VisualC++、MSVC、VC++或VC,具有集成开发环境,可提供编辑C语言、C++以及C++/CLI等编程语言)、VC5、VC6、VC7、VC8、Delphi(快速应用程序开发工具)、BC(BinaryCalculator,LINUX命令的一种,用于实现任意精度计算)等。[0025]其中,所述文件特征包括但不仅限于:文件名、文件路径、文件大小、文件特征(FileDNA)、图标特征(IconDNA)、MD5值和IP地址(InternetProtocol,IP,网络之间互连的协议)中的至少一种。[0026]步骤104,根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果。[0027]在本实施例中,所述人工智能弓I擎鉴定器可以是QVM鉴定器。其中,QVM是指QihooSupportVectorMachine,奇虎支持向量机,或称为奇虎虚拟机。[0028]步骤106,将所述第一评分结果与预置经验分数进行比较,确定所述待检测文件的安全级别。[0029]在本实施例中,所述第一评分结果的分数范围可以是:0?1000分(包括0分和1000分),所述与预置经验分数值可以是520分。当所述第一评分结果对应的分数大于等于520分时,确定所述待检测文件是危险文件(如,携带蠕虫病毒的文件、携带宏病毒的文件、或携带特洛伊木马的文件等);当所述第一评分结果对应的分数小于520分时,则确定所述待检测文件为安全文件,用户可以正常安装使用。其中,所述预置经验分数值可以是通过对大量样本文件进行机器学习训练得到。[0030]综上所述,本实施例所述的一种检测文件安全的方法从待检测文件中提取文件特征,提取的待检测文件的文件特征只占用很少的字符(如,文件特征的大小可以是IOKB或50KB等),根据对待检测文件的文件特征的进行鉴定,进而判断出未知文件的安全性。由于待检测文件的文件特征很小,因此在待检测文件的文件特征的上传过程中,上传速度快,效率高。同样,由于待检测文件的文件特征很小,因此在对待检测文件的文件特征的鉴定过程中鉴定速度快、效率高。其次,在本实施例中,根据所述文件特征的类别确定鉴定器,并通过确定的鉴定器完成待检测文件的鉴定,采用分布式鉴定的方法,满足多个待检测文件同时鉴定的需求,提高了鉴定效率。最后,在本实施例中,由于提取的是待检测文件的文件特征,所述待检测文件的文件特征不仅包括所述待检测文件的文件信息,还可以包括待检测文件的文件路径、IP地址等信息,提高了文件安全鉴定结果的准确性。[0031]参照图2,示出了本发明第二实施例中一种检测文件安全的方法的流程图。[0032]在本实施例中,云端服务器可以包括一个或多个QVM鉴定器,每个QVM鉴定器中包括至少一个决策机和与所述决策机数量相同个数的训练模型。[0033]较佳地,所述训练模型通过所述决策机对从样本文件中提取的样本文件特征进行训练得到;一个决策机对应训练得到一种类别的样本文件特征的训练模型。其中,决策机可以通过以下方法训练得到样本文件特征的训练模型:[0034]第一步,云端服务器从样本文件中提取样本文件特征,并确定提取的样本文件特征的类别;其中,所述样本文件包括已确定安全级别的文件。[0035]第二步,云端服务器选取与所述样本文件特征的类别的个数相同数量的决策机。[0036]第三步,云端服务器通过所述决策机对所述样本文件特征进行机器训练,得到训练模型。[0037]在本实施例中,所述通过所述决策机对所述样本文件特征进行机器训练,得到训练模型的步骤,可以通过下述具体方法来实现:首先,云端服务器通过所述决策机对所述样本文件特征进行哈希计算得到第二评分结果。其次,云端服务器建立所述第二评分结果与所述已确定安全级别的文件的级别的对应关系的训练模型。[0038]进一步地,在本实施例中,在所述第三步之后,所述云端服务器还可以按照设定时间间隔动态更新所述QVM鉴定器中的数据。然后,云端服务器先将更新后的QVM鉴定器中的数据发送至一个或多个分布式在线引擎,并在所述多个分布式在线引擎上预加载所述更新后的QVM鉴定器中的数据;再,使用在所述多个分布式在线引擎上预加载的更新后的QVM鉴定器中的数据对所述已知文件样本的特征进行评分,得到第三评分结果。最后,当所述第三评分结果满足预期值时,云端服务器确定所述更新后的QVM鉴定器中的数据满足更新要求;并,接受QVM鉴定器中的数据更新;当所述第三评分结果不满足预期值时,云端服务器确定所述更新后的QVM鉴定器中的数据不满足更新要求;并,拒绝QVM鉴定器中的数据更新。[0039]在本实施例中,所述检测文件安全的方法可以包括:[0040]步骤202,云端服务器获取所述待检测文件的机器标签标识MID。[0041]其中,MID是指MachineID,即机器标识,是一个唯一标识,可以用来标识一台物理电脑实体机。一般木马作者是在特定的电脑实体机上编写木马程序的,因此通过所述待检测文件的机器标签标识MID可以确定所述待检测文件是不是由木马作者制作的。当确定所述待检测文件是由木马作者制作的时,可以直接将所述待检测文件确定为木马文件。[0042]步骤204,云端服务器在第一黑、白名单中查询所述待检测文件的MID,判断所述待检测文件的MID是否在所述第一黑、白名单中。[0043]在本实施例中,所述云端服务器中可以包括MID库,所述MID库中存储有第一黑、白名单,所述第一黑、白名单以Key-Value结构形式存储在所述MID库中。其中,Key可以是MID值,Value可以是MID值指示的终端的安全级别。[0044]当在第一黑名单中查询到所述待检测文件的MID时,执行步骤206:[0045]步骤206,云端服务器确定所述待检测文件为危险文件。[0046]较佳地,在云端服务器确定所述待检测文件为危险文件之后,云端服务器可以向所述待检测文件的MID指示的终端返回伪信息;和/或,云端服务器向除所述待检测文件的MID指示的终端外的其它终端返回危险提示信息。其中,所述伪信息用于指示所述待检测文件为安全文件。[0047]当云端服务器在第一白名单中查询到所述待检测文件的MID,或云端服务器在所述第一黑名单中未查询到所述待检测文件的MID时,则可以执行步骤208:[0048]步骤208,云端服务器从待检测文件中提取文件特征,并确定提取的文件特征的类别。[0049]步骤210,云端服务器根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果。在本实施例中,所述步骤210可以包括:[0050]子步骤2102,云端服务器获取与所述文件特征的类别相同的样本文件特征。[0051]子步骤2104,云端服务器将训练所述与所述文件特征的类别相同的样本文件特征的决策机确定为对所述文件特征进行评分的决策机。[0052]子步骤2106,云端服务器将通过所述确定的决策机训练所述与所述文件特征的类别相同的样本文件特征得到的训练模型确定为对所述文件特征进行评分的训练模型。[0053]子步骤2108,云端服务器通过所述确定的决策机和所述确定的训练模型对所述文件特征进行评分,得到第一评分结果。[0054]较佳地,所述子步骤2108可以通过以下步骤实现:第一步,云端服务器通过所述确定的决策机和所述确定的训练模型对所述文件特征进行鉴定,得到鉴定结果。第二步,云端服务器根据所述文件特征的类别对应的权重,对所述鉴定结果进行加权,得到第一评分结果。[0055]步骤212,云端服务器将所述第一评分结果与预置经验分数进行比较,确定所述待检测文件的安全级别。[0056]在本实施例中,所述第一评分结果的分数范围可以是0?100分(包括0分和100分),所述待检测文件的安全级别包括但不仅限于:第一预置经验分数段对应的系统文件级另IJ、第二预置经验分数段对应的安全级别、第三预置经验分数段对应的较安全级别、第四预置经验分数段对应的风险级别、第五预置经验分数段对应的可疑级别、第六预置经验分数段对应的高危级别和第七预置经验分数段对应的病毒文件级别中的至少一种级别。[0057]其中,较佳地,所述第一预置经验分数段可以是0?10分(包括0分和10分),所述第二预置经验分数段可以是10?20分(包括20分不包括10分),所述第三预置经验分数段可以是20?30分(包括30分不包括20分),所述第四预置经验分数段可以是30?40分(包括40分不包括30分),所述第五预置经验分数段可以是40?70分(包括70分不包括40分),所述第六预置经验分数段可以是70?100分(包括100分不包括70分)。上述评分标准采用多个分数段确定所述待检测文件的级别,评分标准更加细致,得到的所述待检测文件的安全级别更加准确,便于用户根据评分结果对所述待检测文件进行处理(如,删除文件、忽略此次风险提示、直接打开文件等处理操作)。[0058]较佳地,在本实施例中,当云端服务器在第一白名单中查询到所述待检测文件的MID,或在所述第一黑名单中未查询到所述待检测文件的MID时,在所述步骤208之前可以执行如下步骤:[0059]第一步,云端服务器获取所述待检测文件的信息摘要算法MD5值和/或安全散列算法SHA-1值。[0060]第二步,云端服务器在第二黑、白名单中查询所述MD5值和/或所述SHA-1值,判断所述MD5值和/或所述SHA-1值是否在所述第二黑、白名单中。[0061]当在第二黑名单中查询到所述MD5值和/或所述SHA-1值时,确定所述待检测文件为危险文件。[0062]当在第二白名单中查询到所述MD5值和/或所述SHA-1值,或在所述第二黑名单中未查询到所述MD5值和/或所述SHA-1值时,则执行上述步骤208。[0063]又一较佳地,在本实施例中,当云端服务器在第一白名单中查询到所述待检测文件的MID,或在所述第一黑名单中未查询到所述待检测文件的MID时,在所述步骤208之前,还可以执行如下步骤:[0064]第一步,云端服务器获取所述待检测文件的文件微特征和/或所述待检测文件的行为信息。[0065]在本实施例中,微特征是样本的类行为特征和/或结构特征,行为特征包括导入表库特征和导入表应用程序编程接口API特征,导入表库特征可以包括网络类特征、高级WIN32应用程序接口类特征、系统内核类特征、操作系统用户界面相关应用程序接口类特征、操作系统应用程序共用图像用户界面模块类特征、操作系统硬件提取层模块类特征、虚拟机相关模块类特征、标准C运行库程序类特征、对象链接和嵌入相关模块类特征、操作系统进程状态支持模块类特征、操作系统32位外壳动态链接库文件类特征、地址动态链接库文件类特征;导入表API特征为从所述导入表库中选取的函数特征;结构特征包括但不仅限于:文件头特征、标准头特征、可选头特征、数据目录特征和常用节表特征。[0066]所述待检测文件的行为信息可以通过EXT信息来确定,其中,EXT是一个的JS类库(JavaScript,面向对象的客户端脚本语言)。[0067]第二步,云端服务器在第三黑、白名单中查询所述微特征和/或所述行为信息。判断所述微特征和/或所述行为信息是否在所述第三黑、白名单中。[0068]当在第三黑名单中查询到所述微特征和/或所述行为信息时,确定所述待检测文件为危险文件。[0069]当在第三白名单中未查询到所述微特征和/或所述行为信息,或在所述第三黑名单中未查询到所述微特征和/或所述行为信息时,则执行上述步骤208。[0070]这里需要说明的是,在所述云端服务器中包括但不仅限于:白名单样本库、黑MID库、微特征库、QVM鉴定器和云规则动态匹配器中的至少一种。[0071]综上所述,本实施例提供了一种检测文件安全的方法先通过对待检测文件的MID进行判断,来确定待检测文件是否安全。当通过所述待检测文件的MID不能确定待检测文件是否安全时,再通过待检测文件的MD5值和/或SHA-1值判断待检测文件的安全性。当通过所述待检测文件的MD5值和/或SHA-1值不能确定待检测文件是否安全时,再通过待检测文件的微特征和/或行为信息判断待检测文件的安全性。当通过所述待检测文件的微特征和/或行为信息不能确定待检测文件是否安全时,再通过待检测文件的文件特征进行判断,确定待检测文件是否安全。在本实施例中,通过上述多级判断确定文件的安全性,得到的判断结果准确度高;同时,减少了错误判断的可能性,提高了待检测文件检测结果的准确性。这里需要说明的是,当通过上述步骤中的任意一个中间步骤确定出待检测文件的安全性时,即可结束文件安全的判断操作,提高了文件安全判断的速度。[0072]进一步地,针对病毒文件不断更新的特性,QVM鉴定器中的数据也是动态更新的,提高了文件安全鉴定的准确性。[0073]需要说明的是,对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必需的。[0074]基于与上述检测文件安全的方法同一发明构思,参照图3,示出了本发明第三实施例中一种检测文件安全的装置的结构框图。在本实施例中,所述检测文件安全的装置可以包括:[0075]提取模块302,用于从待检测文件中提取文件特征。[0076]第一评分模块304,用于根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果。[0077]安全级别确定模块306,用于将所述第一评分结果与预置经验分数进行比较,确定所述待检测文件的安全级别。[0078]综上所述,本实施例所述的一种检测文件安全的装置从待检测文件中提取文件特征,提取的待检测文件的文件特征只占用很少的字符(如,文件特征的大小可以是IOKB或50KB等),根据对待检测文件的文件特征的进行鉴定,进而判断出未知文件的安全性。由于待检测文件的文件特征很小,因此在待检测文件的文件特征的上传过程中,上传速度快,效率高。同样,由于待检测文件的文件特征很小,因此在对待检测文件的文件特征的鉴定过程中鉴定速度快、效率高。其次,在本实施例中,根据所述文件特征的类别确定鉴定器,并通过确定的鉴定器完成待检测文件的鉴定,采用分布式鉴定的方法,满足多个待检测文件同时鉴定的需求,提高了鉴定效率。最后,在本实施例中,由于提取的是待检测文件的文件特征,所述待检测文件的文件特征不仅包括所述待检测文件的文件信息,还可以包括待检测文件的文件路径、IP地址等信息,提高了文件安全鉴定结果的准确性。[0079]参照图4,示出了本发明第四实施例中一种检测文件安全的装置的结构框图。[0080]在本实施例中,云端服务器可以包括一个或多个QVM鉴定器,每个QVM鉴定器中包括至少一个决策机和与所述决策机数量相同个数的训练模型。[0081]较佳地,所述训练模型通过所述决策机对从样本文件中提取的样本文件特征进行训练得到;一个决策机对应训练得到一种类别的样本文件特征的训练模型。其中,决策机可以通过以下模块训练得到样本文件特征的训练模型:[0082]本文件特征提取模块,用于从样本文件中提取样本文件特征,并确定提取的样本文件特征的类别;其中,所述样本文件包括已确定安全级别的文件。[0083]选取模块,用于选取与所述样本文件特征的类别的个数相同数量的决策机。[0084]训练模型获取模块,用于通过所述决策机对所述样本文件特征进行机器训练,得到训练模型。[0085]在本实施例中,所述训练模型获取模块可以包括:[0086]第二评分模块,用于通过所述决策机对所述样本文件特征进行哈希计算得到第二评分结果。[0087]训练模型建立模块,用于建立所述第二评分结果与所述已确定安全级别的文件的级别的对应关系的训练1吴型。[0088]进一步地,在本实施例中,在执行完所述训练模型获取模块之后,还可以执行如下模块:[0089]更新模块,用于按照设定时间间隔动态更新所述QVM鉴定器中的数据。[0090]预加载模块,用于将更新后的QVM鉴定器中的数据发送至一个或多个分布式在线引擎,并在所述多个分布式在线引擎上预加载所述更新后的QVM鉴定器中的数据。[0091]第三评分模块,用于使用在所述多个分布式在线引擎上预加载的更新后的QVM鉴定器中的数据对所述已知文件样本的特征进行评分,得到第三评分结果。[0092]第一更新结果确定模块,用于在所述第三评分结果满足预期值时,云端服务器确定所述更新后的QVM鉴定器中的数据满足更新要求;并,接受QVM鉴定器中的数据更新。[0093]第二更新结果确定模块,用于在所述第三评分结果不满足预期值时,云端服务器确定所述更新后的QVM鉴定器中的数据不满足更新要求;并,拒绝QVM鉴定器中的数据更新。[0094]在本实施例中,所述检测文件安全的装置可以包括:[0095]第一获取模块402,用于在所述提取模块从待检测文件中提取文件特征之前,获取所述待检测文件的机器标签标识MID。[0096]第一查询模块404,用于在第一黑、白名单中查询所述待检测文件的MID。[0097]当第一查询模块404在第一黑名单中查询到所述待检测文件的MID时,执行第一确定模块406:[0098]第一确定模块406,用于在第一黑名单中查询到所述待检测文件的MID时,确定所述待检测文件为危险文件。[0099]伪信息返回模块408,用于在所述第一确定模块406确定所述待检测文件为危险文件之后,向所述待检测文件的MID指示的终端返回伪信息;其中,所述伪信息用于指示所述待检测文件为安全文件。[0100]危险提示模块410,用于向除所待检测文件的MID指示的终端外的其它终端返回危险提示信息。[0101]当第一查询模块404在第一白名单中查询到所述待检测文件的MID,或在所述第一黑名单中未查询到所述待检测文件的MID时,执行第一执行模块412[0102]第一执行模块412,用于在第一白名单中查询到所述待检测文件的MID,或在所述第一黑名单中未查询到所述待检测文件的MID时,执行如下提取模块414。[0103]提取模块414,用于从待检测文件中提取文件特征。[0104]第一评分模块416,用于根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果。[0105]在本实施例中,所述第一评分模块416可以包括:[0106]样本文件特征获取模块4162,用于获取与所述文件特征的类别相同的样本文件特征。[0107]决策机确定模块4164,用于将训练所述与所述文件特征的类别相同的样本文件特征的决策机确定为对所述文件特征进行评分的决策机;[0108]训练模型确定模块4166,用于将通过所述确定的决策机训练所述与所述文件特征的类别相同的样本文件特征得到的训练模型确定为对所述文件特征进行评分的训练模型。[0109]决策机评分模块4168,用于通过所述确定的决策机和所述确定的训练模型对所述文件特征进行评分,得到第一评分结果。[0110]较佳地,所述决策机评分模块4168可以包括:[0111]鉴定模块41682,用于通过所述确定的决策机和所述确定的训练模型对所述文件特征进行鉴定,得到鉴定结果。[0112]加权模块41684,用于根据所述文件特征的类别对应的权重,对所述鉴定结果进行加权,得到第一评分结果。[0113]安全级别确定模块418,用于将所述第一评分结果与预置经验分数进行比较,确定所述待检测文件的安全级别。[0114]在本实施例中,所述待检测文件的安全级别,包括:第一预置经验分数段对应的系统文件级别、第二预置经验分数段对应的安全级别、第三预置经验分数段对应的较安全级另IJ、第四预置经验分数段对应的风险级别、第五预置经验分数段对应的可疑级别、第六预置经验分数段对应的高危级别和第七预置经验分数段对应的病毒文件级别中的至少一种级别。[0115]较佳地,在本实施例中,当第一查询模块404在第一白名单中查询到所述待检测文件的MID,或在所述第一黑名单中未查询到所述待检测文件的MID时,还可以执行如下模块:[0116]第二获取模块,用于获取所述待检测文件的信息摘要算法MD5值和/或安全散列算法SHA-1值。[0117]第二查询模块,用于在第二黑、白名单中查询所述MD5值和/或所述SHA-1值。[0118]第二确定模块,用于在第二黑名单中查询到所述MD5值和/或所述SHA-1值时,确定所述待检测文件为危险文件。[0119]第二执行模块,用于在第二白名单中查询到所述MD5值和/或所述SHA-1值,或在所述第二黑名单中未查询到所述MD5值和/或所述SHA-1值时,执行上述提取模块414。[0120]又一较佳地,在本实施例中,当第一查询模块404在第一白名单中查询到所述待检测文件的MID,或在所述第一黑名单中未查询到所述待检测文件的MID时,还可以执行如下模块:[0121]第三获取模块,用于获取所述待检测文件的文件微特征和/或所述待检测文件的行为信息。[0122]第三查询模块,用于在第三黑、白名单中查询所述微特征和/或所述行为信息。[0123]第三确定模块,用于在第三黑名单中查询到所述微特征和/或所述行为信息时,确定所述待检测文件为危险文件。[0124]第三执行模块,用于在第三白名单中未查询到所述微特征和/或所述行为信息,或在所述第三黑名单中未查询到所述微特征和/或所述行为信息时,则执行上述提取模块414。[0125]综上所述,本实施例提供的一种检测文件安全的装置先通过对待检测文件的MID进行判断,来确定待检测文件是否安全。当通过所述待检测文件的MID不能确定待检测文件是否安全时,再通过待检测文件的MD5值和/或SHA-1值判断待检测文件的安全性。当通过所述待检测文件的MD5值和/或SHA-1值不能确定待检测文件是否安全时,再通过待检测文件的微特征和/或行为信息判断待检测文件的安全性。当通过所述待检测文件的微特征和/或行为信息不能确定待检测文件是否安全时,再通过待检测文件的文件特征进行判断,确定待检测文件是否安全。在本实施例中,通过上述多级判断确定文件的安全性,得到的判断结果准确度高;同时,减少了错误判断的可能性,提高了待检测文件检测结果的准确性。这里需要说明的是,当通过上述步骤中的任意一个中间步骤确定出待检测文件的安全性时,即可结束文件安全的判断操作,提高了文件安全判断的速度。进一步地,针对病毒文件不断更新的特性,鉴定器中的数据也是动态更新的,提高了文件安全鉴定的准确性。[0126]对于上述一种软件安装装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可[0127]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。[0128]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。[0129]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。[0130]本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。[0131]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。[0132]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的检测文件安全的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。[0133]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。[0134]本发明公开了Al、一种检测文件安全的方法,包括:[0135]从待检测文件中提取文件特征,并确定提取的文件特征的类别;[0136]根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果;[0137]将所述第一评分结果与预置经验分数进行比较,确定所述待检测文件的安全级别。[0138]A2、如Al所述的方法,所述鉴定器为一个或多个,每个鉴定器中包括至少一个决策机和与所述决策机数量相同个数的训练模型;其中,所述训练模型通过所述决策机对从样本文件中提取的样本文件特征进行训练得到;一个决策机对应训练得到一种类别的样本文件特征的训练模型。[0139]A3、如A2所述的方法,所述根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果,包括:[0140]获取与所述文件特征的类别相同的样本文件特征;[0141]将训练所述与所述文件特征的类别相同的样本文件特征的决策机确定为对所述文件特征进行评分的决策机;[0142]将通过所述确定的决策机训练所述与所述文件特征的类别相同的样本文件特征得到的训练模型确定为对所述文件特征进行评分的训练模型;[0143]通过所述确定的决策机和所述确定的训练模型对所述文件特征进行评分,得到第一评分结果。[0144]A4、如A3所述的方法,所述通过所述确定的决策机和所述确定的训练模型对所述文件特征进行评分,得到第一评分结果,包括:[0145]通过所述确定的决策机和所述确定的训练模型对所述文件特征进行鉴定,得到鉴定结果;[0146]根据所述文件特征的类别对应的权重,对所述鉴定结果进行加权,得到第一评分结果。[0147]A5、如Al所述的方法,在所述从待检测文件中提取文件特征步骤之前,所述方法还包括:[0148]获取所述待检测文件的机器标签标识MID;[0149]在第一黑、白名单中查询所述待检测文件的MID;[0150]当在第一黑名单中查询到所述待检测文件的MID时,确定所述待检测文件为危险文件;[0151]当在第一白名单中查询到所述待检测文件的MID,或在所述第一黑名单中未查询到所述待检测文件的MID时,则执行所述从待检测文件中提取文件特征的步骤。[0152]A6、如A5所述的方法,在所述确定所述待检测文件为危险文件步骤之后,所述方法还包括:[0153]向所述待检测文件的MID指示的终端返回伪信息;其中,所述伪信息用于指示所述待检测文件为安全文件;和/或,[0154]向除所述待检测文件的MID指示的终端外的其它终端返回危险提示信息。[0155]A7、如A2所述的方法,在所述从待检测文件中提取文件特征步骤之前,所述方法还包括:[0156]从样本文件中提取样本文件特征,并确定提取的样本文件特征的类别;其中,所述样本文件包括已确定安全级别的文件;[0157]选取与所述样本文件特征的类别的个数相同数量的决策机;[0158]通过所述决策机对所述样本文件特征进行机器训练,得到训练模型。[0159]AS、如A7所述的方法,所述通过所述决策机对所述样本文件特征进行机器训练,得到训练模型,包括:[0160]通过所述决策机对所述样本文件特征进行哈希计算得到第二评分结果;[0161]建立所述第二评分结果与所述已确定安全级别的文件的级别的对应关系的训练模型。[0162]A9、如A7所述的方法,在所述通过所述决策机对所述样本文件特征进行机器训练,得到训练模型的步骤之后,所述方法还包括:[0163]按照设定时间间隔动态更新所述鉴定器中的数据;[0164]将更新后的鉴定器中的数据发送至一个或多个分布式在线引擎,并在所述多个分布式在线引擎上预加载所述更新后的鉴定器中的数据;[0165]使用在所述多个分布式在线引擎上预加载的更新后的鉴定器中的数据对所述已知文件样本的特征进行评分,得到第三评分结果;[0166]当所述第三评分结果满足预期值时,确定所述更新后的鉴定器中的数据满足更新要求;并,接受鉴定器中的数据更新;[0167]当所述第三评分结果不满足预期值时,确定所述更新后的鉴定器中的数据不满足更新要求;并,拒绝鉴定器中的数据更新。[0168]AlO^nAl所述的方法,在所述从待检测文件中提取文件特征的步骤之前,所述方法还包括:[0169]获取所述待检测文件的信息摘要算法MD5值和/或安全散列算法SHA-1值;[0170]在第二黑、白名单中查询所述MD5值和/或所述SHA-1值;[0171]当在第二黑名单中查询到所述MD5值和/或所述SHA-1值时,确定所述待检测文件为危险文件;[0172]当在第二白名单中查询到所述MD5值和/或所述SHA-1值,或在所述第二黑名单中未查询到所述MD5值和/或所述SHA-1值时,则执行所述从待检测文件中提取文件特征的步骤。[0173]All、如Al所述的方法,在所述从待检测文件中提取文件特征的步骤之前,所述方法还包括:[0174]获取所述待检测文件的文件微特征和/或所述待检测文件的行为信息;[0175]在第三黑、白名单中查询所述微特征和/或所述行为信息;[0176]当在第三黑名单中查询到所述微特征和/或所述行为信息时,确定所述待检测文件为危险文件;[0177]当在第三白名单中未查询到所述微特征和/或所述行为信息,或在所述第三黑名单中未查询到所述微特征和/或所述行为信息时,则执行所述从待检测文件中提取文件样本的特征的步骤。[0178]A12、如Al-All任一项所述的方法,所述待检测文件的安全级别,包括:[0179]第一预置经验分数段对应的系统文件级别、第二预置经验分数段对应的安全级另IJ、第三预置经验分数段对应的较安全级别、第四预置经验分数段对应的风险级别、第五预置经验分数段对应的可疑级别、第六预置经验分数段对应的高危级别和第七预置经验分数段对应的病毒文件级别中的至少一种级别。[0180]本发明还公开了B13、一种检测文件安全的装置,包括:[0181]提取模块,用于从待检测文件中提取文件特征;[0182]第一评分模块,用于根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果;[0183]安全级别确定模块,用于将所述第一评分结果与预置经验分数进行比较,确定所述待检测文件的安全级别。[0184]B14、如B13所述的装置,所述鉴定器为一个或多个,每个鉴定器中包括至少一个决策机和与所述决策机数量相同个数的训练模型;其中,所述训练模型通过所述决策机对从样本文件中提取的样本文件特征进行训练得到;一个决策机对应训练得到一种类别的样本文件特征的训练模型。[0185]B15、如B14所述的装置,所述第一评分模块,包括:[0186]样本文件特征获取模块,用于获取与所述文件特征的类别相同的样本文件特征;[0187]决策机确定模块,用于将训练所述与所述文件特征的类别相同的样本文件特征的决策机确定为对所述文件特征进行评分的决策机;[0188]训练模型确定模块,用于将通过所述确定的决策机训练所述与所述文件特征的类别相同的样本文件特征得到的训练模型确定为对所述文件特征进行评分的训练模型;[0189]决策机评分模块,用于通过所述确定的决策机和所述确定的训练模型对所述文件特征进行评分,得到第一评分结果。[0190]B16、如B15所述的装置,所述决策机评分模块,包括:[0191]鉴定模块,用于通过所述确定的决策机和所述确定的训练模型对所述文件特征进行鉴定,得到鉴定结果;[0192]加权模块,用于根据所述文件特征的类别对应的权重,对所述鉴定结果进行加权,得到第一评分结果。[0193]B17、如B13所述的装置,所述装置还包括:[0194]第一获取模块,用于在所述提取模块从待检测文件中提取文件特征之前,获取所述待检测文件的机器标签标识MID;[0195]第一查询模块,用于在第一黑、白名单中查询所述待检测文件的MID;[0196]第一确定模块,用于在第一黑名单中查询到所述待检测文件的MID时,确定所述待检测文件为危险文件;[0197]第一执行模块,用于在第一白名单中查询到所述待检测文件的MID,或在所述第一黑名单中未查询到所述待检测文件的MID时,则执行所述提取模块。[0198]B18、如B17所述的装置,所述装置还包括:[0199]伪信息返回模块,用于在所述第一确定模块确定所述待检测文件为危险文件之后,向所述待检测文件的MID指示的终端返回伪信息;其中,所述伪信息用于指示所述待检测文件为安全文件;[0200]危险提示模块,用于向除所待检测文件的MID指示的终端外的其它终端返回危险提示信息。[0201]B19、如B14所述的装置,所述装置还包括:[0202]本文件特征提取模块,用于在所述提取模块从待检测文件中提取文件特征之后从样本文件中提取样本文件特征,并确定提取的样本文件特征的类别;其中,所述样本文件包括已确定安全级别的文件;[0203]选取模块,用于选取与所述样本文件特征的类别的个数相同数量的决策机;[0204]训练模型获取模块,用于通过所述决策机对所述样本文件特征进行机器训练,得到训练模型。[0205]B20、如B19所述的装置,所述训练模型获取模块,包括:[0206]第二评分模块,用于通过所述决策机对所述样本文件特征进行哈希计算,得到第二评分结果;;[0207]训练模型建立模块,用于建立所述第二评分结果与所述已确定安全级别的文件的级别的对应关系的训练1吴型。[0208]B21、如B19所述的装置,所述装置还包括:[0209]更新模块,用于在所述训练模型获取模块通过所述决策机对所述样本文件特征进行机器训练,得到训练模型之后,按照设定时间间隔动态更新所述鉴定器中的数据;[0210]预加载模块,用于将更新后的鉴定器中的数据发送至一个或多个分布式在线引擎,并在所述多个分布式在线引擎上预加载所述更新后的鉴定器中的数据;[0211]第三评分模块,用于使用在所述多个分布式在线引擎上预加载的更新后的鉴定器中的数据对所述已知文件样本的特征进行评分,得到第三评分结果;[0212]第一更新结果确定模块,用于在所述第三评分结果满足预期值时,确定所述更新后的鉴定器中的数据满足更新要求;并,接受鉴定器中的数据更新;[0213]第二更新结果确定模块,用于在所述第三评分结果不满足预期值时,确定所述更新后的鉴定器中的数据不满足更新要求;并,拒绝鉴定器中的数据更新。[0214]B22、如B13所述的装置,所述装置还包括:[0215]第二获取模块,用于在所述提取模块从待检测文件中提取文件特征之前,获取所述待检测文件的信息摘要算法MD5值和/或安全散列算法SHA-1值;[0216]第二查询模块,用于在第二黑、白名单中查询所述MD5值和/或所述SHA-1值;[0217]第二确定模块,用于在第二黑名单中查询到所述MD5值和/或所述SHA-1值时,确定所述待检测文件为危险文件;[0218]第二执行模块,用于在第二白名单中查询到所述MD5值和/或所述SHA-1值,或在所述第一黑名单中未查询到所述MD5值和/或所述SHA-1值时,执行所述提取模块。[0219]B23、如B13所述的装置,所述装置还包括:[0220]第三获取模块,用于在所述提取模块从待检测文件中提取文件特征之前,获取所述待检测文件的文件微特征和/或所述待检测文件的行为信息;[0221]第三查询模块,用于在第三黑、白名单中查询所述微特征和/或所述行为信息;[0222]第三确定模块,用于在第三黑名单中查询到所述微特征和/或所述行为信息时,确定所述待检测文件为危险文件;[0223]第三执行模块,用于在第三白名单中未查询到所述微特征和/或所述行为信息,或在所述第三黑名单中未查询到所述微特征和/或所述行为信息时,执行所述提取模块。[0224]B24、如B12-B23任一项所述的装置,所述待检测文件的安全级别,包括:[0225]第一预置经验分数段对应的系统文件级别、第二预置经验分数段对应的安全级另IJ、第三预置经验分数段对应的较安全级别、第四预置经验分数段对应的风险级别、第五预置经验分数段对应的可疑级别、第六预置经验分数段对应的高危级别和第七预置经验分数段对应的病毒文件级别中的至少一种级别。【权利要求】1.一种检测文件安全的方法,包括:从待检测文件中提取文件特征,并确定提取的文件特征的类别;根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果;将所述第一评分结果与预置经验分数进行比较,确定所述待检测文件的安全级别。2.如权利要求1所述的方法,其特征在于,所述鉴定器为一个或多个,每个鉴定器中包括至少一个决策机和与所述决策机数量相同个数的训练模型;其中,所述训练模型通过所述决策机对从样本文件中提取的样本文件特征进行训练得到;一个决策机对应训练得到一种类别的样本文件特征的训练模型。3.如权利要求2所述的方法,其特征在于,所述根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果,包括:获取与所述文件特征的类别相同的样本文件特征;将训练所述与所述文件特征的类别相同的样本文件特征的决策机确定为对所述文件特征进行评分的决策机;将通过所述确定的决策机训练所述与所述文件特征的类别相同的样本文件特征得到的训练模型确定为对所述文件特征进行评分的训练模型;通过所述确定的决策机和所述确定的训练模型对所述文件特征进行评分,得到第一评分结果。4.如权利要求3所述的方法,其特征在于,所述通过所述确定的决策机和所述确定的训练模型对所述文件特征进行评分,`得到第一评分结果,包括:通过所述确定的决策机和所述确定的训练模型对所述文件特征进行鉴定,得到鉴定结果;根据所述文件特征的类别对应的权重,对所述鉴定结果进行加权,得到第一评分结果。5.如权利要求1所述的方法,其特征在于,在所述从待检测文件中提取文件特征步骤之前,所述方法还包括:获取所述待检测文件的机器标签标识MID;在第一黑、白名单中查询所述待检测文件的MID;当在第一黑名单中查询到所述待检测文件的MID时,确定所述待检测文件为危险文件;当在第一白名单中查询到所述待检测文件的MID,或在所述第一黑名单中未查询到所述待检测文件的MID时,则执行所述从待检测文件中提取文件特征的步骤。6.如权利要求5所述的方法,其特征在于,在所述确定所述待检测文件为危险文件步骤之后,所述方法还包括:向所述待检测文件的MID指示的终端返回伪信息;其中,所述伪信息用于指示所述待检测文件为安全文件;和/或,向除所述待检测文件的MID指示的终端外的其它终端返回危险提示信息。7.如权利要求2所述的方法,其特征在于,在所述从待检测文件中提取文件特征步骤之前,所述方法还包括:从样本文件中提取样本文件特征,并确定提取的样本文件特征的类别;其中,所述样本文件包括已确定安全级别的文件;选取与所述样本文件特征的类别的个数相同数量的决策机;通过所述决策机对所述样本文件特征进行机器训练,得到训练模型。8.如权利要求7所述的方法,其特征在于,所述通过所述决策机对所述样本文件特征进行机器训练,得到训练模型,包括:通过所述决策机对所述样本文件特征进行哈希计算得到第二评分结果;建立所述第二评分结果与所述已确定安全级别的文件的级别的对应关系的训练模型。9.如权利要求7所述的方法,其特征在于,在所述通过所述决策机对所述样本文件特征进行机器训练,得到训练模型的步骤之后,所述方法还包括:按照设定时间间隔动态更新所述鉴定器中的数据;将更新后的鉴定器中的数据发送至一个或多个分布式在线引擎,并在所述多个分布式在线引擎上预加载所述更新后的鉴定器中的数据;使用在所述多个分布式在线引擎上预加载的更新后的鉴定器中的数据对所述已知文件样本的特征进行评分,得到第三评分结果;当所述第三评分结果满足预期值时,确定所述更新后的鉴定器中的数据满足更新要求;并,接受鉴定器中的数据更新;当所述第三评分结果不满足预期值时,确定所述更新后的鉴定器中的数据不满足更新要求;并,拒绝鉴定器中的数据更新。`10.一种检测文件安全的装置,包括:提取模块,用于从待检测文件中提取文件特征;第一评分模块,用于根据所述文件特征的类别确定人工智能引擎鉴定器,通过所述确定的鉴定器对所述文件特征进行评分,得到第一评分结果;安全级别确定模块,用于将所述第一评分结果与预置经验分数进行比较,确定所述待检测文件的安全级别。【文档编号】G06F21/56GK103761480SQ201410014366【公开日】2014年4月30日申请日期:2014年1月13日优先权日:2014年1月13日【发明者】杨康,王志超,魏自立,李振博申请人:北京奇虎科技有限公司,奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1