一种文件的聚类方法和设备的制作方法

文档序号:6499997阅读:82来源:国知局
一种文件的聚类方法和设备的制作方法【专利摘要】本发明实施例公开了文件的聚类方法和设备,应用于信息处理【
技术领域
】。本发明实施例中,在对待处理文件进行聚类时,可以通过对待处理文件中包含的多个信息块的特征的信息指纹的比较,来将信息指纹相同的待处理文件作为一个聚类,实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识,然后根据标识来进行聚类,相比现有技术中相似性比较,采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。【专利说明】一种文件的聚类方法和设备【
技术领域
】[0001]本发明涉及信息处理【
技术领域
】,特别涉及文件的聚类方法和设备。【
背景技术
】[0002]随着互联网的发展,信息爆炸式地增长,其中,计算机病毒、蠕虫、木马程序等计算机恶意程序的信息每日都危害用户设备的安全,而大部分恶意程序的文件都是可移植可执行(PortableExecutable,PE)格式的文件,这些PE文件虽然数量大,但是很多都具有家族特性。这样可以对PE文件先进行聚类(Cluster),即根据事先定义的度量将一些相似的对象组成群体,然后从聚类结果中发现新家族的PE文件,有利于病毒的分析和查杀。[0003]目前,文件的聚类方法主要有两种,一种是传统的聚类方法,比如k均值聚类、层次聚类等,这种方法需要提取文件的特征,并通过对两个文件的特征进行相似性比较实现文件聚类;另一种是基于内容分割的分片哈希算法(ContextTriggeredPiecewiseHashing,CTPH),这种方法需要将文件进行分片,然后通过对两个文件的分片进行相似性的比较实现文件聚类。但是上述现有的文件聚类方法中相似性比较的计算量比较大,且比较复杂。【
发明内容】[0004]本发明实施例提供文件的聚类方法和设备,简化文件聚类的复杂度。[0005]本发明实施例提供一种文件的聚类方法,包括:[0006]分别对待处理文件中的多个信息块的进行特征提取;[0007]计算提取的所述多个信息块中各个信息块的特征的信息指纹;[0008]根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹;[0009]将信息指纹相同的待处理文件作为一个聚类输出。[0010]本发明实施例提供一种文件的聚类设备,包括:[0011]特征提取单元,用于分别对待处理文件中的多个信息块的进行特征提取;[0012]第一指纹计算单元,用于计算提取的所述多个信息块中各个信息块的特征的信息指纹;[0013]第二指纹计算单元,用于根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹;[0014]聚类输出单元,用于将信息指纹相同的待处理文件作为一个聚类输出。[0015]本发明实施例中,在对待处理文件进行聚类时,可以通过对待处理文件中包含的多个信息块的特征的信息指纹的比较,来将信息指纹相同的待处理文件作为一个聚类,实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识,然后根据标识来进行聚类,相比现有技术中相似性比较,采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。【专利附图】【附图说明】[0016]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。[0017]图1是本发明实施例提供的一种文件的聚类方法流程图;[0018]图2是本发明实施例中PE文件包含的.text节中数据的示意图;[0019]图3是本发明实施例提供的另一种文件的聚类方法流程图;[0020]图4是本发明实施例中一种PE文件的聚类方法流程图;[0021]图5是本发明实施例提供的一种文件的聚类设备的示意图;[0022]图6是本发明实施例提供的一种文件的聚类设备的示意图;[0023]图7是本发明实施例提供的一种文件的聚类设备的示意图。【具体实施方式】[0024]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0025]本发明实施例提供一种文件的聚类方法,比如对PE等文件的聚类主要是计算机所执行的方法,流程图如图1所示,包括:[0026]步骤101,分别对待处理文件中的多个信息块的进行特征提取。[0027]可以理解,每个文件都可以划分为不同的信息块,对于PE文件来说,该PE文件可以用于不同的操作系统和体系结构中,且可以封装操作系统加载可执行程序代码时所必需的信息,包括动态链接库、导入和导出表、资源管理数据和线程局部存储数据等,而大部分恶意程序都是PE文件。PE文件可以分为不同的信息块,称为节(sections),比如.text节,.data节,.rsrc节,.reloc节等,每节中包含具有共同属性的数据,具体可以是数据0(00)到数据255(FF)之间的数据。[0028]计算机可以对待处理文件中的全部或部分信息块进行特征提取,且在进行特征提取时,具体可以提取信息块的数据分布信息,该数据分布区信息可以指示各个数据在该信息块中分布的情况,具体可以包括部分或全部数据的频率和/或个数,比如数据IC出现的频率和个数等。例如图2所示的部分.text节的数据中,数据77出现的频率较大。[0029]步骤102,计算步骤101中提取的多个信息块中各个信息块的特征的信息指纹,其中一个信息块的信息指纹是将该信息块加工得到的一个随机数,能作为区别其他信息块的标识,常用的信息指纹计算方法有局部敏感哈希计算等,本发明实施例中,得到的信息指纹可以标识一个信息块的特征。[0030]步骤103,根据各个信息块的特征的信息指纹获取待处理文件的信息指纹,具体地,可以将各个信息块的特征的信息指纹拼接得到一个待处理文件的信息指纹;或可以通过其它方式得到待处理文件的信息指纹,该信息指纹中包含了该待处理文件包含步骤102中获得的各个信息块的特征的信息指纹。[0031]步骤104,将步骤103中获得的信息指纹相同的待处理文件作为一个聚类输出。[0032]可见,本发明实施例中,在对待处理文件进行聚类时,可以通过对待处理文件中包含的多个信息块的特征的信息指纹的比较,来将信息指纹相同的待处理文件作为一个聚类,实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识,然后根据标识来进行聚类,相比现有技术中相似性比较,采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。[0033]参考图3所示,在一个具体的实施例中,计算机在执行上述步骤102时,具体可以通过如下的步骤来实现:[0034]步骤201,分别将步骤101中提取的多个信息块中各个信息块的特征进行归一化处理,这样可以将各个信息块的特征都统一成比较方便运算的数据。[0035]步骤202,计算归一化处理后的各个信息块的特征的信息指纹,具体地计算机可以直接按照信息指纹的计算函数来计算,或可以通过如下步骤A和B来实现:[0036]A:分别调整归一化处理后的所述各个信息块的特征的范围,具体可以通过核空间映射或加权等方法进行调整,从而根据实际情况缩放各个信息块的特征之间的差异,比如两个信息块的特征之间的差别为100,则通过本步骤的范围调整,使得这两个信息块的特征之间的差别缩小为20,更进一步地缩小了计算复杂度。[0037]在通过核空间映射方法进行调整时,具体可以根据核空间的映射函数,将归一化处理后的各个信息块的特征分别映射到映射函数对应的核空间,且不同待处理文件中相同属性的信息块采用的映射函数相同,比如不同待处理的PE文件中.text节采用的映射函数相同,而一个待处理文件中不同信息块采用的映射函数可以相同,也可以不同。[0038]通过加权方法进行调整时,计算机可以分别对归一化处理后的各个信息块的特征进行加权运算,且不同信息块对应的加权值可以不同,也可以相同。[0039]B:计算调整范围后的各个信息块的特征的信息指纹,具体地,可以按照一定的信息指纹运算函数,来计算各个信息块的特征对应的信息指纹。[0040]以下以一个具体的实施例来说明本发明实施例中文件的聚类方法,本实施例中,主要是计算机对十六进制的PE文件进行的聚类,流程图如图4所示,具体包括:[0041]步骤301,判断PE文件是否加壳(Packer),即是否是通过一系列的数学运算使得编码改变后的PE文件,如果是,执行步骤302,如果不是,则执行步骤303。[0042]步骤302,对加壳后的PE文件进行脱壳(Unpacker),即除掉PE文件的加壳保护,与步骤301互为逆运算,之后执行步骤303。[0043]步骤303,分别提取PE文件中指定的m个节的数据分布信息,比如在每个节中0(00)到255(FF)之间的数据的分布频率,得到m个256维的特征向量记为Hi=Dvh1,...,h255],i=1,...,m,其中h可以表示各个数据的分布频率。其中,如果有些PE文件中没有该指定的m个节中的某些节,这这些节对应的特征向量为0,即Hi=[0,0,...,0]o[0044]步骤304,对步骤303中得到的m个特征向量进行归一化处理,得到归一化后的m个特征向量,记为自h^Jl其中归一化处理所使用的函数为I=L-▲」5【权利要求】1.一种文件的聚类方法,其特征在于,包括:分别对待处理文件中的多个信息块的进行特征提取;计算提取的所述多个信息块中各个信息块的特征的信息指纹;根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹;将信息指纹相同的待处理文件作为一个聚类输出。2.如权利要求1所述的方法,其特征在于,所述分别对待处理文件中的多个信息块的进行特征提取,具体包括:分别提取所述多个信息块的数据分布信息,所述数据分布信息包括信息块中部分或全部数据的频率或个数。3.如权利要求1或2所述的方法,其特征在于,所述分别计算提取的所述多个信息块中各个信息块的特征的信息指纹具体还包括:分别将提取的所述多个信息块中各个信息块的特征进行归一化处理;计算归一化处理后的所述各个信息块的特征的信息指纹。4.如权利要求3所述的方法,其特征在于,所述计算归一化处理后的所述各个信息块的特征的信息指纹,具体包括:分别调整归一化处理后的所述各个信息块的特征的范围;计算调整范围后的所述各个信息块的特征的信息指纹。5.如权利要求4所述的方法,其特征在于,所述分别调整归一化处理后的所述各个信息块的特征的范围,具体包括:根据核空间的映射函数,将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间,不同待处理文件中相同属性的信息块采用的映射函数相同;或,分别对归一化处理后的所述各个信息块的特征进行加权运算。6.一种文件的聚类设备,其特征在于,包括:特征提取单元,用于分别对待处理文件中的多个信息块的进行特征提取;第一指纹计算单元,用于计算提取的所述多个信息块中各个信息块的特征的信息指纹;第二指纹计算单元,用于根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹;聚类输出单元,用于将信息指纹相同的待处理文件作为一个聚类输出。7.如权利要求6所述的设备,其特征在于,所述特征提取单元,具体用于分别提取所述多个信息块的数据分布信息,所述数据分布信息包括信息块中部分或全部数据的频率或个数。8.如权利要求6或7所述的设备,其特征在于,所述第一指纹计算单元具体包括:归一化单元,用于分别将提取的所述多个信息块中各个信息块的特征进行归一化处理;第一计算单元,用于计算归一化处理后的所述各个信息块的特征的信息指纹。9.如权利要求8所述的设备,其特征在于,所述第一计算单元包括:范围调整单元,用于分别调整归一化处理后的所述各个信息块的特征的范围;第二计算单元,用于计算调整范围后的所述各个信息块的特征的信息指纹。10.如权利要求9所述的设备,其特征在于,所述范围调整单元,具体用于根据核空间的映射函数,将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间,不同待处理文件中相同属性的信息块采用的映射函数相同;和/或,所述范围调整单元,具体用于分别对归一化处理后的所述各个信息块的特征进行加权运算。【文档编号】G06F21/56GK104008334SQ201310055669【公开日】2014年8月27日申请日期:2013年2月21日优先权日:2013年2月21日【发明者】杨宜,于涛,陶波申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1