一种基于标签传播的样本关联性检测方法及系统的制作方法

文档序号:10613169阅读:501来源:国知局
一种基于标签传播的样本关联性检测方法及系统的制作方法
【专利摘要】本发明提出一种基于标签传播的样本关联性检测方法及系统,包括:获取样本集,并计算样本集在各维度的特征及关联度,以样本及样本特征为节点,以具有关联度的样本及节点的连线围边构建关联网络图,获取待检测样本的特征,并将其嵌入关联网络图,计算待检测样本在新关联网络图中与各连线上样本的权值乘积,若大于预设值,则输出对应连线上的样本。通过本发明的方法,能够利用代码及样本属性进行更多信息的判断,关联关系更准确,启发性更强。能够有效的输出具有关联性的样本,用于进一步判断待检测样本是否为仿冒文件,对恶意代码的检测具有辅助作用。
【专利说明】
一种基于标签传播的样本关联性检测方法及系统
技术领域
[0001]本发明涉及网络安全领域,特别涉及一种基于标签传播的样本关联性检测方法及系统。【背景技术】
[0002]目前样本关联性的检测方面大多都需要通过深入的代码分析,具有一定难度,而且仅仅基于代码层面,启发性不高,因为某些仿冒应用可能并未直接从代码层面进行仿冒, 而是利用了正版应用的资源文件,例如图标,程序名,包名等;又例如同一犯罪团伙编写了两种功能完全不同的恶意代码,但均使用了同一邮箱上传用户隐私信息,我们可以通过该邮箱发现两类应用的关联性,而通过代码分析其关联性则比较困难。
【发明内容】

[0003]本发明提出了一种基于标签传播的样本关联性检测方法及系统,通过对样本间关联性权值的计算,得到待检测样本与已知样本的关联性,从而为恶意代码判断提供辅助判断的信息。
[0004]—种基于标签传播的样本关联性检测方法,包括:收集已知白样本文件及黑样本文件,组成样本集;对样本集在多个维度进行特征提取;分别计算样本集中两样本间的关联度,如果相似度大于预设值,则两样本间具有关联性,否则两样本间不具有关联性;分别判断样本集中各样本在各维度上特征是否相同;如果是,则认为样本在对应维度上的特征具有关联性,并给出各关联特征间的权值;否则样本在对应维度上不具有关联性; 根据样本间及样本在对应维度上特征的关联性,以样本及特征为节点,以具有关联性的样本及特征的连线为边,构建关联网络图;获取待检测样本在各维度上的特征,并计算待检测样本与样本集中样本的关联度,将所述特征及样本嵌入构建的关联网络图,连线构成新关联网络图;计算待检测样本在新关联网络图中与各连线上样本的权值乘积,并判断所述权值乘积是否超过预设值,如果超过预设值,则向用户输出对应连线上的特征所对应的样本。
[0005]所述的方法中,所述分别计算样本集中两样本间的关联度具体为:遍历获取各样本的代码中的类名及方法名,比较两样本间类名,如类名相同,则进一步计算两样本在对应类名中的所有方法名交集个数,依次累加各相同类名中方法名交集数量,除以两样本所有方法名并集数量,即为两样本间的关联度。
[0006]所述方法中,所述各关联特征间的权值相同。
[0007]所述的方法中,所述对样本集在多个维度进行特征提取,至少包括:样本来源维度、样本标识维度及样本名称维度;所述样本来源维度包括:1P、sp、emai 1、ur 1或域名的whoi s信息;所述样本标识维度包括:样本资源文件或图标的MD5值;所述样本名称维度包括:样本包名、程序名、文件签名或证书。
[0008]一种基于标签传播的样本关联性检测系统,包括:样本收集模块,用于收集已知白样本文件及黑样本文件,组成样本集;特征提取模块,用于对样本集在多个维度进行特征提取;样本关联度计算模块,用于分别计算样本集中两样本间的关联度,如果相似度大于预设值,则两样本间具有关联性,否则两样本间不具有关联性;特征判断模块,用于分别判断样本集中各样本在各维度上特征是否相同;如果是,则认为样本在对应维度上的特征具有关联性,并给出各关联特征间的权值;否则样本在对应维度上不具有关联性;关联网络图构建模块,用于根据样本间及样本在对应维度上特征的关联性,以样本及特征为节点,以具有关联性的样本及特征的连线为边,构建关联网络图;待检测样本关联模块,用于获取待检测样本在各维度上的特征,并计算待检测样本与样本集中样本的关联度,将所述特征及样本嵌入构建的关联网络图,连线构成新关联网络图;结果输出模块,用于计算待检测样本在新关联网络图中与各连线上样本的权值乘积, 并判断所述权值乘积是否超过预设值,如果超过预设值,则向用户输出对应连线上的特征所对应的样本。
[0009]所述的系统中,所述分别计算样本集中两样本间的关联度具体为:遍历获取各样本的代码中的类名及方法名,比较两样本间类名,如类名相同,则进一步计算两样本在对应类名中的所有方法名交集个数,依次累加各相同类名中方法名交集数量,除以两样本所有方法名并集数量,即为两样本间的关联度。
[0010]所述系统中,所述各关联特征间的权值相同。[〇〇11]所述的系统中,所述对样本集在多个维度进行特征提取,至少包括:样本来源维度、样本标识维度及样本名称维度;所述样本来源维度包括:1P、sp、emai 1、ur 1或域名的whoi s信息;所述样本标识维度包括:样本资源文件或图标的MD5值;所述样本名称维度包括:样本包名、程序名、文件签名或证书。[〇〇12]本发明的优势在于,通过样本及特征等多信息的关联,给出待检测样本与已知各样本间的关联性,提供给用户,用于进一步判断待检测样本是否为恶意或仿冒样本,同时, 如果在关联过程中发现大量恶意样本具有相同的特征,则可以考虑将该特征加入反病毒引擎的规则库。
[0013]本发明提出一种基于标签传播的样本关联性检测方法及系统,包括:获取样本集, 并计算样本集在各维度的特征及关联度,以样本及样本特征为节点,以具有关联度的的样本及节点的连线围边构建关联网络图,获取待检测样本的特征,并将其嵌入关联网络图,计算待检测样本在新关联网络图中与各连线上样本的权值乘积,若大于预设值,则输出对应连线上的样本。通过本发明的方法,能够利用代码及样本属性进行更多信息的判断,关联关系更准确,启发性更强。能够有效的输出具有关联性的样本,用于进一步判断待检测样本是否为仿冒文件,对恶意代码的检测具有辅助作用。【附图说明】
[0014]为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0015]图1为本发明一种基于标签传播的样本关联性检测方法流程图;图2为依据本发明方法构建关联网络图示意图;图3为依据本发明方法构建新关联网络图示意图;图4为本发明一种基于标签传播的样本关联性检测系统结构示意图。【具体实施方式】
[0016]为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明。
[0017]本发明提出了一种基于标签传播的样本关联性检测方法及系统,通过对样本间关联性权值的计算,得到待检测样本与已知样本的关联性,从而为恶意代码判断提供辅助判断的信息。
[0018]—种基于标签传播的样本关联性检测方法,如图1所示,包括:S101收集已知白样本文件及黑样本文件,组成样本集;S102对样本集在多个维度进行特征提取;S103分别计算样本集中两样本间的关联度,如果相似度大于预设值,则两样本间具有关联性,否则两样本间不具有关联性;相似度根据关联需求,可设置为0.5等;S104分别判断样本集中各样本在各维度上特征是否相同;如果是,则认为样本在对应维度上的特征具有关联性,并给出各关联特征间的权值;否则样本在对应维度上不具有关联性;如ip相同,或email相同,或url相同,或具有相同资源文件,或图标相同等。[〇〇19]S105根据样本间及样本在对应维度上特征的关联性,以样本及特征为节点,以具有关联性的样本及特征的连线为边,构建关联网络图;举例来说,如图2所示,如经计算后,样本1与样本4的关联度为0.7,样本2与样本3的关联度为0.85,样本1具有特征图标1及ipl,样本2具有特征spl及图标1,样本3具有特征包名1 及图标1,样本4具有图标图标1,则构建关联网络图,各关联特征间的权值为0.5;S106获取待检测样本在各维度上的特征,并计算待检测样本与样本集中样本的关联度,将所述特征及样本嵌入构建的关联网络图,连线构成新关联网络图;举例来说,如图3所示,经计算,待检测样本与样本2之间的关联度为0.95,与其他样本的关联度均小于0.5,且待检测样本具有特征spl,则嵌入构建的关联网络图后,连线构成的新关联网络图;S107计算待检测样本在新关联网络图中与各连线上样本的权值乘积,并判断所述权值乘积是否超过预设值,如〇.2,如果超过预设值,则向用户输出对应连线上的特征所对应的样本,否则放弃所述连线上的样本。
[0020] 经计算得到,待检测样本与样本3之间的权值乘积为0.95*0.85=0.8075,大于0.2, 则待检测样本与样本2及样本3均存在关联。将样本2及样本3输出给用户。[〇〇21]所述的方法中,所述分别计算样本集中两样本间的关联度具体为:遍历获取各样本的代码中的类名及方法名,比较两样本间类名,如类名相同,则进一步计算两样本在对应类名中的所有方法名交集个数,依次累加各相同类名中方法名交集数量,除以两样本所有方法名并集数量,即为两样本间的关联度。
[0022]所述方法中,所述各关联特征间的权值相同。
[0023]所述的方法中,所述对样本集在多个维度进行特征提取,至少包括:样本来源维度、样本标识维度及样本名称维度;所述样本来源维度包括:1P、sp、emai 1、ur 1或域名的whoi s信息;所述样本标识维度包括:样本资源文件或图标的MD5值;所述样本名称维度包括:样本包名、程序名、文件签名或证书。
[0024]—种基于标签传播的样本关联性检测系统,如图4所示,包括:样本收集模块401,用于收集已知白样本文件及黑样本文件,组成样本集;特征提取模块402,用于对样本集在多个维度进行特征提取;样本关联度计算模块403,用于分别计算样本集中两样本间的关联度,如果相似度大于预设值,则两样本间具有关联性,否则两样本间不具有关联性;特征判断模块404,用于分别判断样本集中各样本在各维度上特征是否相同;如果是, 则认为样本在对应维度上的特征具有关联性,并给出各关联特征间的权值;否则样本在对应维度上不具有关联性;关联网络图构建模块405,用于根据样本间及样本在对应维度上特征的关联性,以样本及特征为节点,以具有关联性的样本及特征的连线为边,构建关联网络图;待检测样本关联模块406,用于获取待检测样本在各维度上的特征,并计算待检测样本与样本集中样本的关联度,将所述特征及样本嵌入构建的关联网络图,连线构成新关联网络图;结果输出模块407,用于计算待检测样本在新关联网络图中与各连线上样本的权值乘积,并判断所述权值乘积是否超过预设值,如果超过预设值,则向用户输出对应连线上的特征所对应的样本。
[0025]所述的系统中,所述分别计算样本集中两样本间的关联度具体为:遍历获取各样本的代码中的类名及方法名,比较两样本间类名,如类名相同,则进一步计算两样本在对应类名中的所有方法名交集个数,依次累加各相同类名中方法名交集数量,除以两样本所有方法名并集数量,即为两样本间的关联度。
[0026]所述系统中,所述各关联特征间的权值相同。
[0027]所述的系统中,所述对样本集在多个维度进行特征提取,至少包括:样本来源维度、样本标识维度及样本名称维度;所述样本来源维度包括:1P、sp、emai 1、ur 1或域名的whoi s信息;所述样本标识维度包括:样本资源文件或图标的MD5值;所述样本名称维度包括:样本包名、程序名、文件签名或证书。[〇〇28]本发明的优势在于,通过样本及特征等多信息的关联,给出待检测样本与已知各样本间的关联性,提供给用户,用于进一步判断待检测样本是否为恶意或仿冒样本,同时, 如果在关联过程中发现大量恶意样本具有相同的特征,则可以考虑将该特征加入反病毒引擎的规则库。
[0029]本发明提出一种基于标签传播的样本关联性检测方法及系统,包括:获取样本集, 并计算样本集在各维度的特征及关联度,以样本及样本特征为节点,以具有关联度的的样本及节点的连线围边构建关联网络图,获取待检测样本的特征,并将其嵌入关联网络图,计算待检测样本在新关联网络图中与各连线上样本的权值乘积,若大于预设值,则输出对应连线上的样本。通过本发明的方法,能够利用代码及样本属性进行更多信息的判断,关联关系更准确,启发性更强。能够有效的输出具有关联性的样本,用于进一步判断待检测样本是否为仿冒文件,对恶意代码的检测具有辅助作用。
[0030]虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。
【主权项】
1.一种基于标签传播的样本关联性检测方法,其特征在于,包括:收集已知白样本文件及黑样本文件,组成样本集;对样本集在多个维度进行特征提取;分别计算样本集中两样本间的关联度,如果相似度大于预设值,则两样本间具有关联 性,否则两样本间不具有关联性;分别判断样本集中各样本在各维度上特征是否相同;如果是,则认为样本在对应维度 上的特征具有关联性,并给出各关联特征间的权值;否则样本在对应维度上不具有关联性; 根据样本间及样本在对应维度上特征的关联性,以样本及特征为节点,以具有关联性 的样本及特征的连线为边,构建关联网络图;获取待检测样本在各维度上的特征,并计算待检测样本与样本集中样本的关联度,将 所述特征及样本嵌入构建的关联网络图,连线构成新关联网络图;计算待检测样本在新关联网络图中与各连线上样本的权值乘积,并判断所述权值乘积 是否超过预设值,如果超过预设值,则向用户输出对应连线上的特征所对应的样本。2.如权利要求1所述的方法,其特征在于,所述分别计算样本集中两样本间的关联度具 体为:遍历获取各样本的代码中的类名及方法名,比较两样本间类名,如类名相同,则进一 步计算两样本在对应类名中的所有方法名交集个数,依次累加各相同类名中方法名交集数 量,除以两样本所有方法名并集数量,即为两样本间的关联度。3.如权利要求1或2所述的方法,其特征在于,所述各关联特征间的权值相同。4.如权利要求3所述的方法,其特征在于,所述对样本集在多个维度进行特征提取,至 少包括:样本来源维度、样本标识维度及样本名称维度;所述样本来源维度包括:1口、8口、611^;[1、111'1或域名的¥11〇13信息;所述样本标识维度包括:样本资源文件或图标的MD5值;所述样本名称维度包括:样本包名、程序名、文件签名或证书。5.—种基于标签传播的样本关联性检测系统,其特征在于,包括:样本收集模块,用于收集已知白样本文件及黑样本文件,组成样本集;特征提取模块,用于对样本集在多个维度进行特征提取;样本关联度计算模块,用于分别计算样本集中两样本间的关联度,如果相似度大于预 设值,则两样本间具有关联性,否则两样本间不具有关联性;特征判断模块,用于分别判断样本集中各样本在各维度上特征是否相同;如果是,则认 为样本在对应维度上的特征具有关联性,并给出各关联特征间的权值;否则样本在对应维 度上不具有关联性;关联网络图构建模块,用于根据样本间及样本在对应维度上特征的关联性,以样本及 特征为节点,以具有关联性的样本及特征的连线为边,构建关联网络图;待检测样本关联模块,用于获取待检测样本在各维度上的特征,并计算待检测样本与 样本集中样本的关联度,将所述特征及样本嵌入构建的关联网络图,连线构成新关联网络 图;结果输出模块,用于计算待检测样本在新关联网络图中与各连线上样本的权值乘积, 并判断所述权值乘积是否超过预设值,如果超过预设值,则向用户输出对应连线上的特征 所对应的样本。6.如权利要求5所述的系统,其特征在于,所述分别计算样本集中两样本间的关联度具 体为:遍历获取各样本的代码中的类名及方法名,比较两样本间类名,如类名相同,则进一 步计算两样本在对应类名中的所有方法名交集个数,依次累加各相同类名中方法名交集数 量,除以两样本所有方法名并集数量,即为两样本间的关联度。7.如权利要求5或6所述的系统,其特征在于,所述各关联特征间的权值相同。8.如权利要求7所述的系统,其特征在于,所述对样本集在多个维度进行特征提取,至 少包括:样本来源维度、样本标识维度及样本名称维度;所述样本来源维度包括:1口、8口、611^;[1、111'1或域名的¥11〇13信息;所述样本标识维度包括:样本资源文件或图标的MD5值;所述样本名称维度包括:样本包名、程序名、文件签名或证书。
【文档编号】G06F21/55GK105975852SQ201511015286
【公开日】2016年9月28日
【申请日】2015年12月31日
【发明人】张路, 潘宣辰
【申请人】武汉安天信息技术有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1