网络病毒的识别方法、装置、计算机设备及存储介质与流程

文档序号:29466715发布日期:2022-04-02 03:35阅读:127来源:国知局
网络病毒的识别方法、装置、计算机设备及存储介质与流程

1.本技术涉及网络安全技术领域,尤其涉及一种网络病毒的识别方法、装置、计算机设备及存储介质。


背景技术:

2.恶意代码识别客观上解决的是一个复杂的、超大规模的网络病毒分类判别任务。传统的利用人工分析或自动化提取判别特征片段的方法,难以提供足够的泛化能力发现未知样本,具有一定的滞后性。
3.同时,传统分析并检测网络病毒的方法是人工分析调试该病毒,针对其行为模式,提取一段含有特殊意义的特征,然后利用该特征进行对该病毒的检测。但是人工检测网络病毒的效率和准确率较低。


技术实现要素:

4.本技术实施例提供一种网络病毒的识别方法、装置、计算机设备及存储介质,用于提高识别网络病毒的效率及准确率。
5.本发明实施例提供一种网络病毒的识别方法,所述方法包括:
6.确定多种类型的病毒样本分别对应的原始特征和病毒标签;
7.对所述原始特征进行处理;
8.对处理后的原始特征以及所述病毒标签进行模型训练,得到病毒分类识别模型;
9.提取所述病毒分类识别模型的部分参数,生成特征融合模型;
10.将目标程序代码输入到所述特征融合模型中,得到所述目标程序代码的特异性特征向量;
11.确定所述目标程序代码的特异性特征向量所对应的聚类簇,根据确定的聚类簇确定目标程序代码是否属于网络病毒。
12.本发明实施例提供一种网络病毒的识别装置,所述装置包括:
13.确定模块,用于确定多种类型的病毒样本分别对应的原始特征和病毒标签;
14.预处理模块,用于对所述原始特征进行处理;
15.训练模块,用于对处理后的原始特征以及所述病毒标签进行模型训练,得到病毒分类识别模型;
16.生成模块,用于提取所述病毒分类识别模型的部分参数,生成特征融合模型;
17.获取模块,用于将目标程序代码输入到所述特征融合模型中,得到所述目标程序代码的特异性特征向量;
18.所述确定模块,还用于确定所述目标程序代码的特异性特征向量所对应的聚类簇,根据确定的聚类簇确定目标程序代码是否属于网络病毒。
19.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述网络病毒的识别方
法。
20.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述网络病毒的识别方法。
21.一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述的网络病毒的识别方法。
22.本发明提供一种网络病毒的识别方法、装置、计算机设备及存储介质,确定多种类型的病毒样本分别对应的原始特征和病毒标签,对原始特征进行处理,对处理后的原始特征以及病毒标签进行模型训练,得到病毒分类识别模型;提取病毒分类识别模型的部分参数,生成特征融合模型;将目标程序代码输入到特征融合模型中,得到目标程序代码的特异性特征向量;确定目标程序代码的特异性特征向量所对应的聚类簇,根据确定的聚类簇确定目标程序代码是否属于网络病毒。即本发明利用特征融合模型实现对各种类型特征的融合,即得到特异性特征向量,该特异性特征向量是对样本原始冗余特征集合的融合表达,可以在保留原始特征特异性的前提下,简化原始特征规模、统一特征形式、规范特征结构,之后根据特异性特征向量进行聚类计算确定目标程序代码是否属于网络病毒,从而通过本发明提高了识别网络病毒的效率及准确率。
附图说明
23.图1为本技术提供的一种网络病毒的识别方法流程图;
24.图2为本技术提供的一种模型结构图;
25.图3为本技术提供的另一种网络病毒的识别方法流程图;
26.图4为本技术提供的又一种网络病毒的识别方法流程图;
27.图5为本技术提供的网络病毒的识别装置的结构示意图。
28.图6为本技术提供的计算机设备的一示意图。
具体实施方式
29.为了更好的理解上述技术方案,下面通过附图以及具体实施例对本技术实施例的技术方案做详细的说明,应当理解本技术实施例以及实施例中的具体特征是对本技术实施例技术方案的详细的说明,而不是对本技术技术方案的限定,在不冲突的情况下,本技术实施例以及实施例中的技术特征可以相互组合。
30.实施例一
31.请参阅图1,为本发明实施例提供的一种网络病毒的识别方法,该方法具体包括步骤s101-步骤s106:
32.步骤s101,确定多种类型的病毒样本分别对应的原始特征和病毒标签。
33.其中,原始特征包括数值型特征、字符型特征、序列化特征和图特征,原始特征是指从样本中通过静态、动态特征分析等手段,提取到的恶意代码特征信息,原始特征包括静态特征和动态特征。具体地,可通过静态分析得到静态特征,该静态特征包括文件格式信息、文件属性信息、字符串信息、二进制信息、指令特征信息;利用动态分析得到动态特征,该动态特征包括本地行为特征、网络行为特征、api调用特征等,本发明实施例不做具体限定。
34.对于本发明实施例,病毒标签用于表示病毒的类型,本实施例中有多少种病毒类型,便有对应的多个病毒标签。病毒的类型可以分为病毒、木马、蠕虫等类别,每一个类别又有很多不同的恶意代码家族,每一个家族中可能存在很多个不同的变种,每一个变种又存在很多不同的文件;此处的不同样本类别,可以为任何不同的恶意代码(样本程序代码)变种。
35.需要说明的是,本实施例中的病毒标签除了可以表示对应的病毒类型,还可以表示对应病毒的表现形式,该表现形式可以为自解压包、加壳等,本实施例对其表现形式不做具体限定。
36.步骤s102,对原始特征进行处理。
37.其中,对原始特征进行处理,包括:对数值型特征进行归一化处理得到目标数值,将字符型特征、序列化特征和图特征转换成对应的第一向量、第二向量和第三向量。
38.其中,具体可以通过embedding等方法将字符型特征、序列化特征转换为词向量(即第一向量和第二向量的表现形式),将图特征转换为图向量(即第三向量)。
39.步骤s103,对处理后的原始特征以及病毒标签进行模型训练,得到病毒分类识别模型。
40.具体的,本实施例可以根据第一向量、第二向量、第三向量和目标数值组成的处理后的原始特征,以及病毒标签进行模型训练,得到病毒分类识别模型。
41.本实施例可以直接对第一向量、第二向量、第三向量和目标数值进行拼接,得到处理后的原始特征。需要说明的是,本实施例不对拼接的顺序进行限定。
42.步骤s104,提取病毒分类识别模型的部分参数,生成特征融合模型。
43.具体的,提取所述病毒分类识别模型的部分参数包括:移除所述病毒分类识别模型中的输出层,提取所述病毒分类识别模型的剩余的模型参数;将所述输出层的输入的特异性特征向量作为所述特征融合模型的输出;利用所述剩余的模型参数生成特征融合模型。
44.构建的病毒分类识别模型包括但不限于cnn结构网络、rnn结构网络、bert结构网络。如图2所示,该模型具备多层结构,以归一化、embedding等方法预处理后的样本原始特征作为模型的输入,以对应的病毒标签作为输出进行模型训练,并更新模型参数直至模型稳定。然后,提取该模型中的模型参数,生成特征融合模型,移除病毒分类识别模型中的输出层,以向输出层输入的特异性特征向量作为特征融合模型的输出。
45.其中,特异性特征向量具备固定的形式和值域范围,是对样本原始冗余特征集合(数值型特征、字符型特征、序列化特征和图特征)的融合表达,可以在保留原始特征特异性的前提下,简化原始特征规模、统一特征形式、规范特征结构,之后可根据特异性特征向量进行聚类计算,以确定目标程序代码是否属于网络病毒。
46.步骤s105,将目标程序代码输入到特征融合模型中,得到目标程序代码的特异性特征向量。
47.在本实施例中,由于已经对分类识别模型中的输出层进行了移除操作,因此在将目标程序代码输入到特征融合模型中之后,可以得到与目标程序代码的特异性特征向量。
48.步骤s106,确定目标程序代码的特异性特征向量所对应的聚类簇,根据确定的聚类簇确定目标程序代码是否属于网络病毒。
49.其中,聚类簇是通过对样本对应的特异性特征向量进行聚类计算得到的,每个聚类簇都对应一个病毒标签,该聚簇内的样本都属于病毒标签对应的类型的病毒。在本实施例中,可将海明距离作为特征距离度量,将各样本对应的特异性特征向量作为输入,进行聚类计算得到多个聚类簇。然后,根据聚类簇中特异性特征向量对应的病毒标签的数量分布,选择占比最大的病毒标签作为聚类簇的病毒标签。其中,病毒标签可以为该样本所属的恶意软件家族名称,是否为自解压包、是否加壳、是否为apt工具等标记信息。
50.本发明提供一种网络病毒的识别方法,确定多种类型的病毒样本分别对应的原始特征和病毒标签,对原始特征进行处理,对处理后的原始特征以及病毒标签进行模型训练,得到病毒分类识别模型;提取病毒分类识别模型的部分参数,生成特征融合模型;将目标程序代码输入到特征融合模型中,得到目标程序代码的特异性特征向量;确定目标程序代码的特异性特征向量所对应的聚类簇,根据确定的聚类簇确定目标程序代码是否属于网络病毒。即本发明利用特征融合模型实现对各种类型特征的融合,即得到特异性特征向量,该特异性特征向量是对样本原始冗余特征集合的融合表达,可以在保留原始特征特异性的前提下,简化原始特征规模、统一特征形式、规范特征结构,之后根据特异性特征向量进行聚类计算确定目标程序代码是否属于网络病毒,从而通过本发明提高了识别网络病毒的效率及准确率。
51.实施例二
52.请参阅图3,为本发明实施例提供的一种网络病毒的识别方法,该方法具体包括步骤s301-步骤s305:
53.步骤s301,确定多种类型的病毒样本分别对应的原始特征和病毒标签。
54.本实施例在确定原始特征中各个类型特征之后,需要根据原始特征对应的特征值类型进行相应的预处理,特征值类型是指提取到的特征原始表示形式,比如对人来说其身高体重的特征值类型是数值、性别的特征值类型是布尔型的变量、指纹是图片。具体的,本实施例依据样本中原始特征的数据类型,可将原始特征分成数值型特征(文件资源个数,文件节数量)、字符型特征、序列化特征(反汇编指令序列)和图特征(系统调用流程图)、布尔特征(是否存在可执行节)等。
55.步骤s302,计算原始特征中数值型特征、字符型特征、序列化特征和图特征分别对应的哈希编码。
56.在本发明提供的一个可选实施例中,计算所述数值型特征、所述字符型特征、所述序列化特征和/或所述图特征分别对应的哈希编码,包括:
57.步骤s3021,对数值型特征和字符型特征进行哈希计算得到所述数值型特征、字符型特征分别对应的哈希编码。
58.具体的,对于字符型特征(如ip,域名)的特征值接进行哈希计算得到字符型特征分别对应的哈希编码。对于数值型特征(如pe文件节个数,资源文件个数)可按照其特征名直接进行哈希计算得到对应的哈希编码,还可以根据特征值名及对应的特征值进行哈希计算得到对应的哈希编码,本实施例对此不做具体限定。
59.例如,数值型特征为的特征值名为“调用的文件个数”,特征值为50,则可以对“调用的文件个数”进行哈希计算得到对应的哈希编码,或根据“调用的文件个数”结合特征值50进行哈希计算得到对应的哈希编码。
60.进一步的,本实施例在计算数值型特征对应的哈希编码之前,可以对数值型特征进行归一化处理,然后在根据归一化处理的数值型特征进行哈希计算得到对应的哈希编码。
61.步骤s3022,将序列化特征中的每个特征转换为固定长度的特征向量。
62.其中,特征向量的长度和所述哈希编码的长度相同。
63.步骤s3023,对序列化特征中的每个特征的特征向量进行相加,得到目标特征向量。
64.步骤s3024,根据所述目标特征向量确定所述序列化特征对应的哈希编码。
65.其中,根据目标特征向量确定所述序列化特征对应的哈希编码,包括:获取目标特征向量中每个向量的值的大小;将所述目标特征向量中的值大于0的向量的值重新设置为1,将值小于或等于0的向量的值重新设置为0,得到所述序列化特征对应的哈希编码。
66.例如,序列化特征为反汇编指令序列,其序列内容为(lea,mov,mov,cmp,jz),对该序列化特征进行embedding处理,得到序列化特征中的每一项特征的向量,即得到(lea,mov,mov,cmp,jz)中的lea、mov、mov、cmp、jz分别对应的固定长度的(128)维的向量化表示,对序列化特征每一项向量进行累加,即可得到序列特征(lea,mov,mov,cmp,jz)的固定长度向量,再对向量中的每一个值进行截断(即该值大于0则为1,小于等于0则为0),即得到了固定长度(128)位的二进制序列,即得到序列化特征对应的哈希编码。
67.对于图特征,可以将其表示为点(函数或api调用)与边(关联)的集合,这些数据可以通过embedding的方法,实现图种点和边的向量化表示。
68.步骤s303,根据数值型特征、字符型特征、序列化特征和图特征分别对应的哈希编码,确定样本对应的特异性特征向量。
69.具体的,本实施可以对数值型特征、字符型特征、序列化特征和图特征分别对应的哈希编码进行相加,将相加的结果确定为样本对应的特异性特征向量。
70.在本发明提供的一个可选实施例中,所述根据所述数值型特征、所述字符型特征、所述序列化特征和所述图特征分别对应的哈希编码,确定所述样本对应的特异性特征向量,包括:确定所述数值型特征、所述字符型特征、所述序列化特征和所述图特征分别对应的权重值;对所述数值型特征、所述字符型特征、所述序列化特征和所述图特征分别对应的哈希编码进行加权计算,得到样本对应的特异性特征向量。
71.在本发明实施例中,数值型特征、字符型特征、序列化特征和图特征分别对应的权重值的确定方式可以为:对所述数值型特征进行归一化处理,得到对应的权重值;通过词频-逆向文件频率tf-idf算法确定所述字符型特征对应的权重值;序列化特征和图特征对应的权重值为预先设定的。具体的,针对字符型特征或布尔型特征,通过统计特征值出现的频度tf,以及特征值在全体样本集合中出现的频度idf,利用tf-idf方法实现权值的标定;针对序列化特征得到的embedding哈希编码,则使用预先标定的经验权值作为对应哈希编码的权值。
72.另外,数值型特征、字符型特征、序列化特征和图特征分别对应的权重值的确定方式还可以为:将所述数值型特征、所述字符型特征、所述序列化特征和所述图特征进行组合得到汇总特征;将所述汇总特征输入到权重识别模型得到各个特征分别对应的权重值,所述权重识别模型根据汇总特征样本及与所述汇总特征样本中各个特征分别对应的权重值
训练得到的,各个特征的权重值是根据tf-idf算法确定的。
73.具体的,将所述数值型特征、所述字符型特征、所述序列化特征和所述图特征分别对应的哈希编码进行组合得到汇总特征,然后将汇总特征输入到权重识别模型得到各个特征分别对应的权重值。
74.步骤s304,根据聚类算法对样本对应的特异性特征向量和病毒标签进行聚类计算,得到多个聚类簇。
75.步骤s305,确定目标程序代码的特异性特征向量所对应的聚类簇,根据确定的聚类簇确定目标程序代码是否属于网络病毒。
76.其中,根据多个聚类簇识别目标程序代码是否属于网络病毒,包括:获取所述目标程序代码的原始特征;确定所述目标程序代码的原始特征对应的特异性特征向量;通过所述聚类算法确定所述目标程序代码的特异性特征向量是否有所属的聚类簇;若所述目标程序代码的特异性特征向量有所属的聚类簇,根据所属的聚类簇对应的聚类标签,确定为目标程序代码对应的网络病毒,所述聚类标签用于表示对应聚类簇的病毒类型;若所述目标程序代码的特异性特征向量没有所属的聚类簇,则确定所述目标程序代码不属于网络病毒。
77.例如,对目标程序代码进行k近邻检索,若设定的最大有效距离阈值为6,k为20,则特异性特征向量之间距离小于6的带病毒标签的样本即为有效近邻,一共找到100个有效近邻,他们的距离从0到5不等。对100个近邻按距离从小到大排列,选择其中最近的20个。再对这20个样本自身的病毒标签(样本家族,是否为包,是否为壳)进行投票给出判定结果(20个中有19个标记为木马,1个标记为蠕虫,所有标记不是加壳,都标记不是自解压包),那么判定目标程序代码为木马、非子解压包、非加壳文件。
78.本发明提供一种网络病毒的识别方法,确定多种病毒类型的样本分别对应的原始特征和病毒标签,该原始特征包括数值型特征、字符型特征、序列化特征和图特征;计算原始特征中各个特征分别对应的哈希编码;根据所有特征对应的哈希编码,确定样本对应的特异性特征向量;根据聚类算法对样本对应的特异性特征向量和病毒标签进行聚类计算,得到多个聚类簇;最后确定目标程序代码的特异性特征向量所对应的聚类簇,根据确定的聚类簇确定目标程序代码是否属于网络病毒。即本发明利用特异性特征向量融合技术,在实现特征降维、格式化表达得同时极大程度得保留了多源特征中的样本特异性信息,之后根据特异性特征向量进行聚类计算确定目标程序代码是否属于网络病毒,从而通过本发明提高了识别网络病毒的效率及准确率。
79.实施例三
80.请参阅图4,为本发明实施例提供的另一种网络病毒的识别方法,该方法具体包括步骤s401-步骤s405:
81.步骤s401,确定目标程序代码的特异性特征向量。
82.需要说明的是,本实施例中的步骤s401特异性特征向量的确定方式与图3中对应步骤的描述内容相同,本实施例在此不再赘述。
83.步骤s402,根据目标程序代码的特异性特征向量,获取通过聚类算法确定的目标程序代码对应的网络病毒,以及通过病毒库确定的目标程序代码对应的网络病毒。
84.需要说明的是,本实施例中根据目标程序代码的特异性特征向量,获取通过聚类
算法确定的目标程序代码对应的网络病毒的具体实现方式,与图3相应步骤的描述内容相同,本实施例在此不再赘述。
85.在本实施例中,根据目标程序代码的特异性特征向量,获取通过病毒库确定的目标程序代码对应的网络病毒,包括:计算所述目标程序代码的特异性特征向量与病毒库中的各种类型的病毒特征的相似度;将所述与病毒库中相似度超过预置数值的特异性特征向量对应的病毒种类,确定为所述目标程序代码对应的网络病毒。
86.其中,所述病毒库中存储有各种类型病毒的特异性特征向量分别对应的病毒种类。本实施例在获取到目标程序代码的特异性特征向量之后,计算目标程序代码的特异性特征向量与病毒库中特异性特征向量的相似度,最后将与病毒库中相似度超过预置数值的病毒特征对应的病毒种类,确定为目标程序代码对应的网络病毒。预置数值可以根据实际需求进行设定,如预置数值可以为80%、85%或90%等,本实施例对此不做具体限定。
87.例如,病毒库中包括5种特异性特征向量的病毒特征,分别为病毒类型1、病毒类型2、病毒类型3、病毒类型4和病毒类型5。在计算得到目标程序代码对应的特异性特征向量与病毒类型1的特异性特征向量的相似度为65%、目标程序代码对应的特异性特征向量与病毒类型2的特异性特征向量的相似度为60%、目标程序代码对应的特异性特征向量与病毒类型3的特异性特征向量的相似度为90%、目标程序代码对应的特异性特征向量与病毒类型4的特异性特征向量的相似度为54%、目标程序代码对应的特异性特征向量与病毒类型5的特异性特征向量的相似度为89%,若预置数值为85%,则可以确定病毒类型3和病毒类型5为目标程序代码对应的网络病毒。
88.步骤s403,计算通过聚类算法和病毒库确定的网络病毒中属于同一网络病毒的概率值。
89.步骤s404,将概率值最高的网络病毒,确定为目标程序代码对应的网络病毒。
90.例如,在步骤s402中根据病毒库确定的目标程序代码对应的网络病毒为病毒类型3和病毒类型5,其中,病毒类型3的相似度为90%(即概率值),病毒类型5的相似度为89%;根据聚类算法确定的目标程序代码对应的网络病毒为病毒类型3和病毒类型2,其中,属于病毒类型3所在聚簇的概率值为90%,属于病毒类型2所在聚簇的概率值为20%,则对属于同一网络病毒(病毒类型3)进行求平均,得到对应的病毒类型3的概率值为90%、病毒类型5的概率值为89%、病毒类型2的概率值为20%,得到概率值最高的的网络病毒为病毒类型3,即确定目标程序代码的病毒类型为网络病毒3。
91.本发明提供一种网络病毒的识别方法,根据目标程序代码的特异性特征向量,获取通过聚类算法确定的目标程序代码对应的网络病毒,以及通过病毒库确定的目标程序代码对应的网络病毒,然后综合聚类算法和病毒库两种方式确定目标程序代码对应的网络病毒,以进一步提高网络病毒识别的准确度。
92.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
93.在一实施例中,提供一种网络病毒的识别装置,该网络病毒的识别装置与上述实施例中网络病毒的识别方法一一对应。如图5所示,所述网络病毒的识别装置各功能模块详细说明如下:
94.确定模块51,用于确定多种类型的病毒样本分别对应的原始特征和病毒标签;
95.预处理模块52,用于对所述原始特征进行处理;
96.训练模块53,用于对处理后的原始特征以及所述病毒标签进行模型训练,得到病毒分类识别模型;
97.生成模块54,用于提取所述病毒分类识别模型的部分参数,生成特征融合模型;
98.获取模块55,用于将目标程序代码输入到所述特征融合模型中,得到所述目标程序代码的特异性特征向量;
99.所述确定模块51,还用于确定所述目标程序代码的特异性特征向量所对应的聚类簇,根据确定的聚类簇确定目标程序代码是否属于网络病。
100.在一个可选的实施例中,所述原始特征包括数值型特征、字符型特征、序列化特征和图特征;预处理模块52,具体用于对所述数值型特征进行归一化处理得到目标数值,将所述字符型特征、所述序列化特征和所述图特征转换成对应的第一向量、第二向量和第三向量。
101.在一个可选的实施例中,生成模块54,具体用于:
102.移除所述病毒分类识别模型中的输出层,提取所述病毒分类识别模型的剩余的模型参数;
103.将所述输出层的输入的特异性特征向量作为所述特征融合模型的输出;
104.利用所述剩余的模型参数生成特征融合模型。
105.在一个可选的实施例中,所述装置还包括:计算模块56;
106.计算模块56,用于计算所述数值型特征、所述字符型特征、所述序列化特征和所述图特征分别对应的哈希编码;
107.确定模块51,还用于根据所述数值型特征、所述字符型特征、所述序列化特征和所述图特征分别对应的哈希编码,确定所述样本对应的特异性特征向量。
108.在一个可选的实施例中,所述确定模块51,具体用于:
109.确定所述数值型特征、所述字符型特征、所述序列化特征和所述图特征分别对应的权重值;
110.对所述数值型特征、所述字符型特征、所述序列化特征和所述图特征分别对应的哈希编码进行加权计算,得到所述样本对应的特异性特征向量。
111.在一个可选的实施例中,确定模块51,具体用于;
112.通过所述聚类算法确定所述目标程序代码的特异性特征向量是否有所属的聚类簇;
113.若所述目标程序代码的特异性特征向量有所属的聚类簇,根据所属的聚类簇对应的聚类标签,确定为所述目标程序代码对应的网络病毒,所述聚类标签用于表示对应聚类簇的病毒类型;
114.若所述目标程序代码的特异性特征向量没有所属的聚类簇,则确定所述目标程序代码不属于网络病毒。
115.在一个可选的实施例中,计算模块56,还用于计算所述目标程序代码的特异性特征向量与病毒库中的各种类型的病毒特征的相似度;所述病毒库中存储有各种类型病毒的特异性特征向量分别对应的病毒种类;
116.确定模块51,还用于将所述与病毒库中相似度超过预置数值的特异性特征向量对应的病毒种类,确定为所述目标程序代码对应的网络病毒。
117.在一个可选的实施例中,所述计算模块56,还用于获取通过所述聚类算法确定的所述目标程序代码对应的网络病毒,以及通过所述病毒库确定的所述目标程序代码对应的网络病毒;计算通过所述聚类算法和所述病毒库确定的网络病毒中属于同一网络病毒的概率值;
118.确定模块51,还用于将所述概率值最高的网络病毒,确定为所述目标程序代码对应的网络病毒。
119.关于网络病毒的识别装置的具体限定可以参见上文中对于网络病毒的识别方法的限定,在此不再赘述。上述设备中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
120.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网络病毒的识别方法。
121.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
122.确定多种类型的病毒样本分别对应的原始特征和病毒标签;
123.对所述原始特征进行处理;
124.对处理后的原始特征以及所述病毒标签进行模型训练,得到病毒分类识别模型;
125.提取所述病毒分类识别模型的部分参数,生成特征融合模型;
126.将目标程序代码输入到所述特征融合模型中,得到所述目标程序代码的特异性特征向量;
127.确定所述目标程序代码的特异性特征向量所对应的聚类簇,根据确定的聚类簇确定目标程序代码是否属于网络病毒。
128.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
129.确定多种类型的病毒样本分别对应的原始特征和病毒标签;
130.对所述原始特征进行处理;
131.对处理后的原始特征以及所述病毒标签进行模型训练,得到病毒分类识别模型;
132.提取所述病毒分类识别模型的部分参数,生成特征融合模型;
133.将目标程序代码输入到所述特征融合模型中,得到所述目标程序代码的特异性特征向量;
134.确定所述目标程序代码的特异性特征向量所对应的聚类簇,根据确定的聚类簇确定目标程序代码是否属于网络病毒。
135.在一个实施例中,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序被处理器执行实现以下步骤:
136.确定多种类型的病毒样本分别对应的原始特征和病毒标签;
137.对所述原始特征进行处理;
138.对处理后的原始特征以及所述病毒标签进行模型训练,得到病毒分类识别模型;
139.提取所述病毒分类识别模型的部分参数,生成特征融合模型;
140.将目标程序代码输入到所述特征融合模型中,得到所述目标程序代码的特异性特征向量;
141.确定所述目标程序代码的特异性特征向量所对应的聚类簇,根据确定的聚类簇确定目标程序代码是否属于网络病毒。
142.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
143.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
144.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1