1.一种样本类别判定方法,其特征在于,所述方法包括如下步骤:
步骤1、收集样本程序集,由人工对程序集进行分类判断标记分为恶意程序集和正常程序集,分别组成样本库;
步骤2、将所述样本库中的所述恶意程序集和正常程序集提交至虚拟沙箱环境运行,所述样本程序集中每一样本程序在所述模拟沙箱环境运行后生成相应的样本分析报告;
步骤3、解析所述样本分析报告,提取特有特征组合信息,生成特征向量集;
步骤4、将所述特征向量集输入分类器进行训练,得到最佳模型;
步骤5、将待测程序输入所述最佳模型,得到所述待测程序是恶意程序或正常程序的判别结果。
2.根据权利要求1所述的样本类别判定方法,其特征在于,所述步骤2中所述分析报告为JSON格式,所述分析报告包括所述每一样本程序在执行过程中对不同API的调用信息、以及所述每一样本程序触发的不同规则的信息。
3.根据权利要求2所述的样本类别判定方法,其特征在于,所述规则信息包括API行为规则,文件操作行为规则,网络行为规则,注册表行为规则以及上述行为的混合行为规则。
4.根据权利要求3所述的样本类别判定方法,其特征在于,所述步骤3中提取的特有特征为:所述样本程序调用特有的API,以及所述样本程序是否触发可疑规则两种,将所述样本程序对可疑规则的触发情况,以及对特有API调用进行统计组合后形成多维度特征向量集。
5.根据权利要求4所述的样本类别判定方法,其特征在于,所述步骤4中分类器生成过程如下:
将所述样本集分为训练样本集和测试样本集;
将所述训练样本集的特征向量分别输入到n个不同的分类器进行训练,得到训练后的n个分类器;
将所述测试样本集的特征向量分别输入到所述n个训练后的分类器,得到预测结果;
比较所述预测结果与所述训练样本集的实际类别标记值,生成最佳分类器。
6.根据权利要求5所述的样本类别判定方法,其特征在于,所述步骤4中所述得到最佳模型过程如下:
将所述步骤3得到的所述特征向量集和所述样本集的实际类别标记值组合;
将所述组合划分为训练样本集和测试样本集;
将所述训练集输入到所述最佳分类器进行训练;
调整所述最佳分类器参数并进行交叉验证;
选择最佳参数并对所述测试集进行预测;
通过比较所述测试集预测结果与所述测试集实际类别标记值,得出最佳模型。
7.根据权利要求1所述的样本类别判定方法,其特征在于,将所述带有标记的恶意程序集拆分,使得每堆恶意程序数量和所述正常程序数量近似相同,形成多份训练样本集;
将所述多份训练样本集输入所述分类器,训练生成多个模型;
将所有所述训练样本集分别输入至所述每个模型,得到所述每个模型对所有所述训练样本集的预测结果矩阵;
将所述预测结果矩阵与所述训练样本集的实际类别标记值组成特征向量;
将所述特征向量集输入机器学习分类器进行训练,得到所述每个模型计算未知程序分类结果的权值;
将待测样本程序输入至所述每个模型得出预测值,然后再根据所述每个模型的权值对上述预测在进行加权求和,得出所述待测样本程序的最终分类结果。
8.根据权利要求7所述的样本类别判定方法,其特征在于,所述机器学习分类器训练目标函数为其中r为所述模型的个数,训练时,调整所述目标函数J(θ)的参数向量θ,使得所述目标函数J(θ)取极值,生成的参数向量θ(θ1,θ2,...,θr)即为所述模型的权值。
9.根据权利要求8所述的样本类别判定方法,其特征在于,所述加权求和具体方法为:
其中,θi为所述第i个模型的权值,Ci则为所述第i个模型对待测样本程序的预测值。