一种提取样本代码特征的方法及装置与流程

文档序号:12786775阅读:来源:国知局

技术特征:

1.一种提取样本代码特征的方法,其特征在于,包括:

获取样本集合中包含的黑样本、白样本的虚拟机执行文件;

对黑、白样本对应的所述虚拟机执行文件进行反编译,得到反编译的函数信息结构;

提取所述反编译的函数信息结构中的函数指令序列;

逐一确定所述样本集合中的黑样本对应的函数指令序列中包含的、且所述样本集合中的白样本对应的函数指令序列中未包含的指令序列片段,得到包含上述指令序列片段的片段集合;

基于所述片段集合中包含的指令序列片段,确定至少一个最优指令序列片段。

2.如权利要求1所述的方法,其特征在于,基于所述片段集合中包含的指令序列片段,确定至少一个最优指令序列片段,包括:

将所述片段集合中包含的指令序列片段按照出现次数从大到小进行排序,并将排序靠前的至少一个指令序列片段确定为最优指令序列片段;或,

若所述片段集合中包含的指令序列片段的出现次数超过预设阈值,则将该指令序列片段确定为最优指令序列片段。

3.如权利要求1所述的方法,其特征在于,逐一确定所述样本集合中的黑样本对应的函数指令序列中包含的、且所述样本集合中的白样本对应的函数指令序列中未包含的指令序列片段之后,还包括:

判断所述指令序列片段包含的字符数是否超过预设值,若是,则将其归入片段集合中。

4.如权利要求3所述的方法,其特征在于,判断所述指令序列片段包含的字符数是否超过预设值之前,还包括:

确定所述预设值与所述函数指令序列的字符总数正相关。

5.一种提取样本代码特征的方法,其特征在于,包括:

获取样本集合中包含的黑样本、白样本的虚拟机执行文件;

对黑、白样本对应的所述虚拟机执行文件进行反编译,得到反编译的函数信息结构;

提取所述反编译的函数信息结构中的助记符序列;

逐一确定所述样本集合中的黑样本对应的助记符序列中包含的、且所述样本集合中的白样本对应的助记符序列中未包含的助记符序列片段,得到包含上述助记符序列片段的片段集合;

基于所述片段集合中包含的助记符序列片段,确定至少一个最优助记符序列片段。

6.一种提取样本代码特征的装置,其特征在于,包括:

获取单元,用于获取样本集合中包含的黑样本、白样本的虚拟机执行文件;

反编译单元,用于对黑、白样本对应的所述虚拟机执行文件进行反编译,得到反编译的函数信息结构;

提取单元,用于提取所述反编译的函数信息结构中的函数指令序列;

片段集合确定单元,用于逐一确定所述样本集合中的黑样本对应的函数指令序列中包含的、且所述样本集合中的白样本对应的函数指令序列中未包含的指令序列片段,得到包含上述指令序列片段的片段集合;

最优指令序列确定单元,用于基于所述片段集合中包含的指令序列片段,确定至少一个最优指令序列片段。

7.如权利要求6所述的装置,其特征在于,所述最优指令序列确定单元用于:

将所述片段集合中包含的指令序列片段按照出现次数从大到小进行排序,并将排序靠前的至少一个指令序列片段确定为最优指令序列片段;或,

若所述片段集合中包含的指令序列片段的出现次数超过预设阈值,则将该指令序列片段确定为最优指令序列片段。

8.如权利要求6所述的装置,其特征在于,所述装置还包括:

判断单元,用于判断所述指令序列片段包含的字符数是否超过预设值,若是,则将其归入片段集合中。

9.如权利要求8所述的装置,其特征在于,所述装置还包括:

预设值确定单元,用于在判断所述指令序列片段包含的字符数是否超过预设值之前,确定所述预设值与所述函数指令序列的字符总数正相关。

10.一种提取样本代码特征的装置,其特征在于,包括:

获取单元,用于获取样本集合中包含的黑样本、白样本的虚拟机执行文件;

反编译单元,用于对黑、白样本对应的所述虚拟机执行文件进行反编译,得到反编译的函数信息结构;

提取单元,用于提取所述反编译的函数信息结构中的助记符序列;

片段集合确定单元,用于逐一确定所述样本集合中的黑样本对应的助记符序列中包含的、且所述样本集合中的白样本对应的助记符序列中未包含的助记符序列片段,得到包含上述助记符序列片段的片段集合;

最优指令序列确定单元,用于基于所述片段集合中包含的助记符序列片段,确定至少一个最优助记符序列片段。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1