一种数据特征提取的方法及装置的制造方法_6

文档序号:9791787阅读:来源:国知局
述一个报文应用层负载字节序中的第一个字节开始,以2字节为单位进行字节段提取,直到剩余字节的长度小于2为止,获得第一提取结果; 从所述一个报文应用层负载字节序中的第二个字节开始,以2字节为单位进行字节段提取,直到剩余字节的长度小于2为止,获得第二提取结果; 分别将第一提取结果和第二提取结果中包含的每一个字节段作为一个模式串,生成相应的模式串集合,并保存每一个模式串在所述一个报文应用层负载字节序中的起始位置值和结束位置值。5.如权利要求3或4所述的方法,其特征在于,将当前构建的状态机与从第二会话中提取的任意一个报文应用层负载字节序进行匹配后,获得相应的匹配结果,在所述匹配结果中记录有匹配得到的所有特征串,以及每一个特征串在第一会话中的报文应用层负载字节序中的起始位置值和结束位置值,以及在第二会话中的报文应用层负载字节序中的起始位置值和结束位置值;其中,所述特征串为,所述当前构建的状态机中的所有模式串中在所述从第二会话中提取的任意一个报文应用层负载字节序中出现的任意一个模式串。6.如权利要求5所述的方法,其特征在于,将当前构建的状态机与从第二会话中提取的任意一个报文应用层负载字节序进行匹配,获得相应的匹配结果,对当前获得的匹配结果进行迭代合并,具体包括: 将当前获得的匹配结果中的每一个特征串按照每一个特征串在第二会话中的报文应用层负载字节序中的起始位置值以及每一个特征串在第一会话中的报文应用层负载字节序中的起始位置值,按照从小到大的顺序进行排序; 排序结束后,从第一个特征串开始,依次判断相邻的两个特征串是否可以迭代合并,若是,则获得迭代合并后的特征串,否则,从下一个特征串开始,依次判断相邻的两个特征串是否可以迭代合并,直到最后一个特征串为止;其中,迭代合并表示,相邻的两个特征串合并后,将合并后的特征串再和相邻的下一个特征串进行合并; 针对上述所有不能迭代合并的特征串,依次判断每一个特征串在第二会话中的报文应用层负载字节序中的起始位置值和在第一会话中的报文应用层负载字节序中的起始位置值是否相等,若是,则进行保留,否则,进行舍弃; 将经迭代合并后的匹配结果中连续为OxOO和Oxff的特征串舍弃。7.如权利要求6所述的方法,其特征在于,判断相邻的两个特征串是否可以迭代合并,具体包括: 判断相邻的两个特征串是否满足预设条件;其中,所述预设条件为,相邻的两个特征串中的前一个特征串在第二会话中的报文应用层负载字节序中的结束位置值不小于后一个特征串在第二会话中的报文应用层负载字节序中的起始位置值,并且,后一个特征串在第二会话中的报文应用层负载字节序中的结束位置值与前一个特征串在第二会话中的报文应用层负载字节序中的起始位置值的第一差值,与,后一个特征串在第一会话中的报文应用层负载字节序中的结束位置值与前一个特征串在第一会话中的报文应用层负载字节序中的起始位置值的第二差值相等,以及,所述第一差值和第二差值都不小于2。8.如权利要求1一 7任一项所述的方法,其特征在于,根据预设规则计算当前获得的经迭代合并后的匹配结果的权值,具体包括: 将经迭代合并后的匹配结果中每一个长度为2的特征串的权值设置为I,并将每一个长度大于2的特征串的权值设置为2; 将经迭代合并后的匹配结果中每一个特征串的权值进行累加,获得所有特征串的权值和,并所述权值和作为所述当前获得的迭代合并后的匹配结果的权值。9.如权利要求1-8任一项所述的方法,其特征在于,进一步包括: 根据所述报文信息和所述应用操作的数据特征,构建识别所述应用操作的规则,其中,报文信息中至少包括,源端口、目的端口、报文在会话中的位置以及报文在会话中的流向信息。10.一种数据特征提取的装置,其特征在于,包括: 提取单元,用于确定需要进行数据特征提取的第一会话和第二会话,并从所述第一会话包含的报文中提取第一设定数目的报文信息,以及从所述第二会话包含的报文中提取第二设定数目的报文信息;其中,所述第一会话和第二会话是同一个应用操作在不同时间所产生的,所述报文信息中至少包括报文应用层负载字节序; 匹配单元,用于采用指定的匹配算法,依次根据从第一会话中提取的每一个报文应用层负载字节序构建相应的状态机,每构建一个状态机,将当前构建的状态机与从第二会话中提取的每一个报文应用层负载字节序依次进行匹配,每执行一次匹配,对当前获得的匹配结果进行迭代合并,并根据预设规则计算当前获得的经迭代合并后的匹配结果的权值,直到确定当前获得的权值不小于设定阈值为止,确定匹配成功并停止构建状态机及停止匹配,以及将当前获得的经迭代合并后的匹配结果作为所述应用操作的数据特征。11.如权利要求10所述的装置,其特征在于,从所述第一会话包含的报文中提取第一设定数目的报文信息,以及从所述第二会话包含的报文中提取第二设定数目的报文信息时,提取单元具体用于: 依次从第一会话中读取报文,每读取一个报文,判断当前读取的一个报文的应用层负载长度是否大于O,且是否为重传报文,并在确定所述一个报文的应用层负载长度大于O,且不是重传报文时,从所述一个报文中提取报文信息,直至提取到第一设定数目的报文信息为止,停止读取报文;其中,报文信息中至少包括应用层负载长度; 依次从第二会话中读取报文,每读取一个报文,判断当前读取的一个报文的应用层负载长度是否大于O,且是否为重传报文,并在确定所述一个报文的应用层负载长度大于O,且不是重传报文时,从所述一个报文中提取报文信息,直至提取到第二设定数目的报文信息为止,停止读取报文;其中,报文信息中至少包括应用层负载长度。12.如权利要求10所述的装置,其特征在于,采用指定的匹配算法,根据从第一会话中提取的一个报文应用层负载字节序构建相应的状态机时,匹配单元具体用于: 基于从第一会话中提取的一个报文应用层负载字节序,采用预设方式进行处理,得到相应的模式串集合; 基于所述模式串集合,采用指定的匹配算法构建相应的状态机。13.如权利要求12所述的装置,其特征在于,基于从第一会话中提取的一个报文应用层负载字节序,采用预设方式进行处理,得到相应的模式串集合时,匹配单元具体用于: 从所述一个报文应用层负载字节序中的第一个字节开始,以2字节为单位进行字节段提取,直到剩余字节的长度小于2为止,获得第一提取结果; 从所述一个报文应用层负载字节序中的第二个字节开始,以2字节为单位进行字节段提取,直到剩余字节的长度小于2为止,获得第二提取结果; 分别将第一提取结果和第二提取结果中包含的每一个字节段作为一个模式串,生成相应的模式串集合,并保存每一个模式串在所述一个报文应用层负载字节序中的起始位置值和结束位置值。14.如权利要求12或13所述的装置,其特征在于,将当前构建的状态机与从第二会话中提取的任意一个报文应用层负载字节序进行匹配后,获得相应的匹配结果,在所述匹配结果中记录有匹配得到的所有特征串,以及每一个特征串在第一会话中的报文应用层负载字节序中的起始位置值和结束位置值,以及在第二会话中的报文应用层负载字节序中的起始位置值和结束位置值;其中,所述特征串为,所述当前构建的状态机中的所有模式串中在所述从第二会话中提取的任意一个报文应用层负载字节序中出现的任意一个模式串。15.如权利要求14所述的装置,其特征在于,将当前构建的状态机与从第二会话中提取的任意一个报文应用层负载字节序进行匹配,获得相应的匹配结果,对当前获得的匹配结果进行迭代合并时,进一步包括,优化单元,用于: 将当前获得的匹配结果中的每一个特征串按照每一个特征串在第二会话中的报文应用层负载字节序中的起始位置值以及每一个特征串在第一会话中的报文应用层负载字节序中的起始位置值,按照从小到大的顺序进行排序; 排序结束后,从第一个特征串开始,依次判断相邻的两个特征串是否可以迭代合并,若是,则获得合并后的特征串,否则,从下一个特征串开始,依次判断相邻的两个特征串是否可以迭代合并,直到最后一个特征串为止;其中,迭代合并表示,相邻的两个特征串合并后,将合并后的特征串再和相邻的下一个特征串进行合并; 针对上述所有不能迭代合并的特征串,依次判断每一个特征串在第二会话中的报文应用层负载字节序中的起始位置值和在第一会话中的报文应用层负载字节序中的起始位置值是否相等时,若是,则进行保留,否则,进行舍弃; 将经迭代合并后的匹配结果中连续为OxOO和Oxff的特征串舍弃。16.如权利要求15所述的装置,其特征在于,判断相邻的两个特征串是否可以迭代合并时,优化单元具体用于: 判断相邻的两个特征串是否满足预设条件;其中,所述预设条件为,相邻的两个特征串中的前一个特征串在第二会话中的报文应用层负载字节序中的结束位置值不小于后一个特征串在第二会话中的报文应用层负载字节序中的起始位置值,并且,后一个特征串在第二会话中的报文应用层负载字节序中的结束位置值与前一个特征串在第二会话中的报文应用层负载字节序中的起始位置值的第一差值,与,后一个特征串在第一会话中的报文应用层负载字节序中的结束位置值与前一个特征串在第一会话中的报文应用层负载字节序中的起始位置值的第二差值相等,以及,所述第一差值和第二差值都不小于2。17.如权利要求10—16任一项所述的装置,其特征在于,根据预设规则计算当前获得的经迭代合并后的匹配结果的权值时,匹配单元具体用于: 将经迭代合并后的匹配结果中每一个长度为2的特征串的权值设置为I,并将每一个长度大于2的特征串的权值设置为2; 将经迭代合并后的匹配结果中每一个特征串的权值进行累加,获得所有特征串的权值和,并所述权值和作为所述当前获得的迭代合并后的匹配结果的权值。18.如权利要求10-17任一项所述的装置,其特征在于,进一步包括,规则创建单元,用于: 根据所述报文信息和所述应用操作的数据特征,构建识别所述应用操作的规则,其中,报文信息中至少包括,源端口、目的端口、报文在会话中的位置以及报文在会话中的流向信息。
【专利摘要】本发明涉及通信技术领域,尤其涉及一种数据特征提取的方法及装置。该方法为,分别从确定的第一会话和第二会话中提取设定数目的报文信息,其中,第一会话和第二会话是同一个应用操作在不同时间所产生的,报文信息中至少包括报文应用层负载字节序;根据从第一会话提取的报文应用层负载字节序和指定多模式匹配算法,构建相应状态机,并根据从第二会话中提取的报文应用层负载字节序,进行匹配,获得应用操作的数据特征,解决了对私有协议及加密流量的应用特征提取难得问题,提高了效率,解放了人力,并且通过特征串迭代合并得到了强特征集合,提高了所提取特征串的有效性。
【IPC分类】H04L29/08, H04L12/26
【公开号】CN105554152
【申请号】CN201511021283
【发明人】徐牧池
【申请人】北京神州绿盟信息安全科技股份有限公司, 北京神州绿盟科技有限公司
【公开日】2016年5月4日
【申请日】2015年12月30日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1