一种基于语法形式的脚本类文件格式识别方法和系统与流程

文档序号:12669960阅读:183来源:国知局
一种基于语法形式的脚本类文件格式识别方法和系统与流程

本发明涉及网络安全技术领域,尤其涉及一种基于语法形式的脚本类文件格式识别方法。



背景技术:

传统的格式识别方法多采用结构方法进行识别,例如格式幻数等。格式识别技术在恶意代码检测中,具有十分重要的作用。格式识别的准确性对于更好更快的检测恶意代码重要的基础技术。

脚本类文件语法灵活多样,没有固定的结构,无法用传统的格式识别方法 (例如幻数方法等)进行识别,而在与恶意代码检测中,又需要识别脚本类文件格式。



技术实现要素:

针对上述技术问题,本发明所述的技术方案提出了一种基于语法形式的脚本类文件格式识别方法和系统,即,基于每类文件的语法特征通过一些识别方法进行识别脚本类文件,解决了传统方法中,对于脚本类格式识别难的问题,采用基于脚本语法特点的方法,可以有效提高脚本类格式识别的准确率和降低误报率

本发明采用如下方法来实现:

一种基于语法形式的脚本类文件格式识别方法,包括:

获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;

针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;

将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;

所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。

本发明采用如下系统来实现:

一种基于语法形式的脚本类文件格式识别系统,包括:

分析模块,用于获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;

提取模块,用于针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;

测试模块,用于将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;

所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。

综上,本发明给出一种基于语法形式的脚本类文件格式识别方法及系统,包括:获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点直至完成识别。

有益效果为:

本方法解决了传统方法中,对于脚本类格式识别难的问题,采用基于脚本语法特点的方法,可以有效提高脚本类格式识别的准确率和降低误报率。

附图说明

为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于语法形式的脚本类文件格式识别方法实施例流程图;

图2为本发明提供的一种基于语法形式的脚本类文件格式识别系统实施例结构图。

具体实施方式

本发明给出了一种基于语法形式的脚本类文件格式识别方法及系统实施例,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明:

本发明首先提供一种基于语法形式的脚本类文件格式识别方法实施例,如图1所示,包括:

S101获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;

其中,所述语法特点包括关键词、函数声明等形式。

S102针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;

其中,提取单一识别点的为javascript脚本文件,它的识别点为匿名函数的形式;提取多个识别点的如MIME的信息标签,信息标签如”from”、”to”等字样。

S103将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;

其中,可用的识别点是基于不同的识别方法转换成相对应的识别规则,识别方法包括但不限于正则、状态机,相对应的识别规则包括正则表达式、状态机序列等。

所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。

本发明同时提供了一种基于语法形式的脚本类文件格式识别系统实施例,如图2所示,包括:

分析模块201,用于获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;

提取模块202,用于针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;

测试模块203,用于将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;

其中,可用的识别点是基于不同的识别方法转换成相对应的识别规则,识别方法包括但不限于正则、状态机,相对应的识别规则包括正则表达式、状态机序列等。

所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

如上所述,上述实施例给出了一种基于语法形式的脚本类文件格式识别方法,包括:获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。采用基于脚本语法特点的方法,可以有效提高脚本类格式识别的准确度和降低误报率。

以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1