一种多级过滤的源代码数据检测方法及装置与流程

文档序号:12470966阅读:来源:国知局

技术特征:

1.一种多级过滤的源代码数据检测方法,该方法包括以下步骤:

(1)文件类型检测过滤,包括:判断输入文件是否为指定文件类型,如果是,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(2);

(2)词法分析过滤,包括:将所述文件统一转换成标准文件,提取所述标准文件中的词法记号,并为不同词法记号建立相应的权重,根据所述权重计算所述文件中词法记号的加权得分总和,判断所述加权得分总和是否超过指定阈值,如果是,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(3);

(3)语法分析过滤,包括:从所述文件截取指定长度的文本作为可疑文本,提取所述可疑文本中包含的语法短语和表达式,判断所述语法短语或表达式对于源代码构成的重要程度是否超过指定阈值,如果是,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(4);

(4)语义分析过滤,包括:提取所述文本的语义特征,将其与指定核心源代码的语义特征进行相似性分析,如果相似,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(6);

(5)对包含源程序数据的文件做敏感数据保护,结束检测;

(6)对所述文件做无源代码标记,结束检测。

2.根据权利要求1所述的方法,所述步骤(1)中所述输入文件为:本地进行存储或网络外发的文件。

3.根据权利要求1所述的方法,所述词法记号包括:特定程序设计语言中的关键字、标识符、算符和界符。

4.根据权利要求1所述的方法,所述步骤(3)从所述文件截取指定长度的可疑文本具体包括:根据执行所述数据检测方法的装置性能,确定所述指定长度,并截取所述权重大于指定阈值的词法记号后所述指定长度的文本作为可疑文本,截取的该可疑文本包含该词法记号。

5.根据权利要求4所述的方法,所述步骤(3)中提取所述可疑文本中包含的语法短语和表达式具体包括:对所述可疑文本进行语法分析,将相邻的词法记号组合成符合程序设计语言规则的语法短语和表达式。

6.根据权利要求4或5所述的方法,所述判断所述语法短语或表达式对于源代码构成的重要程度具体为:根据所述语法短语在语法树中的层级,判断其重要程度,根据所述表达式的运算复杂度,判断其重要程度。

7.根据权利要求1所述的方法,所述步骤(4)中利用关键字词频统计或局部敏感哈希(LSH)方法提取所述标准文件的语义特征,将所述指定核心源代码的语义特征构造成敏感信息摘要样本库,对所述可疑文本进行语义特征提取,获得其信息摘要,将该信息摘要与所述敏感信息摘要样本库中的样本进行相似性分析,若所述可疑文本的所述信息摘要与所述信息摘要样本库中某一样本近似,则将该文件判定为包含源代码数据的文件。

8.一种多级过滤的源代码数据检测装置,该装置包括:

文件类型检测过滤模块,用于判断输入文件是否为指定文件类型,从而判断该文件是否包含源代码数据;

词法分析过滤模块,将所述文件统一转换成标准文件,提取所述标准文件中的词法记号并为不同词法记号建立相应的权重,计算所述文件中词法记号对权重的加权得分总和,判断所述加权得分总和是否超过指定阈值,从而判断该文件是否包含源代码数据;

语法分析过滤模块,从所述文件截取指定长度的文本作为可疑文本,提取所述可疑文本中包含的语法短语和表达式,判断所述语法短语或表达式对于源代码构成的重要程度是否超过指定阈值,从而判断该文件是否包含源代码数据;

语义分析过滤模块,提取所述文本的语义特征,将其与指定核心源代码的语义特征进行相似性分析,从而判断该文件是否包含源代码数据;

敏感数据保护模块,对包含源程序数据的文件做敏感数据保护;

无源代码标记模块,对所述文件做无源代码标记。

9.根据权利要求8所述的装置,所述输入文件为:本地进行存储或网络外发的文件。

10.根据权利要求8所述的装置,所述词法记号包括:特定程序设计语言中的关键字、标识符、算符和界符。

11.根据权利要求8所述的装置,从所述文件截取指定长度的可疑文本具体包括:根据所述检测装置的性能,确定所述指定长度,并截取所述权重大于指定阈值的词法记号后所述指定长度的文本作为可疑文本,截取的该可疑文本包含所述词法记号。

12.根据权利要求10所述的装置,提取所述可疑文本中包含的语法短语和表达式具体包括:对所述可疑文本进行语法分析,将相邻的词法记号组合成符合程序设计语言规则的语法短语和表达式。

13.根据权利要求8所述的装置,所述语义分析过滤模块利用关键字词频统计或局部敏感哈希(LSH)方法提取所述标准文件的语义特征,将所述指定核心源代码的语义特征构造成敏感信息摘要样本库,对所述可疑文本进行语义特征提取,获得其信息摘要,将该信息摘要与所述敏感信息摘要样本库中的样本进行相似性分析,若所述可疑文本的所述信息摘要与所述信息摘要样本库中某一样本近似,则将该文件判定为包含源代码数据的文件。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1