多协议网络文件内容检查方法

文档序号:6518975阅读:204来源:国知局
多协议网络文件内容检查方法
【专利摘要】本发明提供了一种多协议网络文件内容检查方法,用于基于简化特征的一类特征向量机来检测网络流量中的敏感信息;多协议网络文件内容检查方法包括:首先识别数据包的网络协议,进行数据包重组、解码、文本提取和复原;然后,对于复原的文本进行分词,使用特征简约算法提取特征向量,并进行分类。特征简约算法分别包括基于文档频率方法、信息增益方法、开方拟和检验方法。
【专利说明】多协议网络文件内容检查方法
【技术领域】
[0001]本发明涉及网络信息【技术领域】的方法,具体涉及一种多协议网络文件内容检查方法,更具体涉及一种基于简化特征的一类特征向量机的检测网络流量中的敏感信息的方法。
【背景技术】
[0002]互联网在近几十年迅猛发展,使得网络已经成为了信息化的重要组成部分,然而随之而来的却是良莠不齐的信息充斥着互联网空间。传统的网络流量敏感信息检测方法只能检测部分未编码的或者非乱序的数据包,在检测这部分信息也都是基于字符串匹配程序实现的。但是随着网络服务的日益更新,传统的文本敏感信息检测方法已经不能满足时代的需求。传统检测方法的缺点主要体现在如下几点:
[0003]1、无法处理有编码的或者乱序抵达的数据包
[0004]许多网络协议为了压缩传输数据大小,或者保证传输的正确率,往往使用约定的某些编码方式来传输数据包。传统的检测信息并不能理解传送双方的协议格式,因此无法正确对数据进行解码。而对于由于网络路径的选择不同而乱序,重复抵达的数据包,更是无法进行重组以获取原始信息。
[0005]2、全文匹配,浪费资源
[0006]传统技术对于进入系统内的文本进行全文匹配才能得出其是否包含不良信息的结论,虽然研究人员为了优化搜索难度,提出了 KMP算法,Boyer-Moore算法等,降低了系统处理的时间复杂度,但在最差的情况下,复杂度依然在O(m*n)。
[0007]3、不良特征需要预先定义
[0008]为了检测出不良文本,传统技术必须要预先定义需要被过滤的敏感信息,这就需要一个巨大的不良信息数据库作为基础。然而,一旦有新的不良信息出现,数据库的更新往往是滞后的,这就使得检测系统没有很好的实时性。
[0009]4、对于不良信息检测的鲁棒性不强
[0010]为了应付检测系统,文本往往被构造成与不良信息数据库有略微差别,但是人可以识别的模式。例如使用空格将敏感词语隔开,使用别字等,这个就为构造不良信息数据库构成了难度。
[0011]虽然研究人员使用分类这一概念来解决这个海量数据挖掘的问题,提出了 一类支持向量机的模型,但是在实际应用时却存在一些不足。其中比较突出的一点就是维数爆炸。这是因为文本内包含的词语量非常大,商务印书馆出版的《现代汉语词典》第5版(2005年5月出版),其中收录了 65000个词,使用如此高维度对存储资源和计算能力是一种严重浪费。

【发明内容】

[0012]本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种基于简化特征的一类特征向量机的检测网络流量中的敏感信息的新方法,该方法能很好地解决数据传统检测方法面临的问题。
[0013]为了实现上述技术目的,根据本发明,提供了一种多协议网络文件内容检查方法,用于基于简化特征的一类特征向量机来检测网络流量中的敏感信息,其包括:首先识别数据包的网络协议,进行数据包重组、解码、文本提取和复原;然后,对于复原的文本进行分词,使用特征简约算法提取特征向量,并进行分类。
[0014]优选地,特征向量为一些名词和动词。
[0015]优选地,特征简约算法分别包括基于文档频率方法、信息增益方法、开方拟和检验方法。
[0016]优选地,基于文档频率方法使用特征词在一个类别中出现的文档数量来表示这个特征词与该类别的相关度,而且在某个类别中的越多的文档中出现的特征词被保留的可能性越大。
[0017]优选地,信息增益方法通过计算系统引入该特征和未引入该特征的前后信息量的差值定义这个特征给系统带来的信息量来作为其对检测某个类别的依据。
[0018]优选地,开方拟和检验方法通过观察实际值与理论值的偏差来确定假设该特征对系统有很大影响的假定是否正确。
[0019]根据本发明,提供了 一种多协议网络文件内容检查方法,用于基于简化特征的一类特征向量机来检测网络流量中的敏感信息,其包括:
[0020]第一步,使用已经完成人为标记的文本数据库,对其进行分词,提取所有的名词和动词作为候选特征向量;
[0021]第二步,使用特征简约算法对候选特征向量进行提取;
[0022]第三步,使用一类支持向量机对已经完成人为标记的文本数据库进行训练,其中使用在第二步中从所有向量中提取出的特征向量,由此获得分类的标准;
[0023]第四步,确定数据包的传输协议,并根据RFC对于不同传输层和应用层协议的定义来提取、复原文本信息;
[0024]第五步,对于第四步中的复原的文本信息,进行分词,特征向量提取;然后根据第三步中的训练结果使用SVM进行分类,检测其是否为不良文本。
[0025]优选地,提取所有的名词和动词作为候选特征向量。
[0026]优选地,在第二步中,特征简约算法对候选特征向量进行提取,其特征是只提取对于系统影响较大的特征向量,特征简约算法包括基于文档频率方法、信息增益方法、开方拟和检验方法,具体为:
[0027](I)、基于文档频率方法
[0028]算法统计出所有数据库中的非停词的词语出现频率,然后根据出现频率进行排序,选择出现最多的若干个作为特征词供SVM算法进行维度映射,具体选取的数量根据系统需要的精确率,其中首先对数据库中的每一篇文章进行分词,只保留名词和动词作为特征词的备选词,然后对每一个不存在于停词表中的备选词进行数量统计,记录到频率表中,最后,将频率表中出现的备选词根据出现数量的多少进行排序,选择前η个作为DF算法得到的特征词,算法结束;
[0029](2)、信息增益方法[0030]对每一个预处理得到的备选词进行信息熵和条件熵的值的计算,在对每个备选词进行了引入熵值的计算值后,根据这个值从大到小来排序,选择前η个作为IG算法得到的特征词,算法结束;
[0031]其中,所述的信息熵,可以用如下公式计算
[0032]
【权利要求】
1.一种多协议网络文件内容检查方法,用于基于简化特征的一类特征向量机来检测网络流量中的敏感信息,其特征在于包括:首先识别数据包的网络协议,进行数据包重组、解码、文本提取和复原;然后,对于复原的文本进行分词,使用特征简约算法提取特征向量,并进行分类。
2.根据权利要求1所述的多协议网络文件内容检查方法,其特征在于,特征向量为一些名词和动词。
3.根据权利要求1或2所述的多协议网络文件内容检查方法,其特征在于,特征简约算法分别包括基于文档频率方法、信息增益方法、开方拟和检验方法。
4.根据权利要求3所述的多协议网络文件内容检查方法,其特征在于,基于文档频率方法使用特征词在一个类别中出现的文档数量来表示这个特征词与该类别的相关度,而且在某个类别中的越多的文档中出现的特征词被保留的可能性越大。
5.根据权利要求3所述的多协议网络文件内容检查方法,其特征在于,信息增益方法通过计算系统引入该特征和未引入该特征的前后信息量的差值定义这个特征给系统带来的信息量来作为其对检测某个类别的依据。
6.根据权利要求3所述的多协议网络文件内容检查方法,其特征在于,开方拟和检验方法通过观察实际值与理论值的偏差来确定假设该特征对系统有很大影响的假定是否正确。
7.一种多协议网络文件内容检查方法,用于基于简化特征的一类特征向量机来检测网络流量中的敏感信息,其特征在于包括: 第一步,使用已经完成人为 标记的文本数据库,对其进行分词,提取所有的名词和动词作为候选特征向量; 第二步,使用特征简约算法对候选特征向量进行提取; 第三步,使用一类支持向量机对已经完成人为标记的文本数据库进行训练,其中使用在第二步中从所有向量中提取出的特征向量,由此获得分类的标准; 第四步,确定数据包的传输协议,并根据RFC对于不同传输层和应用层协议的定义来提取、复原文本信息; 第五步,对于第四步中的复原的文本信息,进行分词,特征向量提取;然后根据第三步中的训练结果使用SVM进行分类,检测其是否为不良文本。
8.根据权利要求7所述的多协议网络文件内容检查方法,其特征在于,提取所有的名词和动词作为候选特征向量。
9.根据权利要求7或8所述的多协议网络文件内容检查方法,其特征在于,在第二步中,特征简约算法对候选特征向量进行提取,其特征是只提取对于系统影响较大的特征向量,特征简约算法包括基于文档频率方法、信息增益方法、开方拟和检验方法,具体为: (I)、基于文档频率方法 算法统计出所有数据库中的非停词的词语出现频率,然后根据出现频率进行排序,选择出现最多的若干个作为特征词供SVM算法进行维度映射,具体选取的数量根据系统需要的精确率,其中首先对数据库中的每一篇文章进行分词,只保留名词和动词作为特征词的备选词,然后对每一个不存在于停词表中的备选词进行数量统计,记录到频率表中,最后,将频率表中出现的备选词根据出现数量的多少进行排序,选择前η个作为DF算法得到的特征词,算法结束; (2)、信息增益方法 对每一个预处理得到的备选词进行信息熵和条件熵的值的计算,在对每个备选词进行了引入熵值的计算值后,根据这个值从大到小来排序,选择前η个作为IG算法得到的特征词,算法结束; 其中,所述的信息熵,可以用如下公式计算
10.根据权利要求7或8所述的多协议网络文件内容检查方法,其特征在于,在第四步中,根据数据包内的偏移字段的值确定文本信息的网络层以及应用层使用的协议;将网络层中的信息用于确认数据包的顺序,以便按照其原有的发送的正确序列还原应用层的信息,应用层中的信息详细定义编码方式。
【文档编号】G06F17/27GK103617156SQ201310567527
【公开日】2014年3月5日 申请日期:2013年11月14日 优先权日:2013年11月14日
【发明者】刘功申, 丁宵云, 苏波, 孟魁, 宁蔚 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1