入侵检测方法及系统的制作方法

文档序号:6493108阅读:374来源:国知局
入侵检测方法及系统的制作方法
【专利摘要】本发明公开了一种入侵检测方法及系统,通过图划分方法对测试样本集合进行聚类分析,然后利用训练样本集合来确定对测试样本集合进行聚类分析而得到的聚簇的行为类别,从而实现了对测试样本集合的行为类别的确定。由于对测试样本集合的行为类别的确定过程并不完全依赖于训练样本集合所包含的训练样本所属的行为类别,因此采用本发明实施例提供的方案能够发现新的行为类别。
【专利说明】入侵检测方法及系统
【技术领域】
[0001]本发明涉及入侵检测【技术领域】,尤其涉及一种入侵检测方法及系统。
【背景技术】
[0002]Internet为资源的共享与信息的交流提供了高效而便捷的全新方式,但同时它也被占有、偷窃、甚至毁坏他人的计算机信息系统资源的入侵者所利用,使得网络中的信息资源面临着严重的安全威胁。为了保证网络信息系统的安全,人们从很多方面都采取了一定的措施,该些措施共同构成了网络安全防御体系。
[0003]入侵检测(Intrusion Detection)技术是网络安全防御体系的一种核心技术。它通过运用一些自治和智能的工具对计算机系统或计算机网络中的若干关键点信息进行收集和分析,并检测其中是否有违反安全策略的攻击企图、攻击行为或攻击结果,从而实现对系统或网络资源的实时保护。该技术是由静态防护转化为动态防护的关键,也是强制执行安全策略的有力工具。
[0004]传统的入侵检测大多基于数据挖掘及机器学习方法,大致有以下几种基本思想:
[0005]一种是把入侵检测看作是一个模式识别问题,即根据网络流量特征(目的地址、源地址、目的端口号、源端口号、传输协议、发送字节数、TCP选项等)和主机审计记录(CPU利用率、I/o利用率、文件访问、用户命令调用序列)等来区分系统的正常行为和异常行为,即可以看做是一个典型的分类问题。特别地,在训练样本是不均衡的未标定数据集时,入侵检测又可视为一个孤立点发现或样本密度估计问题。统计机器学习理论为解决这类问题提供了大量的方法,如k近邻算法、聚类、模式匹配、支持向量机、神经网络等。
[0006]另一种则是把入侵检测视为一个知识表示和规则提取问题。在用于实现入侵检测的入侵检测系统中,实际的数据源往往具有多变性、不同质、高维数等特性,这就使得在高速网络环境下采集的数据通常构成的是一个多属性、非线性的海量数据集。在这种情况下,可以通过基于符号的归纳机器学习方法(如决策树、粗糙集等)对该数据集进行约简处理,得到面向用户的数据的简洁表示,并提取出正常行为的规则,从而完成异常检测。机器学习方法则可以被看作一个搜索问题,即按照一定的搜索策略在假设集中完成对学习目标的搜索问题。从这种观点出发,入侵检测可视为基于训练样本集,按照既定的搜索策略对目标函数的搜索或逼近问题,通过学习,期望得到表示目标函数的最优解的过程。遗传和进化机器学习为完成这种类型的学习问题提供了有力的工具。
[0007]面对目前越来越频繁出现的分布式、多目标、多阶段的组合式网络攻击和黑客行为,采用多节点、分布式、可伸缩性的入侵检测体系结构已成为必然的趋势。网络攻击手段的多样化、攻击的分布式和自动化迫使入侵检测系统必须动态地适应网络环境的变化,这样的要求和增强机器学习方法的本质一致。增强机器学习方法,特别是多Agent系统学习方法在大型入侵检测系统中得到了广泛的应用,它充分利用了 Agent的自治性、反应性、移动性、协作性和智能性。
[0008]由于入侵检测和机器学习方法之间存在较密切的关系,因此在实际使用中,可以将多种机器学习方法结合起来将取得更好的效果,但同时,还应该首先保证入侵检测系统的正确性,其次保证其实时性。因为只有检测正确,才能获得准确的入侵信息,从而更好的保护网络的安全;而只有检测速度快,才能及时处理网络中传输的海量数据,而不会产生因为速度慢而丢失信息、造成漏警的情况,并更能保证及时的采取相应措施,将入侵带来的损失降到最低。
[0009]以下具体介绍基于机器学习方法的各种入侵检测在正确性和实时性等方面的特
占-
^ \\\.[0010]现有的基于机器学习方法的入侵检测可以分为基于监督学习方法的入侵检测、基于无监督学习方法的入侵检测和基于半监督学习方法的入侵检测三种。
[0011]针对基于监督学习方法的入侵检测而言,首先需要对足够多的带有类别标注的训练样本进行学习,这不仅需要花费大量的人力对足够多的训练样本进行类别标注,耗费大量的机器学习时间获得学习模型,而且检测的范围只能局限于训练样本所标注的类别范围内,不能检测出新的行为类别(如攻击类型的行为类别等);而且在入侵检测过程中,正常数据的数量通常远远大于异常数据的数量,这种数据集失衡的情况对学习模型的质量也有很大的影响。而对于基于无监督学习方法的入侵检测而言,其检测精度明显低于基于监督学习方法的入侵检测,而且入侵检测结果的准确性很大程度上取决于人工设定的相关参数(如聚类的类别数目)。
[0012]在现有技术中,如何在训练数据稀缺且正常数据和入侵数据比例失衡的现实网络环境下,既能保证入侵检测的效率(即保证高检测率和低误报率),降低入侵检测结果对人工的依赖程度,又能根据样本的实际分布情况进行入侵检测,并发现新的攻击类型,成为当前的研究热点。

【发明内容】

[0013]本发明实施例提供一种入侵检测方法及系统,用以解决现有技术中采用的入侵检测方法不能检测出新的行为类别的问题。
[0014]本发明实施例采用以下技术方案:
[0015]一种入侵检测方法,包括:入侵检测系统获得输入的入侵检测数据集合,其中,所述入侵检测数据集合由训练样本集合和测试样本集合构成,所述训练样本集合由分别对应于不同行为类别的训练样本簇构成,所述测试样本集合由待检测样本构成;基于图划分方法,确定所述测试样本集合所包含的由待检测样本构成的各个聚簇;针对每个所述聚簇,执行下述操作:
[0016]确定用于表征该聚簇与不同训练样本簇之间的相对互连程度的各相对互连度值和用于表征该聚簇与不同训练样本簇之间的相对紧密程度的各相对紧密度值;并根据所述测试样本集合所包含的聚簇的总个数、所述训练样本集合所包含的训练样本簇对应的行为类别的数目,以及确定的各相对互连度值和各相对紧密度值,确定该聚簇的行为类别。
[0017]一种入侵检测系统,包括:数据集合获得单元,用于获得输入的入侵检测数据集合,其中,所述入侵检测数据集合由训练样本集合和测试样本集合构成,所述训练样本集合由分别对应于不同行为类别的训练样本簇构成,所述测试样本集合由待检测样本构成;聚簇确定单元,用于基于图划分方法,确定数据集合获得单元获得的所述测试样本集合所包含的由待检测样本构成的各个聚簇;行为类别确定单元,用于针对聚簇确定单元确定的每个所述聚簇,执行:确定用于表征该聚簇与不同训练样本簇之间的相对互连程度的各相对互连度值和用于表征该聚簇与不同训练样本簇之间的相对紧密程度的各相对紧密度值;并根据所述测试样本集合所包含的聚簇的总个数、所述训练样本集合所包含的训练样本簇对应的行为类别的数目,以及确定的各相对互连度值和各相对紧密度值,确定该聚簇的行为类别。
[0018]本发明实施例的有益效果如下:
[0019]本发明实施例提供的上述方案通过图划分方法对测试样本集合进行聚类分析,然后利用训练样本集合来确定对测试样本集合进行聚类分析而得到的聚簇的行为类别,从而实现了对测试样本集合的行为类别的确定。由于对测试样本集合的行为类别的确定过程并不完全依赖于训练样本集合所包含的训练样本所属的行为类别,因此采用本发明实施例提供的方案能够发现新的行为类别。
[0020]本发明实施例提供的方案将LDA主题模型引入入侵检测过程中,根据潜在主题的分布情况和潜在主题的属性特征的分布情况对入侵检测数据进行特征选择,可以获得更符合网络特征的高质量的属性特征,减少数据冗余,提高入侵检测的效率。
【专利附图】

【附图说明】
[0021]图1为本发明实施例提供的一种入侵检测方法的具体流程示意图;
[0022]图2a为实际应用中基于LDA模型和图划分方法的入侵检测方法的具体流程示意图;
[0023]图2b为本发明实施例中的步骤23的具体实现过程示意图;
[0024]图2c为本发明实施例中的步骤24的具体实现过程示意图;
[0025]图2d为本发明实施例中的步骤25的具体实现过程示意图;
[0026]图2e为本发明实施例中的步骤26的具体实现过程示意图;
[0027]图3为本发明实施例中采用的一种LDA模型的示意图;
[0028]图4为本发明实施例提供的一种入侵检测系统的具体结构示意图。
【具体实施方式】
[0029]为了解决现有技术中采用的入侵检测方法不能检测出新的行为类别的问题,本发明实施例提供了一种新型的入侵检测方案。该方案通过图划分方法对测试样本集合进行聚类分析,然后利用训练样本集合来确定对测试样本集合进行聚类分析而得到的聚簇的行为类别,从而实现了对测试样本集合的行为类别的确定。由于对测试样本集合的行为类别的确定过程并不像现有技术那样完全依赖于训练样本集合所包含的训练样本的行为类别,因此采用本发明实施例提供的方案能够发现新的行为类别。
[0030]以下结合附图,详细说明本发明实施例提供的方案。
[0031]首先,本发明实施例提供一种如图1所示的入侵检测方法,其主要包括以下步骤:
[0032]步骤11,入侵检测系统获得输入的入侵检测数据集合;
[0033]其中,入侵检测数据集合由训练样本集合和测试样本集合构成,训练样本集合由分别对应于不同行为类别的训练样本簇构成,测试样本集合由待检测样本构成;[0034]步骤12,基于图划分方法,确定测试样本集合所包含的由待检测样本构成的各个聚簇;
[0035]步骤13,针对每个聚簇,执行下述操作:
[0036]首先,确定用于表征该聚簇与不同训练样本簇之间的相对互连程度的各相对互连度值和用于表征该聚簇与不同训练样本簇之间的相对紧密程度的各相对紧密度值;
[0037]然后,根据测试样本集合所包含的聚簇的总个数、训练样本集合所包含的训练样本簇对应的行为类别的数目,以及确定的各相对互连度值和各相对紧密度值,确定该聚簇的行为类别。具体地,入侵检测系统可以根据训练样本集合,先确定相对互连度阈值和相对紧密度阈值;然后,基于测试样本集合所包含的聚簇的总个数、训练样本集合所包含的训练样本簇对应的行为类别的数目,可以比较该总个数和该数目,并根据比较结果确定聚簇的行为类别。比如,上述聚簇,在比较得到该总个数不大于该数目时,可以分别确定该聚簇和各训练样本簇之间的相对互连度值和相应的相对紧密度值的乘积,并根据最大的所述乘积对应的训练样本簇的行为类别确定该聚簇的行为类别是否为入侵行为类别;而在比较得到该总个数大于该数目时,判断是否存在满足预定判决条件的训练样本簇;在判断结果为是时,根据满足该条件的训练样本簇的行为类别确定该聚簇的行为类别是否为入侵行为类别;在判断结果为否时,确定该聚簇的行为类别为不同于任意训练样本簇所属行为类别的新的行为类别。
[0038]其中,预定判决条件可以包括:训练样本簇与该聚簇之间的相对互连度值和相对紧密度值分别不小于相对互连度阈值和相对紧密度阈值。
[0039]其中,根据训练样本集合确定相对互连度阈值和相对紧密度阈值的具体过程可以包括下述子步骤:
[0040]子步骤1,确定入侵检测数据集合所包含的潜在主题的个数、入侵检测数据集合中的每个待检测样本所包含的潜在主题的分布概率值和每个潜在主题所包含的属性特征的分布概率值;
[0041]该子步骤I的具体实现过程可以采用下述方式:
[0042]根据LDA模型混乱度分析技术,确定入侵检测数据集合所包含的潜在主题的个数;
[0043]基于指定的超参数α和β,Gibbs抽样估计技术以及确定出的入侵检测数据集合所包含的潜在主题的个数,确定入侵检测数据集合中的每个待检测样本所包含的潜在主题的分布概率值和每个潜在主题所包含的属性特征的分布概率值。
[0044]子步骤2,根据确定的潜在主题的分布概率值和属性特征的分布概率值,分别确定入侵检测数据集合所包含的每个潜在主题所包含的属性特征的重要度值;
[0045]子步骤3,根据确定出的各重要度值,从潜在主题所包含的属性特征中选取属性特征;
[0046]子步骤4,根据选取的属性特征和训练样本集合,确定用于表征训练样本集合中包含的各个训练样本的邻接图,并根据邻接图中作为邻接图节点的不同训练样本之间的距离,确定不同训练样本簇之间的相对互连度值和相对紧密度值;
[0047]子步骤5,根据确定出的各相对互连度值和相对紧密度值,确定相对互连度阈值和相对紧密度阈值。[0048]此外需要重点说明的是,步骤12的具体实现方式可以包括下述步骤:
[0049]首先,根据预先规定的相似节点个数,确定用于表征测试样本集合中包含的待检测样本的最近邻图;
[0050]然后,针对该最近邻图中由待检测样本所表征的最近邻图节点构成的最大集合循环执行第一指定操作,直至确定出对最大集合进行划分而得到的子集合均符合划分结束条件时,以符合划分结束条件的各子集合分别作为聚簇循环执行第二指定操作,直至对聚簇进行合并而得到的聚簇满足合并结束条件时,循环执行第三指定操作,直至聚簇的总个数不大于预设个数阈值。
[0051]以下对上述过程中提及的一些参数和概念进行说明:
[0052]预设个数阈值是根据测试样本集合所包含的潜在主题的数目、训练样本集合所包含的潜在主题的数目,以及训练样本集合所包含的训练样本簇对应的行为类别的数目而确定的;
[0053]第一指定操作包括:基于对最大集合划分成两个子集合时所需要截断的最近邻图节点之间的连线的加权和最小的划分原则,将最大集合划分成两个子集合;判断划分得到的子集合是否均符合划分结束条件;在判断结果为否时,将不符合划分结束条件的子集合作为最大集合。其中,划分结束条件包括:划分得到的子集合中的最近邻图节点彼此之间的连线数小于最近邻图包含的最近邻图节点总数乘以指定比例值所得的积。
[0054]第二指定操作包括:针对每个聚簇,从除该聚簇外的其他聚簇中,确定是否存在不满足合并结束条件的聚簇;在确定存在时,将该聚簇与不满足合并结束条件的一个聚簇合并为一个聚簇。其中,合并结束条件包括:与该聚簇的相对互连性值小于相对互连性阈值,或与该聚簇的相对紧密度值小于相对紧密度阈值。
[0055]第三指定操作包括:比较合并而得到的聚簇的总个数与预设个数阈值,在比较出合并而得到的聚簇的总个数大于预设个数阈值时,针对合并而得到的每个聚簇执行:针对每个合并而得到的聚簇,从除该聚簇外的合并而得到的每个聚簇中,选取与该聚簇的相对互连性值和相对紧密度值的乘积最大的聚簇,并将该聚簇与选取的聚簇合并为一个合并而得到的聚簇。
[0056]以下通过对实际应用中的一个具体实施例的介绍,详细说明本发明实施例提供的方案在实际中的具体实现方式。
[0057]如图2a所示,为实际应用中基于LDA模型和图划分方法的入侵检测方法的具体流程示意图。需要说明的是,图2a仅是对该流程中各步骤的简要说明,该些步骤的具体实现过程将在后文进行统一介绍。以下具体对该流程主要包括的各步骤做简单说明:
[0058]步骤21,入侵检测系统获得输入自身的原始的入侵检测数据集,并对原始的入侵检测数据集进行预处理,即将原始的入侵检测数据集中的每条连接记录的属性特征进行数值化和标准化处理,得到标准的入侵检测数据集D = X U Y。其中X = (X1, -,XJ为带有类别标注的训练样本集合,N为训练样本集合对应的类别的个数,Xi为属于类别Ci的样本集合(即样本簇),i = [I,N],Y为测试样本集合。
[0059]步骤22,入侵检测系统执行对D的LDA建模操作,并估计D的潜在主题数目T、超参数α和β、以及连接记录所包含的潜在主题的分布概率值Θ和潜在主题所包含的属性特征的分布概率值Φ。同时,分别通过执行对X和Y建立LDA模型的操作,确定其潜在主题数目。如,假设确定出X的潜在主题数目为T1, Y的潜在主题数目为T2,并令L=I/N。
[0060]其中,假设D的潜在主题有T个,则可以假设某条连接记录所包含的各潜在主题的分布概率值分别为Q1,…ek,…eT,i<k<T,从而θ可以看成是一个分布概率值集合,其包含元素Q1,…ek,…θτ。假设某潜在主题所包含的属性特征有R个,则可以进一步假设该潜在主题所包含的各属性特征的分布概率值分别为O1,…O1,,其中l^l^Ro从而该潜在主题对应的φ可以看成是一个分布概率值集合,其包含元素O1,…①I,...0r。
[0061]步骤23,根据通过执行步骤22而构建的LDA模型进行属性特征选择。
[0062]步骤24,根据X的样本分布设置相对互连性阈值Tki和相对紧密度阈值TKC。
[0063]步骤25,针对测试样本集合Y,利用图划分方法结合LDA模型对其进行聚类分析,得到P个聚簇Y1, Y2,-,Yp;
[0064]步骤26,根据执行步骤25而得到的P个聚簇,结合训练样本集合的分布情况,进行测试样本集合中各聚簇所属类别的判断,从而确定生成测试样本集合中各条连接记录的入侵类型。
[0065]以下进一步详细介绍上述各步骤。应该强调的是,下述说明仅仅是示例性的,而不为了限制本发明的范围及其应用。
[0066]步骤21的具体实现过程如下:
[0067]以原始的入侵检测数据集为原始的网络数据包为例,原始的网络数据包本身并不适合于进行数据挖掘分析,从而可以将原始的网络数据包恢复成连接记录,如TCP/IP连接记录等。其中每个TCP/IP连接记录代表一次连接事件,该连接记录一般包含多个属性特征,包括网络协议、连接起始时间、连接结束时间、服务端口号、源地址、目的地址、连接终止状态和连接终止标志等等。
[0068]一般地,属性特征分为字符型属性特征和数值型属性特征。首先要将所有属性特征转化为数值型数据,然后可以再对数值型数据的属性值进行标准化。经过上述处理,得到能用于数据挖掘分析的标准的入侵检测数据集D = XU Y= (S1, S2,...,Sn,...,SM},即由M个连接记录所共同构成的集合,其中SnSD中的第η个连接记录,M为D中的连接记录的总数。同时,可以假设WqSSn的第q个属性特征,X= (X1,...Xi,..., XJ为训练样本集合,Xi为X所包含的第i个训练样本簇,N为X所包含的训练样本簇分别所属行为类别的个数,则Xi为属于第i个行为类别的训练样本簇,Y为测试样本集合。
[0069]在实际应用中,X1,...,Xi,..., Xn分别所属行为类别一般可以是根据通过人工操作的方式而分别为X1,...,Xi,...,Xn所做的相应类别标记而确定的。一般说来,行为类别可以分为正常行为和攻击行为两大类。而对于攻击行为这一大类来说,其又可细化为多个行为子类别。常见的有:①DOS (Denial of Service):拒绝服务攻击;②U2R (User toRoot):未授权获取超级用户权限攻击;③R2L (Remote to Local):未授权远程访问攻击;④PROBING:探测与扫描攻击等四类。进一步地,以上四类行为子类别还可以继续划分为如smurf、peri和Ipsweep等类别。以在学术界应用最广泛的KDD Cup 1999数据集为例,其就包含了 38种攻击行为。 [0070]步骤22的具体实现过程如下:
[0071]为了对步骤22的实现方式进行说明,首先需要对LDA (LatentDirichletAllocation)模型进行介绍。其是一个生成性的三层贝叶斯网络,最初用于发现隐含在文档(即连接记录)集合中的语义结构。它通过将文档进行分词获得的词汇作为其属性特征,并将每篇文档都视为一个词频向量,然后将特征词和文档通过潜在的主题(topic,即潜在主题)相关联。根据LDA模型的原理,每篇文档都可以对应于一些潜在主题所构成的概率分布,而每个潜在主题则可以对应于很多属性特征所构成的概率分布。由于LDA模型中引入了潜在主题的概念,而潜在主题在文档集合中并不是显式存在的,因此基于LDA模型确定潜在主题的方式也被称为潜在Dirichlet分配。
[0072]LDA模型使用多项式分布建立贝叶斯网络中各参数和变量之间的关联,并假设多项式分布的参数服从Dirichlet分布。其中,Dirichlet分布是一族连续的多元概率分布,其公式如下式[1]:
【权利要求】
1.一种入侵检测方法,其特征在于,包括: 入侵检测系统获得输入的入侵检测数据集合,其中,所述入侵检测数据集合由训练样本集合和测试样本集合构成,所述训练样本集合由分别对应于不同行为类别的训练样本簇构成,所述测试样本集合由待检测样本构成; 基于图划分方法,确定所述测试样本集合所包含的由待检测样本构成的各个聚簇; 针对每个所述聚簇,执行下述操作: 确定用于表征该聚簇与不同训练样本簇之间的相对互连程度的各相对互连度值和用于表征该聚簇与不同训练样本簇之间的相对紧密程度的各相对紧密度值;并根据所述测试样本集合所包含的聚簇的总个数、所述训练样本集合所包含的训练样本簇对应的行为类别的数目,以及确定的各相对互连度值和各相对紧密度值,确定该聚簇的行为类别。
2.如权利要求1所述的方法,其特征在于,还包括: 入侵检测系统根据所述训练样本集合,确定相对互连度阈值和相对紧密度阈值;则根据所述测试样本集合所包含的聚簇的总个数、所述训练样本集合所包含的训练样本簇对应的行为类别的数目,以及确定的各相对互连度值和各相对紧密度值,确定该聚簇的行为类别,具体包括: 比较所述总个数和所述数目;并 在比较得到所述总个数不大于所述数目时,分别确定各训练样本簇和该聚簇之间的相对互连度值和相应的相对紧密度值的乘积,并根据最大的所述乘积对应的训练样本簇的行为类别确定该聚簇的行为类别是否为入侵行为类别; 在比较得到所述总个数大于所述数目时,判断是否存在满足预定判决条件的训练样本簇;在判断结果为是时,根据满足所述条件的训练样本簇的行为类别确定该聚簇的行为类别是否为入侵行为类别;在判断结`果为否时,确定该聚簇的行为类别为不同于任意所述训练样本簇所属行为类别的新的行为类别;其中,所述预定判决条件包括:训练样本簇与该聚簇之间的相对互连度值和相对紧密度值分别不小于所述相对互连度阈值和所述相对紧密度阈值。
3.如权利要求2所述的方法,其特征在于,根据所述训练样本集合,确定相对互连度阈值和相对紧密度阈值,具体包括: 确定所述入侵检测数据集合所包含的潜在主题的个数、所述入侵检测数据集合中的每个待检测样本所包含的潜在主题的分布概率值和每个潜在主题所包含的属性特征的分布概率值; 根据确定的所述潜在主题的分布概率值和所述属性特征的分布概率值,分别确定每个潜在主题所包含的属性特征的重要度值; 根据确定出的各重要度值,从所述潜在主题所包含的属性特征中选取属性特征;根据选取的属性特征和所述训练样本集合,确定用于表征所述训练样本集合中包含的各个训练样本的邻接图,并根据所述邻接图中作为邻接图节点的不同训练样本之间的距离,确定不同训练样本簇之间的相对互连度值和相对紧密度值; 根据确定出的各相对互连度值和相对紧密度值,确定相对互连度阈值和相对紧密度阈值。
4.如权利要求3所述的方法,其特征在于,确定所述入侵检测数据集合所包含的潜在主题的个数、所述入侵检测数据集合中的每个待检测样本所包含的潜在主题的分布概率值和每个潜在主题所包含的属性特征的分布概率值,具体包括: 根据LDA模型混乱度分析技术,确定所述入侵检测数据集合所包含的潜在主题的个数; 基于指定的超参数α和β,Gibbs抽样估计技术以及确定出的所述入侵检测数据集合所包含的潜在主题的个数,确定所述入侵检测数据集合中的每个待检测样本所包含的潜在主题的分布概率值和每个潜在主题所包含的属性特征的分布概率值。
5.如权利要求1所述的方法,其特征在于,基于图划分方法,确定所述测试样本集合所包含的由待检测样本构成的各个聚簇,具体包括: 根据预先规定的相似节点个数,确定用于表征所述测试样本集合中包含的待检测样本的最近邻图; 针对所述最近邻图中由待检测样本所表征的最近邻图节点构成的最大集合循环执行第一指定操作,直至确定出对所述最大集合进行划分而得到的子集合均符合划分结束条件时,以符合划分结束条件的各子集合分别作为聚簇循环执行第二指定操作,直至对聚簇进行合并而得到的聚簇满足合并结束条件时,循环执行第三指定操作,直至聚簇的总个数不大于预设个数阈值; 所述预设个数阈值是根据所述测试样本集合所包含的潜在主题的数目、所述训练样本集合所包含的潜在主题的数目,以及所述训练样本集合所包含的训练样本簇对应的行为类别的数目而确定的; 所述第一指定操作包括:基于对所述最大集合划分成两个子集合时所需要截断的最近邻图节点之间的连线的加权和最小的划分原则,将所述最大集合划分成两个子集合;判断划分得到的子集合是否均符合划`分结束条件;在判断结果为否时,将不符合所述划分结束条件的子集合作为所述最大集合; 所述划分结束条件包括:划分得到的子集合中的最近邻图节点彼此之间的连线数小于所述最近邻图包含的最近邻图节点总数乘以指定比例值所得的积; 所述第二指定操作包括:针对每个聚簇,从除该聚簇外的其他聚簇中,确定是否存在不满足所述合并结束条件的聚簇;在确定存在时,将该聚簇与不满足所述合并结束条件的一个聚簇合并为一个聚簇; 所述合并结束条件包括:与该聚簇的相对互连性值小于所述相对互连性阈值,或与该聚簇的相对紧密度值小于所述相对紧密度阈值; 所述第三指定操作包括:比较所述合并而得到的聚簇的总个数与预设个数阈值,在比较出所述合并而得到的聚簇的总个数大于预设个数阈值时,针对所述合并而得到的每个聚簇执行:针对每个所述合并而得到的聚簇,从除该聚簇外的所述合并而得到的每个聚簇中,选取与该聚簇的相对互连性值和相对紧密度值的乘积最大的聚簇,并将该聚簇与选取的聚簇合并为一个合并而得到的聚簇。
6.—种入侵检测系统,其特征在于,包括: 数据集合获得单元,用于获得输入的入侵检测数据集合,其中,所述入侵检测数据集合由训练样本集合和测试样本集合构成,所述训练样本集合由分别对应于不同行为类别的训练样本簇构成,所述测试样本集合由待检测样本构成;聚簇确定单元,用于基于图划分方法,确定数据集合获得单元获得的所述测试样本集合所包含的由待检测样本构成的各个聚簇; 行为类别确定单元,用于针对聚簇确定单元确定的每个所述聚簇,执行:确定用于表征该聚簇与不同训练样本簇之间的相对互连程度的各相对互连度值和用于表征该聚簇与不同训练样本簇之间的相对紧密程度的各相对紧密度值;并根据所述测试样本集合所包含的聚簇的总个数、所述训练样本集合所包含的训练样本簇对应的行为类别的数目,以及确定的各相对互连度值和各相对紧密度值,确定该聚簇的行为类别。
7.如权利要求6所述的系统,其特征在于,还包括: 参数值确定单元,用于根据数据集合获得单元获得的所述训练样本集合,确定相对互连度阈值和相对紧密度阈值;则行为类别确定单元具体用于: 比较所述总个数和所述数目;并 在比较得到所述总个数不大于所述数目时,分别确定各训练样本簇和该聚簇之间的相对互连度值和相应的相对紧密度值的乘积,并根据最大的所述乘积对应的训练样本簇的行为类别确定该聚簇的行为类别是否为入侵行为类别;以及 在比较得到所述总个数大于所述数目时,判断是否存在满足预定判决条件的训练样本簇;在判断结果为是时,根据满足所述条件的训练样本簇的行为类别确定该聚簇的行为类别是否为入侵行为类别;在判断结果为否时,确定该聚簇的行为类别为不同于任意所述训练样本簇所属行为类别的新的行为类别;其中,所述预定判决条件包括:训练样本簇与该聚簇之间的相对互连度值和相对紧密度值分别不小于所述相对互连度阈值和所述相对紧密度阈值。
8.如权利要求7所述 的系统,其特征在于,参数值确定单元具体包括: 概率值确定子单元,用于确定所述入侵检测数据集合所包含的潜在主题的个数、所述入侵检测数据集合中的每个待检测样本所包含的潜在主题的分布概率值和每个潜在主题所包含的属性特征的分布概率值; 重要度确定子单元,用于根据概率值确定子单元确定的所述潜在主题的分布概率值和所述属性特征的分布概率值,分别确定每个潜在主题所包含的属性特征的重要度值; 属性特征选取子单元,用于根据重要度确定子单元确定出的各重要度值,从所述潜在主题所包含的属性特征中选取属性特征; 参数值确定子单元,用于根据所述训练样本集合和属性特征选取子单元选取的属性特征,确定用于表征所述训练样本集合中包含的各个训练样本的邻接图,并根据所述邻接图中作为邻接图节点的不同训练样本之间的距离,确定不同训练样本簇之间的相对互连度值和相对紧密度值; 阈值确定子单元,用于根据参数值确定子单元确定出的各相对互连度值和相对紧密度值,确定相对互连度阈值和相对紧密度阈值。
9.如权利要求8所述的系统,其特征在于,概率值确定子单元具体包括: 个数确定模块,用于根据LDA模型混乱度分析技术,确定所述入侵检测数据集合所包含的潜在主题的个数; 分布概率值确定模块,用于基于指定的超参数α和β,Gibbs抽样估计技术以及个数确定模块确定出的所述入侵检测数据集合所包含的潜在主题的个数,确定所述入侵检测数据集合中的每个待检测样本所包含的潜在主题的分布概率值和每个潜在主题所包含的属性特征的分布概率值。
10.如权利要求6所述的系统,其特征在于,聚簇确定单元具体包括: 最近邻图确定子单元,用于根据预先规定的相似节点个数,确定用于表征所述测试样本集合中包含的待检测样本的最近邻图; 聚簇子单元,用于针对最近邻图确定子单元确定的所述最近邻图中由待检测样本所表征的最近邻图节点构成的最大集合循环执行第一指定操作,直至确定出对所述最大集合进行划分而得到的子集合均符合划分结束条件时,以符合划分结束条件的各子集合分别作为聚簇循环执行第二指定操作,直至对聚簇进行合并而得到的聚簇满足合并结束条件时,循环执行第三指定操作,直至聚簇的总个数不大于预设个数阈值; 所述预设个数阈值是根据所述测试样本集合所包含的潜在主题的数目、所述训练样本集合所包含的潜在主题的数目,以及所述训练样本集合所包含的训练样本簇对应的行为类别的数目而确定的; 所述第一指定操作包括:基于对所述最大集合划分成两个子集合时所需要截断的最近邻图节点之间的连线的加权和最小的划分原则,将所述最大集合划分成两个子集合;判断划分得到的子集合是否均符合划分结束条件;在判断结果为否时,将不符合所述划分结束条件的子集合作为所述最大集合; 所述划分结束条件包括:划分得到的子集合中的最近邻图节点彼此之间的连线数小于所述最近邻图包含的最近邻图节点总数乘以指定比例值所得的积; 所述第二指定操作包括:针对每个聚簇,从除该聚簇外的其他聚簇中,确定是否存在不满足所述合并结束条件的聚簇;在确定存在时,将该聚簇与不满足所述合并结束条件的一个聚簇合并为一个聚簇;` 所述合并结束条件包括:与该聚簇的相对互连性值小于所述相对互连性阈值,或与该聚簇的相对紧密度值小于所述相对紧密度阈值; 所述第三指定操作包括:比较所述合并而得到的聚簇的总个数与预设个数阈值,在比较出所述合并而得到的聚簇的总个数大于预设个数阈值时,针对所述合并而得到的每个聚簇执行:针对每个所述合并而得到的聚簇,从除该聚簇外的所述合并而得到的每个聚簇中,选取与该聚簇的相对互连性值和相对紧密度值的乘积最大的聚簇,并将该聚簇与选取的聚簇合并为一个合并而得到的聚簇。
【文档编号】G06F21/55GK103870751SQ201210550074
【公开日】2014年6月18日 申请日期:2012年12月18日 优先权日:2012年12月18日
【发明者】王强, 鞠康, 展俊云 申请人:中国移动通信集团山东有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1