一种基于混合高斯的sdn流聚类方法

文档序号:9288463阅读:277来源:国知局
一种基于混合高斯的sdn流聚类方法
【技术领域】
[0001] 本发明涉及SDN数据流聚类,特别是一种基于混合高斯的SDN流聚类方法。
【背景技术】
[0002]软件定义网络(SoftwareDefinedNetwork,SDN),是Emulex网络一种新型网络创 新架构,是网络虚拟化的一种实现方式,其核心技术OpenFlow通过将网络设备控制面与数 据面分离开来,从而实现了网络流量的灵活控制,使网络作为管道变得更加智能。
[0003] 目前在软件定义网络(SDN)环境下,针对SDN流的高效、准确地归类问题的研究还 没有很大进展。

【发明内容】

[0004] 有鉴于此,本发明的目的是提出一种基于混合高斯的SDN流聚类方法,使得聚类 结果的准确度和聚类速度得到很大的提升。
[0005] 本发明采用以下方案实现:一种基于混合高斯的SDN流聚类方法,具体包括以下 步骤;
[0006] 步骤S1 :对原始SDN数据进行五元组记录,并且采用KMeans聚类算法,完成SND数 据流与用户之间的映射关系;
[0007] 步骤S2 :利用高斯混合模型GMM以及公式
SDN数据 流的概率密度分布进行估计,其中K为高斯模型的个数,%为第i个高斯模型的权重,Pi(x| 0J为第i个高斯模型的概率密度函数,所述Pi(x| 9J的均值为yk,方差为〇 k; 0i =(h,EJ,h,Ei为待求解的数据生成模型的参数;
[0008] 步骤S3 :采用流持续时间、数据包数量、流大小、数据包大小、数据包间隔时间作 为SDN流向量属性,通过边信息获得SDN流等价集;
[0009] 步骤S4 :对高斯混合模型GMM的数据生成模型进行调整;
[0010] 步骤S5 :采用must-link成对点约束和cannot-link成对点约束来辅助聚类。
[0011] 进一步的,所述步骤S4具体包括以下步骤:
[0012] 步骤S41 :将SDN流边信息的取值空间表示为
其中,Y= {y:,…,y;,…,yN},y;表示第i个数据点的聚类中心,f表示在第s个等价集中第i个数据点的聚类中心,Ys表示第s个 等价集Xs的概率分布,Xs包含N3条数据流,所有等价集包含的数据条数iV= £iVs,x= 和1. h,…xN}表示N条数据流,X=仏,…XM}表示M个等价集,X^X^XM中的其中一个等 价集,yiG{1,…,K},K为聚类中心的个数;
[0013] 步骤S42 :建立基于约束最大化的log-likelyhoodfunction:
[0016] 进一步的,所述的五元组包括源IP、源端口、目标IP、目标端口以及协议。
[0017] 进一步的,所述的SDN流等价集为独立同分布。
[0018]进一步的,所述边信息SDN流的目标ip、目标端口、协议。
[0019] 与现有技术相比,本发明有以下有益效果:因此本发明引入半监督式聚类算法,根 据用户历史数据,分析数据包与数据关联特征。本发明是通过对基本高斯混合模型算法进 行了改进,引入流的边信息,构造基于边信息等价集约束的高斯混合模型,提高聚类效果, 并将其运用到SDN数据流聚类中。本发明的基于边信息等价集约束的高斯混合模型比较与 高斯混合模型以及K-Means聚类结果准确度和聚类速度均有较大的提升。
【附图说明】
[0020] 图1为本发明的方法流程示意图。
【具体实施方式】
[0021] 下面结合附图及实施例对本发明做进一步说明。
[0022] 如图1所示,本实施例提供了一种基于混合高斯的SDN流聚类方法,具体包括以下 步骤;
[0023] 步骤S1:对原始SDN数据进行五元组记录,并且采用KMeans聚类算法,完成SND数 据流与用户之间的映射关系; K
[0024] 步骤S2:利用高斯混合模型GMM以及公式/心?I的=畎),对SDN数据 /=1 流的概率密度分布进行估计,其中K为高斯模型的个数,%为第i个高斯模型的权重,Pi(x| 0J为第i个高斯模型的概率密度函数,所述Pi(x| 9J的均值为yk,方差为〇 k; 0i =(h,EJ,h,Ei为待求解的数据生成模型的参数;
[0025] 步骤S3:采用流持续时间、数据包数量、流大小、数据包大小、数据包间隔时间作 为SDN流向量属性,通过边信息获得SDN流等价集;
[0026] 步骤S4:对高斯混合模型GMM的数据生成模型进行调整;
[0027] 步骤S5:采用must-link成对点约束和cannot-link成对点约束来辅助聚类。
[0028] 在本实施例中,所述步骤S4具体包括以下步骤:
[0029] 步骤S41:将SDN流边信息的取值空间表示为 QspKK=…= 34 =d? =l,…,,其中,Y= {y!,…,yi,…,yN},yi表示第i个数据点的聚类中心,对表示在第s个等价集中第i个数据点的聚类中心,Ys表示第s个 m 等价集xs的概率分布,Xs包含心条数据流,所有等价集包含的数据条数,= ,X= {Xi,…xN}表示N条数据流,X= {Xi,…XM}表示M个等价集,X^X^XM中的其中一个等 价集,yiG{1,…,K},K为聚类中心的个数;
[0030] 步骤S42:建立基于约束最大化的log-1ikelyhoodfunction:
[0034] 在本实施例中,所述的SDN流等价集为独立同分布。
[0035] 在本实施例中,所述边信息SDN流的目标ip、目标端口、协议。
[0036] 以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与 修饰,皆应属本发明的涵盖范围。
【主权项】
1. 一种基于混合高斯的SDN流聚类方法,其特征在于包括W下步骤; 步骤S1 :对原始SDN数据进行五元组记录,并且采用Means聚类算法,完成SND数据 流与用户之间的映射关系; 步骤S2 :利用高斯混合模型GMMW及公对SDN数据流的概率 密度分布进行估计,其中K为高斯模型的个数,ai为第i个高斯模型的权重,Pi(x| 01)为第i个高斯模型的概率密度函数,所述Pi(x| 0 1)的均值为yk,方差为0k; 0 1= (y1,玄1), iii,5: 1为待求解的数据生成模型的参数; 步骤S3 :采用流持续时间、数据包数量、流大小、数据包大小、数据包间隔时间作为SDN流向量属性,通过边信息获得SDN流等价集; 步骤S4 :对高斯混合模型GMM的数据生成模型进行调整; 步骤S5 :采用must-link成对点约束和cannot-link成对点约束来辅助聚类。2. 根据权利要求1所述的一种基于混合高斯的SDN流聚类方法,其特征在于:所述步 骤S4具体包括W下步骤: 步骤S41 :将SDN流边信息的取值空间表示为 0 =卢 10,; =?'' =-V; =??? =成=F),s=l,???,!/},其中,Y=扔,…,yi,…,ywhy康示第i个数据点的聚类中屯、,茲表示在第S个等价集中第i个数据点的聚类中屯、,Y,表示第S个 等价集Xg的概率分布,Xg包含Ng条数据流,所有等价集包含的数据条数X= (xi,…表示N条数据流,X=找1,…XjJ表示M个等价集,X,是X產Xm中的其中一个等 价集,yiE(1,…,K},K为聚类中屯、的个数; 步骤S42 :建立基于约束最大化的log-likelyhoodfunction:良据所述数据生成模型可W得到边缘概率分布为:其中0B是当前参数估计,0是迭代计算后的参数估计,X表示等价 集,Y为等价集在各个聚类中屯、点的分布概率,y=yi,表示每一个聚类中屯、的先验概率; 步骤S4 3 :将log-likelyhoodfunction简化为其中,每一个等价集的后验概率计 算定义如下庚中鱗为当前1类 的权重,A(<I巧)表示当前参数估计下X的概率,為为等价集Xg的元素,聲表示旧的参数 估计,0 1表示新的参数估计,1表示第1的聚类中屯、; 步骤S44:使用带约束的最大似然估计的方法求解数据生成模型的参数,使得 QE(0, 0B)的取值最大化;其中'I:其中鸣表示等价集Xs的元 素;3. 根据权利要求1所述的一种基于混合高斯的SDN流聚类方法,其特征在于:所述的 五元组包括源IP、源端口、目标IP、目标端口W及协议。4. 根据权利要求1所述的一种基于混合高斯的SDN流聚类方法,其特征在于:所述的 SDN流等价集为独立同分布。5. 根据权利要求1所述的一种基于混合高斯的SDN流聚类方法,其特征在于:所述边 信息SDN流的目标ip、目标端口、协议。
【专利摘要】本发明涉及一种基于混合高斯的SDN流聚类方法,通过对基本高斯混合模型算法进行了改进,引入流的边信息,构造基于边信息等价集约束的高斯混合模型,提高聚类效果,并将其运用到SDN数据流聚类中。本发明使得聚类结果的准确度和聚类速度得到很大的提升。
【IPC分类】G06F17/30
【公开号】CN105005629
【申请号】CN201510488828
【发明人】郑相涵, 陈锋情
【申请人】福州大学
【公开日】2015年10月28日
【申请日】2015年8月11日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1