基于流行为特征的IDC识别方法与流程

文档序号:13476065阅读:248来源:国知局
基于流行为特征的IDC识别方法与流程
本发明属于互联网数据分析
技术领域
,尤其涉及一种基于流行为特征的idc识别方法。
背景技术
:目前,关于互联网数据中心的研究主要集中于idc(internetdatacenter,互联网数据中心)内部网络结构优化及能耗减低、网络资源分配和内部网络流量特征等方面。近年来的研究者主要是对数据中心内部网络流量特征进行研究,没有分析数据中心之间和数据中心外部的网络流量特征。研究者首次提出了数据中心之间的流量特征分析,通过对yahoo数据中心ip地址发现与确认,将网络流量分为d2c流与d2d流,分析了yahoo不同服务之间的流量相关性和数据中心间的流量特征。基于流量特征的识别技术,根据识别对象的不同,采用的流特征也不尽相同,按照流特征的内容,大致可以分为:基于包的流特征、基于统计的流特征和基于行为的流特征三种。其中,基于包的流特征识别精度最高,从数据包入手研究网络流和应用的关系,例如可识别bittorrent、qqvoice等应用。sen等人采用包的流特征分析网络数据,对于五种p2p协议的识别率达到95%以上。基于统计的流特征与基于包的相比分类精度较粗,主要用来识别某些类型应用和网络流的对应关系,例如识别web流、p2p流等。li等人对网络中实时数据进行采集,从多个特征筛选得到了9个流特征,并使用机器学习算法进行分类,实现了不同类型的流的分类。而基于行为的流特征粒度最粗,通常与前两种特征结合使用进行分类。karagiannis等人提出了一种称为blinc的网络流量识别方法,该方法将主机行为分为社会、功能及应用三个层面,即通过主机的通信模式、节点作用、数据包等内容分析应用的类型。国内外采用图分析技术对互联网流连接特征的研究则相对成熟。在研究网络终端主机的行为相似性时,使用二分图对网络主机流的通信量进行建模,并构建二分图的单模投影图,通过聚类算法将同一网络前缀中的终端主机聚类到不同的主机行为集群中,实现了不同主机行为的分类。研究者还提出了一种基于流量因果图(tcg)的网络应用分析框架,利用图形挖掘算法从tcg中提取区分子结构作为特征,用来识别网络应用程序,克服了应用程序使用随机端口和加密所产生的限制。随后,研究员提出了无向的动态流量图(tag)的概念,通过不同应用行为连通度存在的区别,采用tnmf的方法从tag邻接阵提取出代表特征值,从而推断出特定应用以及识别蠕虫等异常流行为。目前虽然各大电信运营商都拥有自己的idc,但并不了解网络中其他运营商idc分布和主要业务,会造成网络中idc分布集中,网络资源利用率低等问题。同时,idc网络资源优化研究主要集中在单个数据中心内部网络的流量特征,对idc整体在网络中的通信特征知之甚少。研究员通过分析yahoo数据中心之间的流量,得到了数据中心之间的流量特征,但没有依据用户的访问行为研究数据中心之间的关系。国内外对于流特征的运用主要是对网络流量分类,利用流量特征对网络中ip地址识别使用较少。而有关图分析技术的研究,大多集中在应用分类和网络流异常检测,对于挖掘网络中拥有大量ip地址的idc还涉及较少,不能有效地运用于流连接行为为网络建设提供帮助。现有对idc的研究主要集中于idc内部网络结构优化及节能减耗、网络资源分配和内部网络流量特征等方面。而对idc之间的关系和布局的研究还不成熟,而要从外部分析idc,就需要首先能够通过某种方式从网络中识别出idc,而目前从大规模的网络中识别出idc却没有成熟的技术。技术实现要素:本发明的发明目的是:为了解决现有技术中存在的以上问题,本发明提出了一种基于流行为特征的idc识别方法。本发明的技术方案是:一种基于流行为特征的idc识别方法,包括以下步骤:a、对idc服务器的网络流量数据进行预处理,提取多种用于识别idc服务器ip的网络流量特征,通过采用bestfirst搜索算法从网络流量特征中选择出包含多种特征参数的最优特征子集,利用c4.5决策树机器学习算法构建idc服务器流分类模型对ip地址进行分类,识别得到idc服务器的ip地址;b、采用网络节点划分方法对idc构建社团网络,利用基于模块度的bgll社团检测算法将步骤a中得到的idc服务器ip地址进行社团划分,构建idc的网络分布情况,完成idc识别。进一步地,所述步骤a中对idc服务器的网络流量数据进行预处理具体为:从idc服务器的网络流量数据中提取流,将具有相同五元组的包合并,并用该五元组作为标识;同时,对网络流量数据中的服务器ip与非服务器ip进行标记。进一步地,所述步骤a中用于识别idc服务器ip的网络流量特征包括:通信对象的数量大,数据量大,端口号固定和端口数量稳定,上下行流量差异较小,网络空闲时间稳定,流的数量多与极值差异大。进一步地,所述步骤a中采用bestfirst搜索算法从网络流量特征中选择出包含多种特征参数的最优特征子集具体为:采用bestfirst搜索算法从网络流量特征中选择出包含十种特征参数的最优特征子集,组成idc服务器的流量特征参数集;所述idc服务器的流量特征参数集包括totalnumofbytes、totalnumofpackets、totalnumofflows、numofips、numofremoteport、portno.、minpacketsinflows、maxbytesinflows、avepacketsinflows、numofflowsinuser。进一步地,所述步骤b中采用网络节点划分方法对idc构建社团网络具体为:以所有idc的ip地址和与idc通信的主机ip地址作为网络中的节点,生成有向网络流连接图;再根据共引网络的思想,生成数据中心ip共引网络。进一步地,所述步骤b中利用基于模块度的bgll社团检测算法将步骤a中得到的idc服务器ip地址进行社团划分,构建idc的网络分布情况,具体包括以下分步骤:b1、设定社团网络中的每个节点均未独立的社团,社团的数目与节点个数相同;b2、计算任意节点i加入其邻居节点j所在社团时模块度的增量;b3、判断节点i加入其邻居节点j所在社团时模块度的增量的最大值是否大于0;若是,则将节点i加入对应邻居节点j所在社团;若否,则保留节点i在原社团;b3、判断所有节点所属社团是否发生变化;若是,则返回步骤b2;若否,则进行下一步骤;b4、构造新网络,将同一个社团的节点合并为一个新节点,原社团内节点间的边的权重之和作为新节点的环的权重,原社团间所有边的权重之和作为新节点间的边权重;b5、判断新网络的模块度是否发生变化;若是,则返回步骤b2;若否,则操作结束。进一步地,所述步骤b2中计算任意节点i加入其邻居节点j所在社团时模块度的增量的计算公式为其中,sc为所有与社团c内部的点连接的边的权值和,si为与节点i相连的所有边的权值和,si,in为节点i到社区c中的所有节点的边的权重和,w为网络中所有边的权重和,δq为节点i加入其邻居节点j所在社团时模块度的增量。本发明的有益效果是:本发明利用机器学习算法识别idc服务器ip地址,再利用社团划分算法,将所得的服务器ip地址进行社团划分,得到idc网络分布,实现idc识别,使得用户能够通过网络流行为特征识别出idc,进而研究idc之间的关系和布局,最终有助于idc的资源优化。附图说明图1是本发明的基于流行为特征的idc识别方法的流程示意图。图2是本发明实施例中社团网络构建示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。如图1所示,为本发明的基于流行为特征的idc识别方法的流程示意图。一种基于流行为特征的idc识别方法,其特征在于,包括以下步骤:a、对idc服务器的网络流量数据进行预处理,提取多种用于识别idc服务器ip的网络流量特征,通过采用bestfirst搜索算法从网络流量特征中选择出包含多种特征参数的最优特征子集,利用c4.5决策树机器学习算法构建idc服务器流分类模型对ip地址进行分类,识别得到idc服务器的ip地址。idc服务器ip地址的识别问题,本质是对网络中ip地址的二分类问题,即把ip地址划分为服务器ip和非服务器ip两大类。本发明提出了基于流量特征的机器学习方法,解决服务器ip的识别问题。方法的核心是通过数据分析出idc服务器六大网络流特征,并根据这些流特征提取出多种特征参数,并通过bestfirst搜索算法最终确定了包含10种特征参数的最优特征子集,最后通过有监督的c4.5决策树机器学习方法,建立idc服务器ip地址分类模型。具体包括以下三个步骤:(1)数据预处理本发明首先对数据进行一些预处理(如合并、统计、计算等)。首先从流量数据中提取流,就是将具有相同五元组(源ip地址,ip目的地址,源端口号,目的端口号,传输层协议类型)的包合并,并用该五元组作为标识。同时,对数据中的服务器ip与非服务器ip进行标记。(2)特征提取本发明对比分析服务器ip与非服务器ip的流量之间的不同,找到一组能区别服务器ip与非服务器ip两者差异的特征。通过对idc的网络特性和功能的分析,得出以下idc服务器的六种网络流量特征:通信对象的数量大,数据量大,端口号固定和端口数量稳定,上下行流量差异较小,网络空闲时间稳定,流的数量多与极值差异大。根据上述的这六种idc服务器流量特征,初步提取了众多特征,并通过采用bestfirst搜索算法从这些特征中选择出包含10种特征参数的最优特征子集,组成idc服务器的流量特征参数集。如表1所示,为idc服务器的流量特征参数集。表1、idc服务器的流量特征参数集编号特征参数参数具体描述1totalnumofbytes总的字节数量2totalnumofpackets总的包数量3totalnumofflows流的总数量4numofips通信ip的总数量5numofremoteport对端端口的数量6portno.端口号7minpacketsinflows流的包数量最小值的均值8maxbytesinflows流的字节数最大值的均值9avepacketsinflows流的包数量的均值10numofflowsinuser与用户通信流数的均值(3)构建分类模型本发明根据得到idc服务器流最优特征子集,对少量标记样本采用机器学习技术进行处理,生成idc服务器流分类模型,实现对服务器ip和非服务器ip的识别。优选地,本发明采用有监督的c4.5决策树机器学习算法对样本集进行分类识别。b、采用网络节点划分方法对idc构建社团网络,利用基于模块度的bgll社团检测算法将步骤a中得到的idc服务器ip地址进行社团划分,构建idc的网络分布情况,完成idc识别。本发明将网络中idc的识别问题转化为对网络节点的划分问题,即把同一idc中的ip地址划分在一起。通过分析,发现网络中的idc具有以下特征:(1)一个idc中会存在大量的ip地址;(2)大型idc拥有的多个c类地址块可能是连续的;(3)idc为用户提供多种服务,用户在短时间内访问的多个内容可能属于同一idc的ip;(4)同一idc中提供相同服务或关联性强的服务的ip可能在同一块c类地址中。综合以上特点,本发明使用用户的流连接行为来构建网络,即在短时间内一个用户的访问会集中在一个idc内部,这样得到的网络其idc内ip的连接要比idc间的连接更紧密,进而使用社团检测算法发现网络中的社团结构。本发明的idc识别方法,核心是对以数据中心ip为节点、ip间共同的用户为边的网络进行挖掘,将网络中的节点划分成多个社团,一个社团内的节点属于同一idc,从而解决idc的识别问题。具体包括以下两个个步骤:(1)构建社团网络本发明首先生成有向网络流连接图,以所有idc的ip地址和与idc通信的主机ip地址作为网络中的节点,若两个ip地址间有通信则连接一条边,边的方向为用户指向数据中心ip,生成有向网络流连接图;然后生成数据中心ip共引网络,基于共引网络的思想,若一个用户在短时间内与两个数据中心ip通信,则这两个数据中心ip之间连接一条边,生成无向加权共引网络,其中边的权值为这两个ip的邻接节点集合的交集与并集的比值。如图2所示,为本发明实施例中社团网络构建示意图。用户user短时间内与两个数据中心内部节点a和b通信,则a和b之间连接一条边,边的权重为两个ip邻接节点集合的交集和并集的比值。图中a与b的交集为{d},并集为{c,d,e},故边的权重为1/3。以此方式最终构建出无向加权共引网络。(2)社团检测一般而言,对复杂网络性质的描述包括度与度分布、平均路径长度、聚类系数和中心性等,通过这些信息研究者可以掌握网络结构的基本情况,进而选择适合的社团检测算法。通过分析,本发明使用归一化互信息量(normalizedmutualinformation,nmi)作为不同社团检测算法间的评价标准,采用基于模块度的bgll社团检测算法进行社团检测。bgll算法是一种能够用于加权网络的凝聚算法。该算法主要分为合并社团和构建新网络两个阶段:合并社团是遍历网络中的所有节点,尝试将单个节点加入使模块度增量最大的相邻社团中,直到所有节点都不再变化。构建新网络是处理合并社团的结果,将社区压缩为一个新节点来重新构造网络,新节点间的边的权重是原社团间所有边的权重之和。迭代这两阶段直到网络中所有节点不再发生变化。具体包括以下分步骤:b1、设定社团网络中的每个节点均未独立的社团,社团的数目与节点个数相同;b2、计算任意节点i加入其邻居节点j所在社团时模块度的增量,计算公式为其中,sc为所有与社团c内部的点连接的边的权值和,si为与节点i相连的所有边的权值和,si,in为节点i到社区c中的所有节点的边的权重和,w为网络中所有边的权重和,δq为节点i加入其邻居节点j所在社团时模块度的增量;b3、判断节点i加入其邻居节点j所在社团时模块度的增量的最大值是否大于0;若是,则将节点i加入对应邻居节点j所在社团;若否,则保留节点i在原社团;b3、判断所有节点所属社团是否发生变化;若是,则返回步骤b2;若否,则进行下一步骤;b4、构造新网络,将同一个社团的节点合并为一个新节点,原社团内节点间的边的权重之和作为新节点的环的权重,原社团间所有边的权重之和作为新节点间的边权重;b5、判断新网络的模块度是否发生变化;若是,则返回步骤b2;若否,则操作结束。本发明通过利用基于模块度的bgll社团检测算法将步骤a中得到的idc服务器ip地址进行社团划分,将ip地址划分成不同的社团,同一社团的ip地址属于同一数据中心,通过社团检测达到识别idc的目的。本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1