一种基于流量特征的p2p应用识别系统及方法

文档序号:7927808阅读:189来源:国知局

专利名称::一种基于流量特征的p2p应用识别系统及方法
技术领域
:本发明涉及一种用于网络管理产品及审计产品中的系统及方法,具体涉及一种通过流量控制进行P2P应用识别的系统及方法,属于网络管理
技术领域

背景技术
:网络管理系统作为网络安全防护的重要手段之一,其应用日益广泛。当前的网络管理系统根据实际应用对网络内部整体架构进行合理配置,以达到网络资源的最优使用效率。网络管理系统是企业实现IT管理和过程控制的有效方法,其通过对当前网络运行状态进行实时监控及策略调整,从而避免网络资源的滥用及浪费,保障网络系统的正常运营。随着网络管理技术的发展,P2P越来越多地应用在各种网络环境当中。从发展和应用前景看,P2P优良的网络结构使得其对于网络资源的有效共享极具优势,其不仅能够提高网络资源的利用率,还能够有效地提高网络资源的共享率,是未来网络发展的一大趋势。但是由于缺乏统一的标准和使用规范,P2P应用也带来很多弊端,主要体现在网络资源的滥用上(比如P2P的下载占用带宽过大等),这种网络资源滥用严重影响到其他正常网络业务的使用等。由于P2P应用带来的弊端日益严重,众多网络安全产品不得不考虑使用不同措施来对P2P应用加以限制。但各种限制措施的前提要求是需要对于P2P应用进行准确识别。目前绝大部分网络管理产品对于P2P应用的识别仍然采用特征匹配方式,这种方式在初期起到了很好的效果,其识别的准确率也是相当高的。但是随着P2P应用的发展,为了避开安全产品的识别及检测,越来越多的P2P应用软件采用了加密等方式来隐藏原有的报文特征,这使得目前的网络安全产品无法对于P2P的应用进行准确识别,原有的基于特征匹配的识别方式逐渐失去了效果。因此,目前的网络管理产品无法有效实施对网络的安全管理和审计等措施。在P2P应用运行过程中,尽管大多数数据报文不再具有明显的报文特征,但是报文的流量仍然能够在一定程度上体现出网络的运行特征。本发明提供了一种基于流量特征进行P2P应用识别的系统及方法,用以提高网络安全产品对于P2P类应用的识别能力,从而为高层次的网络管理或审计设备提供运营保障。
发明内容为了克服现有技术上述结构特征的不足,本发明提供一种基于自动流量控制的P2P应用识别系统及方法,该系统的P2P应用识别技术满足以下条件在P2P应用使用过程中,通过对网络环境中的报文流量进行分析来实现对P2P应用的识别。本发明的识别系统作为基于特征匹配的P2P应用识别技术的补充,在P2P应用采用特征模糊或特征隐藏方式进行数据传输的时候,借助该P2P应用体现出来的流量特征进行识别,极大地提高了网络安全产品对于P2P应用的识别准确率,并有效地保障了多种网络管理系统或审计系统的高层应用。本发明解决其技术问题所采用的技术方案是—种基于流量特征的P2P应用识别方法,其包含以下步骤流量记录生成步骤;监控IP筛选步骤;上/下行流量统计步骤;流量信息存储步骤;以及,流量分析步骤。其特征进一步包括所述流量记录生成步骤是指,以层次化的协议分析方法及标准化的记录生成格式,依据实际捕获的数据报文在固定时间间隔内生成网络当中各连接的流量记录。所述监控IP筛选步骤包括依据流量记录生成步骤上报的流量记录,统计当前网络环境当中各连接的源IP及目的IP。采用标准熵计算公式分别计算源IP及目的IP分布的熵值,并与预先设定的阈值进行比较。当发现源IP低于阈值且目的IP高于阈值时,将源IP统计结果中连接数最多的N个IP地址记入监控IP集合。上/下行流量统计步骤包括依据流量记录生成步骤提供的当前流量记录,筛选源IP或目的IP属于监控IP集合的流量记录,并将这些流量记录中受监控的IP作为源IP或目的IP所对应的上/下行流量信息分别提取出来,并输出给流量信息存储器做各连接的流量信息更新。所述流量信息存储步骤包括当收到由上/下行流量信息统计步骤提供的连接信息后,对比流量信息存储器当中的记录,如已经有该连接记录则更新该连接的流量记录,如没有该连接记录则产生新的连接记录,而对于超过一个时间间隔未发生流量的连接则删除该连接记录。最后依据将每个时间间隔当中存储的各连接的流量信息提供给流量分析器进行进一步的流量分析。所述流量分析步骤是指,依据流量信息存储器提供的当前网络环境中各连接的流量信息对正在监控的IP分别进行上/下行的流量分析,根据预先制定的P2P应用上下行流量特征进行识别并输出识别结果。—种基于流量特征的P2P应用识别系统,其包括流量记录生成器、连接IP统计器、上/下行流量统计器、流量信息存储器及流量分析器。其中,所述流量记录生成器负责依据数据报文生成标准流量记录;所述连接IP统计器依据各流量记录进行IP统计并产生监控IP集合;所述上/下行流量统计器依据收到的流量记录对属于监控IP集合的各IP进行上/下行流量统计;所述流量信息存储器依据上/下行流量统计器提供的各连接的上/下行流量进行流量记录更新;以及,所述流量分析器依据各时间间隔的流量信息记录更深入地进行流量分析。该系统的各个子模块之间的连接关系如下所述的流量记录生成器将流量分析结果输送到连接IP统计器连接和上/下行流量统计器连接;所述连接IP统计器将处理结果输出到上/下行流量统计器;所述的上/下行流量统计器再将输出结果传送到与之两连接的流量信息存储器;所述的流量信息存储器将处理结果传送到连接其后的流量分析器。本发明的有益效果是本发明作为基于特征匹配的P2P应用识别技术的有益的补充,解决了传统网络安全产品中由于P2P应用采用加密等方式进行数据传输造成的识别不准确性。基于本发明的识别系统从当前网络的实际流量出发,通过提取网络IP并进行流量整合、统计及分析来对P2P应用进行识别,从而保障了在使用特征匹配无法进行识别的情况下对P2P应用进行有效识别,有效地提高了对于P2P应用的识别准确率,并对各种网络管理系统及审计系统的网络安全产品的进一步实施提供了很好的保障。具有很好的实施灵活性和适用性,可广泛应用网络产品中。图1是基于流量特征的P2P应用识别系统的基本架构图;图2是基于流量特征的P2P应用识别系统工作流程图;图3是源IP和目的IP的分布情况结构图。具体实施例方式下面结合附图和具体实施方式对本发明作进一步详细描述实施例1:本实施例根据实际网络流量进行具体应用,提供了一种基于流量特征的P2P应用识别系统及方法的基本模式。如图l所示,该基本模式的基本架构包括流量记录生成器、连接IP统计器、上/下行流量统计器、流量信息存储器及流量分析器。该基本模式的系统工作流程如图2所示,该基于流量特征的P2P应用识别方法包含以下步骤流量记录生成步骤;监控IP筛选步骤;上/下行流量统计步骤;流量信息存储步骤;以及,流量分析步骤。其中流量记录生成步骤以层次化的协议分析方法及标准化的记录生成格式,依据实际捕获的数据报文在固定时间间隔内生成网络当中各连接的流量记录,并按照预先制定的时间间隔将生成的流量记录提供给IP筛选步骤及上/下行流量统计步骤使用。监控IP筛选步骤依据流量记录生成步骤提供的流量记录,统计当前网络环境当中各连接的源IP及目的IP。并采用标准熵计算公式分别计算源IP及目的IP分布的熵值,并与预先设定的阈值进行比较。当发现源IP低于阈值且目的IP高于阈值时,将源IP统计结果中连接数最多的N个IP地址记入监控IP集合。同时将需要监控的IP集合提供给上/下行流量统计步骤作为流量统计的对象。上/下行流量统计步骤依据流量记录生成步骤提供的当前流量记录,筛选源IP或目的IP属于监控IP集合的流量记录,并将这些流量记录中受监控的IP作为源IP或目的IP所对应的上/下行流量信息分别提取出来并输出给流量信息存储器做各连接的流量信息更新。流量信息存储步骤是指,当收到由上/下行流量信息统计步骤提供的连接信息后,对比流量信息存储器当中的记录,如已经有该连接记录则更新该连接的流量记录。如没有该连接记录则产生新的连接记录。对于超过一个时间间隔为发生流量的连接则删除该连接记录。最后依据将每个时间间隔当中存储的各连接的流量信息提供给流量分析器进行进一步的流量分析。流量分析步骤包括依据流量信息存储器提供的当前网络环境中各连接的流量信息对正在监控的IP分别进行上/下行的流量分析,根据预先制定的P2P应用上下行流量特征进行识别并输出识别结果。实施例2:本实施例为实施例1中的流量记录生成步骤的优选方案。在本实施例中,流量记录生成步骤负责以层次化的协议分析方法及标准化的记录生成格式依据实际捕获的数据报文在固定时间间隔内生成网络当中各连接的流量记录,并按照预先制定的时间间隔将生成的流量记录提供给IP筛选步骤及上/下行流量统计步骤使用。本实施例的基本思路是首先以实际捕获的网络报文为样本、根据标准的协议格式进行协议解析,获得该报文的各种信息,例如每个报文所使用的传输层协议为TCP、UDP、ICMP等等,该报文发送的源IP、目的IP、源端口、目的端口、字节数等等;然后采用标准的流量记录生成格式对每一个连接产生相应的流量记录。在本实施例中,采用了NetFlow的标准流记录格式。例如一条NetFlow样本如下表1:表1一条NetFlow样本的标准流记录<table>tableseeoriginaldocumentpage7</column></row><table>在本实施例中,并非对每一个数据报文建立一条这样的流量记录,而是对于每一个连接建立一条记录。通常以五元组区分一条连接,即(协议类型、源IP、目的IP、源端口和目的端口),依照这种方式,可以将当前网络环境中的所有数据报文对每一个连接依据这种固定格式生成一条流量记录,并将这些流量记录发送给连接IP统计器及上/下行流量统计器进行进一步处理。实施例3:本实施例为实施例1中的监控IP筛选步骤的优选方案。在本实施例中,监控IP筛选步骤依据流量记录生成步骤提供的流量记录,统计当前网络环境当中各连接的源IP及目的IP;采用标准熵计算公式分别计算源IP及目的IP分布的熵值,并与预先设定的阈值进行比较;当发现源IP低于阈值且目的IP高于阈值时,将源IP统计结果中连接数最多的N个IP地址记入监控IP集合,同时将需要监控的IP集合提供给上/下行流量统计步骤作为流量统计的对象。本实施例的基本思路是依据流量记录生成步骤提供的流量记录,提取其中的源IP地址和目的IP地址;采用计数器的方式统计当前时间间隔内网络环境当中所有连接的源IP和目的IP的分布情况。本实施例根据BloomFilter结构统计源IP和目的IP的分布情况,分别采用4个长度为65535的数组来记录源IP和目的IP的出现次数,每一个数组存储部分的IP地址信息。其结构如图3所示。本实施例分别采用四个hash函数处理部分的IP地址,并在hash值相同的数组元素中+1。这样每个时间间隔所产生的所有流量记录当中的IP地址都可以存入相应的数组当中。之后采用如下标准熵计算公式进行熵值计算<formula>formulaseeoriginaldocumentpage8</formula>其中,S为一段时间内所有IP出现的总次数;rii为某一IP出现次数。计算得出对应于源IP的熵值及目的IP的熵值。当源IP熵值小于预先设定的阈值并且目的IP熵值大于预先设定的熵值时,在保存源IP的四个数组当中提取最大的N个数组元素,以此N个数组元素为依据恢复源IP地址,恢复出的IP地址作为将要监控的IP地址存入监控IP地址集,并且同时将本时间间隔内的监控IP集提供给上/下行流量统计器做为流量统计的对象。例如,当取N二2时,得到的对应数组元素为020.115[1193]100.112[2041];115.016[1289]112.016[2193];181.205016.172[3721];172.020[1273]172.100[2041];由此恢复出源IP为20.115.16.172和100.112.16.172。此时将这两个IP地址存入监控IP集,并将此集合提供给上/下行流量统计器进行IP地址的流量统计。实施例4:本实施例为实施例1中的上/下行流量统计步骤的优选方案。在本实施例中,上/下行流量统计依据流量记录生成步骤提供的当前流量记录,筛选源IP或目的IP属于监控IP集合的流量记录,并将这些流量记录中受监控的IP作为源IP或目的IP所对应的上/下行流量信息分别提取出来并输出给流量信息存储器做各连接的流量信息更新。本实施例的基本思路是依据监控IP筛选步骤提供的监控IP集与流量记录生成步骤提供的当前时间间隔内的所有流量记录,在流量记录当中查询源IP地址或目的IP地址属于监控IP集合的流量记录。根据这些筛选出的流量记录提取相应信息提供给流量信息存储器进行流量整合。例如在实施例3中提取的监控IP是20.115.16.172,查询流量记录并筛选出以此IP地址为源IP的流量记录如下表2:表2以监控IP为源IP的流量记录<table>tableseeoriginaldocumentpage8</column></row><table>则生成待存储的流量信息,如表3所示表3以监控IP为源IP生成的流量存储信息<table>tableseeoriginaldocumentpage9</column></row><table>依照这种方式由所有流量记录生成与监控IP相关的各连接的上/下行流量存储信息,并将这些信息传输给流量信息存储器作为流量信息整合的依据。实施例5:本实施例为实施例1中的流量信息存储步骤的优选方案。在本实施例中,流量信息存储步骤为收到由上/下行流量信息统计步骤提供的连接信息后,对比流量信息存储器当中的记录,如已经有该连接记录则更新该连接的流量记录,如没有该连接记录则产生新的连接记录;而对于超过一个时间间隔为发生流量的连接,则删除该连接记录。并将每个时间间隔中存储的各连接的流量信息提供给流量分析器,以便进行进一步的流量分析。本实施例的基本思路是依据上/下行流量统计器提供的待存储的流量信息,查询流量信息存储器中已有的流量信息数据。这里同样是采用对比信息记录五元组的方式(上述实施例4中的前五个字段,即源IP、目的IP、源端口、目的端口和协议类型)。如果当前的流量信息存储器当中已包含相同的连接信息则根据当前的流量信息更新此记录。如果未包含此信息则按照相同格式产生一条新的存储记录。在本实施例当中在进行五元组对比时采用了hash算法,hash值相同的被认为是相同的连接。对于每一个连接,采用一个数组来表示不同时间间隔当中此连接的流量状况。例如,针对实施例4中生成的表3中的一条流量存储信息,对前五个字段应用hash算法进行计算,并以计算出的hash值作为查询的依据,而将680作为此连接的一个流量记录存储于该连接的数组当中。本实施例中,设定为每个连接建立一个五元数组保存近五个时间间隔内的流量情况。实施例4中表3的记录如果存储器中已有该连接,则将680记入数组的对应位置;如果数组已满,则替换最早的一个数组元素。如果流量记录存储器中已有的连接信息在本时间间隔内没有流量,则在相应位置以0更新。本步骤处理完上/下行流量统计器提供的本时间间隔内需存储的所有流量信息之后,将更新后的信息发送给流量分析器进一步做流量分析。实施例6:本实施例为实施例1中的流量分析步骤的优选方案。在本实施例中,流量分析步骤依据流量信息存储器提供的当前网络环境中各连接的流量信息对正在监控的IP分别进行上/下行的流量分析,根据预先制定的P2P应用上下行流量特征进行识别并输出识别结果。本实施例的基本思路是依据流量信息存储器提供的更新的当前环境中各连接的流量信息后,对上下行的流量进行分别的统计分析。例如沿用实施3中提取的监控IP20.115.16.172。假设由流量信息存储器当中得到的以此IP为源IP的信息记录如下表4:表4以监控IP为源IP的流量信息存储器中信息记录<table>tableseeoriginaldocumentpage10</column></row><table>本实施例中需要分析此IP在一段时间内上行总流量的状况。其中,字节数1至字节数5表示从第一个时间段到第五个时间段这五个时间段上行存储流量的字节数,则根据得到的这些记录,计算出五个时间段内的上行总流量为表5:表5五个时间段内的上行总流量<table>tableseeoriginaldocumentpage10</column></row><table>然后采用标准熵公式计算上行总流量,如果小于预先制定的阈值则认为上行总流量在一段时间内是趋于稳定的。同样地,依据目的IP为20.115.16.172的存储记录进行此IP的下行流量分析,本实施例当中并不计算下行的总流量,而是分析每个下行连接的流量状况。当对于某一个监控IP来说,其一段时间内的上行总流量趋于稳定并且有一定数量的下行连接流量趋于稳定时认为该IP正在使用P2P应用。此时将识别结果上报。此外在本步骤中当分析上/下行流量时如果发现某个监控IP相关的上下行流量记录当中的某个连接连续五个时间间隔的流量为0时需要通知流量信息存储器删除相应的连接信息。当发现某个监控IP在五个时间间隔内所有连接流量都为0则需要通知流量信息存储器及上/下行流量统计器删除相应的记录以及取消对该IP的监控。实施例7:本实施例是实现实施例1至实施例6所述方法的虚拟装置或系统,如图1所示,本实施例实现了一种基于流量特征的P2P应用识别系统,包括负责依据数据报文生成标准流量记录的流量记录生成器、依据各流量记录进行IP统计并产生监控IP集合的连接IP统计器、依据收到的流量记录对属于监控IP集合的各IP进行上/下行流量统计的上/下行流量统计器、依据上/下行流量统计器提供的各连接的上/下行流量进行流量记录更新的流量信息存储器以及依据各时间间隔的流量信息记录进行深入流量分析的流量分析器。其中,流量记录生成器实现了如实施例2中所述的依据数据报文生成标准流量记录的功能;连接IP统计器实现了如实施例3中所述的依据流量记录进行IP统计并产生监控IP集合的功能;上/下行流量统计器实现了如实施例4中所述的依据收到的流量记录对属于监控IP集合的各IP进行上/下行流量统计的功能;流量信息存储器实现了如实施例5所述的存储流量信息并依据上/下行流量统计器提供的各连接的上/下行流量进行流量记录更新的功能;流量分析器实现了如实施例6所述的依据各时间间隔的流量信息记录进行深入流量分析功能。该系统的各个子模块之间的连接关系如下所述的流量记录生成器将流量分析结果输送到连接IP统计器连接和上/下行流量统计器连接;所述连接IP统计器将处理结果输出到上/下行流量统计器;所述的上/下行流量统计器再将输出结果传送到与之两连接的流量信息存储器;所述的流量信息存储器将处理结果传送到连接其后的流量分析器。权利要求一种基于流量特征的P2P应用识别方法,其特征在于包括以下步骤流量记录生成步骤;监控IP筛选步骤;上/下行流量统计步骤;流量信息存储步骤;流量分析步骤。2.根据权利要求1所述的一种基于流量特征的P2P应用识别方法,其特征在于所述的流量记录生成步骤进一步包括以层次化的协议分析方法及标准化的记录生成格式,依据实际捕获的数据报文在固定时间间隔内生成网络中各连接的流量记录。3.根据权利要求1所述的一种基于流量特征的P2P应用识别方法,其特征在于所述的监控IP筛选步骤进一步包括依据流量记录生成步骤上报的流量记录统计当前网络环境中各连接的源IP及目的IP;采用标准熵计算公式分别计算源IP及目的IP分布的熵值,并与预先设定的阈值进行比较;当发现源IP低于阈值且目的IP高于阈值时,将源IP统计结果中连接数最多的N个IP地址记入监控IP集合。4.根据权利要求1所述的一种基于流量特征的P2P应用识别方法,其特征在于所述的上/下行流量统计步骤进一步包括依据流量记录生成步骤提供的当前流量记录筛选源IP或目的IP中属于监控IP集合的流量记录,并将这些流量记录中受监控的IP作为源IP或目的IP所对应的上/下行流量信息分别提取出来,并输出给流量信息存储器,以便进行各连接的流量信息更新。5.根据权利要求1所述的一种基于流量特征的P2P应用识别方法,其特征在于所述的流量信息存储步骤进一步包括当收到由上/下行流量信息统计步骤提供的连接信息后,对比流量信息存储器当中的记录,如已经有该连接记录则更新该连接的流量记录;如没有该连接记录则产生新的连接记录;对于超过一个时间间隔为发生流量的连接则删除该连接记录;最后依据将每个时间间隔当中存储的各连接的流量信息提供给流量分析器进行进一步的流量分析。6.根据权利要求1所述的一种基于流量特征的P2P应用识别方法,其特征在于所述的流量分析步骤进一步包括依据流量信息存储器提供的当前网络环境中各连接的流量信息对正在监控的IP分别进行上/下行的流量分析,根据预先制定的P2P应用上下行流量特征进行识别并输出识别结果。7.—种基于流量特征的P2P应用识别系统,其特征在于包括流量记录生成器、连接IP统计器、上/下行流量统计器、流量信息存储器及流量分析器;其中,所述流量记录生成器负责依据数据报文生成标准流量记录;所述连接IP统计器依据各流量记录进行IP统计并产生监控IP集合;所述上/下行流量统计器依据收到的流量记录对属于监控IP集合的各IP进行上/下行流量统计;所述流量信息存储器依据上/下行流量统计器提供的各连接的上/下行流量进行流量记录更新;以及,所述流量分析器依据各时间间隔的流量信息记录进行深入流量分析;所述应用识别系统各个子模块的连接关系如下所述的流量记录生成器将流量分析结果输送到连接IP统计器连接和上/下行流量统计器连接;所述连接IP统计器将处理结果输出到上/下行流量统计器;所述的上/下行流量统计器再将输出结果传送到与之两连接的流量信息存储器;所述的流量信息存储器将处理结果传送到连接其后的流量分析器。全文摘要一种基于流量特征的P2P网络应用识别系统及方法,其包括流量记录生成器、连接IP统计器、上/下行流量统计器、流量信息存储器和流量分析器。该网络识别方法包括以下步骤流量记录生成步骤、监控IP筛选步骤、上/下行流量统计步骤、流量信息存储步骤和流量分析步骤。根据本发明实现的系统解决了基于加密传输等技术进行P2P网络应用识别仅依靠特征匹配而带来的准确性不高的问题,实现了在实际网络环境中根据流量统计情况进行实时P2P应用识别的功能。文档编号H04L12/24GK101741608SQ200810226230公开日2010年6月16日申请日期2008年11月10日优先权日2008年11月10日发明者孙海波,张雪锋,汤国祥,王克铨申请人:北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1