基于行为签名识别p2p应用的系统和方法

文档序号:7732156阅读:251来源:国知局
专利名称:基于行为签名识别p2p应用的系统和方法
技术领域
本发明涉及流量识别的系统和方法,具体地,涉及从混合流量跟踪信息来识别 P2P(Peer-to-Peer ;对等网络)应用的系统和方法。
背景技术
近年来,在因特网和企业IP网络上运行的P2P应用显著增加。P2P应用包括P2P 内容分布应用,例如Bit-torrent、Bit-comet以及E-donkey等,以及P2P流应用,例如 PPlive, PPstream, Sopcast等。这些应用组成了网络中大量共享的总流量。因特网和企业网络的网络运营商需要能够识别不同的P2P应用以及相关的流量, 以实现网络操作和管理、流量规划、容量规划、配置和成本降低。例如,通过限速或阻塞P2P 流量,企业能够确保关键应用性能良好。宽带ISP (服务提供商)欲限制P2P流量来减小被 上游ISP收取的费用。已经存在有一些识别P2P流量的方法。在早些时候基于网络端口的识别有些效 果,因为在那时所采用的大多P2P应用默认且固定的传输层端口号。然而如今,由于在大量 非标准端口上传输大量的P2P流量,因此使基于默认端口识别的方法难以有效工作。已经设计出基于签名的识别方式来可靠地识别P2P应用。这需要通过检测包负荷 来发现具体应用签名。然而,由于硬件资源有限、应用对负荷的加密、隐私问题和法律问题 以及实践中遇到的类似问题等,很难获得包负荷。公知地,和传统应用例如DNS、E-mail和Web相比,P2P应用由于具有对等网络特 征而具有特殊的行为。除了与传统应用不同的特殊行为外,P2P内容分布和P2P流媒体在 具体行为上彼此也不同。P2P应用有两种周期性行为。一种是与节点选择或节点改变相关的行为,P2P内容 分布和P2P流媒体应用都具有这种周期性行为。对于P2P内容分布而言,节点周期性地运 行阻塞和开放疏通机制,以保持有效的相邻节点。对于P2P流媒体应用,节点还应用节点选 择算法,但不应用阻塞和开放疏通机制。P2P流应用中的节点基于相邻节点对之前发出的缓 存信息的响应来选择节点。另一种周期性行为是,周期地运行P2P流媒体应用的节点向大 量相邻节点发出其流媒体缓存信息(缓存映射表),这导致短时间内该节点与远程主机之 间突增大量的并发连接。近来,提出了一种被称为BLINC的新方法,仅利用当前流收集器(思科的Netflow 等)生成的流级(flow-level)信息来识别因特网应用。BLINC不再对每个单独流进行识 别,而是将因特网主机与应用相关联。其新颖之处在于通过在传输层获得主机的基本模式 来识别主机。然而,BLINC仅可识别应用类型(WEB,DNS, FTP, ATTACK或P2P),而不能识别 具体软件(P2P内容分布类型的例如Bit-torrenlBit-Comet等,以及P2P流媒体类型的例 如 PPLive、PPstream 等)。

发明内容
根据上述现有技术的缺陷,本发明提供一种新颖的从混合流量跟踪信息中识别对 等网络应用的系统和方法。根据本发明,基于对等网络应用的行为签名来进行识别。不仅 可识别应用,而且还可识别具体P2P软件,例如Bit-torrent、Bit-comet (P2P内容分布应 用),以及PPlive, PPstream(P2P流媒体应用)。针对现有系统的问题,根据本发明的系统和方法不需获取任何包负荷。而是仅需 获取包头,该包头包括时间戳、源IP地址和端口号、目的IP地址和端口号以及传输层协议。 此外,本发明和方法不需使用任何公知的端口号来解决识别问题。本发明提供一种基于行为签名识别网络上P2P应用的系统,包括获取单元,从网 络收集的包跟踪信息中获取每个包的包头;过滤器,从所获取的包中滤除所有无关包,并允 许配置有目标IP或IP端口对的包通过;第一序列生成单元,根据配置有目标IP或IP端口 对的包生成第一离散时间序列;第二序列生成单元,根据配置有目标IP或IP端口对的包生 成第二离散时间序列;序列处理器,生成第一离散时间序列和第二离散时间序列的频域特 征;以及分析器,获取频域特征以基于频域特征识别P2P应用。而且,本发明提供一种基于行为签名识别网络上P2P应用的方法,包括从网络收 集的包跟踪信息中获取每个包的包头;对获取的包进行过滤,并输出配置有目标IP或IP端 口对的包;根据配置有目标IP或IP端口对的包生成第一离散时间序列;根据与目标IP或 IP端口对相关的包生成第二离散时间序列;生成第一离散时间序列和第二离散时间序列 的频域特征;以及分析频域特征以识别P2P应用。


图1是示出根据本发明识别P2P应用及具体P2P软件的系统的方块示意图;图2是示出图1中所示的并发连接数序列生成单元的方块示意图;图3是示出图1中所示的传输会话序列生成单元的方块示意图;图4是示出图1中所示的序列处理器的方块示意图;图5是示出根据本发明将大流分为小流的简单示例;图6示出根据本发明从原始混合包跟踪信息中识别P2P应用以及具体P2P软件的 示例性方法;图7示出将输出包跟踪信息变换为离散时间序列的具体过程;图8示出图7中步骤2025的详细过程;图9示出图7中步骤2029的详细过程;以及图10示出图6中步骤204的详细过程。
具体实施例方式下面将参照附图对本发明的实施例进行描述,但是这些附图仅用于说明本发明的 目的而不用于限制本发明。图1示出根据本发明的示例性系统100,其被配置为从原始混合包跟踪信息中识 别P2P应用和具体P2P软件。如图1所示,系统100包括获取单元10、过滤器20、过滤条件设置单元30、并发连接数序列生成单元40、传输会话序列生成单元50、序列处理器(SP)60以及分析器70。获取单元10被配置为从包跟踪信息中的每个包中获取包头。所获取的包头可包 括包时间戳(TS)、传输层协议(TCP或UDP)、源IP地址、源端口号、以及目的IP地址和目的
端口号等。过滤器20接收获取单元10获取的包头,并基于过滤条件设置单元30设置的过滤 条件对与所接收包头相关的包进行过滤。过滤条件用于设置和配置一个特定IP或IP端口 对作为目标,其被称为目标IP或IP端口对,在下文将详细描述。如上述所强调的,根据本 发明的系统100需要包头来识别P2P应用。因此,该系统处理的仅是从混合包跟踪信息的 每个包中获取的包头。具体地,过滤器20将不属于P2P应用的包滤除。例如,具有例如0.0.0.0或 255. 255. 255. 255的特定IP地址(源地址或目的地址)的包绝对与P2P应用无关。而且, 具有属于非P2P的其他固定应用的公知端口号(源端口号或目的端口号)的包也将被滤 除,公知端口号例如TCP/21 (FTP)、TCP或UDP/23 (Telnet)等。应理解的是,如果这些无关 的包仍然在包跟踪信息中并成为随后序列的源的一部分,那么识别的最终结果可能偏离。而且,过滤器20允许满足过滤条件的包通过。这些包中的每个都配置有目标IP或IP 端口对,无论是源IP、源IP端口对、目的IP还是目的IP端口对。然后,在系统100中处理所有 与目标IP或IP端口对相关的包。也就是说,过滤器20的输出是这样的包跟踪信息,该包跟踪 信息包括配置有符合过滤条件设置单元30的过滤条件的目标IP或IP端口对的所有包。过滤器10滤除所有无关包且仅通过配置有目标IP或IP端口对的包之后,并发连 接数序列生成单元40、传输会话序列生成单元50、序列处理器(SP) 60和分析器70执行对 目的IP或IP端口对进行详细识别。事实上,应理解,系统100迭代地工作。每当过滤条件设置单元30改变条件时,将 产生新的目标IP或IP端口对。在原始包跟踪信息的所有IP或IP端口对都经历了整个过 程并得出结果之后,才完成识别。如上所述,P2P应用有两种周期性行为。一种是与节点选择或节点改变相关的行 为,P2P内容分布和P2P流媒体应用都具有这种周期性行为。另一种周期性行为是,P2P流 媒体节点周期性地向相邻节点发出缓存信息。因此,当一个节点向其相邻节点发送缓存信 息时,该节点的并发连接数量将会突增。并发连接数序列生成单元40和传输会话序列生成单元50被配置为分别捕获上述 两种周期性行为。参照图2,并发连接数序列生成单元40包括收集单元401、计数单元402以及生成 单元403。如上所述,将被并发连接数序列生成单元40接收的所有包都配置有目标IP或 IP端口对。收集单元401将时间戳(TS)属于相同时段的所有包收集到一组中。例如,如果时 间间隔设置为1秒,则收集单元301将具有时间戳1. 12、1. 34、1. 57、1. 86的包以及具有时 间戳2. 34,2. 45,2. 89的包分别收集入两组中。计数单元402对与所收集的每个包都相关联的一个目标IP或IP端口对的并发连 接进行计数。实际上,所有收集的包具有共同的特征,其源IP或IP端口对或目的IP或IP 端口对相同,也就是目标IP或IP端口对相同。另一方面,每个包都具有源IP或IP端口对和目的IP或IP端口对。除了每个包都具有的(在源位置或目的位置处的)目标IP或IP 端口对之外,两个包仅当其包含的另一 IP或IP端口对不同时,才认为属于不同的并发连 接,否则认为这两个包属于相同的并发连接。此处的另一 IP或IP端口对被认为是非目标 IP或IP端口对。计数单元402为每个时段维护一张表,该表记录不同的非目标IP或IP端 口对。当计数单元402计数时,仅包中的非目标IP或IP端口对有意义。当表中没有记录 包的非目标IP或IP端口对时,则在表中将增加新的记录。也就是说,表仅记录非目标IP 或IP端口对,无论其是否为源IP或IP端口对或目的IP或IP端口对。在对属于相同时间 段的所有包进行检查之后,相关的表中的记录数量与一个目标IP或IP端口对的并发连接 的数量相同。然后,生成单元403生成每个时间段中与该目标IP或IP端口对并发连接数相关 的序列,并输出该序列。该序列记为χ [η] (Χ [η] =Χ1,Χ2,...,Χη),其中η表示第η个时间 段。Xn的值是表中第η个时间段的表中的记录的数量。公知地,当节点阻塞一个其相邻节点时,该节点将停止向该相邻节点的上传操作, 这导致结束该节点和该相邻节点之间现有数据传输会话的节点行为;当节点疏通一个其相 邻节点时,启动该节点向该相邻节点的上传操作,这导致启动与该节点的相邻节点之间的 新的数据传输会话的节点行为。传输会话序列生成单元50被提供以生成与启动新的数据 传输会话和结束现有的数据传输会话的数量相关的序列。与并发连接数序列生成单元40相同,如图3所示,传输会话序列生成单元50接收 过滤器20的输出,并包括事件发生器(EG)501、收集单元502、计数单元503以及生成单元 504。EG 501生成事件跟踪信息,事件跟踪信息由被触发事件和数据传输会话启动事件 (SE)或数据传输会话结束事件(EE)组成。为此,EG 501包括转换单元5011、过滤单元5012 以及生成单元5013。转换单元5011接收过滤器20输出的包跟踪信息,并将接收的跟踪信息(即包级 跟踪信息)转换为单独的数据流。每个数据流由特定数量包组成,这些包具有相同的五元 组信息,即,具有相同的源IP地址和端口号、相同的目的IP地址和端口号、以及相同的传输 层协议。而且,在一个数据流中的任何两个连续数据包之间的时间间隔应该小于预定的阈 值。如果数据流包括很少量的包或大量的小包,该数据流的内容则将没有意义。因此,过滤 器单元5012被配置以滤除无意义的数据流。过滤器单元5012的输出将是活动流,其中每 个活动流都包括大量的大包。有利地,一个活动数据流中包的数量应该大于预定值,且每个 包的大小应当大于阈值。随后,根据参数将每个活动数据流分成小流,且由生成单元5013生成事件跟踪信 息并将其输出,其中,该参数是一个流中任意两个连续包之间的时间间隔的阈值。具体地,将两个连续包之间的时间间隔与预定的阈值进行比较。如果两个连续包 之间的时间间隔大于阈值,则认为这两个包属于两个不同的流且相应地触发并记录两个事 件。第一事件为数据传输会话结束事件,其时间戳与前一个包(前一个包属于前一个流) 的时间戳相同。第二事件为数据传输会话启动事件,其时间戳与后一个包(后一个包属于 后一个流)的时间戳相同。
图5示出了如何将大流分成小流的简单示例,其中规定时间间隔的阈值为3秒。 因为P3和P4之间的时间间隔为11-6-1 = 4秒,大于阈值3秒,所以P3和P4被收集到不 同的小流会话1和会话2。会话1在第6秒结束,这与P3的时间戳相同,而会话2在第11 秒开始,这与P4的时间戳相同。返回图3,事件发生器501输出如上所述的事件跟踪信息。收集单元502基于事件 的时间戳(TS)收集事件发生器502输出的所有事件。计数单元503对所收集的与目标IP 或IP端口对相关的事件进行计数。生成单元504生成与目标IP或IP端口对的事件数量 相关的序列。此处,生成的序列表示为Υ[η](Υ[η] =Υ1,Υ2,...,Υη),其中η表示第η个时 间段。Yn的值是第η个时间段中触发的事件的数量。因此,传输会话生成单元50生成并输 出与启动新的数据传输会话和结束现有的数据传输会话的数量相关的序列。具体地,在计数过程中,可对启动事件(SE)和结束事件(EE)这两个事件单独计 数,从而生成两个子序列Ys [η]和Ye [η]。对于大多数Ρ2Ρ应用,Ys [η]和Ye [η]拥有与Y [η] 相同的特征(例如频域)。然而,对于一些新设计的Ρ2Ρ应用,其Ys[η]和Ye[n]可具有不 同的频域特征。虽然这些不同的特征也属于Y[n],但是如果必要时,分离地处理SE和EE可 获得更详细的信息和频域特征。再次参照图1,生成单元40和50的输出X[η]和Y[η]被输入序列处理器(SP) 60 中。SP 60包括自动相关函数(ACF)单元601以及功率谱密度函数(PSD)单元602。因为 序列X [η]和Y [η]都为随机序列,因此有必要在PSD单元602对序列X [η]和Y [η]应用PSD 之前,对序列Χ[η]和Υ[η]应用ACF。PSD单元601的结果为频域信号,该频域信号表现来 自单元40和50的原始时域序列的频域特征。ACF单元601和PSD单元602的结果分别输 出至分析器70。分析器70被配置以完成签名建立和应用识别。具体地,分析器70可用来确定输 入系统100的原始包跟踪信息是否被人为控制、以及产生这些包的具体Ρ2Ρ应用是否预先 已知。如果是,则将从SP 60获得的频域特征认为是该已知Ρ2Ρ应用的行为签名。否则,系 统100将处理从特定网关或中间节点收集的原始输入包跟踪信息,且分析器70将基于频域 特征或行为签名从混合包跟踪信息中识别Ρ2Ρ应用。由于运行Ρ2Ρ应用(内容分布和流媒体)的主机通常建立大量与其相邻节点的并 发连接,因此对具有少量并发连接(例如少于2)的IP或IP端口对进行分析是没有意义的。 分析器70滤除这些具有少量并发连接的IP或IP端口对。然后,分析器70操作以将过滤 后的频域特征或行为签名映射至具体Ρ2Ρ应用的已有行为签名。上述映射操作可应用一些现有的模式识别方法。还可应用一些简单的方案来进行 映射操作。例如,一种公知的Ρ2Ρ流媒体软件,PPStream,具有下面周期性行为每个运行 PPStream的客户端主机每隔15秒将向大量相邻节点发送其缓存映射,这意味着该客户端 主机的并发连接数序列转换到频域后将具有f = l/15Hz的特征频率。此外,该客户端主机 的传输会话序列也具有f = l/15Hz的特征频率。这两个特征频率可以认为是PPstream软 件的行为签名。与一个目标IP或IP端口对相关联且具有这两个特征频率的所有流量都将 被识别为PPStream流量。另一个示例是P2P文件共享软件Bit-torrent (BT)。根据BT的 设计协议,BT客户端的并发连接数序列没有特征频率,而该客户端的传输会话序列具有两 个不同的特征频率,fl = 1/lOHz和f2 = l/30Hz。因此,可以相同的方式识别Bit-torrent流量。图6示出根据本发明的从原始混合包跟踪信息中识别P2P应用和识别具体P2P应 用软件的示例性方法1000。参照图6,方法1000从步骤200开始,在步骤200中从原始包跟踪信息中的每个包 中获取包头。原始包跟踪信息可从网关或中间节点收集。在步骤201,滤除所有无关包,该步骤的输出是包括配置有目标IP或IP端口对的 所有包的包跟踪信息。在步骤202,将包跟踪信息转换为离散时间序列。之后将参照图7详细描述步骤 202。在步骤203将离散时间序列转换为频域序列,频域序列是原始包跟踪信息的行为 签名。具体地,对离散时间序列应用ACF以得到第一序列,然后对该序列应用PSD以得到第 二序列。第一和第二序列称为未知流量行为签名。在步骤204,分析未知流量行为签名并生成识别结果。具体地,通过将未知流量行 为签名与预先建立的具体P2P应用签名进行比较来进行分析。之后将参照图10进一步描 述步骤204。下面参照图7详细描述步骤202。图7分别示出了生成并发连接数序列的子步骤2021-2023,以及生成传输会话序 列的子步骤2024-2029。具体地,在步骤2021中,基于包的时间戳,从接收自步骤201的包跟踪信息中收集 所有包。然后,在步骤2022对每个时间段的并发连接进行计数。如上所述,所有收集到一 起的包具有共同的特征,即,其源IP或IP端口对或目的IP或IP端口对相同,也就是都具有 目标IP或IP端口对。此处,每个包所包括的除目标IP或IP端口对之外(在源位置或目 的位置)的另一IP或IP端口对称为非目标IP或IP端口对。实际上,基于一个表来执行 步骤2022,该表为每个时间段记录不同的非目标IP或IP端口对。当包的非目标IP或IP 端口对在表中没有记录时,则在表中将增加新的记录。也就是说,表仅记录非目标IP或IP 端口对,无论其为源IP或IP端口对、还是目的IP或IP端口对。对属于相同时间段的所有 包进行检查之后,相关表中的记录数量与一个目标IP或IP端口对的并发连接的数量相同。在步骤2023,基于所计数的数量生成与并发连接数相关的序列X[n] (X[n] = XI, X2,. . .,Xn),其中η表示第η个时间段。Xn的值是第η个时间段的表中的记录的数量。在步骤2024,将步骤201生成的包跟踪信息中的包转换为单独的流,每个流由一 定数量的包组成,这些包具有相同的五元组信息(相同的源IP地址和端口号、相同的目的 IP地址和端口号、以及相同的传输层协议)。而且,流中任何两个连续的包之间的时间间隔 应该小于预定的阈值。在步骤2025,滤除无意义的流以及非常短的流。同时,形成包括大量 大包的活动流。之后将参照图8详细描述步骤2025。随后,将剩余的流分成小流,并在步骤2026中生成包括时间戳的输出事件跟踪信 息(当该事件被触发时)以及特性(启动事件或结束事件)。然后,在步骤2027基于时间戳收集输出的事件跟踪信息。在步骤2028,以与步骤 2022相似的方式对每个时间段所收集的事件跟踪信息进行计数。在步骤2029,基于所计数的数量,生成与启动新的数据传输会话和结束现有的传输会话的数量相关的序列。此处的 序列表示为Υ[η] (Y[η] = Yl,Υ2,. . .,Υη),其中η表示第η个时间段。Yn的值是第η个时 间段中触发的事件的数量。之后将参照图9详细描述步骤2029。图8示出步骤2025的详细过程。在步骤801设置参数,参数包括定义为大包的包 的大小以及所需大包数量的阈值。在步骤802,将输出的事件跟踪信息中每个包的大小与 预定的大小进行比较,并对大包进行计数。大小大于预定大小的包认为是大包。然后,在步 骤803,确定大包的数量是否大于或等于预定的大包数量。如果是,则在步骤804保留该流。 如果不是,则在步骤805丢弃该流。图9示出步骤2029的详细步骤。在步骤901,设置任何两个连续包之间的时间间隔阈值。在步骤902,将两个连续 包之间的时间间隔与设定的阈值进行比较。如果两个连续包之间的时间间隔大于阈值,则 在步骤903将认为这两个包属于两个不同的流且触发并记录两个事件。第一事件是现有数 据传输会话结束事件,其时间戳与前一个包的时间戳相同。第二事件是数据传输会话启动 事件,其时间戳和后一个包的时间戳相同。如果两个连续包之间的时间间隔不大于阈值,则 在步骤904提取紧接着的下两个连续包,并转至步骤902。参照图10,详细描述分析频域特征的步骤204。在步骤1001,确定是原始输入包跟踪信息为人为控制还是产生包跟踪信息的具体 Ρ2Ρ应用预先已知。如果产生包跟踪信息的具体Ρ2Ρ应用预先已知,则在步骤1002将在步 骤203获得的频域特征(即未知行为签名)作为该已知的Ρ2Ρ应用的行为签名。当原始输 入包跟踪信息是通过一些网关或中间节点混合和收集时,在步骤1003和1004基于频域特 征或行为签名进行识别。由于运行Ρ2Ρ应用的主机通常建立大量与相邻节点的并发连接,因此分析具有少 量并发连接(例如少于2)的IP或IP端口对是没有意义的。在步骤1003,滤除具有少量并发连接的目标IP或IP端口对。在步骤1004,将过 滤后的频域特征或行为签名映射至具体Ρ2Ρ应用的现有行为标签。综上所述,描述了从原始混合包跟踪信息中识别对等网络应用的新颖的系统和方 法。在不脱离所附权利要求书限定的本发明更宽的精神和范围的情况下,可进行不同的改 动和变化。因此,具体实施方式
和附图用于解释而不用于限定。
权利要求
一种基于行为签名识别网络上P2P应用的系统,包括获取单元,从网络收集的包跟踪信息中获取每个包的包头;过滤器,从所获取的包中滤除所有无关包,并允许配置有目标IP或IP端口对的包通过;第一序列生成单元,根据所述配置有目标IP或IP端口对的包生成第一离散时间序列;第二序列生成单元,根据所述配置有目标IP或IP端口对的包生成第二离散时间序列;序列处理器,生成所述第一离散时间序列和第二离散时间序列的频域特征;以及分析器,获取所述频域特征以基于所述频域特征识别P2P应用。
2.如权利要求1所述的系统,进一步包括 过滤条件设置单元,设置所述目标IP或IP端口对。
3.如权利要求1所述的系统,其中,所述第一序列生成单元进一步包括 收集单元,通过时间戳来收集所述配置有目标IP或IP端口对的包; 计数单元,对收集的包中的非目标IP或IP端口对进行计数;以及 生成单元,基于计数结果生成所述第一离散时间序列。
4.如权利要求3所述的系统,其中,所述第一离散时间序列是与每个时间段中所述目 标IP或IP端口对相关的并发连接数序列。
5.如权利要求1所述的系统,其中,所述第二序列生成单元进一步包括 事件发生器,生成与所述目标IP或IP端口对相关的事件;收集单元,基于时间戳收集生成的事件; 计数单元,对所收集的事件进行计数;以及 生成单元,基于计数结果生成所述第二离散事件序列。
6.如权利要求5所述的系统,其中,所述事件发生器进一步包括转换单元,将配置有所述目标IP或IP端口对的包转换为单独的数据流;过滤单元,获得活动数据流;以及生成单元,根据所述活动数据流生成所述事件。
7.如权利要求6所述的系统,其中,每个数据流包括具有相同的五元组信息的包,所述 相同的五元组信息包括相同的源IP地址和端口号、相同的目的IP地址和端口号、以及相同 的传输层协议。
8.如权利要求5所述的系统,其中,所述事件包括新数据传输会话启动事件以及现有 数据传输会话结束事件。
9.如权利要求1所述的系统,其中,所述序列处理器进一步包括自动相关函数单元,对所述第一离散时间序列和第二离散时间序列应用自动相关函数 操作,以去除所述第一离散时间序列和第二离散时间序列中随机分量;以及功率谱密度函数单元,对已经去除了随机分量的序列应用功率谱密度函数操作,以得 到频域特征。
10.如权利要求1所述的系统,其中,所述分析器进一步将频域特征映射至预先建立的 行为签名。
11.如权利要求10所述的系统,其中,所述映射是利用模式识别技术或简单比较来实 现的。
12.如权利要求1所述的系统,其中,所述P2P应用包括P2P内容分布应用和P2P流媒体应用。
13.一种基于行为签名识别网络上P2P应用的方法,包括 从网络收集的包跟踪信息中获取每个包的包头;对获取的包进行过滤,并输出配置有所述目标IP或IP端口对的包; 根据配置有所述目标IP或IP端口对的包生成第一离散时间序列; 根据与所述目标IP或IP端口对相关的包生成第二离散时间序列; 生成第一离散时间序列和第二离散时间序列的频域特征;以及 分析所述频域特征以识别所述P2P应用。
14.如权利要求13所述的方法,进一步包括通过建立至少一个过滤条件来设置所述目标IP或IP端口对。
15.如权利要求14所述的方法,其中,所述生成第一离散时间序列包括 通过时间戳收集配置有所述目标IP或IP端口对的包;对所收集的包中所述目标IP或IP端口对的并发连接进行计数;以及 基于计数结果,生成所述第一离散时间序列。
16.如权利要求13所述的方法,其中,所述生成第二离散时间序列进一步包括 生成与所述目标IP或IP端口对相关的事件;基于时间戳收集所生成的事件; 对所收集的事件进行计数;以及 基于计数结果,生成所述第二离散时间序列。
17.如权利要求16所述的方法,其中,生成所述事件的步骤进一步包括 将配置有所述目标IP或IP端口对的包转换为单独的数据流;对转换后的数据流进行过滤以输出由一定数量的大包组成的活动流;以及 根据所述活动流生成所述事件。
18.如权利要求17所述的方法,其中,所述单独的数据流包括具有相同的五元组信息 的包,所述相同的五元组信息包括相同的源IP地址和端口号、相同的目的IP地址和端口 号、以及相同的传输层协议。
19.如权利要求18所述的方法,所述事件包括新数据传输会话启动事件以及现有数据 传输会话结束事件。
20.如权利要求13所述的方法,其中,生成所述频域特征的步骤进一步包括对所述第一离散时间序列和第二离散时间序列应用自动相关函数操作,以去除所述第 一离散时间序列和第二离散时间序列中的随机分量;以及对已经去除随机分量的序列应用功率谱密度函数操作,以得到所述频域特征。
21.如权利要求13所述的方法,其中,分析所述频域特征的步骤进一步包括 将所述频域特征映射至预先建立的行为签名。
22.如权利要求21所述的系统,其中,所述映射是利用模式识别技术或简单比较来实 现的。
全文摘要
公开了基于行为签名从原始混合包跟踪信息中识别P2P应用以及具体P2P软件的系统和方法。根据本发明基于行为签名的系统和方法主要用于检查应用是否具有特定的周期性行为。本发明的方法包括滤除所有无关包;将过滤后的包跟踪信息转换为离散时间序列;处理所述序列以获得原始包跟踪信息的频域特征;以及分析频域特征并确定识别结果。
文档编号H04L12/56GK101911614SQ200980101549
公开日2010年12月8日 申请日期2009年1月19日 优先权日2008年1月23日
发明者傅正佳, 邱达民 申请人:香港中文大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1