基于网络时延特征的移动蜂窝网络流量识别方法与流程

文档序号:11932046阅读:314来源:国知局
基于网络时延特征的移动蜂窝网络流量识别方法与流程

本发明涉及一种网络流量识别方法,特别是一种基于网络时延特征的移动蜂窝网络流量识别方法。



背景技术:

目前,用户终端接入互联网服务主要有两种方式:以3G/4G为代表的移动蜂窝网络、固网及其分享的WIFI。用户终端通过3G/4G或者固网接入互联网后,其数据都以IP分组的形式在骨干网中传输。通过Internet骨干网截获的流量中混合了两种接入方式产生的流量,目前还没有有效方法将这种流量区分开。

判断网络流量来源的常用方法是在产生流量的终端设备上运行识别网络接入方式的代码,这不能适用于分析在互联网骨干节点上截获的数据。开源项目WURFL提出一种对智能手机终端流量进行识别的方法,但并不区分手机通过WIFI还是蜂窝网络接入互联网。近年来,固网和移动蜂窝网络的链路架构及其对网络流量的影响也受到关注,例如无线电资源控制模块(RRC)对移动蜂窝网络中数据往返时延(RTT)有较大的影响,但如何在互联网流量中提取链路相关特征,以区分用户接入方式,还没有确定有效的方法,因此还无法实际用于识别移动蜂窝网络流量。



技术实现要素:

本发明的目的在于提供一种基于网络时延的移动蜂窝网络流量识别方法,提取网络流量的时延特征,依据流量产生链路的不同,将互联网流量分为固网流量和移动蜂窝网络流量。

实现本发明目的的技术方案为:一种基于网络时延特征的移动蜂窝网络流量识别方法,所述方法包括:

第一步、依据客户端IP地址在流量数据中的行为特征,筛选出流量文件涉及的客户端IP地址;

第二步、依据客户端IP地址,将网络流量分割重组,把每一个客户端IP地址接收和发送的流量重新组合成独立的流量文件,与该客户端IP地址构成一一对应关系;

第三步、依据TCP报文到达确认机制,定位待确认报文和确认报文,计算截获点与客户端IP地址之间传输行为的时延;

第四步、根据第三步计算时延过程中所用数据报的链路负载特征,构建链路负载特征小于设定阈值时客户端IP地址对应的链路时延集合,并提取链路时延特征;

第五步、根据第三步计算的时延确定客户端IP地址的RRC状态特征,构建RRC处于不同状态下客户端IP地址对应的链路时延集合,并提取RRC时延特征;

第六步、依据TCP报文的超时重发机制,提取客户端IP地址对应的RRC重传特征;

第七步、利用客户端IP地址对应的特征,依据接入网络类型是固网或移动蜂窝网络,对客户端IP地址进行分类识别;

第八步、根据第七步得到的客户端IP地址分类,将标记为移动蜂窝网络的客户端IP地址对应的网络流量标记移动蜂窝网络流量。

与现有技术相比,本发明的显著优点为:

(1)本发明通过构建客户端IP地址对应的链路时延特征、RRC时延特征、RRC重传特征,对客户端IP流量依据网络接入方式进行分类;在不涉及用户内容隐私的情况下,精确地从骨干网流量中检测识别移动蜂窝网络流量;(2)本发明可以为科研院所、大数据相关业务单位、网络运营商等机构和企业提供一种在不涉及用户隐私的条件下,从互联网流量中识别出3G/4G流量的可靠方法。

附图说明

图1为本发明的识别移动蜂窝网络流量流程图。

图2为提取客户端IP地址流程图。

图3为客户端IP地址时延示意图。

图4为N=3时链路时延的最小值特征在测试集中的累积分布图。

图5为t0=15s,t1=+∞时对应的RRC时延的标准差特征在测试集中的累积分布图。

图6为RRC重传率在测试集中的累积分布图。

具体实施方式

结合图1,本发明的一种基于网络时延特征的移动蜂窝网络流量识别方法,所述方法包括:

第一步、依据客户端IP地址在流量数据中的行为特征,筛选出流量文件涉及的客户端IP地址;

第二步、依据客户端IP地址,将网络流量分割重组,把每一个客户端IP地址接收和发送的流量重新组合成独立的流量文件,与该客户端IP地址构成一一对应关系;

第三步、依据TCP报文到达确认机制,定位待确认报文和确认报文,计算截获点与客户端IP地址之间传输行为的时延;

第四步、根据第三步计算时延过程中所用数据报的链路负载特征,构建链路负载特征小于设定阈值时客户端IP地址对应的链路时延集合,并提取链路时延特征;

第五步、根据第三步计算的时延确定客户端IP地址的RRC状态特征,构建RRC处于不同状态下客户端IP地址对应的链路时延集合,并提取RRC时延特征;

第六步、依据TCP报文的超时重发机制,提取客户端IP地址对应的RRC重传特征;

第七步、利用客户端IP地址对应的特征,依据接入网络类型是固网或移动蜂窝网络,对客户端IP地址进行分类识别;

第八步、根据第七步得到的客户端IP地址分类,将标记为移动蜂窝网络的客户端IP地址对应的网络流量标记移动蜂窝网络流量。

进一步的,第一步中筛选出的客户端IP地址同时满足下列行为特征:

针对其他网络IP地址意图与客户端IP地址建立TCP连接而发出的SYN标识位为1的数据报,不予回应确认报文;

针对其他地址对客户端IP地址发起的DNS查询报文,不予回应应答报文;

任意两个客户端IP地址间,无数据传输;

客户端IP地址有发出流量。

进一步的,第三步待确认报文是指在客户端IP地址对应的网络流量中,TCP协议数据报的SYN标志位为1或有效载荷长度大于0的待确认报文,确认报文是指TCP协议中规定的相应的确认报文,且要满足待确认报文和确认报文在流量文件中无重传。

进一步的,第四步所述的数据报的链路负载特征是指流量中客户端IP地址在待确认报文和确认报文之间传输数据包的数量。

进一步的,第五步所述数据报的RRC状态特征是指流量中客户端IP地址在传输待确认报文时,距离上一次传输行为的时间差;RRC处于不同状态是指这个时间差落在不同的区间。

进一步的,第四步、第五步所述的链路时延特征、RRC时延特征包括但不仅限于从相应时延集合中提取的最小值、均值、标准差、方差、中值等特征。

进一步的,第六步所述的客户端IP地址对应的RRC重传特征是指,该客户端IP地址在流量中保持时间T内无传输行为后,接收或发送的第一个数据报在TCP协议中表现的重传特征。

进一步的,第七步所述的客户端IP地址对应的特征是指链路时延特征、RRC时延特征、RRC重传特征及其组合特征。

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

实施例

结合图1,一种基于网络时延特征的移动蜂窝网络流量识别方法,包括以下步骤:

步骤1,如图2所示,提取客户端IP地址,对于给定的一个或者多个流量文件,例如pcap文件,首先,利用工具或编写代码,先提取出所有数据报涉及的源IP地址,这里包含IPv4地址或者IPv6地址,构成一个集合,然后,利用过滤规则,从中提取出所有的客户端IP地址,这里的过滤规则是指:如果流量中包含了至少一个该IP地址发出的SYN和ACK标识位同时为1的TCP协议数据报,或者流量中包含了至少一个该IP地址发出的DNS应答报文,或者流量中没有以该IP地址为源地址的TCP协议数据包,那么标记该IP地址为非客户端IP地址,最后,在流量中集合中IP地址之间是否存在通信行为,即IP数据报源地址和目的地址是否都属于该集合,如果是,则将IP数据包源地址和目的地址所对应的IP地址也标记为非客户端IP地址,至此,集合中剩下的没有标记的IP地址即为客户端IP地址。

步骤2,将网络流量依客户端IP地址进行分割重组。枚举每一个流量数据包,如果其源地址或目的地址是某一个客户端IP地址,那么就保存成一个独立的流量文件,与该客户端IP地址对应,其中应保持数据包原有的相对顺序(后截获的数据包在后面)及其对应信息(例如截获时间、包长度等)。这些重组得到的流量文件将与客户端IP地址保持一一对应,例如,将流量中客户度IP地址202.112.4.113接收和发送的所有流量都保存在一个独立的文件202.112.4.113.pcap中,由于过滤规则的存在,不会出现两个地址对应一个相同的流量文件。

步骤3,如图3所示,计算客户端IP地址的时延序列,以某一个客户端IP地址为例,考察该IP地址对应的流量文件,将目的地址为客户端IP地址,并且TCP协议数据报SYN标志位为1或有效载荷长度大于0的报文称为待确认报文pktdata,将TCP协议中规定的客户端IP地址在收到待确认报文后,应发出的确认报文用pktack表示,如果pktdata和pktack在流量中无重传,则计算两个报文的截获时间差作为时延:

Delaypkt=ft(pktack)-ft(pktdata)

其中ft是获取数据报截获时间的函数。一对待确认报文和确认报文可以计算一个时延值,所有符合条件的待确认报文和确认报文可计算出一个时延序列。例如步骤2中流量文件202.112.4.113.pcap中,客户度IP地址202.112.4.113共收到10个不同的待确认报文,都发送了确认报文,但有两个确认报文发生了重传,那么就可以计算剩余8对待确认报文和确认报文的8个时延值,与客户度IP地址202.112.4.113对应。

步骤4,提取客户端IP地址的链路时延特征。以某一个客户端IP地址为例,考察该IP地址对应的流量文件,如果在步骤3计算时延过程中,满足以下等式:

fi(pktack)-fi(pktdata)≤N

fi是获取数据报在该客户端流量文件中序号的函数;即待确认报文和确认报文之间,该客户端IP地址传输的数据报数量不大于N,那么该时延标记为链路时延;N为可调的阈值,为大于0的整数,如图4所示,N=3时链路时延的最小值特征在测试集中的累积分布图。链路时延是步骤3得到的时延集合的子集,据此可计算出链路时延的一些特征,包含但不仅限于最小值、标准差、均值、中值、方差等特征。

步骤5,提取客户端IP地址的RRC时延特征。以某一个客户端IP地址为例,考察该IP地址对应的流量文件,如果在步骤3计算时延过程中,待确认报文和确认报文之间,该客户端IP地址传输的数据报数量不大于N,N是大于0的整数,并且待确认报文与该客户端IP地址发送的上一个数据报之间的时间差落在了区间(t0,t1)内,那么该时延标记为区间(t0,t1)的RRC时延,如图5所示,取t0=15s,t1=+∞,是指待确认报文与上一个数据报之间有15s以上的空闲,换句话说,该客户端IP地址在收到待确认报文之前,持续静默了15s以上。依据选取区间的不同,RRC时延组成的集合也不相同,可计算出一些典型区间对应的RRC时延的一些特征,包含但不仅限于标准差、均值、中值、方差等特征。

步骤6,提取客户端IP地址的RRC重传特征。以某一个客户端IP地址为例,考察该IP地址对应的流量文件,如果该客户端地址在流量中保持时间T内无流量,并且之后传输的第一个数据报是TCP协议数据报,那么依据TCP超时重传机制,在流量中判断该数据包是否发生了重传,发生重传的数据包的个数与所有满足条件的数据包的比率为RRC重传率,不同T值对应不同的RRC重传率,例如选取T=15s,客户端IP地址流量中静默时间超过T的次数有100次,之后有70次传输了TCP数据报,其中有40个数据报都发生了重传,有的重传一次,有的重传多次,那么上下行重传率为40/70,如果满足条件的数据包个数为0,RRC重传率定义为0。如图6所示,T=15s时,实验中,固网流量将近60%的流量重传率小于20%,而蜂窝网络流量70%以上大于20%,从而提取客户端IP地址的RRC重传特征。

步骤7,利用上述步骤3、4、5,6提取的特征,通过设定阈值或范围,或利用特征值计算出指标,通过判断指标的范围,进行分类,得到某些客户端IP地址归属于移动蜂窝网络,另外一些归属于固网,如链路时延小于15ms的为固网,链路时延大于15ms且T取15s时RRC时延标准差大于400ms的为移动蜂窝网络。

步骤8,依步骤7得到的客户端IP地址分类,对相关的流量进行识别标记,把归属为移动蜂窝网络的客户端IP地址对应的流量文件标记为移动蜂窝网络流量。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1