一种基于内容提供商标识的互联口icp流量统计系统及方法

文档序号:7775152阅读:223来源:国知局
一种基于内容提供商标识的互联口icp流量统计系统及方法
【专利摘要】本发明公开了一种基于内容提供商标识的互联口ICP流量统计系统,该系统包括:分流设备,用于将接收到的镜像数据流转发给数据采集处理解析服务器;数据采集处理解析服务器,用于对镜像数据流进行筛选解析处理、提取报文信息,并将报文信息存储到IP地址存储关联服务器上;交换机与数据采集处理解析服务器、IP地址存储关联服务器、ICP分类分级服务器相连;IP地址存储关联服务器,用于将报文信息与IP地址对应的域名文件记录进行关联;ICP分类分级服务器,用于根据事先设定的策略对ICP进行分类分级。本发明还公开了一种相应的流量统计方法。本发明能够对大客户流量进行多维度高效的排名和统计。
【专利说明】一种基于内容提供商标识的互联口 ICP流量统计系统及方

法【技术领域】
[0001]本发明涉及网络行为监控与网络行为管理【技术领域】,更具体地,涉及一种基于运营商IP地址段内容提供商标识的互联口 ICP流量统计系统及方法。
【背景技术】
[0002]计算机网络在过去十几年中经历了爆炸式的增长,随着互联网技术的迅猛发展,越来越多的用户频繁地使用网络中的资源,虽然网络带宽等资源也在不断增加,但与日益增长的用户数量比起来仍然不能满足用户的需求,网络拥塞问题逐渐暴露出来。
[0003]网络拥塞问题得到全世界的关注始于1986年10月,当时美国LBL到UC Berkeley网络由于发生严重的网络拥塞导致网络崩溃,使得数据吞吐量从32kbps跌落到40bps,至此以后,拥塞成为一个热点研究领域。
[0004]目前我国高校接入双路IOG流量的带宽连接外网,但是大网常常出现拥堵情况,面对日益拥堵的网络,如果能够通过技术手段将占用带宽的运营商进行多维度排名统计,直观地显示拥堵资源,将教育网外运营商资源迁入教育网内,将可大大缓解网络拥堵,给高校以及其他单位带来更好的上网体验。

【发明内容】

[0005]为了解决上述问题,本发明提出一种基于内容提供商标识的互联口 ICP流量统计系统及方法。本发明可以独立对互联口 ICP流量进行分类统计,也可以根据一个运行商进行精准定位。
[0006]根据本发明的一方面,提出一种基于内容提供商标识的互联口 ICP流量统计系统,该系统包括:分流设备、数据采集处理解析服务器、交换机、IP地址存储关联服务器和ICP分级分类服务器,其中:
[0007]所述分流设备用于将从外部网络所接收到的镜像数据流转发给所述数据采集处理解析服务器;
[0008]所述数据采集处理解析服务器用于接收经过所述分流设备收集的镜像数据流、对其进行筛选解析处理、从解析后得到的数据流中提取报文信息,并将所述报文信息存储到所述IP地址存储关联服务器上;
[0009]所述交换机与所述数据采集处理解析服务器、IP地址存储关联服务器、ICP分类分级服务器的配置管理网络接口相连,用于对数据采集处理解析服务器及运行其上的程序进行远程配置管理,提供数据采集处理解析服务器、IP地址存储关联服务器、ICP分级分类服务器之间的数据传输通道;
[0010] 所述IP地址存储关联服务器与所述交换机相连,用于根据所接收到的报文信息,将所述报文信息与所述IP地址对应的域名文件记录进行关联,并将关联上的数据以记录格式按行存入存储文件;[0011]所述ICP分类分级服务器与所述交换机相连,用于根据事先设定的策略,通过所述交换机访问所述IP地址关联存储服务器中的记录信息,对ICP进行分类分级。
[0012]根据本发明的另一方面,提出一种基于内容提供商标识的互联ロ ICP流量统计方法,该方法包括以下步骤:
[0013]步骤SI,获取流量包和数据包镜像数据流,并将所述镜像数据流发送给数据采集处理解析服务器;
[0014]步骤S2,所述数据采集处理解析服务器对所接收的镜像数据流进行筛选处理,然后将筛选处理后得到的镜像数据流进行解析,提取出报文信息,并将所述报文信息存储到IP地址存储关联服务器中;
[0015]步骤S3,IP地址存储关联服务器根据所述报文信息,将所述报文信息与C类地址所在的相应的域名段字典表进行关联对应,并将关联后得到的数据以记录格式按行存入存储文件;
[0016]步骤S4, ICP分类分级服务器根据用户预定的策略,访问所述IP地址存储关联服务器中存储文件记录的信息,对ICP进行多维度的分类分级;
[0017]步骤S5,将经过分类分级后的信息按照IP地址精确对应到单个或多个数据发送方。
[0018]根据本发明的上述技术方案,本发明的有益效果为:(I)通过近似度模糊算法,快速查找算法和域名对应运行商策略将IP地址准对应到相应的域名中,将域名准确对应到相应的运行商,从而提升数据匹配的速度;(2)直观地获取拥堵网络的ICP用户,多维度地统计分析网络资源;(3)按照流量排名精确定位ICP用户。
【专利附图】

【附图说明】
[0019]图1为本发明提出的一种基于内容提供商标识的互联ロ ICP流量统计系统的结构示意图。
[0020]图2为本发明提出的一种基于内容提供商标识的互联ロ ICP流量统计方法的流程图。
[0021]【具体实施方式】
[0022]为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并參照附图,对本发明进ー步详细说明。
[0023]图1为本发明一种基于内容提供商标识的互联ロ ICP流量统计系统结构示意图,如图1所示,根据本发明的一方面,提出一种基于内容提供商标识的互联ロ ICP流量统计系统,该系统包括:分流设备、数据采集处理解析服务器、交換机、IP地址存储关联服务器和ICP分级分类服务器,其中:
[0024]所述分流设备用于将从外部网络所接收到的镜像数据流转发给所述数据采集处理解析服务器;
[0025]具体地,所述分流设备具有两个网络接ロ,第一网络接ロ用于接收所述镜像数据流;第二网络接ロ用于将所述镜像数据流发送给所述数据采集处理解析服务器。
[0026]所述数据采集处理解析服务器用于接收经过所述分流设备收集的镜像数据流、对其进行筛选解析处理、从解析后得到的数据流中提取报文信息,并将所述报文信息以比如HTTP请求文件记录的形式存储到所述IP地址存储关联服务器上;
[0027]所述数据采集处理解析服务器具有两个网络接口,第一网络接口与所述分流设备的第二网络接口相连,用于接收所述镜像数据流,并对其进行筛选处理,然后将筛选处理后得到的数据流进行解析,提取出服务器IP地址(serverjp)、流量(byte)、关联序列号(rel_seqno)等报文信息,并将提取出的上述报文信息比如以HTTP文件记录的形式通过与所述交换机相连的第二网络接口存储到所述IP地址存储关联服务器上;
[0028]所述交换机与所述数据采集处理解析服务器、IP地址存储关联服务器、ICP分类分级服务器的配置管理网络接口相连,用于对数据采集处理解析服务器及运行其上的程序进行远程配置管理,另外也作为数据采集处理解析服务器、IP地址存储关联服务器、ICP分级分类服务器之间的数据传输通道;
[0029]在本发明一实施例中,所述交换机为通讯千兆交换机。
[0030]所述IP地址存储关联服务器与所述交换机相连,用于根据所接收到的报文信息中的server_ip、byte、rel_seqno三元组信息,将所述报文信息与所述IP地址对应的域名文件记录进行关联,并将关联上的数据以记录格式按行存入存储文件;
[0031]所述IP地址存储关联服务器具有一个网络接口,所述IP地址存储关联服务器通过该网络接口与所述交换机连接,用于与数据采集处理解析服务器、ICP分类分级服务器之间进行数据传输。
[0032]所述ICP分类分级服务器与所述交换机相连,用于根据事先设定的策略,通过所述交换机访问所述IP地址关联存储服务器中的记录信息,对ICP进行分类分级。
[0033]所述ICP分类分级服务器具有一个网络接口,所述ICP分类分级服务器通过该网络接口与所述交换机连接,用于与IP地址存储关联服务器之间进行数据传输。
[0034]图2为本发明一种基于内容提供商标识的互联口 ICP流量统计方法流程图,如图2所示,根据本发明的另一方面,还提出一种基于内容提供商标识的互联口 ICP流量统计方法,该方法包括以下步骤:
[0035]步骤SI,获取流量包和数据包镜像数据流,并将所述镜像数据流发送给数据采集处理解析服务器;
[0036]步骤S2,所述数据采集处理解析服务器对所接收的镜像数据流进行筛选处理,然后将筛选处理后得到的镜像数据流进行解析,提取出serverjp、rel_seqno, byte等报文信息,并将提取出的上述报文信息比如以HTTP文件记录的形式存储到IP地址存储关联服务器中;
[0037]其中,所述数据采集处理解析服务器对所述镜像数据流进行解析的步骤进一步包括以下步骤:
[0038]步骤S21,获取所述镜像数据流;
[0039]步骤S22,解析所述镜像数据流的IP/TCP报首,提取服务器IP地址Serverjp、关联序列号RelSeqno、访问流量FloW_Byte,并根据获取的这些信息计算出下一报文序列号next_seqno 和关联序列号 rel_seqno。
[0040]步骤S3,IP地址存储关联服务器根据所述报文信息,将所述报文信息与C类地址所在的相应的域名段字典表进行关联对应,并将关联后得到的数据以记录格式按行存入存储文件;[0041]其中,C类地址所在的相应的域名段字典表是由ー时间间隔内,比如每30天累积的海量数据经过归并后提取而得到的,这样做的目的是将数据的相似性转化为集合的相似性。
[0042]其中,所述报文信息与C类地址关联的步骤进一歩包括以下步骤:
[0043]步骤S31,将C类地址和其对应的域名存入ニ维数组;
[0044]步骤S32,通过递归算法将所述报文信息映射到相应的C类地址中,进而映射到域名中,得到映射数据;
[0045]所述步骤S32中的递归算法具体为:首先找到所述ニ维数组的中间元素,判断是否与所述报文信息相匹配,如果匹配,则返回它在所述ニ维数组中的索引;如果不匹配,则判断所述中间元素值比目标值大还是小,如果中间元素值比目标值大,就对第一个元素到第middle-1个元素递归上述寻找中间元素和匹配的步骤;如果中间元素值比目标值小,就对第middle+1个到最后ー个元素递归上述寻找中间元素和匹配的步骤;如果查找结束时的索引小于查找开始时的索引,则返回-1,表示没有找到所述ニ维数组的中间元素。
[0046]经过上述的递归过程,最终将得到与所述报文信息相匹配的数据元素的索引,或者是表示找不到的-1。
[0047]步骤S33,将所述映射数据累加排序,记录其最大访问流量和相应的时间。
[0048]在该步骤中,记录格式包含如下字段:服务器IP地址Server_Ip、请求关联的ニ级域名URL_Second、关联序列号Rel_Seqno、访问流量Flow_Byte、最大访问流量Flow_Max、统计日期Flow_Date、统计时间Flow_Hour。
[0049]步骤S4,ICP分类分级服务器根据用户预定的策略,访问所述IP地址存储关联服务器中存储文件记录的信息,对ICP进行多维度的分类分级;
[0050]经过上述匹配成功的文件记录了对应的一次完整的数据交互。从在骨干网的路由器上获取的流量包和数据包镜像数据流的存储文件URL Request中可以提取出URL、Host, Byte, Time, Content-Type、Content-Length 等属性信息,根据 Content-Type、byte、Content-Length、Host、Time等属性信息可以对ICP进行分级、分类。而HTTP报文报首的解析与文件记录关联、属性提取、根据属性分级分类都可以在人为制定策略后由计算机完成,从而达到自动化的目的。
[0051]根据对一段时间内ICP报文报首的解析与关联结果的数据分析,可以得到不同纬度的ICP分级与分类,并对ICP打上相应的标签:比如,可以根据ニ级域名将ICP按照所在网站分类;根据serverjp将ICP按照所处网段分类;根据24小时的流量统计最大流量并排名;根据30天内的流量汇总计算并排名,将ICP按照热点程度分级;或结合以上的ー种或多种进行多维度的分类分级。
[0052]步骤S5,将经过分类分级后的信息按照IP地址精确对应到单个或多个数据发送方。
[0053]比如针对某一 ICP可以精准定位到对应的IP地址,网站详细资源,计算出网站访问的总流量(MB),24h平均流量(MB),24h最大流量(MB),并且可根据当前流量数据绘制24h流量走势曲线和30天走势曲线。可根据24h流量走势进行服务器功能分析,自定义分类条件,筛选同步网络流量时段,分析基于流量走势相应ICP需要治理和无需治理的范围,也可以汇总到使用同一 IP的多个数据发送方。[0054]以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种基于内容提供商标识的互联口 ICP流量统计系统,其特征在于,该系统包括:分流设备、数据采集处理解析服务器、交换机、IP地址存储关联服务器和ICP分级分类服务器,其中: 所述分流设备用于将从外部网络所接收到的镜像数据流转发给所述数据采集处理解析服务器; 所述数据采集处理解析服务器用于接收经过所述分流设备收集的镜像数据流、对其进行筛选解析处理、从解析后得到的数据流中提取报文信息,并将所述报文信息存储到所述IP地址存储关联服务器上; 所述交换机与所述数据采集处理解析服务器、IP地址存储关联服务器、ICP分类分级服务器的配置管理网络接口相连,用于对数据采集处理解析服务器及运行其上的程序进行远程配置管理,提供数据采集处理解析服务器、IP地址存储关联服务器、ICP分级分类服务器之间的数据传输通道; 所述IP地址存储关联服务器与所述交换机相连,用于根据所接收到的报文信息,将所述报文信息与所述IP地址对应的域名文件记录进行关联,并将关联上的数据以记录格式按行存入存储文件; 所述ICP分类分级服务器与所述交换机相连,用于根据事先设定的策略,通过所述交换机访问所述IP地址关联存储服务器中的记录信息,对ICP进行分类分级。
2.根据权利要求1所述的系统,其特征在于,所述报文信息包括服务器IP地址、流量和/或关联序列号。
3.一种基于内容提供商标识的互联口 ICP流量统计方法,其特征在于,该方法包括以下步骤: 步骤Si,获取流量包和数据包镜像数据流,并将所述镜像数据流发送给数据采集处理解析服务器; 步骤S2,所述数据采集处理解析服务器对所接收的镜像数据流进行筛选处理,然后将筛选处理后得到的镜像数据流进行解析,提取出报文信息,并将所述报文信息存储到IP地址存储关联服务器中; 步骤S3,IP地址存储关联服务器根据所述报文信息,将所述报文信息与C类地址所在的相应的域名段字典表进行关联对应,并将关联后得到的数据以记录格式按行存入存储文件; 步骤S4, ICP分类分级服务器根据用户预定的策略,访问所述IP地址存储关联服务器中存储文件记录的信息,对ICP进行多维度的分类分级; 步骤S5,将经过分类分级后的信息按照IP地址精确对应到单个或多个数据发送方。
4.根据权利要求3所述的方法,其特征在于,所述报文信息包括服务器IP地址、流量和/或关联序列号。
5.根据权利要求3所述的方法,其特征在于,所述步骤S3中报文信息与C类地址关联的步骤进一步包括以下步骤: 步骤S31,将C类地址和其对应的域名存入二维数组; 步骤S32,通过递归算法将所述报文信息映射到相应的C类地址中,进而映射到域名中,得到映射数据;步骤S33,将所述映射数据累加排序,记录其最大访问流量和相应的时间。
6.根据权利要求5所述的方法,其特征在于,所述步骤S32中的递归算法具体为:首先找到所述二维数组的中间元素,判断是否与所述报文信息相匹配,如果匹配,则返回它在所述二维数组中的索引;如果不匹配,则判断所述中间元素值比目标值大还是小,如果中间元素值比目标值大,就对第一个元素到所述中间元素的前ー个元素递归寻找中间元素和匹配的步骤;如果中间元素值比目标值小,就对所述中间元素的后ー个元素到最后ー个元素递归寻找中间元素和匹配的步骤;如果查找结束时的索引小于查找开始时的索引,则返回-1,表示没有找到所述二维数组的中间元素。
7.根据权利要求3所述的方法,其特征在于,所述多维度的分类分级包括以下的ー种或多种:所在网站分类、所处 网段分类、ー时期流量及排名情况、热点程度分级。
【文档编号】H04L12/24GK103595576SQ201310529468
【公开日】2014年2月19日 申请日期:2013年10月31日 优先权日:2013年10月31日
【发明者】黄友俊, 李星, 吴建平, 李威, 王菁菁 申请人:赛尔网络有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1