法流程图。
[0048] 图5为本发明实施例中1000条FCDR流文件生成的网络流连接图。 W例图6为根据图5的互联网数据中屯、网络流连接图生成的共引网络图。
【具体实施方式】
[0050] 下面结合附图对本发明的实施例作进一步的说明。
[0051] 互联网数据中屯、(IDC-InternetDataCenter)是指对入驻企业、商户或网站服务 器群托管的场所,它为企业和各类网站提供大规模、高质量、安全可靠的专业化业务,包括 服务器托管、空间租用、网络带宽批发W及电子商务等。其具体业务涵盖也伴随着互联网的 不断发展而发展。
[0052] 互联网数据中屯、的IP具有如下特征:
[0053] (I)IP地址数繁多。
[0054] 似同一IP可能为多种应用提供服务,即出现多种应用流。 阳化5] (3)IP地址多为同一地址块,便于APNIC(亚太互联网络信息中屯、)统一分发管理。
[0056] 互联网数据中屯、的流行为具有如下特征:
[0057] (1)互联网数据中屯、的流量大且应用流种类繁多。
[0058] 似互联网数据中屯、的服务器通常24小时工作,因此IP的生存时间长。
[0059] (3)在长时间范围内,互联网数据中屯、的某一IP流量相对稳定。 W60] (4)属于同一互联网数据中屯、的不同IP地址连接紧密,用户在短时间内可能访问 多个属于同一IDC的IP。
[0061] 针对互联网数据中屯、的IP及流行为特征,本发明提供了一种基于流行为特征的 互联网数据中屯、IP地址查找方法,如图1所示,包括W下步骤:
[0062] S1、从互联网出口获取流数据。
[0063] S2、对频繁IP进行挖掘。
[0064] 频繁IP指在一段时间内的流文件中,频繁出现的IP地址,即流量高、访问次数高 的IP地址。频繁IP存在多种衡量指标,例如访问次数高的IP(网站IP)、访问流量巨大的 IP等。根据互联网数据中屯、流量大且应用流种类繁多的特点,挖掘大数据流文件中出现频 繁的IP,该IP不一定属于互联网数据中屯、,但是互联网数据中屯、的IP-定存在于运样的频 繁IP集合中。 阳0化]本发明实施例中,采用=元组(IP地址,端口号,传输层协议号)刻画一个数据流 集合来对频繁IP进行挖掘,如图2所示,该步骤包括W下分步骤:
[0066] S21、建立WIIP地址,端口号,传输层协议号}为索引的字典,对于每一组特定的 IIP地址,端口号,传输层协议号},将同时符合W下条件的流f加入该索引的索引内容:
[0067] (1)流f中源IP或目的IP与索引IP相同。 W側 似流f中源端口号或目的端口号与索引端口号相同。 W例 做流f中传输层协议号等于索引传输层协议号。
[0070] 例如,构建如下索引号为(192. 168. 1.90(1巧,80(端口号),6灯CP协议)}的字 化. /、?
[0072]S22、计算索引内容中每个IP的四种参数:访问量、被访问量、上行流量W及下行 流量。
[0073] (1)访问量:在字典中,将发送间隔小于64秒且具有相同五元组的包聚合为一条 流,统计一段时间内,W目标IP为源IP的流数目,即运段时间内目标IP的访问量。
[0074] 似被访问量:在字典中,将发送间隔小于64秒且具有相同五元组的包聚合为一 条流,统计一段时间内,W目标IP为目的IP的流数目,即运段时间内目标IP的被访问量。 [00巧](3)上行流量:统计一段时间内,字典中W目标IP为源IP的包大小之和,即运段 时间内目标IP的上行流量。
[0076] (4)下行流量:统计一段时间内,字典中W目标IP为目的IP的包大小之和,即运 段时间内目标IP的下行流量。
[0077]S23、统计每个IP的上述四种参数,提取每种参数排名靠前的IP集合,对四个集合 求并集,得到频繁IP集合。
[0078] 频繁IP集合中的IP必具有高访问量、高被访问量、高上行流量或高下行流量中的 一种或几种特征。根据互联网数据中屯、IP流量大的特点,其IP必然包含在频繁IP集合中。
[0079] 针对上述四种参数的集合,还可互相求并集W确定特殊IP集合,供其他后续研 究,例如高访问量、高被访问量IP集合,高访问量、高上行流量IP集合,高被访问量、高下行 流量IP集合,高访问量、低上行流量IP集合,高被访问量、低下行流量IP集合等。
[0080] S3、对疑似目标IP进行挖掘。
[0081] 根据互联网数据中屯、的IP流特征,本发明实施例中该步骤具体分为基于特定应 用流分析的IP挖掘和基于多种应用流分析的IP挖掘两种:
[0082] (1)基于特定应用流分析的IP挖掘。
[008引互联网数据中屯、存在承载不同应用商,但相同应用服务的服务器,例如W邸服务 器;该类服务器的IP对应多种域名,即此IP对多个服务商提供相同服务,同时IP开放端口 种类单一,如只开放80端口;因此可采用反向DNS查询与端口统计相结合的方式挖掘此类 IP。
[0084] 根据步骤S21中建立的索引字典结构,统计频繁IP的访问/被访问端口种类数, 提取开放端口种类单一的IP,对其进行反向DNS查询,若返回多种域名,则将其标记为互联 网数据中屯、疑似目标IP。
[00化](2)基于多种应用流分析的IP挖掘。
[0086] 由于互联网数据中屯、的服务器承载多中应用,其服务器IP表现出的应用流多样, 在网络流中具体表现为端口号的不同,因此通过可计算某一IP开放的端口数量,在频繁IP 集合中挖掘承载多种应用流的IP,标记为高度疑似互联网数据中屯、的IP,对该IP进行后续 研究。
[0087] 根据步骤S21中建立的索引字典结构,统计频繁IP的访问/被访问端口种类数, 提取开放端口具有多个种类的IP,根据其负载特征字符串对该IP的流进行分类,判断该IP 开放的应用种类,若提供了多种应用服务种类,则将其标记为互联网数据中屯、疑似目标IP。
[0088]S4、对IP地址块进行聚合。
[0089] 本发明实施例中该步骤具体分为基于IP关联度的IP地址块聚合方法和基于频繁 IP的网络流连接图共引网络的IP地址块聚合方法:
[0090] (I)基于IP关联度的IP地址块聚合方法。
[0091] 互联网数据中屯、的IP地址多为同一地址块,便于APNIC(亚太互联网络信息中屯、) 统一分发管理,因此可在频繁IP中将同一IP网络地址块的IP进行聚合,发现互联网数据 中屯、的IP地址集合。
[0092]IP关联度由IP地址之间的匹配度及地理位置的二维空间距离所决定,如图3所 示,具体步骤如下:
[0093]S4A1、建立目标IP向量F= (IP地址,IP地理位置经缔度),其中IP地址为IP的 二进制表示,IP地理位置经缔度可由maxmind公司的GeoIP2City库查询得到。
[0094]S4A2、对F中任意两个IP地址进行与运算,计算其相同的前N位IP数,返回数值 N作为二者IP的匹配度,例如: 阳0巧]192. 168. 1. 105 = (11000000. 10101000. 00000001. 01101001)
[0096] 192. 168. 32. 120 = (11000000. 10101000. 00100000. 01111000)
[0097] 对运两个IP进行与运算,得到11111111111111111101111010010110,其前面有18 个连续的1,说明两个IP的前18位相同,则返回N= 18作为二者IP的匹配度。
[0098] 对匹配度进行归一化处理,即得到
[0099]S4A3、计算两个IP之间的关联度r,r由IP地址匹配度和地理位置距离决定,其中 IP地址匹配度即为最长IP地址匹配算法返回的两个IP之间的归一化匹配度P,地理位置 距离由经缔度之差的平方和开根号决定,则
'其中,P为IP归一化匹配度,d为IP 地理位置距离。
[0100] S4A4、提取关联度较高的IP,构成IP地址块集合。 阳101]IP关联度r求出后,可采取阔值筛选的方式提取关联度较高的IP,构成IP地址块 集合。确定阔值向量
,例如聚合C类地址块,则
若两个IP的r〉T,则将 其划分为同一地址块。 阳102] (2)基于频繁IP的网