一种基于流行为特征的互联网数据中心ip地址查找方法_2

文档序号：9670922阅读：来源：国知局

法流程图。
[0048] 图5为本发明实施例中1000条FCDR流文件生成的网络流连接图。 W例图6为根据图5的互联网数据中屯、网络流连接图生成的共引网络图。
【具体实施方式】
[0050] 下面结合附图对本发明的实施例作进一步的说明。
[0051] 互联网数据中屯、（IDC-InternetDataCenter)是指对入驻企业、商户或网站服务器群托管的场所，它为企业和各类网站提供大规模、高质量、安全可靠的专业化业务，包括服务器托管、空间租用、网络带宽批发W及电子商务等。其具体业务涵盖也伴随着互联网的不断发展而发展。
[0052] 互联网数据中屯、的IP具有如下特征：
[0053] (I)IP地址数繁多。
[0054] 似同一IP可能为多种应用提供服务，即出现多种应用流。阳化5] (3)IP地址多为同一地址块，便于APNIC(亚太互联网络信息中屯、）统一分发管理。
[0056] 互联网数据中屯、的流行为具有如下特征：
[0057] (1)互联网数据中屯、的流量大且应用流种类繁多。
[0058] 似互联网数据中屯、的服务器通常24小时工作，因此IP的生存时间长。
[0059] (3)在长时间范围内，互联网数据中屯、的某一IP流量相对稳定。 W60] (4)属于同一互联网数据中屯、的不同IP地址连接紧密，用户在短时间内可能访问多个属于同一IDC的IP。
[0061] 针对互联网数据中屯、的IP及流行为特征，本发明提供了一种基于流行为特征的互联网数据中屯、IP地址查找方法，如图1所示，包括W下步骤：
[0062] S1、从互联网出口获取流数据。
[0063] S2、对频繁IP进行挖掘。
[0064] 频繁IP指在一段时间内的流文件中，频繁出现的IP地址，即流量高、访问次数高的IP地址。频繁IP存在多种衡量指标，例如访问次数高的IP(网站IP)、访问流量巨大的 IP等。根据互联网数据中屯、流量大且应用流种类繁多的特点，挖掘大数据流文件中出现频繁的IP，该IP不一定属于互联网数据中屯、，但是互联网数据中屯、的IP-定存在于运样的频繁IP集合中。阳0化]本发明实施例中，采用=元组（IP地址，端口号，传输层协议号）刻画一个数据流集合来对频繁IP进行挖掘，如图2所示，该步骤包括W下分步骤：
[0066] S21、建立WIIP地址，端口号，传输层协议号}为索引的字典，对于每一组特定的 IIP地址，端口号，传输层协议号}，将同时符合W下条件的流f加入该索引的索引内容：
[0067] (1)流f中源IP或目的IP与索引IP相同。 W側似流f中源端口号或目的端口号与索引端口号相同。 W例做流f中传输层协议号等于索引传输层协议号。
[0070] 例如，构建如下索引号为（192. 168. 1.90(1巧，80(端口号），6灯CP协议）}的字化. /、?
[0072]S22、计算索引内容中每个IP的四种参数：访问量、被访问量、上行流量W及下行流量。
[0073] (1)访问量：在字典中，将发送间隔小于64秒且具有相同五元组的包聚合为一条流，统计一段时间内，W目标IP为源IP的流数目，即运段时间内目标IP的访问量。
[0074] 似被访问量：在字典中，将发送间隔小于64秒且具有相同五元组的包聚合为一条流，统计一段时间内，W目标IP为目的IP的流数目，即运段时间内目标IP的被访问量。 [00巧](3)上行流量：统计一段时间内，字典中W目标IP为源IP的包大小之和，即运段时间内目标IP的上行流量。
[0076] (4)下行流量：统计一段时间内，字典中W目标IP为目的IP的包大小之和，即运段时间内目标IP的下行流量。
[0077]S23、统计每个IP的上述四种参数，提取每种参数排名靠前的IP集合，对四个集合求并集，得到频繁IP集合。
[0078] 频繁IP集合中的IP必具有高访问量、高被访问量、高上行流量或高下行流量中的一种或几种特征。根据互联网数据中屯、IP流量大的特点，其IP必然包含在频繁IP集合中。
[0079] 针对上述四种参数的集合，还可互相求并集W确定特殊IP集合，供其他后续研究，例如高访问量、高被访问量IP集合，高访问量、高上行流量IP集合，高被访问量、高下行流量IP集合，高访问量、低上行流量IP集合，高被访问量、低下行流量IP集合等。
[0080] S3、对疑似目标IP进行挖掘。
[0081] 根据互联网数据中屯、的IP流特征，本发明实施例中该步骤具体分为基于特定应用流分析的IP挖掘和基于多种应用流分析的IP挖掘两种：
[0082] (1)基于特定应用流分析的IP挖掘。
[008引互联网数据中屯、存在承载不同应用商，但相同应用服务的服务器，例如W邸服务器；该类服务器的IP对应多种域名，即此IP对多个服务商提供相同服务，同时IP开放端口种类单一，如只开放80端口；因此可采用反向DNS查询与端口统计相结合的方式挖掘此类 IP。
[0084] 根据步骤S21中建立的索引字典结构，统计频繁IP的访问/被访问端口种类数，提取开放端口种类单一的IP，对其进行反向DNS查询，若返回多种域名，则将其标记为互联网数据中屯、疑似目标IP。
[00化](2)基于多种应用流分析的IP挖掘。
[0086] 由于互联网数据中屯、的服务器承载多中应用，其服务器IP表现出的应用流多样，在网络流中具体表现为端口号的不同，因此通过可计算某一IP开放的端口数量，在频繁IP 集合中挖掘承载多种应用流的IP，标记为高度疑似互联网数据中屯、的IP，对该IP进行后续研究。
[0087] 根据步骤S21中建立的索引字典结构，统计频繁IP的访问/被访问端口种类数，提取开放端口具有多个种类的IP，根据其负载特征字符串对该IP的流进行分类，判断该IP 开放的应用种类，若提供了多种应用服务种类，则将其标记为互联网数据中屯、疑似目标IP。
[0088]S4、对IP地址块进行聚合。
[0089] 本发明实施例中该步骤具体分为基于IP关联度的IP地址块聚合方法和基于频繁 IP的网络流连接图共引网络的IP地址块聚合方法：
[0090] (I)基于IP关联度的IP地址块聚合方法。
[0091] 互联网数据中屯、的IP地址多为同一地址块，便于APNIC(亚太互联网络信息中屯、）统一分发管理，因此可在频繁IP中将同一IP网络地址块的IP进行聚合，发现互联网数据中屯、的IP地址集合。
[0092]IP关联度由IP地址之间的匹配度及地理位置的二维空间距离所决定，如图3所示，具体步骤如下：
[0093]S4A1、建立目标IP向量F= (IP地址，IP地理位置经缔度），其中IP地址为IP的二进制表示，IP地理位置经缔度可由maxmind公司的GeoIP2City库查询得到。
[0094]S4A2、对F中任意两个IP地址进行与运算，计算其相同的前N位IP数，返回数值 N作为二者IP的匹配度，例如：阳0巧]192. 168. 1. 105 = (11000000. 10101000. 00000001. 01101001)
[0096] 192. 168. 32. 120 = (11000000. 10101000. 00100000. 01111000)
[0097] 对运两个IP进行与运算，得到11111111111111111101111010010110,其前面有18 个连续的1，说明两个IP的前18位相同，则返回N= 18作为二者IP的匹配度。
[0098] 对匹配度进行归一化处理，即得到
[0099]S4A3、计算两个IP之间的关联度r，r由IP地址匹配度和地理位置距离决定，其中 IP地址匹配度即为最长IP地址匹配算法返回的两个IP之间的归一化匹配度P，地理位置距离由经缔度之差的平方和开根号决定，则
'其中，P为IP归一化匹配度，d为IP 地理位置距离。
[0100] S4A4、提取关联度较高的IP，构成IP地址块集合。阳101]IP关联度r求出后，可采取阔值筛选的方式提取关联度较高的IP，构成IP地址块集合。确定阔值向量
，例如聚合C类地址块，则
若两个IP的r〉T，则将其划分为同一地址块。阳102] (2)基于频繁IP的网

完整全部详细技术资料下载

当前第2页1 2 3