一种基于流行为特征的互联网数据中心ip地址查找方法_3

文档序号:9670922阅读:来源:国知局
络流连接图共引网络的IP地址块聚合方法。 阳103] 由于用户在短时间内可能访问多个属于同一互联网数据中屯、的IP,因此可根据互 联网数据中IP之间的流连接行为对IP进行查找与聚合。
[0104] 网络流连接图是W网络中通信对象为节点,节点之间的交互为边,刻画网络中交 互关系的示意图。将网络中的通信实体抽象为图中的节点ViGV,若节点V1,V,之间有通 信交互则将对应的节点连成一条边euGE,构建网络流连接图G=<V,E>。本发明实施 例采用基于频繁IP的网络流连接图共引网络,对互联网数据中屯、的IP进行聚合,如图4所 示,具体步骤如下: 阳105] S4B1、构建频繁IP的网络流连接图。
[0106] W所有频繁IP为目的IP,提取疑似目标IP为目的IP的所有流,生成网络流连接 图。该图为有向图,其中所有连接均为用户指向疑似目标IP。 阳107] 如图5所示为根据某公司1000条FCDR流文件生成的网络流连接图,协议为HTTP 访问协议,其中源节点为用户节点,目的节点为服务器节点,则我们可W得出W下结论:
[0108] (1)大部分网络流成星型结构,符合HTTP典型的客户端/服务器结构,即多个用户 在短时间内访问同一大型的HTTP服务器。 阳109] (2)图中存在节点多条边的情况存在,说明某个用户在短时间内多次访问HTTP服 务器。
[0110] 做如矩形框中的节点所示,图中存在用户同时访问两个服务器的情况,说明疑似 目标IP的节点是存在的。 阳111] 从网络流连接图中,不仅可W获取互联网数据中屯、服务器疑似目标IP,同时可W 了解应用协议自身的特点,对网络流行为分析具有巨大的贡献。 阳112] S4B2、生成频繁IP网络流连接图的共引网络。
[0113] 若某两个频繁IP同时被同一用户访问,则运两个频繁IP之间会生成一条边,边的 权值表示被多少个相同用户访问,即若有500个用户访问了IPi和IP2,则IPi和IP2会生成 权值为500的边。
[0114] 如图6所示为根据图5的互联网数据中屯、网络流连接图生成的共引网络图,其中 矩形节点表示IDC服务器IP,10. 0. 0. 200为用户接入代理IP,1000条流中生成7个节点, 除去接入的代理IP,IDC服务器的IP覆盖率为50%。
[0115] S4B3、对频繁IP网络流连接图的共引网络进行社团划分。
[0116] 对生成的频繁IP网络流连接图的共引网络图进行社团划分,采用基于模块度的 社团检测方法,计算共引网络的模块度,再W上述互联网数据中屯、疑似IP为中屯、,寻求模 块度的最大解,对频繁IP进行社团划分。
[0117] S4B4、对划分出的频繁IP地址块进行聚合,形成IP簇。
[0118] 寻找包含IP簇的最小IP地址块,W该IP地址块表示互联网数据中屯、IP块。
[0119] S5、确定互联网数据中屯、的规模、地理位置及服务类型。
[0120] 采用GeoIP技术确定IP地址块的地理位置,将相似地理位置的IP地址块聚合到 一起,寻找包含运些IP地址块的最小网络地址,其主机数即为互联网数据中屯、的IP数量, 其所在地即为互联网数据中屯、的地理位置; 阳121] 互联网数据中屯、的服务类型可通过主动访问其IP进行确定,通过计算机主动探 寻运些IP,根据DNS返回值或IP服务器返回内容确定该IP的服务类型,验证得到其所在互 联网数据中屯、的服务内容。
[0122] 下表是使用本发明提供的基于流行为特征的互联网数据中屯、IP地址查找方法从 1000条流文件中寻找出的互联网数据中屯、服务器IP,经过IP块定位及承载业务确定后的 结果,虽然数据有限,但查找结果十分可观,说明本方法的可行性较高,较为可靠。 阳123]
[0124] 本领域的普通技术人员将会意识到,运里所述的实施例是为了帮助读者理解本发 明的原理,应被理解为本发明的保护范围并不局限于运样的特别陈述和实施例。本领域的 普通技术人员可W根据本发明公开的运些技术启示做出各种不脱离本发明实质的其它各 种具体变形和组合,运些变形和组合仍然在本发明的保护范围内。
【主权项】
1. 一种基于流行为特征的互联网数据中心IP地址查找方法,其特征在于,包括以下步 骤: 51、 从互联网出口获取流数据; 52、 对频繁IP进行挖掘; 53、 对疑似目标IP进行挖掘; 54、 对IP地址块进行聚合; 55、 确定互联网数据中心的规模、地理位置及服务类型。2. 根据权利要求1所述的基于流行为特征的互联网数据中心IP地址查找方法,其特征 在于,所述步骤S2包括以下分步骤: 521、 建立以{IP地址,端口号,传输层协议号}为索引的字典,对于每一组特定的{IP 地址,端口号,传输层协议号},将同时符合以下条件的流f加入该索引的索引内容: (1) 流f中源IP或目的IP与索引IP相同; (2) 流f中源端口号或目的端口号与索引端口号相同; (3) 流f中传输层协议号等于索引传输层协议号; 522、 计算索引内容中每个IP的四种参数:访问量、被访问量、上行流量以及下行流量; 523、 统计每个IP的上述四种参数,提取每种参数排名靠前的IP集合,对四个集合求并 集,得到频繁IP集合。3. 根据权利要求2所述的基于流行为特征的互联网数据中心IP地址查找方法,其特征 在于,所述步骤S3中采用基于特定应用流分析的方法对疑似目标IP进行挖掘,具体为: 根据步骤S21中建立的索引字典结构,统计频繁IP的访问/被访问端口种类数,提取 开放端口种类单一的IP,对其进行反向DNS查询,若返回多种域名,则将其标记为互联网数 据中心疑似目标IP。4. 根据权利要求2所述的基于流行为特征的互联网数据中心IP地址查找方法,其特征 在于,所述步骤S3中采用基于多种应用流分析的方法对疑似目标IP进行挖掘,具体为: 根据步骤S21中建立的索引字典结构,统计频繁IP的访问/被访问端口种类数,提取 开放端口具有多个种类的IP,根据其负载特征字符串对该IP的流进行分类,判断该IP开放 的应用种类,若提供了多种应用服务种类,则将其标记为互联网数据中心疑似目标IP。5. 根据权利要求1所述的基于流行为特征的互联网数据中心IP地址查找方法,其特征 在于,所述步骤S4中采用基于IP关联度的方法对IP地址块进行聚合,具体包括以下分步 骤: S4A1、建立目标IP向量F= (IP地址,IP地理位置经炜度); S4A2、对F中任意两个IP地址进行与运算,计算其相同的前N位IP数,返回数值N作 为二者IP的匹配度,并对匹配度进行归一化处理; S4A3、计算两个IP之间的关联度; S4A4、提取关联度较高的IP,构成IP地址块集合。6. 根据权利要求1所述的基于流行为特征的互联网数据中心IP地址查找方法,其特征 在于,所述步骤S4中采用基于频繁IP的网络流连接图共引网络的方法对IP地址块进行聚 合,具体包括以下分步骤: S4B1、构建频繁IP的网络流连接图; S4B2、生成频繁IP网络流连接图的共引网络; S4B3、对频繁IP网络流连接图的共引网络进行社团划分; S4B4、对划分出的频繁IP地址块进行聚合,形成IP簇。7.根据权利要求1-6任一所述的基于流行为特征的互联网数据中心IP地址查找方法, 其特征在于,所述步骤S5具体为: 采用GeoIP技术确定IP地址块的地理位置,将相似地理位置的IP地址块聚合到一起, 寻找包含这些IP地址块的最小网络地址,其主机数即为互联网数据中心的IP数量,其所在 地即为互联网数据中心的地理位置; 互联网数据中心的服务类型可通过主动访问其IP进行确定,通过计算机主动探寻这 些IP,根据DNS返回值或IP服务器返回内容确定该IP的服务类型,验证得到其所在互联网 数据中心的服务内容。
【专利摘要】本发明公开了一种基于流行为特征的互联网数据中心IP地址查找方法,根据互联网数据中心特有的流行为特征,在大规模网络流信息中,对互联网数据中心的IP进行挖掘,从而全面提取、描述互联网数据中心的业务承载内容及其之间的连接关系,并证明了根据流行为特征能够有效地从大数据流信息中对特定IP进行挖掘。
【IPC分类】H04L29/12, H04L12/741
【公开号】CN105430109
【申请号】CN201510719665
【发明人】翟学萌, 胡航宇, 胡光岷
【申请人】电子科技大学
【公开日】2016年3月23日
【申请日】2015年10月30日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1