一种采集互联网访问数据的方法及装置的制造方法_4

文档序号:9380193阅读:来源:国知局
[0144] 基于以上日志进行分析:
[0145] A:应用层访问日志中的20. 100. 100. 100、20. 100. 100. 200这两个发起内容请求 的IP地址都能够在2014年1月1日10点10分00秒至10点40分00秒内的时间段内, 通过NAT转换日志追溯回转换前原始IP地址为10. 100. 100. 100 ;使用10. 100. 100. 100这 个地址能够在承载层日志中,在2014年1月1日10点00分00秒至2014年1月1日10 点59分30秒的一次接入中,追溯到网络接入标识为MDN号码18612345678。从而,建立 18612345678 和 WWW. a. com/txtl. html 和 WWW. b. com/musicl. mp3 这两个互联网内容之间的 访问关系。
[0146] B:应用层访问日志中的20. 100. 100. 100这个发起内容请求的IP地址能够 在2014年1月1日11点10分00秒,通过NAT转换日志追溯回转换前原始IP地址为 10. 100. 100. 100。但是,通过对承载层日志的分析,10. 100. 100. 100这个IP地址仅在 2014年1月1日10点00分00秒至2014年1月1日10点59分30秒这个时间段内被 分配给18612345678这个接入标识使用。因此,无法通过IP地址10. 100. 100. 100回溯到 18612345678这个网络接入标识,也无法建立互联网内容的访问关系。
[0147] 本发明实施例公开的一种采集互联网访问内容的方法,应用于互联网数据采集系 统,所述互联网数据采集系统设置在所述电信运营商的IP承载网络内满足预设条件的节 点上,所述方法包括:
[0148] 获取应用层日志和网络接入标识间的对应关系,所述应用层日志通过响应终端访 问URL的内容请求报文生成,所述内容请求报文通过路由转发至所述Web代理服务器集群, 所述Web代理服务器集群设置在所述电信运营商的IP承载网络内满足预设条件的节点上, 所述终端使用所述网络接入标识;
[0149] 依据所述对应关系,采集所述网络接入标识在预设时间段内、对所述互联网的访 问内容。
[0150] 本发明实施例公开的一种采集互联网访问内容的方法,应用于Web代理服务器集 群,所述Web代理服务器集群设置在所述电信运营商的IP承载网络内满足预设条件的节点 上,所述方法包括:
[0151 ] 接收终端访问URL的内容请求报文,所述内容请求报文通过路由转发至所述Web 代理服务器集群;
[0152] 通过响应所述内容请求报文生成应用层日志,所述应用层日志用于获取所述应用 层日志和网络接入标识间的对应关系,所述对应关系用于采集所述网络接入标识在预设时 间段内、对所述互联网的访问内容,所述终端使用所述网络接入标识。
[0153] 与上述方法相对应地,本发明实施例还公开了一种采集互联网访问内容的装置, 如图3所示,包括:
[0154] 转发重定向系统301,用于将所述网络接入标识访问URL的内容请求报文路由转 发至Web代理服务器集群,所述Web代理服务器集群设置在所述电信运营商的IP承载网络 内满足预设条件的节点上;
[0155] 所述Web代理服务器集群302用于,通过响应所述网络接入标识访问URL的内容 请求报文生成应用层日志;
[0156] 互联网数据采集系统303,用于获取所述应用层日志和网络接入标识间的对应关 系,并依据所述对应关系,采集所述网络接入标识在预设时间段内、对所述互联网的访问内 容,所述互联网数据采集系统设置在所述电信运营商的IP承载网络内满足所述预设条件 的节点上。
[0157] 本发明实施例还公开了一种互联网数据采集系统,所述互联网数据采集系统设置 在所述电信运营商的IP承载网络内满足预设条件的节点上,如图4所示,包括:
[0158] 获取模块401,用于获取应用层日志和网络接入标识间的对应关系,所述应用层 日志通过响应终端访问URL的内容请求报文生成,所述内容请求报文通过路由转发至所述 Web代理服务器集群,所述Web代理服务器集群设置在所述电信运营商的IP承载网络内满 足预设条件的节点上,所述终端使用所述网络接入标识;
[0159] 采集模块402,用于依据所述对应关系,采集所述网络接入标识在预设时间段内、 对所述互联网的访问内容。
[0160] 可选地,所述获取模块可以有以下三种具体实现方式:
[0161] 1、所述获取模块包括:
[0162] 第一获取单元,用于从所述互联网中的AAA服务器中获取承载层日志,所述承载 层日志中包括以下字段:网络接入标识、本次承载层会话中所述网络接入标识使用的IP地 址、本次承载层会话开始的时间戳和本次承载层会话结束的时间戳;
[0163] 第二获取单元,用于从所述Web代理服务器集群获取应用层日志,所述应用层日 志中包括以下字段:本次应用层请求结束的时间戳、发起此次应用层请求的IP地址、响应 此次应用层请求使用的传输层流量和本次应用层请求的URL ;
[0164] 第一确定单元,用于当所述发起此次应用层请求的IP地址与所述本次承载层会 话中所述网络接入标识使用的IP地址匹配、且所述本次应用层请求结束的时间戳位于所 述本次承载层会话开始的时间戳和本次承载层会话结束的时间戳之间时,确定所述应用层 日志与所述网络接入标识间存在对应关系。
[0165] 2、所述获取模块包括:
[0166] 第一获取单元,用于从所述互联网中的AAA服务器中获取承载层日志,所述承载 层日志中包括以下字段:网络接入标识、本次承载层会话中所述网络接入标识使用的原始 接入IP地址、本次承载层会话开始的时间戳和本次承载层会话结束的时间戳;
[0167] 第三获取单元,用于获取地址转换日志,所述地址转换日志中包括以下字段:原始 接入IP地址、所述原始接入IP地址对应的端口号、由所述原始接入IP地址转换得到的访 问IP地址、所述访问IP地址对应的端口号和地址转换时间;
[0168] 第二获取单元,用于从所述Web代理服务器集群获取应用层日志,所述应用层日 志中包括以下字段:本次应用层请求结束的时间戳、发起此次应用层请求的IP地址、所述 发起此次应用层请求的IP地址对应的访问端口号、内容响应成功时间戳、响应此次应用层 请求使用的传输层流量和本次应用层请求的URL ;
[0169] 对应关系建立单元,用于当所述应用层日志中的发起此次应用层请求的IP地址 与所述地址转换日志中的由所述原始接入IP地址转换得到的访问IP地址相同、所述应用 层日志中的所述发起此次应用层请求的IP地址对应的访问端口号与所述地址转换日志中 的所述访问IP地址对应的端口号相同、以及,所述应用层日志中的内容响应成功时间戳在 所述地址转换日志中的地址转换时间的间隔内,则确定所述应用层日志中的发起此次应用 层请求的IP地址与所述地址转换日志中的原始接入IP地址对应;如果所述承载成日志中 的本次承载层会话中所述网络接入标识使用的原始接入IP地址与所述原始接入IP地址相 同,获取所述承载层日志中与本次承载层会话中所述网络接入标识使用的原始接入IP地 址对应的网络接入标识,并建立所述网络接入标识与所述应用层日志的对应关系。
[0170] 3、所述获取模块包括:
[0171 ] 第二确定单元,用于依据获取的应用日志,确定所述应用层日志和网络接入标识 间的对应关系,所述应用层日志中包括所述网络接入标识。
[0172] 本发明实施例还公开了一种Web代理服务器集群,所述Web代理服务器集群设置 在所述电信运营商的IP承载网络内满足预设条件的节点上,如图5所示,包括:
[0173] 接收模块501,用于接收终端访问URL的内容请求报文,所述内容请求报文通过路 由转发至所述Web代理服务器集群;
[0174] 生成模块502,用于通过响应所述内容请求报文生成应用层日志,所述应用层日志 用于获取所述应用层日志和网络接入标识间的对应关系,所述对应关系用于采集所述网络 接入标识在预设时间段内、对所述互联网的访问内容,所述终端使用所述网络接入标识。
[0175] 可选地,所述Web代理服务器集群可以具有互联网内容缓存功能。
[0176] 可选地,所述Web代理服务器集群可以还包括:
[0177] 记录模块,用于如果所述内容请求报文中携带所述网络接入标识,将所述网络接 入标识记录在所述应用层日志中。
[0178] 本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销 售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明实施 例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该 软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算 机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部 分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随 机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介 质。
[0179] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它 实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
[0180] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。 对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的 一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明 将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。
【主权项】
1. 一种采集互联网访问内容的方法,其特征在于,应用于互联网数据采集系统,所述方 法包括: 获取应用层日志和网络接入标识间的对应关系,所述应用层日志通过响应终端访问统 一资源定位符URL的内容请求报文生成,所述内容请求报文通过路由转发至所述Web代理 服务器集群,所述Web代理服务器集群设置在所述电信运营商的IP承载网络内满足预设条 件的节点上,所述终端使用所述网络接入标识; 依据所述对应关系,采集所述网
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1