一种采集互联网访问数据的方法及装置的制造方法

文档序号:9380193阅读:387来源:国知局
一种采集互联网访问数据的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及通信领域,尤其涉及一种采集互联网访问数据的方法及装置。
【背景技术】
[0002] 随着互联网企业之间的竞争逐步加剧,对自然人用户访问的互联网的内容进行采 集就越加重要。
[0003] 现有的采集互联网访问数据的方法,通常需要在用户到互联网的访问路径上的多 处采集节点设置深度数据包检测(De印Packet Inspection,DPI)设备,利用DPI设备对通 信链路上的数据包进行拆包、特征识别和检测。
[0004] 而DPI设备的价格昂贵,可见,现有的互联网访问数据的采集方法具有成本高的 缺点。

【发明内容】

[0005] 本发明实施例提供了一种采集互联网访问数据的方法,目的在于解决现有的互联 网访问数据的采集方法成本高的问题。
[0006] -种采集互联网访问内容的方法,应用于互联网数据采集系统,所述方法包括:
[0007] 获取应用层日志和网络接入标识间的对应关系,所述应用层日志通过响应终端访 问统一资源定位符URL的内容请求报文生成,所述内容请求报文通过路由转发至所述Web 代理服务器集群,所述Web代理服务器集群设置在所述电信运营商的IP承载网络内满足预 设条件的节点上,所述终端使用所述网络接入标识;
[0008] 依据所述对应关系,采集所述网络接入标识在预设时间段内、对所述互联网的访 问内容。
[0009] 可选的,所述获取应用层日志和网络接入标识间的对应关系包括:
[0010] 从所述互联网中的AAA服务器中获取承载层日志,所述承载层日志中包括以下字 段:网络接入标识、本次承载层会话中所述网络接入标识使用的IP地址、本次承载层会话 开始的时间戳和本次承载层会话结束的时间戳;
[0011] 从所述Web代理服务器集群获取应用层日志,所述应用层日志中包括以下字段: 本次应用层请求结束的时间戳、发起此次应用层请求的IP地址、响应此次应用层请求使用 的传输层流量和本次应用层请求的URL ;
[0012] 当所述发起此次应用层请求的IP地址与所述本次承载层会话中所述网络接入标 识使用的IP地址匹配、且所述本次应用层请求结束的时间戳位于所述本次承载层会话开 始的时间戳和本次承载层会话结束的时间戳之间时,确定所述应用层日志与所述网络接入 标识间存在对应关系。
[0013] 可选的,所述获取应用层日志和网络接入标识间的对应关系包括:
[0014] 从所述互联网中的AAA服务器中获取承载层日志,所述承载层日志中包括以下字 段:网络接入标识、本次承载层会话中所述网络接入标识使用的原始接入IP地址、本次承 载层会话开始的时间戳和本次承载层会话结束的时间戳;
[0015] 获取地址转换日志,所述地址转换日志中包括以下字段:原始接入IP地址、所述 原始接入IP地址对应的端口号、由所述原始接入IP地址转换得到的访问IP地址、所述访 问IP地址对应的端口号和地址转换时间;
[0016] 从所述Web代理服务器集群获取应用层日志,所述应用层日志中包括以下字段: 本次应用层请求结束的时间戳、发起此次应用层请求的IP地址、所述IP地址对应的访问端 口号、内容响应成功时间戳、响应此次应用层请求使用的传输层流量和本次应用层请求的 URL ;
[0017] 当所述应用层日志中的发起此次应用层请求的IP地址与所述地址转换日志中的 由所述原始接入IP地址转换得到的访问IP地址相同、所述应用层日志中的所述IP地址对 应的访问端口号与所述地址转换日志中的所述访问IP地址对应的端口号相同、以及,所述 应用层日志中的内容响应成功时间戳在所述地址转换日志中的地址转换时间的间隔内,则 确定所述应用层日志中的发起此次应用层请求的IP地址与所述地址转换日志中的原始接 入IP地址对应;
[0018] 如果所述承载成日志中的本次承载层会话中所述网络接入标识使用的原始接入 IP地址与所述原始接入IP地址相同,获取所述承载层日志中与本次承载层会话中所述网 络接入标识使用的原始接入IP地址对应的网络接入标识;
[0019] 建立所述网络接入标识与所述应用层日志的对应关系。
[0020] 可选的,所述获取应用层日志和网络接入标识间的对应关系包括:
[0021] 依据获取的应用日志,确定所述应用层日志和网络接入标识间的对应关系,所述 应用层日志中包括所述网络接入标识。
[0022] -种采集互联网访问内容的方法,应用于Web代理服务器集群,所述Web代理服务 器集群设置在所述电信运营商的IP承载网络内满足预设条件的节点上,所述方法包括:
[0023] 接收终端访问URL的内容请求报文,所述内容请求报文通过路由转发至所述Web 代理服务器集群;
[0024] 通过响应所述内容请求报文生成应用层日志,所述应用层日志用于获取所述应用 层日志和网络接入标识间的对应关系,所述对应关系用于采集所述网络接入标识在预设时 间段内、对所述互联网的访问内容,所述终端使用所述网络接入标识。
[0025] 可选的,所述Web代理服务器集群具有互联网内容缓存功能。
[0026] 可选的,还包括:
[0027] 如果所述内容请求报文中携带所述网络接入标识,将所述网络接入标识记录在所 述应用层日志中。
[0028] 一种采集互联网访问内容的方法,包括:
[0029] 所述互联网中的转发重定向系统将所述网络接入标识访问URL的内容请求报文 路由转发至Web代理服务器集群,所述Web代理服务器集群设置在所述电信运营商的IP承 载网络内满足预设条件的节点上;
[0030] 所述Web代理服务器集群通过响应所述网络接入标识访问URL的内容请求报文生 成应用层日志;
[0031] 互联网数据采集系统获取所述应用层日志和网络接入标识间的对应关系,并依据 所述对应关系,采集所述网络接入标识在预设时间段内、对所述互联网的访问内容。
[0032] 可选的,所述预设条件包括:
[0033] 连通互联网数据采集系统与电信运营商的认证授权记账系统间的通信;
[0034] 当终端与所述Web代理服务器集群间存在IP地址的转换时,在地址转换设备上保 存有地址转换的日志;
[0035] 以及,连接在所述节点上设备在时间上同步。
[0036] 一种互联网数据采集系统,包括:
[0037] 获取模块,用于获取应用层日志和网络接入标识间的对应关系,所述应用层日志 通过响应终端访问URL的内容请求报文生成,所述内容请求报文通过路由转发至所述Web 代理服务器集群,所述Web代理服务器集群设置在所述电信运营商的IP承载网络内满足预 设条件的节点上,所述终端使用所述网络接入标识;
[0038] 采集模块,用于依据所述对应关系,采集所述网络接入标识在预设时间段内、对所 述互联网的访问内容。
[0039] 可选的,所述获取模块包括:
[0040] 第一获取单元,用于从所述互联网中的AAA服务器中获取承载层日志,所述承载 层日志中包括以下字段:网络接入标识、本次承载层会话中所述网络接入标识使用的IP地 址、本次承载层会话开始的时间戳和本次承载层会话结束的时间戳;
[0041] 第二获取单元,用于从所述Web代理服务器集群获取应用层日志,所述应用层日 志中包括以下字段:本次应用层请求结束的时间戳、发起此次应用层请求的IP地址、响应 此次应用层请求使用的传输层流量和本次应用层请求的URL ;
[0042] 第一确定单元,用于当所述发起此次应用层请求的IP地址与所述本次承载层会 话中所述网络接入标识使用的IP地址匹配、且所述本次应用层请求结束的时间戳位于所 述本次承载层会话开始的时间戳和本次承载层会话结束的时间戳之间时,确定所述应用层 日志与所述网络接入标识间存在对应关系。
[0043] 可选的,所述获取模块包括:
[0044] 第一获取单元,用于从所述互联网中的AAA服务器中获取承载层日志,所述承载 层日志中包括以下字段:网络接入标识、本次承载层会话中所述网络接入标识使用的原始 接入IP地址、本次承载层会话开始的时间戳和本次承载层会话结束的时间戳;
[0045] 第三获取单元,用于获取地址转换日志,所述地址转换日志中包括以下字段:原始 接入IP地址、所述原始接入IP地址对应的端口号、由所述原始接入IP地址转换得到的访 问IP地址、所述访问IP地址对应的端口号和地址转换时间;
[0046] 第二获取单元,用于从所述Web代理服务器集群获取应用层日志,所述应用层日 志中包括以下字段:本次应用层请求结束的时间戳、发起此次应用层请求的IP地址、所述 IP地址对应的访问端口号、内容响应成功时间戳、响应此次应用层请求使用的传输层流量 和本次应用层请求的URL ;
[0047] 对应关系建立单元,用于当所述应用层日志中的发起此次应用层请求的IP地址 与所述地址转换日志中的由所述原始接入IP地址转换得到的访问IP地址相同、所述应用 层日志中的所述IP地址对应的访问端口号与所述地址转换日志中的所述访问IP地址对应 的端口号相同、以及,所述应用层日志中的内容响应成功时间戳在所述地址转换日志中的 地址转换时间的间隔内,则确定所述应用层日志中的发起此次应用层请求的IP地址与所 述地址转换日志中的原始接入IP地址对应;如果所述承载成日志中的本次承载层会话中 所述网络接入标识使用的原始接入IP地址与所述原始接入IP地址相同,获取所述承载层 日志中与本次承载层会话中所述网络接入标识使用的原始接入IP地址对应的网络接入标 识,并建立所述网络接入标识与所述应用层日志的对应关系。
[0048] 可选的,所述获取模块包括:
[0049] 第二确定单元,用于依据获取的应用日志,确定所述应用层日志和网络接入标识 间的对应关系,所述应用层日志中包括所述网络接入标识。
[0050] -种Web代理服务器集群,所述Web代理服务器集群设置在所述电信运营商的IP 承载网络内满足预设条件的节点上,包括:
[0051 ] 接收模块,用于接收终端访问URL的内容请求报文,所述内容请求报文通过路由 转发至所述Web代理服务器集群;
[0052] 生成模块,用于通过响应所述内容
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1