基于互联网爬虫技术的互联网内容资源探测方法与流程

文档序号:12121079阅读:599来源:国知局

本发明涉及内容资源探测子系统主要是通过对全网热点网站的深度探测和挖掘,获取相关信息,属于通信技术领域。



背景技术:

随着互联网内容资源不断丰富,普及率和完整率的提升,互联网内容资源应用越来越广泛,随之而来的问题也不断出现,当互联网资源内容庞大无法有效管理?互联网内容资源质量不可知?出现问题无法进行及时的故障诊断?

内容资源探测子系统本期完成的功能主要是通过对全网热点网站的深度探测和挖掘,获取域名、URL、IP地址等资源信息。供内容资源获取,内容识别分析和数据管理功能。

本发明结合了互联网内容资源探测手段的优点,提出基于互联网爬虫技术的互联网内容资源探测方法。通过质量拨测方法形成体系,对互联网内容资源和质量进行整合。

通过现网互联网质量监测系统已部署的接入网专业硬件探针,进行网络质量、业务拨测,对客户接入层网络路由进行故障检测,对客户所占设备端口进行反向操作



技术实现要素:

本发明的目的是为了解决现有技术中存在的互联网资源内容质量不可知等问题。

和现有技术相比,这种方法具有效率高、成本低、分析内容丰富的特点,更加符合现网情况和客户需求。

具体来说,本发明方法包括:

a)普通网站资源获取通过系统的内容资源爬虫测试,通过资源页面,测试该页面的各个页面元素,同时解析页面中的各个子链接,再针对与入口页面同一根域名的子链接进行递归测试,直到所有的有效链接测试完成,最终测试一个域名下的所有子域名的页面元素。

b)基于ip地址的多站点调度机制的网站探测容资源探测系统在网站爬取过程中,每当遇到一个新出现的域名时,通过DNS解析过程可以得到该域名对应的IP地址,通过IP地址得到域名或URL的归属。其中配置的DNS可根据需要进行动态灵活配置,实现各DNS解析结果的综合分析功能。

c)脚本动态执行分析,对无法直接获取的资源,可通过模拟用户下载动作等方 式,从而获得真正的内容下载地址。

d)提供全网资源探测的能力通过资源页面,测试该页面的各个页面元素,同时解析页面中的各个子链接,再针对与入口页面同一根域名的子链接进行递归测试,直到所有的有效链接测试完成,最终测试一个域名下的所有子域名的页面元素。

本发明的积极效果是:

通过移动容资源探测子系统主要包含内容资源获取、内容识别分析、数据管理、数据报表、系统管理和接口管理等功能模块。可以通过对全网热点网站的深度探测和挖掘,获取域名、URL、IP地址、归属地、资源类型、资源质量等数据信息。

附图说明

图1表示本发明基于互联网爬虫技术的互联网内容资源探测方法。

具体实施方式

下面对本发明作进一步说明。

测试流程:用户可以在NetVista内容资源探测子系统定义好需要建立的测试任务;系统接收到测试任务后,会像部署在各个地市的测试探针下发测试任务;测试探针接收到测试任务之后,会按内容资源探测子系统要求,执行相应的测试任务;探针执行完测试任务之后,会将测试结果上报给内容资源探测子系统。

呈现流程:系统完成测试任务之后,用户可以在系统报表系统上面定义各个查询条件,就可以获取需求的数据报表,数据报表可以直接通过系统界面呈现,可以导出到Excel表格呈现,也可以通过相应的接口发送给其他系统呈现。

数据存储模块:数据存储模块主要包括数据库,内部测试中心收集到测试探针上报的测试数据后,会将数据存储到数据库。

数据处理模块:数据处理模块主要功能是将数据库中的数据进行统计、分析等处理。

数据呈现模块:数据呈现主要是通过系统报表引擎,按多种维度、多种形式呈现系统数据报表。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1