一种基于搜索引擎的轻量级通用网页主题爬虫方法与流程

文档序号:11780144阅读:来源:国知局
技术总结
发明基于搜索引擎的轻量级通用网页主题爬虫方法,包括,初始种子:给定的少量描述特定主题相关种子,根据一定规则,对种子进行扩充至一系列种子;发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站;下载网站:将相关的网站下载到本地并存入数据库;网页解析:从下载的网站进行分析,获取其中的链接信息;种子更新:通过分析已爬取到的新网站,从中提取主题相关词,并以此构造新种子,保证爬取过程持续进行;爬取更新:根据已爬取网站的更新信息,计算重新爬取的周期,使得已爬取网站能实现自适应的自动更新。本发明具有低代价、易实现、高效、准确等特点。

技术研发人员:姚瑞波;周凤波;翁强
受保护的技术使用者:焦点科技股份有限公司
文档号码:201310285000
技术研发日:2013.07.08
技术公布日:2016.11.23

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1