识别网页栏目的方法及装置与流程

文档序号:11155085阅读:来源:国知局
技术总结
本发明公开了一种识别网页栏目的方法及装置,涉及互联网技术领域,为解决无法准确识别网页栏目的问题而发明。本发明的方法包括:通过网络爬虫工具对目标页面进行N次爬取,其中N为大于或等于1的正整数;从历次采集的页面代码中提取超链接;统计同一个超链接在N次爬取过程中出现的总次数;若总次数等于N的倍数,则确定超链接指向的页面内容为网页栏目。本发明主要应用于对门户网站首页进行网页栏目识别中。

技术研发人员:侯明午
受保护的技术使用者:北京国双科技有限公司
文档号码:201510726360
技术研发日:2015.10.30
技术公布日:2017.05.10

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1