技术总结
本发明公开了一种识别网页栏目的方法及装置,涉及互联网技术领域,为解决无法准确识别网页栏目的问题而发明。本发明的方法包括:通过网络爬虫工具对目标页面进行N次爬取,其中N为大于或等于1的正整数;从历次采集的页面代码中提取超链接;统计同一个超链接在N次爬取过程中出现的总次数;若总次数等于N的倍数,则确定超链接指向的页面内容为网页栏目。本发明主要应用于对门户网站首页进行网页栏目识别中。
技术研发人员:侯明午
受保护的技术使用者:北京国双科技有限公司
文档号码:201510726360
技术研发日:2015.10.30
技术公布日:2017.05.10