技术编号:11133948
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。本发明涉及网页检测领域,具体而言,涉及一种导航网页的检测方法和装置。背景技术在互联网领域,往往需要检测一个网页是否为导航网页(导航列表页),进而根据检测的结果对该网页进行处理。例如,在网络爬虫的应用中,一般会爬取网页,进而对爬取的网页内容进行检测,以判断该网页是否为导航网页。对于被检测为导航网页的网页会进行重复爬取,以获取其包含的诸多网页信息。目前,通常采用的方法是对网页内容进行分析,获取其包含的链接的个数或者内容长度比(链接中包含的内容长度与网页总的内容长度的比值)。但是,由于各个网站的差异性...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。