技术编号:11133947
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。本发明涉及网页识别技术领域,具体而言,涉及一种导航网页的识别方法和装置。背景技术在互联网领域中,为了达到应用的目的,很多时候需要对网页的类别进行识别。例如,在网络爬虫的应用中,一般是先检测网页的网址(URL)是否已经爬取过,如果检测出网页的网址(URL)已经爬取过,则不需要再次爬取该网页。但是在爬取过程中,对于一些网页来说,通过爬取该网页,可以获知其能够链接到的内容网页,因此,这些网页是爬虫应用中需要重复爬取的网页,称之为导航网页(或者导航列表页)。目前,对于如何识别导航网页,通常采用的方法是对...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考以及查看自身技术是否侵权,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。