技术编号:6517630
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。本发明提供,包括步骤1、整理核心无效词汇;步骤2、使用核心无效词汇,识别出所有的疑似无效短语;步骤3、统计分析疑似无效短语集合;步骤4、根据统计分析结果,识别无效页面。通过本发明提供的,通过对网页聚类、统计分析的手段,解决了互联网网页中无效页面的高准确率、高召回率、自动化的挖掘问题,从而提高挖掘速度、改善搜索引擎的用户体验。专利说明[0001]本发明涉及互联网搜索领域,特别是涉及。背景技术[0002]互联网海量的网页信息,网页的质量参差不齐,搜索引擎要爬取...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考以及查看自身技术是否侵权,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。