一种基于集成学习的URL清洗系统及方法与流程

文档序号:17696805发布日期:2019-05-17 21:37阅读:来源:国知局

技术特征:

技术总结
本发明公开了一种基于集成学习的URL清洗系统及方法,其通过爬取网站的URL及其对应的网站标题;判断所述网站标题是否与指定的爬取主题一致,若是,则将所述网站标题标记为A类标题,否则标记为B类标题;对所标记的A类标题和B类标题分词处理,并根据分词结果进行朴素贝叶斯算法的训练和预测,并构造与分词结果相应的正则表达式;然后采用Stacking算法进行融合处理得到融合结果;最后采用决策树算法对所述融合结果进行训练和预测,得到决策树模型,并通过所述决策树模型对URL进行清洗;从而极大的提高了URL清洗效率,节省大量的人工检查时间,并提高了验证URL所对应网站标题的准确程度。

技术研发人员:陈鑫;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤
受保护的技术使用者:厦门快商通信息技术有限公司
技术研发日:2018.12.11
技术公布日:2019.05.17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1