一种基于网页切分爬取的网络地址置信度评估方法与流程

文档序号:15636972发布日期:2018-10-12 21:35阅读:来源:国知局

技术特征:

技术总结
本公开发明了一种基于网页切分爬取的网络地址置信度评估方法,首先对已分类的网页链接进行切分,使用脚本爬取切分后的网页内容,采用卷积神经网络对网页内容进行分类,将切分后的网页分类准确率与原始网页分类准确率相减,得到网页分类差值集,再通过计算不同切分网页的权重,得到网络地址置信度算法公式,接着使用脚本爬取待分类网页链接,并计算切分的数量,将置信度大于一定阈值的网页链接放入已分类网页链接集中继续优化算法公式中的权重,最后使用网络地址置信度算法得出爬取网页的置信度。本发明方法有效的评估了在对网页进行切分爬取时,待爬取的网页与原始网页内容的信息差异,提高了网页爬取的效率。

技术研发人员:朱全银;潘舒新;胡荣林;李翔;周泓;瞿学新
受保护的技术使用者:淮阴工学院
技术研发日:2018.04.28
技术公布日:2018.10.12
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1