一种Web信息采集系统的制作方法

文档序号:12063751阅读:来源:国知局
技术总结
本发明涉及信息采集领域,尤其涉及一种Web信息采集系统。该系统包括:用于给待采集的URL排序,并根据一定的策略向协议处理器分配URL的URL处理器;用于通过各种Web协议完成数据的采集的协议处理器;用于对镜像页面和内容中的重复内容进行检测的重复内容检测器;用于对已经经过重复内容检测的页面的链接进行分析,并对链接进行必要的转换的URL提取器;用于对已采集到的Meta信息、页面的主题、页面的摘要进行挖掘meta、结构等语义信息的Meta信息获取器;以及用于对文本内容建立索引的语义信息解析器;和用于存储经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要的数据库。该系统提高了一般Web信息采集的能力,方便了人们对网络信息资源的使用。

技术研发人员:陈崇传
受保护的技术使用者:青岛海日安电子有限公司
文档号码:201510794183
技术研发日:2015.11.18
技术公布日:2017.05.24

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1