一种Web信息采集系统的制作方法

文档序号:12063751阅读:来源:国知局

技术特征:

1.Web信息采集系统,其特征在于,包括:URL处理器、协议处理器、重复内容检测器、URL提取器、Meta信息获取器、语义信息解析器以及数据库;所述的URL处理器,其用于给待采集的URL排序,并根据一定的策略向协议处理器分配URL;所述的协议处理器,其用于通过各种Web协议完成数据的采集;所述的Web协议包括HTTP、FTP、Gopher以及BBS;所述的重复内容检测器,其用于对镜像页面和内容中的重复内容进行检测,所述的URL提取器,其用于对已经经过重复内容检测的页面的链接进行分析,并对链接进行必要的转换;所述的Meta信息获取器,其用于对已采集到的Meta信息、页面的主题、页面的摘要进行挖掘meta、结构等语义信息;并对页面中提取出来的URL的好坏给出度量,并将度量结果传输到URL处理器用于排序;所述的语义信息解析器,其用于对文本内容建立索引;所述的数据库,其用于存储经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1