一种Web信息采集系统的制作方法

文档序号：12063751阅读：317来源：国知局

本发明涉及信息采集领域，尤其涉及一种Web信息采集系统。

背景技术：

随着Internet的迅速发展，网络正深刻地改变着人们的生活。而在网上发展最为迅猛WWW技术已逐渐成为Internet上最重要的信息发布和传输方式。然而，Web信息的急速膨胀，在给人们提供丰富的资源的同时，又使人们对它们的有效使用方面面临一个巨大的挑战。

技术实现要素：

针对这一情况，本发明发明了一种Web信息采集系统，该系统包括：URL处理器、协议处理器、重复内容检测器、URL提取器、Meta信息获取器、语义信息解析器以及数据库；所述的URL处理器，其用于给待采集的URL排序，并根据一定的策略向协议处理器分配URL；所述的协议处理器，其用于通过各种Web协议完成数据的采集；所述的Web协议包括HTTP、FTP、Gopher以及BBS；所述的重复内容检测器，其用于对镜像页面和内容中的重复内容进行检测；所述的URL提取器，其用于对已经经过重复内容检测的页面的链接进行分析，并对链接进行必要的转换；所述的Meta信息获取器，其用于对已采集到的Meta信息、页面的主题、页面的摘要进行挖掘meta、结构等语义信息；并对页面中提取出来的URL的好坏给出度量，并将度量结果传输到URL处理器用于排序；所述的语义信息解析器，其用于对文本内容建立索引；所述的数据库，其用于存储经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要。

本发明发明的Web信息采集系统提高了一般Web信息采集的能力，方便了人们对网络信息资源的使用。

具体实施方式

本发明发明的Web信息采集系统，该系统包括：URL处理器、协议处理器、重复内容检测器、URL提取器、Meta信息获取器、语义信息解析器以及数据库；

所述的URL处理器，其用于给待采集的URL排序，并根据一定的策略向协议处理器分配URL；所述的协议处理器，其用于通过各种Web协议完成数据的采集；所述的Web协议包括HTTP、FTP、Gopher以及BBS；所述的重复内容检测器，其用于对镜像页面和内容中的重复内容进行检测；所述的URL提取器，其用于对已经经过重复内容检测的页面的链接进行分析，并对链接进行必要的转换；所述的Meta信息获取器，其用于对已采集到的Meta信息、页面的主题、页面的摘要进行挖掘meta、结构等语义信息；并对页面中提取出来的URL的好坏给出度量，并将度量结果传输到URL处理器用于排序；所述的语义信息解析器，其用于对文本内容建立索引；所述的数据库，其用于存储经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈崇传
技术所有人：青岛海日安电子有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。