一种被动式网络信息自动高效采集系统及方法

文档序号:6460863阅读:403来源:国知局
专利名称:一种被动式网络信息自动高效采集系统及方法
技术领域
本发明涉及网络信息自动采集技术,具体涉及一种被动式网络信 息自动高效采集系统及方法,本发明技术主要应用于搜索引擎领域。
技术背景信息获取是利用计算机进行信息后续处理(例如信息检索、搜索引擎等)的前提。现阶段web信息获取方法主要通过网络爬虫实现。 现代社会信息化越来越快,计算机应用也不仅仅是依靠逻辑上的编程 实现,而更多的需要大量的信息进行处理、总结和归纳,并从中挖掘 出有用的信息。目前web信息获取的主要手段一网络爬虫一逐渐显露出一些不 适应新需求的弱点,网络爬虫的基本原理是对一个初始网页链接列表 进行遍历访问获取内容,并将获取到的网页中新的链接加入到网页链 接列表中进行循环递归遍历。这就会造成大量重复访问,更新不及时, 传输内容冗余,网络带宽占用大,服务器访问压力大等很多问题。新 的计算机应用特别是web应用对信息的实时性,全面性以及降低系 统开销等方面都有新的要求,传统网络爬虫已经显得力不从心。例如, 博客搜索需要对博客内容非常及时的更新,要求在博客发表新文章几 个小时之内能够提供搜索结果;音频视频等多媒体网站中的信息量庞 大,传统方法传输需要占用大量网络带宽,从而使得网站不堪重负, 而且由于版权的限制等原因,这些网站往往不允许搜索引擎下载原始 的音视频内容,从而限制了基于内容的音视频搜索服务的发展。针对上述技术问题,近期提出了许多对传统网络爬虫的改进思想 和方法,这些方法有的是通过改进爬取策略提高访问效率或加快更新 频率,例如对不同网站采用不同的循环间隔,或将网络爬虫局限在某 些特定领域爬取信息等;有的是通过网站管理员协助爬虫进行爬取, 例如当网站有较大更新时由网络管理员提交站点地图,爬虫才艮据站点 地图安排爬取时间进行爬取。这些方法虽然能够改进爬虫的 一些性能 以及加强其在某特定领域的功能,但他们依旧是基于传统爬虫架构之 上,除了能部分提高搜索引擎爬虫的内容更新效率外,并没有突破传 统的网络爬虫结构,因此也没有办法彻底解决内容及时更新、网站内容重复传输、以及对音视频特征等大规模数据进行采集等问题。 发明内容为了解决现有技术中存在的web信息获取过程中会出现造成大 量重复访问,更新不及时,传输内容冗余,网络带宽占用大,服务器 访问压力大等技术问题,而现有技术中解决办法虽然能够改进爬虫的 一些性能以及加强其在某些特定领域的功能,但并没有突破传统的网 络爬虫结构,也没有办法彻底解决内容及时更新、网站内容重复传输、 以及对音、视频等特征信息进行大规模数据采集等技术问题,本发明 提供了 一种被动式网络信息自动高效采集系统。为了解决现有技术中存在的web信息获取过程中会出现造成大 量重复访问,更新不及时,传输内容冗余,网络带宽占用大,服务器 访问压力大等技术问题,而现有技术中解决办法虽然能够改进爬虫的 一些性能以及加强其在某些特定领域的功能,但并没有突破传统的网 络爬虫结构,也没有办法彻底解决内容及时更新、网站内容重复传输、 以及对音、视频等特征信息进行大规模数据采集等技术问题,本发明 提供还了 一种被动式网络信息自动高效采集方法。本发明解决现有技术问题所采用的技术方案为提供一种被动式 网络信息自动高效采集系统,所述网络信息自动高效采集系统包括 运行于信息需求端的信息采集工作部;运行于信息提供端的信息收集 发送工作部;所述信息采集工作部与所述信息收集发送工作部为通信 连接关系。根据本发明的一优选实施例所述信息需求端为搜索引擎服务器 端;所述信息提供端为网站服务器端;所述信息采集工作部为设置在 所述信息需求端的服务器组件;所述信息收集发送工作部为设置在所 述信息提供端的客户组件。才艮据本发明的一优选实施例所述网络信息自动高效采集方法包 括步骤第一步、将所述信息采集工作部与所述信息收集发送工作部 建立有效的联系;第二步、所述信息采集工作部根据所述信息收集发 送工作部的通知,获取所述信息收集发送工作部内存储的所述信息提 供端信息。根据本发明的一优选实施例所述第一步包括子步骤 一、由所 述信息采集工作部查询新的、运行有所述信息收集发送工作部的网站,并获取所述信息收集发送工作部网站相关信息;二、所述信息采集工作部根据获取到的所述信息收集发送工作部信息向所述信息收 集发送工作部发送注册请求并向所述信息收集发送工作部提供所述 信息采集工作部的相应信息。根据本发明的一优选实施例所述二步具体为所述信息采集工 作部根据获取到的所述信息收集发送工作部信息向所述信息收集发送工作部发送注册请求并提供所述信息采集工作部的相应信息,所述 信息收集发送工作部根据收到的所述信息采集工作部信息,通过人工 或自动方式对是否接受该注册请求进行判断,将同意注册的所述信息 采集工作部相关信息进行列表保存,并向所述信息采集工作部发送注 册成功的通知。根据本发明的一优选实施例所述第二步包括子步骤 一、通过 所述信息收集发送工作部检测其所在网站下相关内容的更新情况,并 进行更新内容的存储;二、所述信息收集发送工作部向所有已成功注 册的所述信息采集工作部发送内容下载通知;三、在所述信息采集工 作部与所述信息收集发送工作部之间建立点对点(P2P)传输网络, 由所述收集发送工作部提供下载的种子文件,供所述信息采集工作部 进行下载。根据本发明的一优选实施例所述一步具体为通过所述信息收 集发送工作部检测其所在网站下相关内容的更新情况,并根据更新内 容的类型,分别将更新的信息或该信息所对应的相关特征信息进行信 息收集、特征采集、数据打包和存储于特定文件中。根据本发明的一优选实施例所述二步具体为当新增信息累计 到一定量或者更新时间累计到一定时长时,所述信息收集发送工作部 向所有成功注册的所述信息釆集工作部发送内容下载通知,并在通知 中约定一个内容下载时间段,收到该通知的所述信息采集工作部根据 自身情况决定是否在约定时间去下载信息;或者通过所述信息采集工 作部定时主动向所述信息收集发送工作部进行相关信息的下载。根据本发明的一优选实施例所述三步具体为当约定时间段到 来后,收到通知并确定需要下载更新内容、服务于不同搜索引擎的所 述信息采集工作部与所述信息收集发送工作部进行沟通,并由所述信 息收集发送工作部发起,通过所述信息采集工作部参与建立起一个点对点(P2P)传输网络,由所述信息收集发送工作部提供下载的种子文件并根据参与下载的所述信息采集工作部的数量以及种子文件的 大小等因素将种子文件分割成若干部分,每个所述信息采集工作部负 责下载其中的一部分或者多个部分,下载后该信息采集工作部再与其 它需要这部分内容的信息采集工作部进行信息共享。根据本发明的一优选实施例所述第二步中所述信息采集工作部 获取所述信息收集发送工作部内存储的所述信息提供端信息获取方 式为通过将各所述信息采集工作部与所述信息收集发送工作部建立 起点对点(P2P)网络,由所述信息收集发送工作部为所述信息采集 工作部提供下载的种子文件供其下载。本发明的有益效果在于将该技术应用于搜索引擎中后,能及时、 快速、高效的获取互联网上的文本信息和音、视频特征信息等网站相 关内容,并可显著降低系统开销以及网络带宽占用量。


图1 .本发明 一种被动式网络信息自动高效采集系统及方法中网 络信息自动高效采集系统结构图; 图2.新站点发现原理图; 图3.信息采集工作部服务器注册原理图; 图4.信息收集发送工作部客户端组件更新信息通知原理图; 图5.基于P2P协议数据下载原理图;图6.本发明 一种被动式网络信息自动高效釆集系统及方法中网 络信息自动高效采集方法流程图。
具体实施方式
以下结合附图和具体实施例对本发明一种被动式网络信息自动 高效采集系统及方法进行详细说明请参阅图1本发明一种被动式网络信息自动高效采集系统及方 法中网络信息自动高放采集系统结构图,如图l所示,所述网络信息 自动高效采集系统包括运行于信息需求端的信息采集工作部;运行 于信息提供端的信息收集发送工作部;所述信息采集工作部与所述信 息收集发送工作部为通信连接关系。在本发明的实施例中所述信息需求端为客户端搜索引擎,在图中 包括第二搜索引擎和第三搜索引擎,但具体实践中并不限于只有该两个搜索引擎;所述信息提供端为网站服务器端;所述信息采集工作部 为设置在所述信息需求端搜索引擎上的服务器组件;所述信息收集发 送工作部为设置在所述信息提供端网站服务器上的客户组件。在本发明系统中所述信息收集工作部——^良务器组件,该组件运 行于信息需求端(如搜索引擎服务器端),主要职责包括但不限于(一) 、寻找新的网站;(二)、在网站中的客户端上注册;(三)、等 待客户端发出的内容下载通知;(四)、与其它需要同样内容的服务器 组件以及相应客户组件一起建立临时点对点传输网络来下载需要的 信息。在本发明系统中所述信息收集发送工作部一~~客户组件,该组件 运行于信息提供端(如提供文本或音视频信息访问的网站服务器端), 其主要职责包括但不限于(一)、接收不同服务器组件的注册请求;(二) 、维护成功注册的服务器组件信息表;(三)、及时监测并搜集打包网站更新的文本内容,提取并打包网站的图像、音频或视频内容 的各种特征数据;(四)、根据每个已注册服务器组件的信息需求来发送内容更新通知;(五)、协助服务器组件在约定时间建立临时内容传 行内容下载。根据上述的职责与分工,本发明提供了 一种网络信息自动高效采 集方法,用以下的具体实施方法来解决现有技术中存在的技术问题 时,需要每一个网页都建立一个HTTP连接、内容及时更新、内容从 网站重复下载、音视频特征的获取以及音视频特征信息等大规模数据 下载问题。其具体执行步骤及相应的解决问题方法可以具体描述如 下以下具体说明中所述信息需求端为客户端搜索引擎;所述信息提 供端为网站服务器端;所述信息采集工作部为设置在所述信息需求端 的服务器组件;所述信息收集发送工作部为设置在所述信息提供端的 客户组件。(一)网站发现首先由服务器组件寻找到新的、运行有信息客 户端组件的网站,并从该网站下载存放在网站指定目录下的网站客户 端信息表,根据该信息表来确定客户组件的连接端口等信息。新站点 的发现有两种实现方法, 一种方法是通过已经获取的网站页面内容分析出新站点列表,服务器端根据此列表依次访问网站。另一种方法可 通过一个第三方的网站列表服务来有效并且快速的发现新站点。具体方法如图2新站点发现原理图所示,每个网站安装客户端后都可以将自己注册在一个第三方站点列表服务器上,服务器端就可以通过查询 这个第三方服务器很容易的获取网站列表。(二) 服务器注册可以参阅说明书附3信息采集工作部服 务器注册原理图,如图中所示,服务器组件根据获得的客户组件信息 向客户组件发送注册请求并提供相应的服务器组件信息,客户组件根 据收到的服务器组件信息,通过人工或者自动的方式来判断是否接受 该注册请求,如果接受了,则将该服务器组件的信息存入自己的服务 器组件列表中,并发送注册成功通知给服务器组件,否则,直接发送 不允许注册通知给服务器组件。(三) 内容更新通知可以参阅说明书附4信息收集发送工 作部客户端组件更新信息通知原理图,如图中所示,注册成功后,服务器组件等待客户组件的内容更新通知;客户组件监测其所在网站下 所有的内容更新情况,并根据更新内容的类型,分别将更新的信息或 者该信息所对应的各种特征打包存放于特定文件中,当新增信息累计 到一定量、或者更新时间累计到一定时长后,向所有成功注册的服务 器组件发送内容下载通知,并在通知中约定一个内容下载时间段;收 到该通知的服务器组件根据自身情况决定是否在约定时间去下载信 息;由于更新的内容由客户组件来负责,而且每个客户组件之负责本 地网站的内容分析与监测,因此对于音视频等具有版权的数据进行特 征抽取就可以在内容提供方进行,能够很好实现版权保护。(四) 内容下载可以参阅说明书附5基于P2P协议数据下 载原理图,如图中所示当约定时间段到来后,收到通知并确定需要下 载更新内容、服务于不同搜索引擎的服务器组件相继与客户组件进行 沟通,并由客户组件发起、服务器组件参与建立起一个临时的点对点 传输网络,客户组件提供下载的种子文件并根据参与下载的服务器组 件的数量以及种子文件的大小等因素来将种子文件分割成若干部分, 每个服务器组件负责下载其中的一部分或者多个部分,但是为了减轻 客户组件所在的网站的负载压力,每部分只能由一个或者由网站管理 员指定的最多N个服务器组件同时从网站下载,下载后该服务器组件再与其它需要这部分内容的服务器组件进行共享。通过这种方式, 解决了在不增加网站压力情况下大规模数据如音频或视频特征信息 等的获取问题,同时从理论上来说,每个服务器组件只需付出额外的 不超过其所获得的凄t据总量大小的数据上传量,这与传统爬虫架构下 其消耗在新的网页查找以及网页内容更新情况判断、以及为获取每一个单独网页而建立的额外HTTP请求等消耗比起来,显然是可以接受 的,更关键的还在于,这种传输方法能够完成传统爬虫所无法解决的 音视频特征文件的下载问题。上述四个步骤是本系统的主要工作步骤。此外,在有些情况下, 比如对于一个新的爬虫来说,它有时候也需要网站提供除了最近更新 的信息以外的历史数据,如果这个历史数据文件不是很大,完全可以 在上面工作步骤的第(四)步中作为更新数据来完成下载,但如果历 史数据比较庞大,则做为一个可选步骤,下面给出第(五)步来进行 历史数据的下载。(五)历史数据下载 一个网站的历史数据具有几个特点, 一是 由于信息比较陈旧,因此对于搜索引擎来说一般情况下重要性要比最 新的数据略为低一些,二是由于时间积累比较长,因此一般来说数据 量比更新数据要大很多,因此需要严格控制下载的次数。这两个特点 决定了客户组件在提供历史数据下载的时候,主要需要控制好开放历 史数据下载的频率,其通知下载的方法、实际下载过程和方法与第 (三)、(四)步中是相同的。为了确定合适的下载频度,需要对提供 历史数据下载的时间间隔作出 一个估计,这里给出 一个可能的估计方 法,即令下载时间间隔rw = minpVjiV, . A,Tc.,其中A," oc 是由当前历史数据大小L影响的两个系数,wc, z;是由网站管理员根据给定历史数据大小丄e给定的新注册服务器端总数N,最长等待时间T 的参考值,W/是当前新服务器组件在客户组件上注册的频率。同一个 服务器组件通常面对大量的网站客户组件,因此提供一个尽量长时间 下载历史数据对服务器端下载优化有很大好处,同时也给服务器端评 判客户端状态提供了依据。上述方法可以概括为如说明书附图6本发明一种被动式网络信 息自动高效采集系统及方法中网络信息自动高效采集方法流程图所作为服务器组件和客户组件配合成功的基础,服务器组件和客户 组件之间以及服务器组件相互之间的通信必须以一致的通信协议来 完成。具体采用哪 一种协议实现方式并不会影响本发明的功能与主要 效率,但是为了保证对整个互联网信息最大限度的共享以及获得最优的效率,确定一种基于XML的可扩展的标准协议是有益的。虽然不 是必须,但以下主要lt据结构是保证客户组件和服务器组件相互通信 的重要内容,因此需要在每种协议中给出具体定义,这里给出的只是 一种基于XML的示范定义方法 (一)网站信息描述文件 对于网站信息描述文件, 一种实施方式是采用类似传统爬虫的方 法,在每个网站的根目录下放置一个类似于"robot.xml"的XML文件。 下面给出了 一种基于XML Schema的网站信息描述文件定义模板 <xsd:element name="client"> 〃定义网站驻留的客户端的信息 <xsd:complexType> <xsd:all>〈xsd:element name-"port" type="xsd:unsignedShort'V> 〃 客户端监听端口<xsd:element name="domain" type="xsd:anyURI7〉 〃网站的域名<xsd:element ref="subject" /> 〃网站内容所涉及的主题(可选)<xsd:element ref="changefreq" minOccurs="0" /> 〃一般的 更新频度(可选)〈xsd:element ref="timezone"> 〃客户端组件所驻留服务器的时区</xsd:all> </xsd:complexType> </xsd:element>〈xsd:element name="subject"> <xsd: simpleType><xsd:restriction base="xsd:string">〈xsd:enumeration value-"金融"/> 〈xsd:enumemtion valuey教育"/> <xsd:enumeration value-"信息技术"/>〃上面只是一些可能类别的例子,可以根据需要扩充 </xsd:restriction> </xsd:simpleType> </xsd:element〉<xsd:element name="changefreq"> <xsd:simpleType><xsd:restriction base="xsd:string"><xsd:enumeration value-"连续更新"/> <xsd:enumeration value-"每小日于"/> <xsd:enumeration value-"每天"/> <xsd: enumeration value-"每周"/> <xsd:enumeration value-"每月"/> <xsd:enumeration value-"每年"/> <xsd:enumeration value-"从不更新"/〉 〃可以根据需要扩充 </xsd:restriction> </xsd:simpleType> </xsd:element><xsd:element name-"timezone"〉 <xsd:simpleType><xsd:restriction base="xsd:unsignedByte"> <xsd:minLength value="0" /> <xsd:maxLength value="23" /> </xsd:restriction> </xsd:simpleType〉 </xsd:element>下面是一个网站信息描述的例子 < xml version="1.0" encoding="UTF-8" >〈client xmlns="www.hitsz.edu.cn"> <port>8088</port><domain>www.hitsz.edu.cn</domain> <subj ects〉教育</subj ects> 〈changefreq〉每天〈/changefreq〉 </client>在上述模板中,最重要的部分是〈client〉的,ort〉元素,该元素告 诉服务器组件如果要和客户组建进行通信所必须知道的监听端口 。虽 然不是必须的,但提供〈subject〉元素来告诉服务器组件该网站主要涉 及的主题对于服务器所在的搜索引擎、尤其是那些专注于特定领域信 息的垂直搜索引擎来说是很有帮助的。其它可选信息,包括更新频率, 网站域名等也对服务器组件以及相应的搜索引擎更好的提供信息检 索服务有很大帮助。另 一个元素〈timezone〉是考虑到服务器组件与客 户组件可能来自于不同的地区,为了保证时间上的一致性,所以需要 相互之间确定不同告知所属时区。对于一个比较大的网站,往往可能需要有多个客户組件针对不同 部分的内容来分别提供服务,这时候也可以在网站信息表中提供多个 〈client〉元素来分别加以说明。 (二)服务器组件注册信息服务器组件在客户组件上注册时需要与客户组件进行必要的交 互,主要包括给客户组件提供基本的服务器组件以及相应的搜索引擎 的身份识别信息,服务器组件监听端口 、信息需求类型等。作为参考, 下面给出了 一个服务器组件注册时发送的主要注册信息的模板 <xsd:element name="serverRegister"> <xsd:complexType> <xsd:all><xsd:element name="serverIP" type="xsd:string"/> <xsd:element name="serverName" type="xsd:strimg7> <xsd:element ref="subject" /> <xsd:element ref="contentType" minOccurs="0" /> <xsd:element ref="timezone" minOccurs="0" /> </xsd:all> </xsd: complexType></xsd:element>〈xsd:element name="contentType"> <xsd:simpleType><xsd:restriction base="xsd:string"> <xsd:enumeration value="audio" /> <xsd:enumeration value="video" /> <xsd:enumeration value="image" /> <xsd:enumeration value="text" /> </xsd:restriction〉 </xsd:simpleType> </xsd:element>除了在数据结构(一)中已经定义的元素,这里新增加的元素 <type>々ype〉表明服务器组件所需要的信息的类型,包括音 频"audio",视频"video",闺像,,image,,和文本"text"这几种主要类型, 当然也可以对这些类型进行进一步扩充。〈type〉元素也可以作为网站 信息文件的可选元素,用于描述只提供特定类型信息的网站,但对于 能提供混和类型信息的网站,可以用多个〈type〉元素分别描述,也可以 忽略这一项。为了对上述注册信息进行回应,客户组件通常需要在确定注册 成功或者拒绝该服务器组件注册后发回一个响应消息,这个响应消 息可以是一般的简单响应,也可以是一个比较复杂的XML消息文本。 (三)网站内容更新通知该消息是由 一个客户组件发送到所有在它上面成功注册的服务 器组件的内容更新与下载通知,该通知告诉服务器组件更新内容的更 新时间段,包含的网页或者音视频特征文件数目、类型及需要下载的 更新内容的大小,如果有可能,也可以指明这些内容所涉及的主题。 除了与更新内容相关的信息,该通知消息还应该包含什么时段开放更 新内容给服务器组件下载、开放的下载端口、开放的协议类型、下载 文件列表等相关信息。下面的XML Schema模板给出了一个更新通知 消息的示例模板。 〈xsd:element name="update"> <xsd:complexType> <xsd:all><xsd:element name="cliendID" type="xsd:ID"/>〈xsd:element name-,,downloadPort,, type="xsd:unsignedlnt"> <xsd:element name=,,updatedFile" type=,,updatedFileType" minOccurs="l,,/> </xsd:all> </xsd:complexType> </xsd:element>〈xsd:complexType name="durationType"〉 <xsd:all><xsd:dement name="startTime" type="xsd:dateTime"> <xsd:element name="dueTime" type="xsd:dateTime"></xsd:all> </xsd:complexType><xsd:complexType name:,,updatedFileType"〉 <xsd:all><xsd:element name="fileFullPath,, type-,,xsd: string"minOccurs="l,,/><xsd:element name="dataSize" type="xsd:unsignedLong"/> <xsd:element ref=,,subject,, minOccurs=,,0"/> 〈xsd:element ref=,,contentType" minOccurs="0,,/> <xsd:element name="isHistory" type="xsd:boolean"minOccurs='TV>〈xsd:element name="updateDumtion" type="durationType,, minOccurs=" 1" /> <xsd:element name="downloadDuration"type-"durationType" minOccurs= "l'V〉 </xsd:all> </xsd:complexType>在上述数据结构中,每个内容更新消息中包含一个或多个 〈updatedFile〉单元,每个单元描述一个由客户端打包的更新文件,该 更新文件中通常包含一段时间内更新的一种或多种类型网络信息,如 文本网页、音频特征文件或者视频特征文件等。服务器组件可以更具化pdatedFile〉单元中提供的信息来判断是否需要下载相应的更新信 台本发明的有益效果在于将该技术应用于搜索引擎中后,能及时、 快速、高效的获取互联网上的文本信息和音、视频特征信息等网站相关内容,并可显著降低系统开销以及网络带宽占用量。细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明 所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下, 还可以做出若千简单推演或替换,都应当视为属于本发明的保护范 围。
权利要求
1. 一种被动式网络信息自动高效采集系统,其特征在于所述网络信息自动高效采集系统包括运行于信息需求端的信息采集工作部;运行于信息提供端的信息收集发送工作部;所述信息采集工作部与所述信息收集发送工作部为通信连接关系。
2. 根据权利要求1所述被动式网络信息自动高效采集系统,其特 征在于所述信息需求端为搜索引擎服务器端; 所述信息提供端为网站服务器端;所述信息采集工作部为设置在所述信息需求端的服务器组件; 所述信息收集发送工作部为设置在所述信息提供端的客户組件。
3. —种被动式网络信息自动高效采集方法,其特征在于所述网 络信息自动高效采集方法包括步骤A:将所述信息采集工作部与所述信息收集发送工作部建立有效 的联系;B:所述信息采集工作部根据所述信息收集发送工作部的通知,获 取所述信息收集发送工作部内存储的所述信息提供端信息。
4. 根据权利要求3所述被动式网络信息自动高效釆集方法,其特 征在于所述步骤A包括子步骤Al:由所述信息采集工作部查询新的、运行有所述信息收集发送 工作部的网站,并获取所述信息收集发送工作部网站相关信息;A2:所述信息采集工作部根据获取到的所述信息收集发送工作部 信息向所述信息收集发送工作部发送注册请求并向所述信息收集发 送工作部提供所述信息采集工作部的相应信息。
5. 根据权利要求4所述被动式网络信息自动高效采集方法,其特 征在于所述步骤A2具体为所述信息采集工作部根据获取到的所 述信息收集发送工作部信息向所述信息收集发送工作部发送注册请 求并提供所述信息采集工作部的相应信息,所述信息收集发送工作部 根据收到的所述信息采集工作部信息,通过人工或自动方式对是否接 受该注册请求进行判断,将同意注册的所述信息采集工作部相关信息 进行列表保存,并向所述信息采集工作部发送注册成功的通知。
6. 根据权利要求3所述被动式网络信息自动高效采集方法,其特 征在于所述步骤B包括子步骤Bl:通过所述信息收集发送工作部检测其所在网站下相关内容的 更新情况,并进行更新内容的存储;B2:所述信息收集发送工作部向所有已成功注册的所述信息采集 工作部发送内容下载通知;B3:在所述信息釆集工作部与所述信息收集发送工作部之间建立 点对点(P2P)传输网络,由所述收集发送工作部提供下载的种子文 件,供所述信息采集工作部进行下载。
7. 根据权利要求6所述被动式网络信息自动高效采集方法,其特 征在于所述步骤B1具体为通过所述信息收集发送工作部检测其 所在网站下相关内容的更新情况,并根据更新内容的类型,分别将更 新的信息或该信息所对应的相关特征信息进行信息收集、特征采集、 数据打包和存储于特定文件中。
8. 根据权利要求6所述被动式网络信息自动高效采集方法,其特 征在于所述步骤B2具体为当新增信息累计到一定量或者更新时 间累计到一定时长时,所述信息收集发送工作部向所有成功注册的所 述信息采集工作部发送内容下载通知,并在通知中约定一个内容下载 时间段,收到该通知的所述信息采集工作部根据自身情况决定是否在 约定时间去下载信息;或者通过所述信息采集工作部定时主动向所述 信息收集发送工作部进行相关信息的下载。
9. 根据权利要求6所述被动式网络信息自动高效采集方法,其特 征在于所述步骤B3具体为当约定时间段到来后,收到通知并确 定需要下载更新内容、服务于不同搜索引擎的所述信息采集工作部与 所述信息收集发送工作部进行沟通,并由所述信息收集发送工作部发 起,通过所述信息采集工作部参与建立起一个点对点(P2P)传输网 络,由所述信息收集发送工作部提供下载的种子文件并根据参与下载 的所述信息采集工作部的数量以及种子文件的大小等因素将种子文 件分割成若干部分,每个所述信息采集工作部负责下载其中的一部分 或者多个部分,下载后该信息采集工作部再与其它需要这部分内容的信息采集工作部进行信息共享。
10. 根据权利要求3所述被动式网络信息自动高效采集方法,其特征在于所述步骤B中所述信息采集工作部获取所述信息收集发 送工作部内存储的所述信息提供端信息获取方式为通过将各所述信息采集工作部与所述信息收集发送工作部建立起P2P网络,由所述信 息收集发送工作部为所述信息采集工作部提供下载的种子文件供其 下载。
全文摘要
本发明涉及一种被动式网络信息自动高效采集系统及方法,所述网络信息自动高效采集系统包括运行于信息需求端的信息采集工作部;运行于信息提供端的信息收集发送工作部;所述信息采集工作部与所述信息收集发送工作部为通信连接关系。所述网络信息自动高效采集方法包括步骤将所述信息采集工作部与所述信息收集发送工作部建立有效的联系;所述信息采集工作部根据所述信息收集发送工作部的通知或定期获取所述信息收集发送工作部内存储的所述信息提供端信息。将本发明技术应用于搜索引擎中后,能及时、快速、高效的获取互联网上的文本信息和音频、视频特征信息等网站相关内容,并可显著降低系统开销以及网络带宽占用量。
文档编号G06F17/30GK101261635SQ20081006689
公开日2008年9月10日 申请日期2008年4月29日 优先权日2008年4月29日
发明者王晓龙, 翁家才, 郭鸿志, 陈清财, 马天明 申请人:哈尔滨工业大学深圳研究生院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1