一种被动式网络信息自动高效采集系统及方法

文档序号：6460863阅读：403来源：国知局

专利名称：一种被动式网络信息自动高效采集系统及方法
技术领域：
本发明涉及网络信息自动采集技术，具体涉及一种被动式网络信息自动高效采集系统及方法，本发明技术主要应用于搜索引擎领域。
技术背景信息获取是利用计算机进行信息后续处理(例如信息检索、搜索引擎等)的前提。现阶段web信息获取方法主要通过网络爬虫实现。现代社会信息化越来越快，计算机应用也不仅仅是依靠逻辑上的编程实现，而更多的需要大量的信息进行处理、总结和归纳，并从中挖掘出有用的信息。目前web信息获取的主要手段一网络爬虫一逐渐显露出一些不适应新需求的弱点，网络爬虫的基本原理是对一个初始网页链接列表进行遍历访问获取内容，并将获取到的网页中新的链接加入到网页链接列表中进行循环递归遍历。这就会造成大量重复访问，更新不及时，传输内容冗余，网络带宽占用大，服务器访问压力大等很多问题。新的计算机应用特别是web应用对信息的实时性，全面性以及降低系统开销等方面都有新的要求，传统网络爬虫已经显得力不从心。例如，博客搜索需要对博客内容非常及时的更新，要求在博客发表新文章几个小时之内能够提供搜索结果；音频视频等多媒体网站中的信息量庞大，传统方法传输需要占用大量网络带宽，从而使得网站不堪重负，而且由于版权的限制等原因，这些网站往往不允许搜索引擎下载原始的音视频内容，从而限制了基于内容的音视频搜索服务的发展。针对上述技术问题，近期提出了许多对传统网络爬虫的改进思想和方法，这些方法有的是通过改进爬取策略提高访问效率或加快更新频率，例如对不同网站采用不同的循环间隔，或将网络爬虫局限在某些特定领域爬取信息等；有的是通过网站管理员协助爬虫进行爬取，例如当网站有较大更新时由网络管理员提交站点地图，爬虫才艮据站点地图安排爬取时间进行爬取。这些方法虽然能够改进爬虫的一些性能以及加强其在某特定领域的功能，但他们依旧是基于传统爬虫架构之上，除了能部分提高搜索引擎爬虫的内容更新效率外，并没有突破传统的网络爬虫结构，因此也没有办法彻底解决内容及时更新、网站内容重复传输、以及对音视频特征等大规模数据进行采集等问题。发明内容为了解决现有技术中存在的web信息获取过程中会出现造成大量重复访问，更新不及时，传输内容冗余，网络带宽占用大，服务器访问压力大等技术问题，而现有技术中解决办法虽然能够改进爬虫的一些性能以及加强其在某些特定领域的功能，但并没有突破传统的网络爬虫结构，也没有办法彻底解决内容及时更新、网站内容重复传输、以及对音、视频等特征信息进行大规模数据采集等技术问题，本发明提供了一种被动式网络信息自动高效采集系统。为了解决现有技术中存在的web信息获取过程中会出现造成大量重复访问，更新不及时，传输内容冗余，网络带宽占用大，服务器访问压力大等技术问题，而现有技术中解决办法虽然能够改进爬虫的一些性能以及加强其在某些特定领域的功能，但并没有突破传统的网络爬虫结构，也没有办法彻底解决内容及时更新、网站内容重复传输、以及对音、视频等特征信息进行大规模数据采集等技术问题，本发明提供还了一种被动式网络信息自动高效采集方法。本发明解决现有技术问题所采用的技术方案为提供一种被动式网络信息自动高效采集系统，所述网络信息自动高效采集系统包括运行于信息需求端的信息采集工作部；运行于信息提供端的信息收集发送工作部；所述信息采集工作部与所述信息收集发送工作部为通信连接关系。根据本发明的一优选实施例所述信息需求端为搜索引擎服务器端；所述信息提供端为网站服务器端；所述信息采集工作部为设置在所述信息需求端的服务器组件；所述信息收集发送工作部为设置在所述信息提供端的客户组件。才艮据本发明的一优选实施例所述网络信息自动高效采集方法包括步骤第一步、将所述信息采集工作部与所述信息收集发送工作部建立有效的联系；第二步、所述信息采集工作部根据所述信息收集发送工作部的通知，获取所述信息收集发送工作部内存储的所述信息提供端信息。根据本发明的一优选实施例所述第一步包括子步骤一、由所述信息采集工作部查询新的、运行有所述信息收集发送工作部的网站，并获取所述信息收集发送工作部网站相关信息；二、所述信息采集工作部根据获取到的所述信息收集发送工作部信息向所述信息收集发送工作部发送注册请求并向所述信息收集发送工作部提供所述信息采集工作部的相应信息。根据本发明的一优选实施例所述二步具体为所述信息采集工作部根据获取到的所述信息收集发送工作部信息向所述信息收集发送工作部发送注册请求并提供所述信息采集工作部的相应信息，所述信息收集发送工作部根据收到的所述信息采集工作部信息，通过人工或自动方式对是否接受该注册请求进行判断，将同意注册的所述信息采集工作部相关信息进行列表保存，并向所述信息采集工作部发送注册成功的通知。根据本发明的一优选实施例所述第二步包括子步骤一、通过所述信息收集发送工作部检测其所在网站下相关内容的更新情况，并进行更新内容的存储；二、所述信息收集发送工作部向所有已成功注册的所述信息采集工作部发送内容下载通知；三、在所述信息采集工作部与所述信息收集发送工作部之间建立点对点(P2P)传输网络，由所述收集发送工作部提供下载的种子文件，供所述信息采集工作部进行下载。根据本发明的一优选实施例所述一步具体为通过所述信息收集发送工作部检测其所在网站下相关内容的更新情况，并根据更新内容的类型，分别将更新的信息或该信息所对应的相关特征信息进行信息收集、特征采集、数据打包和存储于特定文件中。根据本发明的一优选实施例所述二步具体为当新增信息累计到一定量或者更新时间累计到一定时长时，所述信息收集发送工作部向所有成功注册的所述信息釆集工作部发送内容下载通知，并在通知中约定一个内容下载时间段,收到该通知的所述信息采集工作部根据自身情况决定是否在约定时间去下载信息；或者通过所述信息采集工作部定时主动向所述信息收集发送工作部进行相关信息的下载。根据本发明的一优选实施例所述三步具体为当约定时间段到来后，收到通知并确定需要下载更新内容、服务于不同搜索引擎的所述信息采集工作部与所述信息收集发送工作部进行沟通，并由所述信息收集发送工作部发起，通过所述信息采集工作部参与建立起一个点对点(P2P)传输网络，由所述信息收集发送工作部提供下载的种子文件并根据参与下载的所述信息采集工作部的数量以及种子文件的大小等因素将种子文件分割成若干部分，每个所述信息采集工作部负责下载其中的一部分或者多个部分，下载后该信息采集工作部再与其它需要这部分内容的信息采集工作部进行信息共享。根据本发明的一优选实施例所述第二步中所述信息采集工作部获取所述信息收集发送工作部内存储的所述信息提供端信息获取方式为通过将各所述信息采集工作部与所述信息收集发送工作部建立起点对点(P2P)网络，由所述信息收集发送工作部为所述信息采集工作部提供下载的种子文件供其下载。本发明的有益效果在于将该技术应用于搜索引擎中后，能及时、快速、高效的获取互联网上的文本信息和音、视频特征信息等网站相关内容，并可显著降低系统开销以及网络带宽占用量。

图1 .本发明一种被动式网络信息自动高效采集系统及方法中网络信息自动高效采集系统结构图；图2.新站点发现原理图；图3.信息采集工作部服务器注册原理图；图4.信息收集发送工作部客户端组件更新信息通知原理图；图5.基于P2P协议数据下载原理图；图6.本发明一种被动式网络信息自动高效釆集系统及方法中网络信息自动高效采集方法流程图。
具体实施方式
以下结合附图和具体实施例对本发明一种被动式网络信息自动高效采集系统及方法进行详细说明请参阅图1本发明一种被动式网络信息自动高效采集系统及方法中网络信息自动高放采集系统结构图，如图l所示，所述网络信息自动高效采集系统包括运行于信息需求端的信息采集工作部；运行于信息提供端的信息收集发送工作部；所述信息采集工作部与所述信息收集发送工作部为通信连接关系。在本发明的实施例中所述信息需求端为客户端搜索引擎，在图中包括第二搜索引擎和第三搜索引擎，但具体实践中并不限于只有该两个搜索引擎；所述信息提供端为网站服务器端；所述信息采集工作部为设置在所述信息需求端搜索引擎上的服务器组件；所述信息收集发送工作部为设置在所述信息提供端网站服务器上的客户组件。在本发明系统中所述信息收集工作部——^良务器组件，该组件运行于信息需求端(如搜索引擎服务器端)，主要职责包括但不限于(一) 、寻找新的网站；(二)、在网站中的客户端上注册；(三)、等待客户端发出的内容下载通知；(四)、与其它需要同样内容的服务器组件以及相应客户组件一起建立临时点对点传输网络来下载需要的信息。在本发明系统中所述信息收集发送工作部一~~客户组件，该组件运行于信息提供端(如提供文本或音视频信息访问的网站服务器端)，其主要职责包括但不限于(一)、接收不同服务器组件的注册请求；(二) 、维护成功注册的服务器组件信息表；(三)、及时监测并搜集打包网站更新的文本内容，提取并打包网站的图像、音频或视频内容的各种特征数据；(四)、根据每个已注册服务器组件的信息需求来发送内容更新通知；(五)、协助服务器组件在约定时间建立临时内容传行内容下载。根据上述的职责与分工，本发明提供了一种网络信息自动高效采集方法，用以下的具体实施方法来解决现有技术中存在的技术问题时，需要每一个网页都建立一个HTTP连接、内容及时更新、内容从网站重复下载、音视频特征的获取以及音视频特征信息等大规模数据下载问题。其具体执行步骤及相应的解决问题方法可以具体描述如下以下具体说明中所述信息需求端为客户端搜索引擎；所述信息提供端为网站服务器端；所述信息采集工作部为设置在所述信息需求端的服务器组件；所述信息收集发送工作部为设置在所述信息提供端的客户组件。(一)网站发现首先由服务器组件寻找到新的、运行有信息客户端组件的网站，并从该网站下载存放在网站指定目录下的网站客户端信息表，根据该信息表来确定客户组件的连接端口等信息。新站点的发现有两种实现方法，一种方法是通过已经获取的网站页面内容分析出新站点列表，服务器端根据此列表依次访问网站。另一种方法可通过一个第三方的网站列表服务来有效并且快速的发现新站点。具体方法如图2新站点发现原理图所示，每个网站安装客户端后都可以将自己注册在一个第三方站点列表服务器上，服务器端就可以通过查询这个第三方服务器很容易的获取网站列表。(二) 服务器注册可以参阅说明书附3信息采集工作部服务器注册原理图，如图中所示，服务器组件根据获得的客户组件信息向客户组件发送注册请求并提供相应的服务器组件信息，客户组件根据收到的服务器组件信息，通过人工或者自动的方式来判断是否接受该注册请求，如果接受了，则将该服务器组件的信息存入自己的服务器组件列表中，并发送注册成功通知给服务器组件，否则，直接发送不允许注册通知给服务器组件。(三) 内容更新通知可以参阅说明书附4信息收集发送工作部客户端组件更新信息通知原理图，如图中所示，注册成功后，服务器组件等待客户组件的内容更新通知；客户组件监测其所在网站下所有的内容更新情况，并根据更新内容的类型，分别将更新的信息或者该信息所对应的各种特征打包存放于特定文件中，当新增信息累计到一定量、或者更新时间累计到一定时长后，向所有成功注册的服务器组件发送内容下载通知，并在通知中约定一个内容下载时间段；收到该通知的服务器组件根据自身情况决定是否在约定时间去下载信息；由于更新的内容由客户组件来负责，而且每个客户组件之负责本地网站的内容分析与监测，因此对于音视频等具有版权的数据进行特征抽取就可以在内容提供方进行，能够很好实现版权保护。(四) 内容下载可以参阅说明书附5基于P2P协议数据下载原理图，如图中所示当约定时间段到来后，收到通知并确定需要下载更新内容、服务于不同搜索引擎的服务器组件相继与客户组件进行沟通，并由客户组件发起、服务器组件参与建立起一个临时的点对点传输网络，客户组件提供下载的种子文件并根据参与下载的服务器组件的数量以及种子文件的大小等因素来将种子文件分割成若干部分，每个服务器组件负责下载其中的一部分或者多个部分，但是为了减轻客户组件所在的网站的负载压力，每部分只能由一个或者由网站管理员指定的最多N个服务器组件同时从网站下载，下载后该服务器组件再与其它需要这部分内容的服务器组件进行共享。通过这种方式，解决了在不增加网站压力情况下大规模数据如音频或视频特征信息等的获取问题，同时从理论上来说，每个服务器组件只需付出额外的不超过其所获得的凄t据总量大小的数据上传量，这与传统爬虫架构下其消耗在新的网页查找以及网页内容更新情况判断、以及为获取每一个单独网页而建立的额外HTTP请求等消耗比起来，显然是可以接受的，更关键的还在于，这种传输方法能够完成传统爬虫所无法解决的音视频特征文件的下载问题。上述四个步骤是本系统的主要工作步骤。此外，在有些情况下，比如对于一个新的爬虫来说，它有时候也需要网站提供除了最近更新的信息以外的历史数据，如果这个历史数据文件不是很大，完全可以在上面工作步骤的第(四)步中作为更新数据来完成下载，但如果历史数据比较庞大，则做为一个可选步骤，下面给出第(五)步来进行历史数据的下载。(五)历史数据下载一个网站的历史数据具有几个特点，一是由于信息比较陈旧，因此对于搜索引擎来说一般情况下重要性要比最新的数据略为低一些，二是由于时间积累比较长，因此一般来说数据量比更新数据要大很多，因此需要严格控制下载的次数。这两个特点决定了客户组件在提供历史数据下载的时候，主要需要控制好开放历史数据下载的频率，其通知下载的方法、实际下载过程和方法与第 (三)、(四)步中是相同的。为了确定合适的下载频度，需要对提供历史数据下载的时间间隔作出一个估计，这里给出一个可能的估计方法，即令下载时间间隔rw = minpVjiV, . A,Tc.,其中A," oc 是由当前历史数据大小L影响的两个系数，wc， z;是由网站管理员根据给定历史数据大小丄e给定的新注册服务器端总数N,最长等待时间T 的参考值，W/是当前新服务器组件在客户组件上注册的频率。同一个服务器组件通常面对大量的网站客户组件，因此提供一个尽量长时间下载历史数据对服务器端下载优化有很大好处，同时也给服务器端评判客户端状态提供了依据。上述方法可以概括为如说明书附图6本发明一种被动式网络信息自动高效采集系统及方法中网络信息自动高效采集方法流程图所作为服务器组件和客户组件配合成功的基础，服务器组件和客户组件之间以及服务器组件相互之间的通信必须以一致的通信协议来完成。具体采用哪一种协议实现方式并不会影响本发明的功能与主要效率，但是为了保证对整个互联网信息最大限度的共享以及获得最优的效率，确定一种基于XML的可扩展的标准协议是有益的。虽然不是必须，但以下主要lt据结构是保证客户组件和服务器组件相互通信的重要内容，因此需要在每种协议中给出具体定义，这里给出的只是一种基于XML的示范定义方法 (一)网站信息描述文件对于网站信息描述文件，一种实施方式是采用类似传统爬虫的方法，在每个网站的根目录下放置一个类似于"robot.xml"的XML文件。下面给出了一种基于XML Schema的网站信息描述文件定义模板 <xsd:element name="client"> 〃定义网站驻留的客户端的信息 <xsd:complexType> <xsd:all>〈xsd:element name-"port" type="xsd:unsignedShort'V> 〃客户端监听端口<xsd:element name="domain" type="xsd:anyURI7〉〃网站的域名<xsd:element ref="subject" /> 〃网站内容所涉及的主题(可选)<xsd:element ref="changefreq" minOccurs="0" /> 〃一般的更新频度(可选)〈xsd:element ref="timezone"> 〃客户端组件所驻留服务器的时区</xsd:all> </xsd:complexType> </xsd:element>〈xsd:element name="subject"> <xsd: simpleType><xsd:restriction base="xsd:string">〈xsd:enumeration value-"金融"/> 〈xsd:enumemtion valuey教育"/> <xsd:enumeration value-"信息技术"/>〃上面只是一些可能类别的例子，可以根据需要扩充 </xsd:restriction> </xsd:simpleType> </xsd:element〉<xsd:element name="changefreq"> <xsd:simpleType><xsd:restriction base="xsd:string"><xsd:enumeration value-"连续更新"/> <xsd:enumeration value-"每小日于"/> <xsd:enumeration value-"每天"/> <xsd: enumeration value-"每周"/> <xsd:enumeration value-"每月"/> <xsd:enumeration value-"每年"/> <xsd:enumeration value-"从不更新"/〉〃可以根据需要扩充 </xsd:restriction> </xsd:simpleType> </xsd:element><xsd:element name-"timezone"〉 <xsd:simpleType><xsd:restriction base="xsd:unsignedByte"> <xsd:minLength value="0" /> <xsd:maxLength value="23" /> </xsd:restriction> </xsd:simpleType〉 </xsd:element>下面是一个网站信息描述的例子 < xml version="1.0" encoding="UTF-8" >〈client xmlns="www.hitsz.edu.cn"> <port>8088</port><domain>www.hitsz.edu.cn</domain> <subj ects〉教育</subj ects> 〈changefreq〉每天〈/changefreq〉 </client>在上述模板中，最重要的部分是〈client〉的，ort〉元素，该元素告诉服务器组件如果要和客户组建进行通信所必须知道的监听端口。虽然不是必须的，但提供〈subject〉元素来告诉服务器组件该网站主要涉及的主题对于服务器所在的搜索引擎、尤其是那些专注于特定领域信息的垂直搜索引擎来说是很有帮助的。其它可选信息，包括更新频率，网站域名等也对服务器组件以及相应的搜索引擎更好的提供信息检索服务有很大帮助。另一个元素〈timezone〉是考虑到服务器组件与客户组件可能来自于不同的地区，为了保证时间上的一致性，所以需要相互之间确定不同告知所属时区。对于一个比较大的网站，往往可能需要有多个客户組件针对不同部分的内容来分别提供服务，这时候也可以在网站信息表中提供多个〈client〉元素来分别加以说明。 (二)服务器组件注册信息服务器组件在客户组件上注册时需要与客户组件进行必要的交互，主要包括给客户组件提供基本的服务器组件以及相应的搜索引擎的身份识别信息，服务器组件监听端口、信息需求类型等。作为参考，下面给出了一个服务器组件注册时发送的主要注册信息的模板 <xsd:element name="serverRegister"> <xsd:complexType> <xsd:all><xsd:element name="serverIP" type="xsd:string"/> <xsd:element name="serverName" type="xsd:strimg7> <xsd:element ref="subject" /> <xsd:element ref="contentType" minOccurs="0" /> <xsd:element ref="timezone" minOccurs="0" /> </xsd:all> </xsd: complexType></xsd:element>〈xsd:element name="contentType"> <xsd:simpleType><xsd:restriction base="xsd:string"> <xsd:enumeration value="audio" /> <xsd:enumeration value="video" /> <xsd:enumeration value="image" /> <xsd:enumeration value="text" /> </xsd:restriction〉 </xsd:simpleType> </xsd:element>除了在数据结构(一)中已经定义的元素，这里新增加的元素 <type>々ype〉表明服务器组件所需要的信息的类型，包括音频"audio"，视频"video"，闺像，，image，，和文本"text"这几种主要类型，当然也可以对这些类型进行进一步扩充。〈type〉元素也可以作为网站信息文件的可选元素，用于描述只提供特定类型信息的网站，但对于能提供混和类型信息的网站,可以用多个〈type〉元素分别描述，也可以忽略这一项。为了对上述注册信息进行回应，客户组件通常需要在确定注册成功或者拒绝该服务器组件注册后发回一个响应消息，这个响应消息可以是一般的简单响应，也可以是一个比较复杂的XML消息文本。 (三)网站内容更新通知该消息是由一个客户组件发送到所有在它上面成功注册的服务器组件的内容更新与下载通知，该通知告诉服务器组件更新内容的更新时间段，包含的网页或者音视频特征文件数目、类型及需要下载的更新内容的大小，如果有可能，也可以指明这些内容所涉及的主题。除了与更新内容相关的信息，该通知消息还应该包含什么时段开放更新内容给服务器组件下载、开放的下载端口、开放的协议类型、下载文件列表等相关信息。下面的XML Schema模板给出了一个更新通知消息的示例模板。〈xsd:element name="update"> <xsd:complexType> <xsd:all><xsd:element name="cliendID" type="xsd:ID"/>〈xsd:element name-，，downloadPort，， type="xsd:unsignedlnt"> <xsd:element name=，，updatedFile" type=，，updatedFileType" minOccurs="l，，/> </xsd:all> </xsd:complexType> </xsd:element>〈xsd:complexType name="durationType"〉 <xsd:all><xsd:dement name="startTime" type="xsd:dateTime"> <xsd:element name="dueTime" type="xsd:dateTime"></xsd:all> </xsd:complexType><xsd:complexType name:，，updatedFileType"〉 <xsd:all><xsd:element name="fileFullPath，, type-，，xsd: string"minOccurs="l，，/><xsd:element name="dataSize" type="xsd:unsignedLong"/> <xsd:element ref=，，subject，， minOccurs=，，0"/> 〈xsd:element ref=，，contentType" minOccurs="0，，/> <xsd:element name="isHistory" type="xsd:boolean"minOccurs='TV>〈xsd:element name="updateDumtion" type="durationType，， minOccurs=" 1" /> <xsd:element name="downloadDuration"type-"durationType" minOccurs= "l'V〉 </xsd:all> </xsd:complexType>在上述数据结构中，每个内容更新消息中包含一个或多个〈updatedFile〉单元，每个单元描述一个由客户端打包的更新文件，该更新文件中通常包含一段时间内更新的一种或多种类型网络信息，如文本网页、音频特征文件或者视频特征文件等。服务器组件可以更具化pdatedFile〉单元中提供的信息来判断是否需要下载相应的更新信台本发明的有益效果在于将该技术应用于搜索引擎中后，能及时、快速、高效的获取互联网上的文本信息和音、视频特征信息等网站相关内容，并可显著降低系统开销以及网络带宽占用量。细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若千简单推演或替换，都应当视为属于本发明的保护范围。
权利要求
1. 一种被动式网络信息自动高效采集系统，其特征在于所述网络信息自动高效采集系统包括运行于信息需求端的信息采集工作部；运行于信息提供端的信息收集发送工作部；所述信息采集工作部与所述信息收集发送工作部为通信连接关系。
2. 根据权利要求1所述被动式网络信息自动高效采集系统，其特征在于所述信息需求端为搜索引擎服务器端；所述信息提供端为网站服务器端；所述信息采集工作部为设置在所述信息需求端的服务器组件；所述信息收集发送工作部为设置在所述信息提供端的客户組件。
3. —种被动式网络信息自动高效采集方法，其特征在于所述网络信息自动高效采集方法包括步骤A:将所述信息采集工作部与所述信息收集发送工作部建立有效的联系；B:所述信息采集工作部根据所述信息收集发送工作部的通知，获取所述信息收集发送工作部内存储的所述信息提供端信息。
4. 根据权利要求3所述被动式网络信息自动高效釆集方法，其特征在于所述步骤A包括子步骤Al:由所述信息采集工作部查询新的、运行有所述信息收集发送工作部的网站，并获取所述信息收集发送工作部网站相关信息；A2:所述信息采集工作部根据获取到的所述信息收集发送工作部信息向所述信息收集发送工作部发送注册请求并向所述信息收集发送工作部提供所述信息采集工作部的相应信息。
5. 根据权利要求4所述被动式网络信息自动高效采集方法，其特征在于所述步骤A2具体为所述信息采集工作部根据获取到的所述信息收集发送工作部信息向所述信息收集发送工作部发送注册请求并提供所述信息采集工作部的相应信息，所述信息收集发送工作部根据收到的所述信息采集工作部信息，通过人工或自动方式对是否接受该注册请求进行判断，将同意注册的所述信息采集工作部相关信息进行列表保存，并向所述信息采集工作部发送注册成功的通知。
6. 根据权利要求3所述被动式网络信息自动高效采集方法，其特征在于所述步骤B包括子步骤Bl:通过所述信息收集发送工作部检测其所在网站下相关内容的更新情况，并进行更新内容的存储；B2:所述信息收集发送工作部向所有已成功注册的所述信息采集工作部发送内容下载通知；B3:在所述信息釆集工作部与所述信息收集发送工作部之间建立点对点(P2P)传输网络，由所述收集发送工作部提供下载的种子文件，供所述信息采集工作部进行下载。
7. 根据权利要求6所述被动式网络信息自动高效采集方法，其特征在于所述步骤B1具体为通过所述信息收集发送工作部检测其所在网站下相关内容的更新情况，并根据更新内容的类型，分别将更新的信息或该信息所对应的相关特征信息进行信息收集、特征采集、数据打包和存储于特定文件中。
8. 根据权利要求6所述被动式网络信息自动高效采集方法，其特征在于所述步骤B2具体为当新增信息累计到一定量或者更新时间累计到一定时长时，所述信息收集发送工作部向所有成功注册的所述信息采集工作部发送内容下载通知，并在通知中约定一个内容下载时间段，收到该通知的所述信息采集工作部根据自身情况决定是否在约定时间去下载信息；或者通过所述信息采集工作部定时主动向所述信息收集发送工作部进行相关信息的下载。
9. 根据权利要求6所述被动式网络信息自动高效采集方法，其特征在于所述步骤B3具体为当约定时间段到来后，收到通知并确定需要下载更新内容、服务于不同搜索引擎的所述信息采集工作部与所述信息收集发送工作部进行沟通，并由所述信息收集发送工作部发起，通过所述信息采集工作部参与建立起一个点对点(P2P)传输网络，由所述信息收集发送工作部提供下载的种子文件并根据参与下载的所述信息采集工作部的数量以及种子文件的大小等因素将种子文件分割成若干部分，每个所述信息采集工作部负责下载其中的一部分或者多个部分，下载后该信息采集工作部再与其它需要这部分内容的信息采集工作部进行信息共享。
10. 根据权利要求3所述被动式网络信息自动高效采集方法，其特征在于所述步骤B中所述信息采集工作部获取所述信息收集发送工作部内存储的所述信息提供端信息获取方式为通过将各所述信息采集工作部与所述信息收集发送工作部建立起P2P网络，由所述信息收集发送工作部为所述信息采集工作部提供下载的种子文件供其下载。
全文摘要
本发明涉及一种被动式网络信息自动高效采集系统及方法，所述网络信息自动高效采集系统包括运行于信息需求端的信息采集工作部；运行于信息提供端的信息收集发送工作部；所述信息采集工作部与所述信息收集发送工作部为通信连接关系。所述网络信息自动高效采集方法包括步骤将所述信息采集工作部与所述信息收集发送工作部建立有效的联系；所述信息采集工作部根据所述信息收集发送工作部的通知或定期获取所述信息收集发送工作部内存储的所述信息提供端信息。将本发明技术应用于搜索引擎中后，能及时、快速、高效的获取互联网上的文本信息和音频、视频特征信息等网站相关内容，并可显著降低系统开销以及网络带宽占用量。
文档编号G06F17/30GK101261635SQ20081006689
公开日2008年9月10日申请日期2008年4月29日优先权日2008年4月29日
发明者王晓龙, 翁家才, 郭鸿志, 陈清财, 马天明申请人:哈尔滨工业大学深圳研究生院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈清财;王晓龙;郭鸿志;马天明;翁家才
技术所有人：哈尔滨工业大学深圳研究生院
我是此专利的发明人

上一篇：一种图像处理中物体自动识别并三维重建的方法
上一篇：一种系统功能快速调用方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。