网络连接设备、搜索设备及搜集搜索引擎数据源的方法

文档序号:7946287阅读:275来源:国知局
专利名称:网络连接设备、搜索设备及搜集搜索引擎数据源的方法
网络连接设备、搜索设备及搜集搜索引擎数据源的方法
技术领域
本发明涉及计算机网络技术,特别是计算机网络中的复制装置、网络连接设备、搜索设备及搜集搜索引擎数据源的方法。
背景技术
计算机网络技术的发展极大的提高了人们获取信息的便利性。计算机网络中存储了海量的信息,为了便于人们查找到自己所需的信息,搜索引擎被广泛使用。人们通过输入关键词,即可找到包含该关键词的网页。
搜索引擎的工作过程大致可以分为如下三个步骤
抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider,称为网络蜘蛛)。网页抓取程序顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,若网页上有适当的超级链接,从一定范围的网页出发,就能搜集到绝大多数的网页。
整理信息搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。搜索引擎整理信息的过程称为"建立索引"。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。
提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;搜索引擎返回主要是以网页链接的形式提供的,这样通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
从上述搜索引擎的工作过程可以看出,搜索引擎的网页抓取程序只能依据已有的链接获得网页信息,而无法获得以下几种页面的网页信息
1.网页之间并没有直接或者间接的URL ( Uniform Resource Locator,统一资源定位符,即网页地址)链接关系,也就是说,网页本身无法通过其它网页提供的链接访问,只能通过手动输入URL的方式访问;
2. 页面是需要经过用户身份认证才能访问的,有的网页虽然提供了接入的链接,但是由于需要通过用户名和密码登陆之后才能访问,因此网页抓取程序也无法获得此类页面的网页信息;
3. 页面采用了动态数据技术(AJAX等),页面上的数据是根据用户输入数据而查询后台生成的,不能从页面html中直接得到。
由于上述三种页面的网页信息无法通过网页抓取程序获得,因此一定程度上限制了搜索引擎数据源的范围。

发明内容
基于此,有必要提供一种扩大搜索引擎数据源的搜集搜索引擎数据源的方法。
一种搜集搜索引擎数据源的方法,包括以下步骤从网络连接设备复制页面服务器响应客户端请求所产生的返回数据;解析所述返回数据,获得网页信息;将网页信息存入搜索引擎网页数据库中并建立索引。
在优选的实施例中,还包括记录客户端的请求信息的步骤。
在优选的实施例中,还包括判断在预定时间内是否有相同URL的返回数据的步骤,如果有则不对在后的相同返回数据进行处理。
在优选的实施例中,还包括存储所述返回数据的步骤。
此外,还有必要4是供一种扩大搜索引擎数据源的复制装置。一种复制装置,所述复制装置用于与网络连接设备相连从网络连接设备复
制页面服务器响应客户端请求所产生的返回数据,并将所述复制的返回数据发
送到搜索设备作为所述搜索设备的搜索数据源。
在优选的实施例中,所述复制装置还用于记录客户端的请求信息,或存储
所述返回数据,或判断在预定时间内是否有相同URL的返回数据,如果有则不
将复制的相同URL的返回数据发送到所述搜索设备。另外,还有必要提供一种扩大搜索引擎数据源的网络连接设备。一种网络连接设备,包括连接装置和复制装置,所述连接装置用于连接客户端与页面服务器,将页面服务器响应客户端请求所产生的返回数据发送至所述客户端,所述复制装置与所述连接装置相连,从所述连接装置复制所述页面服务器响应客户端请求所产生的返回数据,并将所述复制的返回数据发送到搜索设备作为所述搜索设备的搜索数据源。
在优选的实施例中,所述复制装置还用于记录客户端的请求信息,或存储
所述返回数据,或判断在预定时间内是否有相同URL的返回数据,如果有则不将复制的相同URL的返回数据发送到所述搜索设备。
此外,还有必要提供一种扩大搜索引擎数据源的搜索设备。
一种搜索设备,包括复制装置,用于与网络连接设备相连从网络连接设备复制页面服务器响应客户端请求所产生的返回数据;解析装置,与所述复制装置相连,接收并解析所述返回数据,获得网页信息;索引装置,与所述解析装置相连,将网页信息存入搜索引擎网页数据库中并建立索引;搜索装置,用于查找所述索引并产生搜索结果。
在优选的实施例中,所述复制装置还用于记录客户端的请求信息,或存储所述返回数据,或判断在预定时间内是否有相同URL的返回数据,如果有则不将复制的相同URL的返回数据发送到所述搜索设备。
上述复制装置、网络连接设备、搜索设备及搜集搜索引擎数据源的方法通过从网络连接设备复制页面服务器响应客户端请求所产生的返回数据,可以获得无法通过网络蜘蛛获得的网页信息,扩大了搜索引擎的搜索数据源。


图1为一实施例的搜集搜索引擎数据源的方法的流程图2为传统的页面浏览系统的示意图3为第一实施例的页面浏览系统的示意图4为第二实施例的页面浏览系统的示意图;图5为第三实施例的页面浏览系统的示意图。
具体实施方式
在用户进行网络浏览操作时,用户通过客户端提交请求和页面服务器返回数据都是通过计算机网络进行的。通过在网络连接设备(交换机、路由器)上加装复制装置,网络连接设备将返回数据传输到客户端的同时,复制装置将返回数据复制一份并提供给搜索引擎作为数据源,可以获取到传统方法很难或者不可能得到的数据。也就是说,上述方法无需使用目前主流搜索引擎数据获取技术中的网络爬虫(网络蜘蛛)程序。
如图l所示,其为一实施例的搜集搜索引擎数据源的方法的流程图。
首先步骤S110,记录客户端的请求信息。用户通过客户端发出访问页面服务器的请求信息,这些请求信息可以包含用户直接输入的网址,该网址对应的
网页本身可能是无法通过其它网页提供的链接访问到的;也可以是包含用户名及密码等身份认证信息的请求信息;还可以是包含用户输入数据的请求信息。
记录的客户端的请求信息可以是时间、来源IP (InternetProtocol,因特网协议)地址、目标IP地址、用户直接输入或点击的网址等信息中的一种或两种以上。通过记录这些请求信息,便于后续分析用户浏览习惯与兴趣偏好,对提供更符合用户特性的搜索结果提供基础数据支持。
步骤S120,复制返回的数据。页面服务器在接收到客户端的请求信息后,产生相应的返回数据(例如静态数据或动态数据)通过网络连接设备传送到客户端,在客户端的浏览器上显示网页内容。在页面服务器返回的数据在网络连接设备中转的过程中,从网络连接设备复制上述页面服务器响应客户端请求所产生的返回数据,并可将复制的数据通过存储器存储起来。由于通过网络连接设备的数据量通常较大,通过长时间累计存储的数据量将更加庞大,因此可以采取如下两种方式降低存储容量其一,定期清空存储的数据,例如每天删除一个月以前存储的数据;其二,在网络连接设备收到页面服务器返回的数据时,判断在预定时间(例如一周)内是否有相同URL的返回数据,如果有则不对在后的相同返回数据进行处理(不进行如下步骤中的S130、 S140的处理等)。步骤S130,解析所述返回数据,获得网页信息。返回数据的数据包中通常也包含来源IP地址(即页面服务器地址)、目标IP地址(即客户端地址)、网页
信息等。网页信息中可以包括文字、图片、HTML语言中的标签等,通过解析上述返回数据,可以获得返回数据中的网页信息。
步骤S140,将网页信息存入搜索引擎网页数据库中并建立索引。与通过网页抓取程序(spider,称为网络蜘蛛)获得网页信息类似,搜索引擎不仅要保存搜集起来的网页信息,还要将网页信息按照一定的规则进行编排以建立索引。由于网络中大多数网页还是静态的不需要身份认证的网页,因此,通过网络连接设备返回的数据中大量的网页信息还是可以通过网络蜘蛛获得的,这些网页信息可能已经在搜索引擎网页数据库中存储并建立了索引,相应地,在步骤S140中建立索引的过程中可以不存储URL相同的网页信息或者虽然URL不同但是页面内容完全相同的网页信息。
步骤S150,在收到搜索请求时,在搜索引擎网页数据库中进行搜索。搜索引擎在收到客户端向搜索引擎发出的搜索请求时,搜索引擎接受查询并向客户端返回资料。搜索引擎每时每刻都要接到来自大量客户端几乎同时发出的查询,按照每个客户端的请求检查搜索引擎网页数据库的索引,在极短时间内找到用户需要的资料,并返回给客户端。目前,搜索引擎返回主要是以网页链接的形式提供的,通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
以下以一个具体的实例对上述方法进行更详细的说明。论坛A是一个需要身份验证才能查看的论坛,网络爬虫无法得到其中的内容,因为不具备访问权限。用户B是论坛A的授权用户,通过浏览器登录并访问了论坛A的内容C。由于内容C是在互联网上传输的,所以一定需要经过运营商的路由器设备D,因此,通过在路由设备D上将内容C复制保存下来,并将内容C作为搜索引擎的数据源,从而得到了没有权限访问到的内容C,扩大了搜索引擎的数据源。类似地,对于独立的没有其他链接指向的页面及采用动态页面技术的页面,也可以通过上述搜集搜索引擎数据源的方法获得。如图2所示,为传统的页面浏览系统的示意图。用户可以通过客户端100
经过网络连接设备200访问页面服务器300,页面服务器300将数据通过网络连接设备200返回客户端300。需要特别说明的是,网络连接设备200可以是一台路由器,也可以是多台路由器,通常终端用户的客户端是100是要经过多台路由器方能访问到页面服务器的。
如图3所示为第一实施例的页面浏览系统的示意图。页面浏览系统还包括复制装置400及搜索设备500。本实施例中,复制装置400作为独立的硬件设备连接在网络连接设备200和搜索设备500之间,从网络连接设备200复制页面服务器300响应客户端100请求所产生的返回数椐,并将复制的返回数据发送到搜索设备500作为搜索设备500的搜索数据源。复制装置400还用于记录客户端的请求信息,请求信息可以是时间、来源IP (Internet Protocol ,因特网协议)地址、目标IP地址、用户直接输入或点击的网址等信息中的一种或两种以上。通过记录这些请求信息,便于后续分析用户浏览习惯与兴趣偏好,对提供更符合用户特性的搜索结果提供基础数据支持。复制装置400还可以存储上述返回数据,为了避免复制装置400的存储容量不够存储过多的返回数据或请求信息,复制装置400可以定期清空存储的数据,例如每天删除一个月以前存储的数据;另外,复制装置400也可以在网络连接设备收到页面服务器返回的数据时,判断在预定时间(例如一周)内是否有相同URL的返回数据,如果有则不将复制的相同URL的返回数据发送到所述搜索设备500,同时也可以不存储。
搜索设备500包括解析装置510、索引装置520及搜索装置530。解析装置510从复制装置400接收返回数据并解析所述返回数据,获得网页信息。索引装置520将网页信息存入搜索引擎网页数据库中并建立索引。搜索装置530在收到搜索请求时,在搜索引擎网页数据库中进行搜索,并将获得的结果返回客户端。
如图4所示为第二实施例的页面浏览系统的示意图。本实施例中,网络连接设备200包括连接装置210和复制装置220。复制装置220作为网络连接设备的一部分连接在连接装置210和搜索设备500之间。连接装置210连接客户端IOO和页面服务器300,将页面服务器300响应客户端IOO请求所产生的返回数据发送至所述客户端100。复制装置220与连接装置210相连,从连接装置210 复制页面服务器300响应客户端100请求所产生的返回数据,并将所述复制的 返回数据发送到搜索设备500作为所述搜索设备500的搜索数据源。复制装置 220还用于记录客户端的请求信息,请求信息可以是时间、来源IP (Internet Protocol ,因特网协议)地址、目标IP地址、用户直接输入或点击的网址等信息 中的一种或两种以上。通过记录这些请求信息,便于后续分析用户浏览习惯与 兴趣偏好,对提供更符合用户特性的搜索结果提供基础数据支持。复制装置220 还可以存储上述返回数据,为了避免复制装置220的存储容量不够存储过多的 返回数据或请求信息,复制装置220可以定期清空存储的数据,例如每天删除 一个月以前存储的数据;另外,复制装置220也可以在网络连接设备收到页面 服务器返回的数据时,判断在预定时间(例如一周)内是否有相同URL的返回 数据,如果有则不将复制的相同URL的返回数据发送到所述搜索设备500,同 时也可以不存储。
如图5所示为第三实施例的页面浏览系统的示意图。搜索设备500包括解 析装置510、索引装置520、搜索装置530及复制装置540。复制装置540与网 络连接设备200相连从网络连接设备200复制页面服务器300响应客户端100 请求所产生的返回数据。解析装置510与复制装置540相连,接收并解析所述 返回数据,获得网页信息。索引装置520与所述解析装置510相连,将网页信 息存入搜索引擎网页数据库中并建立索引。搜索装置530用于查找所述索引并 产生搜索结果。
由于网络中大多数网页还是静态的不需要身份认证的网页,因此,通过网 络连接设备返回的数据中大量的网页信息还是可以通过网络蜘蛛获得的,这些 网页信息可能已经在搜索引擎网页数据库中存储并建立了索引,相应地,索引 装置520还用于比较从解析装置510处接收的网页信息与已经存储的搜索引擎 网页数据库中的网页信息,如果已经存储有相同URL的网页信息或者相同页面 内容的网页信息,则不存储从解析装置510处接收的网页信息。
复制装置540还用于记录客户端的请求信息,请求信息可以是时间、来源 IP (Internet Protocol,因特网协议)地址、目标IP地址、用户直接输入或点击的网址等信息中的一种或两种以上。通过记录这些请求信息,便于后续分析用 户浏览习惯与兴趣偏好,对提供更符合用户特性的搜索结果提供基础数据支持。
复制装置540还可以存储上述返回数据,为了避免复制装置540的存储容量不 够存储过多的返回数据或请求信息,复制装置540可以定期清空存储的数据, 例如每天删除一个月以前存储的数据;另外,复制装置540也可以在网络连接 设备收到页面服务器返回的数据时,判断在预定时间(例如一周)内是否有相 同URL的返回数据,如果有则不将复制的相同URL的返回数据发送到所述搜 索设备500,同时也可以不存储。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和 改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附 权利要求为准。
权利要求
1、一种搜集搜索引擎数据源的方法,其特征在于,包括以下步骤从网络连接设备复制页面服务器响应客户端请求所产生的返回数据;解析所述返回数据,获得网页信息;将网页信息存入搜索引擎网页数据库中并建立索引。
2、 根椐权利要求1所述的搜集搜索引擎数据源的方法,其特征在于,还包 括记录客户端的请求信息的步骤。
3、 根据权利要求1所述的搜集搜索引擎数据源的方法,其特征在于,还包 括判断在预定时间内是否有相同URL的返回数据的步骤,如果有则不对在后的 相同返回数据进行处理。
4、 根据权利要求1所述的搜集搜索引擎数据源的方法,其特征在于,还包 括存储所述返回数据的步骤。
5、 一种复制装置,其特征在于,所述复制装置用于与网络连接设备相连从 网络连接设备复制页面服务器响应客户端请求所产生的返回数据,并将所述复 制的返回数据发送到搜索设备作为所述搜索设备的搜索数据源。
6、 根据权利要求5所述的复制装置,其特征在于,所述复制装置还用于记 录客户端的请求信息,或存储所述返回数据,或判断在预定时间内是否有相同 URL的返回数据,如果有则不将复制的相同URL的返回数据发送到所述搜索设 备。
7、 一种网络连接设备,其特征在于,所述网络连接设备包括连接装置和复 制装置,所述连接装置用于连接客户端与页面服务器,将页面服务器响应客户 端请求所产生的返回数据发送至所述客户端,所述复制装置与所述连接装置相 连,从所述连接装置复制所述页面服务器响应客户端请求所产生的返回数据, 并将所述复制的返回数据发送到搜索设备作为所述搜索设备的搜索数据源。
8、 根据权利要求7所述的网络连接设备,其特征在于,所述复制装置还用 于记录客户端的请求信息,或存储所述返回数据,或判断在预定时间内是否有 相同URL的返回数据,如果有则不将复制的相同URL的返回数据发送到所述 搜索设备。
9、 一种搜索设备,其特征在于,包括复制装置,用于与网络连接设备相连从网络连接设备复制页面服务器响应 客户端请求所产生的返回数据;解析装置,与所述复制装置相连,接收并解析所述返回数据,获得网页信息;索引装置,与所述解析装置相连,将网页信息存入搜索引擎网页数据库中 并建立索引;搜索装置,用于查找所述索引并产生搜索结果。
10、 根据权利要求9所述的搜索设备,其特征在于,所述复制装置还用于 记录客户端的请求信息,或存储所述返回数据,或判断在预定时间内是否有相 同URL的返回数据,如果有则不将复制的相同URL的返回数据发送到所述搜 索设备。
全文摘要
一种搜集搜索引擎数据源的方法,包括以下步骤从网络连接设备复制页面服务器响应客户端请求所产生的返回数据;解析所述返回数据,获得网页信息;将网页信息存入搜索引擎网页数据库中并建立索引。上述搜集搜索引擎数据源的方法通过从网络连接设备复制页面服务器响应客户端请求所产生的返回数据,可以获得无法通过网络蜘蛛获得的网页信息,扩大了搜索引擎的搜索数据源。此外,还提供了一种复制装置、网络连接设备及搜索设备。
文档编号H04L29/06GK101551813SQ200910039459
公开日2009年10月7日 申请日期2009年5月13日 优先权日2009年5月13日
发明者程 张 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1