改进的搜索引擎覆盖的制作方法

文档序号:6568217阅读:166来源:国知局
专利名称:改进的搜索引擎覆盖的制作方法
技术领域
本发明总体上涉及基于计算机网络的文档搜索引擎,并且尤其 涉及通过逐个文档的链接遍历不能正常搜索的文档的改进搜索引擎覆盖。
背景技术
诸如因特网之类的计算机网络向计算机用户提供对于大量且不
断增长的基于网络的文档(诸如web页面)的访问。计算机用户用 于搜索文档的一个软件工具是搜索引擎,该搜索引擎保存了基于网 络的文档的索引和基于网络的文档的地址,基于网络的文档的地址 通常表示为通用资源定位符(URL)或链接。搜索引擎通常使用遍 历应用,诸如web爬行器、蜘蛛和4几器人,通过逐个文档地遍历超 文本链接并且记录在遍历期间遇到的文档/链接来定位基于网络的文 档。链接,并且经常是文档内容本身被添加到搜索引擎索引中。不 幸地是,因为很多文档没有链接到其他文档,所以此类遍历应用通 常仅能以此方式遍历到基于网络的文档的一小部分。因而,搜索引 擎覆盖经常是有限的。

发明内容
本发明提供一种用于改进搜索引擎覆盖的系统和方法,包括不 能通过逐个文档的超文本链接遍历正常搜索的文档,其中存储在计 算机用户的緩存、代理緩存或其他服务器緩存中的基于网络的文档 和/或它们的链接被提供给搜索51擎遍历应用和/或直接添加到搜索 引擎索引中。这样,搜索引擎索引可以包括由文档到其他文档的链 接识别的/由其他文档到该文档的链接识别的文档/链接,以及没有链接到其他文档的文档/链接或用户、代理或服务器访问过但是仍旧没 有包括在搜索引擎索引中的文档/链接。在本发明的一个方面中,提供一种用于改进的搜索引擎覆盖的 方法,该方法包括在第一计算机处接收至少一个基于计算机网络的 文档、在緩存中存储与该文档相关的任何链接和内容、向遍历应用 和搜索引擎中的一个提供已緩存的信息,并且使用该已緩存的信息 经由遍历应用和搜索引擎中的一个进行文档的检索。在本发明的另 一个方面中,接收步骤包括接收没有链接到其他 文档的文档。在本发明的另 一 个方面中,该方法进 一 步包括编辑涉及已緩存 的信息的统计信息。在本发明的另一个方面中,该方法进一步包括向遍历应用和控 索引擎中的 一 个提供统计信息。在本发明的另 一个方面中,存储步骤包括识别与文档相关的任 何链接,并且规格化任何链接。在本发明的另一个方面中,提供步骤包括向遍历应用和搜索引 擎中的一个提供任何规格化的链接。在本发明的另一个方面中,该方法进一步包括使用任何规格化 的链接替换文档中的任何链接。在本发明的另一个方面中,提供一种用于改进搜索引擎覆盖的 方法,该方法包括识别与基于计算机网络的文档相关的任何链接、 规格化任何链接、向遍历应用和搜索引擎中的一个提供任何规格化 的链接,并且使用任何规格化的链接经由遍历应用和搜索引擎中的 一个进行文档检索。在本发明的另 一个方面中,该方法进一步包括使用任何规格化 的链接替换文档中的任何链接。在本发明的另 一个方面中,该方法进一步包括从请求者接收针 对文档的请求,并且向请求者提供带有规格化链接的文档。在本发明的另 一个方面中,提供一种用于改进搜索引擎覆盖的系统,该系统包括用于在第 一计算机处接收至少 一个基于计算机网 络的文档的装置、用于在緩存中存储与文档相关的任何链接和内容 的装置、用于向遍历应用和搜索引擎中的 一 个提供已緩存的信息的 装置,以及用于使用已緩存的信息经由遍历应用和搜索引擎中的一 个进行文档检索的装置。在本发明的另 一个方面中,用于接收的装置操作为接收没有链 接到其他文档的文档。在本发明的另 一 个方面中,该系统进 一 步包括用于编辑涉及已 緩存的信息的统计信息的装置。在本发明的另一个方面中,该系统进一步包括用于向遍历应用 和搜索引擎中的 一 个提供统计信息的装置。在本发明的另 一个方面中,用于存储的装置操作为识别与文档 相关的任何链接,并且规格化任何链接。在本发明的另一个方面中,用于提供的装置操作为向遍历应用 和搜索引擎中的 一 个提供任何规格化的链接。在本发明的另 一个方面中,该系统进一步包括用于使用任何规 格化的链接替换文档中的任何链接的装置。在本发明的另一个方面中,提供一种用于改进搜索引擎覆盖的 系统,该系统包括用于识别与基于计算机网络的文档相关的任何链 接的装置、用于规格化任何链接的装置、用于向遍历应用和搜索引 擎中的一个提供任何规格化链接的装置,以及用于使用任何规格化 链接经由遍历应用和搜索引擎中的一个进行文档检索的装置。在本发明的另 一个方面中,该系统进一步包括用于使用任何规 格化的链接替换文档中的任何链接的装置。在本发明的另 一个方面中,该系统进一步包括用于从请求者接 收针对文档的请求的装置,以及用于向请求者提供带有规格化链接 的文档的装置。在本发明的另一个方面中,提供计算机实现的程序,该程序包 含在计算机可读介质上,该计算机程序包括操作为在第 一计算机处接收至少 一 个基于计算机网络的文档的第 一 代码段、操作为在緩存 中存储与文档相关的任何链接和内容的第二代码段、操作为向遍历 应用和搜索引擎中的 一个提供已缓存的信息的第三代码段,以及操 作为使用已緩存的信息经由遍历应用和搜索引擎中的一个进行文档 检索的第四代码段。应该明白,贯穿说明书和权利要求书的术语"文档"应该理解 为包括经由计算机网络可访问的任何类型的计算机文件,诸如但不限于web页面、word处理文件和多々某体文件。应该进一步明白,贯穿说明书和权利要求书的术语"链接"应 该理解为包括经由计算机网络可访问的任何类型的文档位置或地址 的指示符,诸如但不限于IP地址和URL。应该进一步明白,贯穿说明书和权利要求书的术语"緩存"应 该理解为包括用于记录检索的文档内容和/或它们的链接的任何机 制。应该进一步明白,贯穿说明书和权利要求书的术语"遍历应用" 应该理解为包括通过跟随超文本链接逐个文档地来定位文档的任何 应用,包括web爬行器、蜘蛛和机器人。


通过结合附图在以下进行的详细描述将能更全面地理解和明白 本发明,其中图1A和1B是根据本发明优选实施例构建并且操作的具有改进 的搜索引擎覆盖的系统的简化图示;图1C是根据本发明优选实施例操作的图1A和1B的系统的示 例操作方法的简化流程图;图2A是根据本发明优选实施例构建并且操作的用于链接规格 化的系统的简化图示;图2B是根据本发明优选实施例操作的图2A的系统的示例操作 方法的简化流程图。
具体实施方式
现在参考图1A和1B,它们是根据本发明优选实施例构建并且 操作的具有改进的搜索引擎覆盖的系统的简化图示,并且参考图1C, 其是根据本发明优选实施例操作的图1A和IB的系统的示例操作方 法的简化流程图。具体参考图1A,计算机100处的计算机用户经由 诸如因特网之类的网络106直接从服务器104检索文档102。文档 102可以是预先设置好内容的静态文档,或者可以根据传统技术动态 生成。另外地或可替换地,计算机IOO可以用于从代理服务器108 检索文档102,其中文档102的拷贝可以存储在緩存110中。然后, 计算机IOO可以在緩存112中存储已检索文档102的链接和/或文档 102的某些或全部内容。搜索引擎114使用遍历应用116,该遍历应用116使用传统文档 遍历技术通过跟随超文本链接逐个文档地识别文档102以及来自其 他服务器的文档(未示出)。搜索引擎114通常构建已遍历文档的 链接与内容的索引118。响应于用户的查询,搜索引擎114使用传统 技术搜索索引118并且向用户提供编制了索引的文档的链接。现在参考图1B,计算机100可以用于从服务器122检索文档120, 尤其是使用文档遍历技术没有找到的文档或者不能找到的文档,诸 如没有链接到其他文档的文档。此类文档通常由计算机100通过文 档地址的先验知识或者经由其他计算机经由网络106不可直接访问 的私有网络来访问。与以前一样,计算才几100随后可以在緩存112 中存储已检索文档120的链接和/或文档120的某些或全部内容。类 似地,文档120的链接和/或文档120的某些或全部内容可以由代理 服务器108存储在緩存110中。存储在緩存112中的链接和/或内容 可以由计算机IOO提供给遍历应用116,也可以由代理服务器108 将来自緩存110的此类信息提供给遍历应用116,然后,遍历应用 116可以访问文档120并且向搜索引擎114提供涉及文档120的链接 和/或内容信息。另外地或可替换地,緩存110/112中的信息可以直接提供给搜索引擎114,如虛线箭头124所示。搜索引擎114可以使 用此信息扩充索引118,或者可以根据索引118中的信息和接收的关 于文档120的信息,构建不同的索引126。然后,搜索引擎114稍后 可以^f吏用索引126替换索引118,从而^f吏用索引126对用户的查询进 行服务。另外地或可替换地,计算机100/代理服务器108可以为緩 存110/112中的信息编制索引,而仅将索引提供给搜索引擎114。应该理解,可以使用任何已知技术,诸如推或拉,从计算机100/ 代理服务器108向遍历应用116/搜索引擎114传递信息。计算机100/ 代理服务器108还可以使用任何已知技术来收集关于存储在它们緩 存中内容的统计信息,诸如访问文档的频率,访问文档的时间,自 最后访问以来的时间等。此类统计信息也可以传递到遍历应用116/ 搜索引擎114。计算机100/代理服务器108还可以根据预定的标准确 定不是所有存储在它们缓存中的信息都应该传递到遍历应用116/搜 索引擎114。例如,计算机100/代理服务器108可以决定不向遍历应 用116/搜索引擎114报告这样已緩存的条目,该已緩存的条目在预 定的时间周期(诸如一个月)中没有被访问。现在参考图2A,其是根据本发明优选实施例构建并且操作的用 于链接规格化的系统的简化图示,并且参考图2B,其是根据本发明 优选实施例操作的图2A的系统的示例操作方法的简化流程图。图 2A的系统可以结合图1A和1B的系统实现,其中在图1A和图1B 的系统中,多个链接指向相同的文档,和/或链接包括不提供给搜索 引擎的用户特定的、会话特定的或其他信息,诸如这样的门户网站 环境中的信息,在该门户网站中链接包含用户特定的上下文信息。 特别参考图2A,提供规格化代理200用于中途拦截或直接接收针对 文档的请求。然后,代理200将该请求转发到例如反向代理202,然 后,该反向代理202从緩存204满足该请求或者向服务器206请求 文档。然后,通常与緩存头信息一起向代理200提供请求的文档。 代理200检验返回的文档,识别该文档的链接和/或任何在该文档中 找到的链接,并且在緩存208中存储任何已识别链接的规格化版本。然后,代理200将文档转发给请求者,其中该文档可以采用代理200 接收该文档时的形式,也可以采用规格化链接替换文档中非规格化 链接的形式。代理200可以实现为文档生成基础设施的 一部分,诸如门户网 站的一部分,其中当服务于文档时,代理200直接生成规格化的链 接而不是对已经嵌在代理200所接收文档中的链接进行规格化。类标准可以包括根据传统技术从不规范的链接中衍生出规范的链 接,和/或剥离预定信息的链接,诸如用户特定或会话特定信息的链 接。代理200还可以保存非规格化链接的映射,其中从该非规格化 链接衍生出相同的规格化链接,并且还可以使用任何已知技术收集 映射到相同规格化链接的非规格化链接的统计信息。存储在緩存208 中规格化的链接和/或任何收集的统计信息可以由代理200提供给遍 历应用116和/或搜索引擎114,如以上参考图1B进行的描述那样。 然后,遍历应用116可以使用规格化的链接检索文档。其中,代理 200向遍历应用116提供包含规格化链接的文档,这些链接也可以被 遍历。应该理解可以忽略或以不同于示出顺序执行这里描述的任何方 法的一个或多个步骤。虽然已经或还没有参考特定计算机硬件或软件描述这里公开的 方法和装置,但是应该理解,可以在使用传统技术的计算机硬件或 软件中轻易地实现这里公开的方法和装置。虽然已经参考一个或多个特定实施例描述了本发明,但是该描 述旨在从总体上说明本发明,不应该被理解为旨在将本发明限制于 示出的实施例。应该理解,本领域的冲支术人员可以^L出各种^f奮改。
权利要求
1.一种用于改进搜索引擎覆盖的方法,所述方法包括在第一计算机处接收至少一个基于计算机网络的文档;在缓存中存储与所述文档相关的任何链接和内容;向遍历应用和搜索引擎中的一个提供所述已缓存的信息;并且使用所述已缓存的信息经由所述遍历应用和所述搜索引擎中的一个进行所述文档的检索。
2. 根据权利要求1所述的方法,其中所述接收步骤包括接收没 有链接到其他文档的所述文档。
3. 根据权利要求1所述的方法并且进一步包括编辑涉及所述已 緩存的信息的统计信息。
4. 根据权利要求3所述的方法并且进一步包括向所述遍历应用 和所述搜索引擎中的 一 个提供所述统计信息。
5. 根据权利要求1所述的方法,其中所述存储步骤包括 识别与所述文档相关的任何链接;并且 规格化任何所述链接。
6. 根据权利要求5所述的方法,其中所述提供步骤包括向所述遍历应用和所述搜索引擎中的 一个提供任何所述规格化 的链接。
7. 根据权利要求5所述的方法并且进一步包括使用任何所述规 格化的链接替换所述文档中的任何所述链接。
8. —种用于改进搜索引擎覆盖的方法,所述方法包括 识别与基于计算机网络的文档相关的任何链接; 规格化任何所述链接;向遍历应用和搜索引擎中的一 个提供任何所述规格化的链接;并且中的 一个进4亍所述文档的#r索。
9. 根据权利要求8所述的方法并且进一步包括使用任何所述规 格化的链接替换所述文档中的任何所述链接。
10. 根据权利要求9所述的方法并且进一步包括 从请求者接收针对所述文档的请求;并且向所述请求者提供带有所述规格化链接的所述文档。
11. 一种用于改进搜索引擎覆盖的系统,所述系统包括 用于在第一计算机处接收至少一个基于计算机网络的文档的装置;用于在緩存中存储与所述文档相关的任何链接和内容的装置; 用于向遍历应用和搜索引擎中的一个提供所述已緩存的信息的 装置;以及用于使用所述已緩存的信息经由所述遍历应用和所述搜索引擎 中的一个进行所述文档检索的装置。
12. 根据权利要求11所述的系统,其中用于接收的装置操作为 接收没有链接到其他文档的所述文档。
13. 根据权利要求11所述的系统并且进一步包括用于编辑涉及 所述已緩存的信息的统计信息的装置。
14. 根据权利要求13所述的系统并且进一步包括用于向所述遍 历应用和所述搜索引擎中的一个提供所述统计信息的装置。
15. 根据权利要求11所述的系统,其中用于存储的所述装置操 作为识别与所述文档相关的任何链接;并且 规格化任何所述链接。
16. 根据权利要求15所述的系统并且进一步包括用于使用任何
17. —种用于改进搜索引擎覆盖的系统,所述系统包括用于识别与基于计算机网络的文档相关的任何链接的装置; 用于规格化任何所述链接的装置;用于向遍历应用和搜索引擎中的一个提供任何所述规格化链接的装置;以及用于使用任何所述规格化链接经由所述遍历应用和所述搜索引 擎中的一个进行所述文档检索的装置。
18. 根据权利要求17所述的系统并且进一步包括用于使用任何 所述规格化的链接替换所述文档中的任何所述链接的装置。
19. 根据权利要求18所述的系统并且进一步包括 用于从请求者接收针对所述文档的请求的装置;以及用于向所述请求者提供带有所述规格化链接的所述文档的装置。
20. —种计算机实现的程序,所述程序包含在计算机可读介质 上,所述计算机程序包括操作为在第 一计算机处接收至少 一个基于计算机网络的文档的 第一代码段;操作为在緩存中存储与所述文档相关的任何链接和内容的第二 代码段;操作为向遍历应用和搜索引擎中的 一个提供所述已緩存的信息 的第三代码段;以及操作为使用所述緩存的信息经由所述遍历应用和所述搜索引擎 中的 一个进行所述文档检索的第四代码段。
全文摘要
一种用于改进搜索引擎覆盖的方法,该方法包括在第一计算机处接收至少一个基于计算机网络的文档,在缓存中存储与该文档相关的任何链接和内容,向遍历应用和搜索引擎中的一个提供已缓存的信息,并且使用该已缓存的信息经由遍历应用和搜索引擎中的一个进行文档的检索。
文档编号G06F17/30GK101228525SQ200680026550
公开日2008年7月23日 申请日期2006年7月18日 优先权日2005年7月20日
发明者A·C·阿扎克里, C·洛伊厄博士, U·舍恩费尔德 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1