内容签名通知的制作方法

文档序号:6431292阅读:190来源:国知局
专利名称:内容签名通知的制作方法
内容签名通知
背景技术
网络搜索引擎通过将有关网页的信息存储在搜索引擎索引中并且利用已编索引的信息来将搜索结果返回给用户搜索查询来操作。编网页索引的过程包括利用网络抓取器 (web crawler)来检索网页以及给有关抓取的(crawled)网页的信息编索引。确定要抓取哪些网页以及多久来抓取网页是复杂的问题,该问题对于搜索引擎可能具有显著的影响。 如果搜索引擎过于频繁地抓取网页,则搜索引擎对于供给(serve)网页的内容服务器在带宽和CPU资源方面施加显著的负担。结果是,网络管理员可能不欢迎搜算引擎的抓取器,特别是在竞争者的搜索引擎更智能地抓取网站、从而导致更少的抓取的情况下。效率低下的抓取也增加搜索引擎的操作成本。另一方面,如果搜索引擎未足够频繁地抓取网页,则搜索引擎对于捕捉网页的改变来说将较慢。结果是,搜索引擎的搜索结果将在相关度和新鲜度方面受到损失。如果搜索引擎也未有效地发现新的网页,则搜索引擎的搜索结果的相关度和新鲜度将被进一步地降级,其继而将导致对于终端用户来说更差的搜索体验。对于每个网页,抓取频率(确定在什么时候内容将被抓取或者重新抓取)通常主要由对于网页计算的重要性来确定。由于网页的抓取频率基于其重要性,因此重要的网页被安排为经常(例如每日)抓取,而较不重要的网页被安排为较不经常(例如每月)抓取。在某些情况下,由抓取器收集的附加信息可以被考虑以便获知内容是否经常改变,并且被用于确定抓取频率。管理相关的搜索引擎索引不仅需要抓取新的相关网页来给新的内容编索引,而且还需要重新抓取现有的网页来考虑内容改变,诸如页内内容改变或者链接改变(这些改变中最大的改变是新的页面、以及旧的、空的或者被删除的页面)。由此,抓取器实际上同时执行两个任务(1)检测页面改变一新的/更新的内容和链接,或者没有;(2)收集新的/更新的内容/链接。不幸的是,当前的典型的搜索引擎的架构提供令人左右为难的规定(catch-22)。 为了了解网页是否具有需要被捕捉的任何改变,搜索引擎必须首先抓取网页来寻找改变。 这意味着对于非常重要的页面,即使它们不频繁改变,搜索引擎也需要持续地重新抓取它们。不幸的是,在该情况下,搜索引擎浪费了搜索引擎服务器和网站的服务器两者上的抓取带宽。

发明内容
提供本发明内容部分来以简化的形式介绍构思的选择,其在下面的具体实施方式
部分中被进一步描述。此发明内容部分不意在确定所请求保护的主题的关键特征或者必要特征,其也不意在用作帮助确定所请求保护的主题的范围。本发明的实施例涉及安装在终端用户的计算机上的客户端应用,其根据由终端用户访问的网页的内容来生成元数据,并且将元数据提供给搜索引擎。当终端用户访问网页时,网页被下载并且被显示给终端用户。客户端应用通过访问网页的内容并且根据网页内容来生成网页的内容签名来操作。客户端应用然后将网页的内容签名提供给搜索引擎。搜索引擎可以以多种方式来利用由终端用户的计算机上的客户端应用提供的内容签名。例如,搜索引擎可以利用内容签名来发现由终端用户访问并且当前未被搜索引擎编索引的网页。搜索引擎可以利用这样的信息来确定对新发现的网页编索引。另外,搜索引擎可以分析内容签名以识别对于网页的内容的改变。此信息可以帮助搜索引擎基于此分析来计算网页的最佳抓取频率。


下面参照附图来详细描述本发明,附图中
图1是适用于实施本发明的实施例的示例计算环境的框图; 图2是其中可以利用本发明的实施例的示例系统的框图3是示出根据本发明的实施例的、用于在终端用户的计算设备上生成网页的内容签名的方法的流程图4是示出根据本发明的实施例的、用于在搜索引擎服务器处从终端用户的计算设备接收内容签名的方法的流程图5是示出根据本发明的实施例的、用于分析内容签名以发现新的网页来抓取和编索引的方法的流程图;以及
图6是示出根据本发明的实施例的、用于分析内容签名以识别网页上的内容改变并且控制网页的抓取的方法的流程图。
具体实施例方式这里就特性而言来描述本发明的主题,以满足规定的要求。然而,描述本身不意在限制本专利的范围。相反,发明人设想所请求保护的主题也可以以其它方式体现,以包括不同的步骤,或者与本文献中描述的步骤类似的步骤同其它现有的或者将来的技术的组合。 此外,尽管这里可以使用术语“步骤”和/或“框”来意指所利用的方法的不同元素,所述术语不应被解释为暗示这里描述的各种步骤之中或之间的任何特定的顺序,除非在明确描述各个步骤的顺序时。如上所述,本发明的实施例提供安装在终端用户的计算机上并且操作以提供由终端用户访问的网页的元数据给搜索引擎的客户端应用。元数据尤其允许搜索引擎来识别新的网页以及网页内容的改变。当终端用户访问网页时,终端用户的计算机下载网页并且将网页呈现给用户。客户端应用通过访问网页的内容来在后台操作,以创建网页的内容签名。如这里所使用的,术语“内容签名”指根据页面的内容生成的网页的表示。例如,内容签名可以是通过由客户端应用将哈希函数应用于网页内容而生成的哈希值。客户端应用将所生成的内容签名提供给搜索引擎。在实践中,客户端应用优选安装在多个终端用户的计算机上。每当终端用户访问网页时,客户端应用生成内容签名并且将内容签名连同关联的URL —起提供给搜索引擎。 由此,搜索引擎可以通过接收有关由大量的终端用户访问的网页的信息来受益,并且例如基于最后接收的内容签名而确定内容是否已经被更新。搜索引擎可以将内容签名用于各种目的。例如,搜索引擎可以利用内容签名来发现由终端用户访问的、当前未被编索引的网页。然后,搜索引擎可以确定来对新发现的网页进行抓取和编索引。另外,搜索引擎可以分析内容签名来识别网页内容的改变,并且利用该信息以确定用于不同网页的抓取频率。在一些实例中,内容签名可以简单地允许搜索引擎来确定网页内容已经改变。在其它实例中,内容签名可以允许搜索引擎来确定网页内容改变的程度和/或改变的网页内容的位置。这种附加的信息还可以便于由搜索引擎提供网页的智能抓取。本质上,客户端应用允许搜索引擎来不管怎样都为正在下载网页的用户卸下抓取网页以发现内容改变的任务。由此,网络管理员看不见额外的负载,同时搜索引擎可以通过基于由客户端应用提供的内容签名信息更智能地抓取网页来节约抓取资源。另外,网络服务器的资源不会被低效的抓取消耗。因此,在一个方面中,本发明的实施例针对一个或者多个存储包括计算机可用指令的客户端应用的计算机存储介质,该计算机可用指令在被终端用户的计算设备使用时, 使得终端用户的计算设备执行一种方法。该方法包括访问下载到终端用户的计算设备的网页的内容。该方法还包括根据网页的内容生成内容签名。该方法还包括将内容签名从终端用户的计算设备传送到搜索引擎服务器。在另一个实施例中,本发明的一方面针对一个或多个存储计算机可用指令的计算机存储介质,该计算机可用指令在被计算设备使用时,使得计算设备执行一种方法。该方法包括在搜索引擎服务器处从终端用户的计算设备接收网页的内容签名,该内容签名包括由终端用户的计算设备上的客户端应用根据网页的内容生成的网页的表示。该方法还包括存储网页的内容签名。本发明的另一个实施例针对一个或多个存储计算机可用指令的计算机存储介质, 该计算机可用指令在被计算设备使用时,使得计算设备执行一种方法。该方法包括在搜索引擎服务器接收多个网页的内容签名,该内容签名已经根据由终端用户的计算设备下载并且显示的网页内容、在多个终端用户的计算设备处生成。该方法还包括分析内容签名来识别网页上的内容改变。该方法还包括基于内容签名的分析来控制网页的抓取。已经简要描述了本发明的实施例的概述,下面描述其中可以实现本发明的实施例的示例操作环境,以便提供本发明的各方面的一般背景。具体地,开始参照图1,示出了用于实现本发明的实施例的示例操作环境,并且其被总地指定为计算设备100。但是,计算设备100是适当的计算环境的一个示例,并且不意在暗示对本发明的用途或功能的范围的限制。计算设备100也不应当被解释为对所图示的组件的任一个或组合有任何依赖性或者有与其有关的要求。可以在计算机代码或机器可用指令的一般背景下描述本发明,该机器可用指令包括由计算机或诸如个人数据助理或其它手持设备之类的其它机器执行的、诸如程序模块之类的计算机可执行指令。通常,包括例程、程序、对象、组件、数据结构等的程序模块指执行特定任务或实现特定的抽象数据类型的代码。本发明可以以各种系统配置来实施,包括手持设备、消费电子设备、通用计算机、更专门的计算设备等等。本发明还可以在分布式计算环境中实施,在该环境中,由通过通信网络链接的远程处理设备来执行任务。参照图1,计算设备100包括总线110,其直接或间接耦接到以下设备存储器 112、一个或多个处理器114、一个或多个呈现组件116、输入/输出(I/O)端口 118、输入/输出组件120、以及示例电源122。总线110表示一个或多个总线的各种形式(诸如地址总线、数据总线、或者其组合)。尽管为求清楚,图1的各框以线来示出,但是在现实中,描绘各种组件不那么清楚,打比方说,这些线更准确地说是灰的和模糊的。例如,可以将诸如显示设备之类的呈现组件视为I/O组件。而且,处理器具有存储器。发明人认识到这是本领域的本质,并且重述图1的图仅仅图示可以结合本发明的一个或多个实施例使用的示例计算设备。不在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等等之类的种类之间进行区分,因为所有这些都设想在图1的范围内并且称为“计算设备”。计算设备100典型地包括各种计算机可读介质。计算机可读介质可以是可被计算设备100访问的任何可用介质,包括易失性介质和非易失性介质、可移动介质和非可移动介质。以示例、而非限制的方式,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术来实现以用于存储诸如计算机可读指令、数据结构、 程序模块或其它数据之类的信息的易失性介质和非易失性介质、可移动介质和非可移动介质。计算机存储介质包括、但不限于RAM、ROM、EEPR0M、快闪存储器或其它存储器技术、 CD-ROM、数字多用途盘(DVD)或其它光学盘存储、盒式磁带、磁带、磁盘存储或其它磁存储设备、或任何其它可被用于存储期望的信息并且可被计算设备100访问的介质。通信介质典型地包含计算机可读指令、数据结构、程序模块、或者以诸如载波或其它传输机制之类的调制的数据信号中的其它数据,并且包括任何信息递送介质。术语“调制的数据信号”指其特征中的一个或多个以使得将信息编码为信号的方式被设置或改变的信号。以示例、而非限制的方式,通信介质包括诸如有线网络或直接有线连接之类的有线介质、以及诸如声学、 RF、红外和其它无线介质之类的无线介质。上述中的任一个的组合也应当被包括在计算机可读介质的范围内。存储器112包括以易失性和/或非易失性存储器形式的计算机存储介质。所述存储器可以是可移动存储器、非可移动存储器、或者其组合。示例硬件设备包括固态存储器、 硬盘驱动器、光盘驱动器等等。计算设备100包括从诸如存储器112或I/O组件120之类的各种实体读取数据的一个或者多个处理器。一个或者多个呈现组件116将数据指示呈现给用户或其它设备。示例呈现组件包括显示设备、扬声器、打印组件、振动组件等等。I/O端口 118允许计算设备100逻辑耦接到其中一些可以内置的、包括I/O组件 120的其它设备。示例组件包括麦克风、操纵杆、游戏板、碟形卫星信号接收器、扫描仪、打印机、无线设备等等。现在参照图2,提供了图示其中可以利用本发明的实施例的示例系统200的框图。 应当理解这里描述的这个和其它布置仅作为示例而提出。其它布置和元件(例如,机器、接口、功能、顺序、以及功能的编组等等)可以在所示出的布置和元件之外另外使用或者代替所示出的布置和元件来使用,并且某些元件可以完全被省略。另外,这里描述的许多元件是可以实现为分立或分布式组件、或者结合其它组件实现、或者以任何适当的组合和位置实现的功能实体。如由一个或者多个实体执行的这里描述的各种功能可以由硬件、固件、和/ 或软件执行。例如,各种功能可以由执行存储在存储器中的指令的处理器来执行。除其它未示出的组件之外,系统200还包括用户设备202、内容服务器204、以及搜索引擎服务器206。图2中所示的每个组件可以是任何类型的计算设备,诸如参照图1描述的计算设备100。所述组件可以经由网络208彼此通信,所述网络208可以包括、但不限于一个或者多个局域网(LAN)和/或广域网(WAN)。这种联网环境在办公室、企业内计算机网络、内联网、以及因特网中是常见的。应当理解在本发明的范围内,可以在系统200内利用任何数量的用户设备、内容服务器、以及搜索引擎服务器。每个设备可以包括单个设备或者在分布式环境中合作的多个设备。例如,搜索服务器206可以包括一同来提供这里描述的搜索引擎服务器206的功能的分布式环境中布置的多个设备。另外,未示出的其它组件也可以包括在系统200内,而图2中所示的组件可以在一些实施例中省略。用户设备202可以是由可以访问网络208的终端用户拥有的和/或操作的任何类型的计算设备。例如,用户设备202可以是桌面计算机、膝上型计算机、平板计算机、移动设备、或者任何其它的可以访问网络的设备。通常,终端用户可以利用用户设备202来尤其访问由诸如内容服务器204之类的内容服务器维护的电子文档。例如,终端用户可以在用户设备202上利用网络浏览器210来访问和查看来自内容服务器204的电子文档。尽管在图 2中示出了网络浏览器,可以利用安装在用户设备202上的其它应用来下载和显示来自内容服务器的内容。内容服务器204可以是任何类型的能够容纳电子文档并且将电子文档供应给诸如用户设备202之类的计算设备的服务器设备。例如,内容服务器204可以是维护诸如网页214之类的网页的网络服务器。搜索引擎服务器206可以是任何类型的能够将搜索服务提供给诸如用户设备202 之类的用户设备的服务器设备。除了其它的设备之外,搜索引擎服务器206还包括抓取器 216,其用于抓取由内容服务器维护的网页(诸如内容服务器204上的网页214),并且在搜索引擎索引220中给来自网页的数据编索引。当用户将搜索查询提交给搜索引擎206时, 搜索引擎206响应于搜索查询来搜索搜索引擎索引220,以提供搜索结果。根据本发明的实施例,用户设备202包括客户端应用212,其操作以根据由用户设备202访问的网页的内容生成内容签名并且将内容签名提供给搜索引擎服务器206。客户端应用212可以是网络浏览器210的组件、浏览器扩展(例如搜索工具栏)、或者其它安装在用户设备202上的应用。在一些实施例中,经由搜索引擎服务器206提供搜索服务的搜索系统供应商将客户端应用提供给终端用户,以安装在用户设备202上。当用户利用网络浏览器210 (或其它组件)来访问来自内容服务器的网页(诸如内容服务器204上的网页214)时,网络浏览器210下载网页并且经由由网络浏览器210提供的图形用户界面呈现网页的内容。客户端应用212访问来自网页的内容,并且根据所述内容来生成内容签名。由此,内容签名是根据网页的内容生成的网页的表示。由客户端应用访问的并且由客户端应用212使用来生成内容签名的网页的内容可以是可以经由网络浏览器210显示给终端用户的内容的任何部分。例如,网页的内容可以包括文本、图像、声音、 视频等等。在一些实施例中,可以仅仅与文本来生成内容签名。在其它实施例中,可以利用网页的其它部分的可呈现内容来生成内容签名。在另外的实施例中,可以使用内容的不同部分来为网页生成多个内容签名(例如,一个内容签名用于文本,另一个内容签名用于图像,等等)。可以利用各种不同的算法来生成网页的内容签名。在一些实施例中,内容签名是通过将哈希函数应用到网页来生成的哈希值。可以由客户端应用212利用各种不同的哈希函数中的任一个,以生成本发明的实施例的范围内的内容签名。
在客户端应用212根据网页内容生成网页的内容签名之后,客户端应用212将内容签名提供给搜索引擎服务器206。在一些实施例中,客户端应用212可以在下载网页并且生成内容签名时可以提供由用户设备210访问的网页的内容签名。在其它实施例中,客户端应用212可以将根据由用户设备212访问的各种网页生成的内容签名分批,并且周期性地将分批的内容签名提供给搜索引擎服务器206。客户端应用212可以在提供用于网页的内容签名时将附加元数据提供给搜索引擎服务器206。在一些实施例中,客户端应用212提供网页的URL以及指示例如网页被访问和/或内容签名被创建的时间的时间戳的指示。也可以将诸如终端用户的位置之类的其它元数据提供给搜索引擎服务206。尽管图2中仅示出了单个用户设备,但是在实践中,多个用户设备可以包括客户端应用来生成用于由那些用户设备访问的网页的内容签名并且将内容签名提供给搜索引擎服务器206。另外,尽管图2中仅示出了单个内容服务器,但是在实践中,用户设备上的客户端应用可以访问来自任何数量的内容服务器的网页。由此,搜索引擎服务器206可以接收用于已经将客户端应用安装在其计算机上的终端用户访问的任何网页的内容签名。在各实施例中,安装在各种用户设备上的客户端应用利用类似的算法来生成内容签名,以使得搜索引擎服务器206可以有效地比较由不同的用户设备上的客户端应用提供的内容签名。由诸如用户设备202上的客户端应用212之类的用户设备上的客户端应用提供给搜索引擎服务器206的内容签名可以存储在网页元数据存储装置218中。由客户端应用 212提供的其它元数据也可以存储在网页元数据存储装置218中。搜索引擎服务器206可以将由用户设备提供并且存储在网页元数据存储装置218 中的内容签名用于各种目的。例如,在一些实施例中,搜索引擎服务器206可以分析内容签名来发现由终端用户访问、但当前未在搜索引擎索引220中编索引的网页。基于这种网页的发现,搜索引擎206可以确定来对网页进行抓取和编索引。在本发明的一些实施例中,搜索引擎服务器206可以利用内容签名来确定网页内容中的改变并且控制网页的抓取以用于编索引目的。一开始,搜索引擎服务器206可以分析网页的内容签名来识别网页内容的改变。在一些实例中,由用户设备上的客户端应用利用的算法可以仅支持识别网页内容的内容是否改变。例如,搜索引擎服务器206可以访问用于给定的网页(例如,对应于特定的URL)的两个或者更多个内容签名并且比较内容签名。 如果内容签名是相同的,则网页内容未改变。但是,如果内容签名已经改变,则网页内容已经改变。此信息可以由搜索引擎服务器206用来控制网页的抓取。在一个实施例中,每个网页基于由其内容签名证明的其改变历史而被分类为种类,并且基于其种类而被抓取。例如,抓取器可以包括以下规则
不要抓取未改变的网页 抓取已经改变的网页
在基于网页的重要性而确定的每个抓取之间,利用某种缓存器来抓取频繁改变的网

使用默认的抓取频率逻辑来用于内容签名信息不可用或者过时的网页。在一些实施例中,由客户端应用利用的算法可以生成允许确定网页改变的程度和 /或网页改变的位置的内容签名。例如,可以利用哈希函数,其中根据网页的内容生成的哈希值的差与网页中改变的程度统计相关。例如,如果网页内容的百分之15改变,则在概率上,哈希值中的百分之15的比特将是不同的。如果内容签名提供这种附加的信息,搜索引擎服务器206可以利用所述附加的信息来更为智能地确定网页的抓取频率。例如,显著的内容改变可以保证抓取网页,而不显著的内容改变可以不保证抓取网页。现在转向图3,提供图示根本发明的实施例的、用于在用户设备上根据网页内容生成内容签名并且将内容签名提供给搜索引擎服务器的方法300的流程图。一开始,如框302 处所示,在用户设备处下载网页,并且将网页内容显示在用户设备上。网页可以经由网络浏览器或者安装在用户设备上的其它应用下载和显示。例如,用户可以浏览网络并且下载网页以用于查看。客户端应用访问网页的内容,如框304处所示。如之前所表明的,客户端应用可以是用户设备上网络浏览器的组件、浏览器扩展、或者安装在用户设备上的其它应用。在访问网页内容后,客户端应用根据网页内容生成内容签名,如框306处所示。在一些实施例中, 内容签名是通过将哈希函数应用到网页内容而由客户端应用生成的哈希值。如框308处所示,客户端应用将内容签名传送到搜索引擎服务器。在一些实施例中,客户端应用可以在内容签名之外还传送其它元数据。例如,在一个实施例中,客户端应用与内容签名一起提供网页的URL的指示。作为另一个示例,客户端应用可以提供表示例如网页被下载或者内容签名被创建的时间的时间戳。在本发明的实施例中,也可以将诸如终端用户的位置之类的其它类型的元数据提供给搜索引擎服务器。接下来,参照图4,提供了图示根据本发明的实施例的、用于在搜索引擎服务器处从终端用户的计算机接收内容签名的方法400的流程图。一开始,如框402所示,在搜索引擎服务器处接收内容签名。内容签名可以已经由终端用户的计算机上的客户端应用生成, 如上面参照图3描述的。搜索引擎服务器可以存储所接收的内容签名,如框404处所示的。由此,搜索引擎服务器可以从多个不同的终端用户的计算机收集用于各种网页的内容签名。搜索引擎服务器可以将内容签名用于多种目的。由此,搜索引擎服务器分析内容签名,如框406处所示。在一个实施例中,搜索引擎服务器可以检查内容签名来识别由终端用户访问的、 但当前未在搜索引擎索引中编索引的网页。如图5的方法500中所示,在框502处,搜索引擎服务器分析内容签名以发现新的网页。然后,搜索引擎服务器确定来抓取新发现的网页 (如框504处所示)并且对所抓取的网页的数据编索引,如框506处所示。在一些实施例中, 搜索引擎服务器可以不是简单地对所有新发现的网页进行抓取和编索引。代之,搜索引擎服务器可以基于诸如访问新发现的网页的用户的数量以及网页被访问的频率之类的因素来确定是否对网页进行抓取和编索引。在由图6中所示的方法600描述的另一个实施例中,搜索引擎服务器可以利用内容签名来控制网页的抓取频率。如框602处所示,搜索引擎服务器分析内容签名以识别网页上内容的改变。搜索引擎服务器基于该分析来控制网页的抓取,如框604处所示。如可以理解的,本发明的实施例提供了 在终端用户的计算机上生成内容签名,并且将该内容签名提供给搜索引擎服务器,该搜索引擎服务器可以分析内容签名,以例如发现新的网页和控制网页的抓取频率。已经关于特定实施例描述了本发明,所述特定实施例无论从哪一点看都意在是示例性的、而非限制性的。在不偏离本发明的的范围的情况下,替代实施例将对于本发明所属的领域的普通技术人员来说变得显而易见。 根据上文,将看到本发明是很好地适于达到上面提出的所有目的和目标、以及实现对于所述系统和方法来说明显和固有的其它优点的一个发明。将理解特定特征和子组合是可用的,并且可以在不引用其它特征和子组合的情况下被利用。这是本发明的范围所设想的,并且在本发明的范围内。
权利要求
1.一种用于在终端用户的计算设备上生成网页的内容签名的方法,所述方法包括访问(304 )被下载到终端用户的计算设备上的网页的内容;根据所述网页的内容生成(306)内容签名;以及将内容签名从终端用户的计算设备传送(308 )到搜索弓I擎服务器。
2.如权利要求1所述的方法,其中所述内容签名包括通过将哈希函数应用到网页的内容而生成的哈希值。
3.如权利要求1所述的方法,其中将有关网页的附加元数据从终端用户的计算设备提供给搜索引擎服务器,其中所述附加元数据包括用于网页的URL和时间戳。
4.如权利要求1所述的方法,其中所述方法被用在浏览器扩展中。
5.一种用于在搜索引擎服务器处从终端用户的计算设备接收内容签名的方法,所述方法包括在搜索引擎服务器处从终端用户的计算设备接收(402)网页的内容签名,所述内容签名包括由终端用户的计算设备上的客户端应用根据网页的内容生成的网页的表示;以及存储(404)网页的内容签名。
6.如权利要求5所述的方法,其中所述方法还包括从终端用户的计算设备接收附加的元数据,所述附加的元数据包括网页的URL和时间戳的指示。
7.如权利要求5所述的方法,其中所述方法还包括利用内容签名来确定网页尚未在搜索引擎索引中编索引,并且其中所述方法还包括基于确定网页尚未在搜索引擎索引中编索引而抓取网页并且在搜索引擎索引中对有关网页的数据编索引。
8.如权利要求5所述的方法,其中所述方法还包括将网页的内容签名与网页的另一个内容签名进行比较,以确定网页的内容是否改变,并且其中所述方法还包括基于确定网页的内容是否改变来控制网页的抓取。
9.如权利要求5所述的方法,其中所述方法还包括将网页的内容签名与网页的另一个内容签名进行比较,以确定网页的内容改变的程度,并且其中所述方法还包括基于确定网页的内容改变的程度来控制网页的抓取。
10.如权利要求5所述的方法,其中所述方法还包括将网页的内容签名与网页的另一个内容签名进行比较,以确定网页内改变的内容的位置。
11.如权利要求10所述的方法,其中所述方法还包括基于确定网页内改变的内容的位置来控制网页的抓取。
12.一种用于分析内容签名以控制网页的抓取的方法,所述方法包括在搜索引擎服务器处接收(402)多个网页的内容签名,所述内容签名已经在多个终端用户的计算设备处根据由终端用户的计算设备下载和显示的网页的内容而生成;分析(602)内容签名以识别网页上的内容改变;以及基于内容签名的分析来控制(604)网页的抓取。
13.如权利要求12所述的方法,其中所述方法还包括从多个终端用户的计算设备接收与内容签名相关联的附加的元数据,其中与每个内容签名相关联的附加的元数据包括网页的URL和时间戳的指示。
14.如权利要求12所述的方法,其中分析内容签名包括确定网页的内容改变的程度。
15.如权利要求12所述的方法,其中分析内容签名包括确定网页内改变的内容的位置。
16.一种用于在终端用户的计算设备上生成网页的内容签名的设备,所述设备包括用于访问(304)被下载到终端用户的计算设备的网页的内容的装置;用于根据所述网页的内容生成(306)内容签名的装置;以及用于将内容签名从终端用户的计算设备传送(308 )到搜索弓I擎服务器的装置。
17.如权利要求16所述的设备,其中所述内容签名包括通过将哈希函数应用到网页的内容而生成的哈希值。
18.如权利要求16所述的设备,其中将有关网页的附加元数据从终端用户的计算设备提供给搜索引擎服务器,其中所述附加元数据包括用于网页的URL和时间戳。
19.如权利要求16所述的设备,其中所述设备包括浏览器扩展。
20.一种用于在搜索引擎服务器处从终端用户的计算设备接收内容签名的设备,所述设备包括用于在搜索引擎服务器处从终端用户的计算设备接收(402)网页的内容签名的装置, 所述内容签名包括由终端用户的计算设备上的客户端应用根据网页的内容生成的网页的表示;以及用于存储(404)网页的内容签名的装置。
21.如权利要求20所述的设备,其中所述设备还包括用于从终端用户的计算设备接收附加的元数据的装置,所述附加的元数据包括网页的URL和时间戳的指示。
22.如权利要求20所述的设备,其中所述设备还包括用于利用内容签名来确定网页尚未在搜索引擎索引中编索引的装置,并且其中所述设备还包括用于基于确定网页尚未在搜索引擎索引中编索引而抓取网页并且在搜索引擎索引中对有关网页的数据编索引的装置。
23.如权利要求20所述的设备,其中所述设备还包括用于将网页的内容签名与网页的另一个内容签名进行比较,以确定网页的内容是否改变的装置,并且其中所述设备还包括用于基于确定网页的内容是否改变来控制网页的抓取的装置。
24.如权利要求20所述的设备,其中所述设备还包括用于将网页的内容签名与网页的另一个内容签名进行比较,以确定网页的内容改变的程度的装置,并且其中所述设备还包括用于基于确定网页的内容改变的程度来控制网页的抓取的装置。
25.如权利要求20所述的设备,其中所述设备还包括用于将网页的内容签名与网页的另一个内容签名进行比较,以确定网页内改变的内容的位置的装置。
26.如权利要求25所述的设备,其中所述设备还包括用于基于确定网页内改变的内容的位置来控制网页的抓取的装置。
27.一种用于分析内容签名以控制网页的抓取的设备,所述设备包括用于在搜索引擎服务器处接收(402)多个网页的内容签名的装置,所述内容签名已经在多个终端用户的计算设备处根据由终端用户的计算设备下载和显示的网页的内容而生成;用于分析(602)内容签名以识别网页上的内容改变的装置;以及用于基于内容签名的分析来控制(604 )网页的抓取的装置。
28.如权利要求27所述的设备,其中所述设备还包括用于从多个终端用户的计算设备接收与内容签名相关联的附加的元数据的装置,其中与每个内容签名相关联的附加的元数据包括网页的URL和时间戳的指示。
29.如权利要求27所述的设备,其中,用于分析内容签名的装置还包括用于确定网页的内容改变的程度的装置。
30.如权利要求27所述的设备,其中,用于分析内容签名的装置还包括用于确定网页内改变的内容的位置的装置。
全文摘要
安装在终端用户的计算机上的客户端应用根据由终端用户访问的网页的内容生成元数据,并且将元数据提供给搜索引擎。当终端用户访问网页时,终端用户的计算机下载网页并且将网页显示给终端用户。客户端应用可以同时访问网页内容和根据网页内容以网页的内容签名的形式生成此元数据。然后,客户端应用将内容签名提供给搜索引擎。搜索引擎可以利用内容签名来识别新的网页来抓取和编索引。另外,搜索引擎可以利用内容签名来识别网页的改变并且确定网页的抓取频率。
文档编号G06F17/30GK102375881SQ201110242929
公开日2012年3月14日 申请日期2011年8月23日 优先权日2010年8月23日
发明者辛赫 A., 凯内尔 F., 艾哈迈德 J., 彻拉皮拉 K., F. 麦克尔罗伊 T., 沙拉姆 V., 孙 W. 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1