Web爬行的差异检测的制作方法

文档序号:6427001阅读:159来源:国知局
专利名称:Web爬行的差异检测的制作方法
技术领域
本发明涉及web搜索,尤其涉及web爬行的差异检测。
背景技术
许多因特网用户使用搜索查询来发现因特网文档并与之交互。例如,用户可以通过向搜索引擎提交查询来搜索网站、图像、视频和其他因特网文档。搜索引擎可以爬行web 来获取数以百万计的可被用作搜索结果的文档(例如,web爬行器可以从网站获取图像、文章和/或其他文档)。于是由搜索引擎提供的搜索结果的质量可以基于搜索引擎取得的已获取文档的合乎需要性。不幸的是,可能从文档提供者获取不合需要的文档。在一个示例中,由于网站可能感到web爬行器可能是粗鲁的,因此网站可以通过悄悄地将web爬行器重定向至垃圾页面来执行软屏蔽。在另一示例中,网站可能被关闭来维护或是在非预期停机时间,web爬行器从而可能被定向至维护页面。垃圾页面和/或维护页面可能是提供作搜索引擎结果的不合需要的文档。

发明内容
提供本发明内容以便以简化形式介绍将在以下的具体实施方式
中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键因素或必要特征,也不旨在用于限定所要求保护的主题的范围。特别地,此处公开了用于将文档提供者分组至包括简档的提供者群集中的一种或多种系统和/或技术。可以理解的是,文档可被解释为电子内容(例如,文本文档、网页内的文章、数据库内的图像、网页、音乐文件、文本、web服务数据、应用程序和/或各种各样的可通过因特网访问的内容)。文档提供者可以被解释为提供文档的实体(例如,网站、web 服务、数据库、web应用程序、web主机和/或各种提供电子内容以供消费的其他实体)。搜索引擎可以通过发出文档获取操作以利用web爬行计数来从文档提供者获取文档。例如,文档获取操作可以从新闻网站获取新闻文章。在文档获取操作期间,可确定文档获取参数(例如,文档大小参数、http状态码参数、mime类型参数、重定向参数和/或多种其他参数)。例如,可以分析与对一文档提供者的文档获取操作相关联的http首部以确定与该文档获取操作相关联的一个或多个文档获取参数。可以理解的是,文档提供者的文档获取数据可以被解释为对应于一个或多个先前执行的与该文档提供者相关联的文档获取操作的文档获取参数的集合。可以接收一个或多个文档提供者的文档获取数据。例如,可以接收包括与一个或多个对汽车网站的文档获取操作(例如,汽车文章获取(1)、汽车图像获取(1)、汽车图像获取(2)等等)相关联的文档获取参数的该汽车网站(文档提供者)的文档获取数据。文档提供者可基于文档获取数据被分组至提供者群集中。在一个示例中,具有一文档获取频率 (例如,web爬行器一小时获取30次文档)的文档提供者可以被置于具有对应文档获取频率类别(例如,获取频率在一小时20次和30次之间)的提供者群集中。以此方式,具有类似文档获取参数(例如,文档获取频率)的文档提供者可以一起被分组在提供者群集中。可以理解的是,虽然文档提供者可能并不是字面意义上地被分组至多个提供者群集中,但是对文档提供者的引用可以被分组至提供者群集中。例如,对汽车网站、新闻网站和游戏评论网站的引用可以被分组至一提供者群集中,而不是将实际网站分组至提供者群集中。可以基于相应的提供者群集中的文档提供者的文档获取参数为相应的提供者群集指定简档。简档可以包括对应于文档大小、http状态码的频率、mine类型、重定向率等的参数。可以基于提供者群集中的文档提供者的文档获取参数来指定提供者群集的简档的参数。例如,基于提供者群集中的文档提供者的文档获取参数,包括可接受的文档大小值的范围的文档大小参数可以被指定给提供者群集的简档,其中文档获取参数对应于从文档提供者所获取的文档的文档大小。以此方式,提供者群集可以包括指定“预期”参数值的简档,该 “预期”参数值在对提供者群集中的文档提供者执行文档获取操作时返回。可以理解的是, 对文档提供者的后续文档获取操作的、在与包括该文档提供者的提供者群集相关联的简档的参数以外的文档获取参数可以是文档提供者正在返回可能是不合需要的“超标(out of norm),,的文档的指示符。此外,简档可以被用于基于所获取文档的文档获取参数与简档的参数之间的差异来确定文档提供者正在返回具有“预期”文档获取参数的文档,或者相反,文档提供者正在返回“超标”文档。具体地,可以对一文档提供者执行当前文档获取操作。当前文档获取操作可以是与当前文档获取数据相关联的,所述当前文档获取数据包括当前文档获取参数 (例如,文档大小、mime类型、重定向等等)。可以将当前文档获取操作的当前文档获取参数与同包括文档提供者的提供者群集相关联的简档的参数相比较。可以理解的是,简档的参数可以指示当合乎需要的文档被返回时文档提供者可返回的“预期”参数。如果该比较指示了当前文档获取参数和简档的参数之间的差异,则可以生成警告。以此方式,该警告可以指示文档提供者可能正在返回web爬行器可能不想获取的不合需要的文档,并由此可执行进一步的调查以禁止获取不合需要的文档作为可能的搜索结果。为实现上述内容和相关目的,以下描述和附图阐述了各个说明性方面和实现。这些方面和实现仅指示可以使用一个或多个方面的各种方式中的一些。结合附图阅读以下详细描述,则本发明的其他方面、优点、以及新颖特征将变得显而易见。


图1是示出了将文档提供者分组至包括简档的提供者群集中的一种示例性方法的流程图。图2是示出了将当前文档获取参数与简档的参数进行比较的一种示例性方法的流程图。图3是示出了将文档提供者分组至包括简档的提供者群集中的示例性系统的组件框图。图4是一个或多个文档提供者的文档获取数据的示例的图示。图5是具有简档的提供者群集的示例的图示。图6是将当前文档获取参数与简档的参数进行比较的比较组件的示例的图示。图7是比较组件基于当前文档获取参数与简档的参数的比较来生成警告的示例的图示。图8是示例性计算机可读介质的图示,其中可包括被配置成实现此处所阐述的原理中的一个或多个的处理器可执行指令。图9示出了其中可以实现此处所阐述的实施方式中的一种或多种的示例性计算环境。
具体实施例方式现在参考附图来描述所要求保护的主题,所有附图中使用相同的附图标记来指代相同的元素。在以下描述中,为解释起见,阐明了众多具体细节以提供对所要求保护的主题的全面理解。然而,很明显,所要求保护的主题可以在没有这些具体细节的情况下实施。在其它情况下,以框图形式示出了各种结构和设备以便于描述所要求保护的主题。许多搜索引擎利用web爬行技术来发现可能被提供为搜索结果的文档(例如,图像、网页、文章、博客、视频、音乐和/或其他电子内容)。所需文档可以被解释为由web爬行器所获取的“预期”和/或提供给用户为搜索结果将是有用的文档。非需要文档可以被解释为由web爬行器所获取的包括兜售信息、垃圾网页、维护页面和/或提供给用户为搜索结果可能是没有用的和/或令人为难的其他内容的文档。由此,标识不合需要的文档以使这样的文档从搜索结果中被排除可能是有利的。此外,已标识的不合需要的文档可以被用作扩充训练集以训练垃圾页面分类器来将类似的文档检测为垃圾页面。因此,特别地,此处提供了用于将文档提供者分组至包括简档的提供者群集中的一种或多种系统和/或技术。具体地,具有类似文档获取参数(例如,具有类似文档大小的文档,具有以类似频率所获取的文档的网页,返回类似的重定向率的网页,等等)的文档提供者(例如,网页提供者)可以被分组至提供者群集中。可以为提供者群集指定包括参数的简档,以使简档的参数可以反映当普通的/合乎需要的文档被获取时文档提供者可能 “预期”返回的文档获取参数。即,简档的参数可以反映当文档提供者返回所需文档(例如, 所查找的文章,而非通用错误)时,从对文档提供者的文档获取操作返回的“预期”文档获取参数。可以将当前文档获取操作与简档进行比较以确定文档提供者所返回的文档是否是 “普通的”和/或“预期”。例如,可以将对文档提供者的当前文档获取操作的当前文档获取参数和与包括该文档提供者的提供者群集相关联的简档的参数相比较。如果当前文档获取参数和简档的“预期”参数之间具有差异,则可以生成一警告。将文档提供者分组至包括简档的提供者群集中的一个实施例由图1中的示例性方法100示出。在102处,该方法开始。在104处,可接收一个或多个文档提供者的文档获取数据(例如,图4中的一个或多个文档提供者402的文档获取数据)。文档提供者的文档获取数据可包括对应于与文档提供者相关联的文档获取操作的一个或多个文档获取参数。 例如,文档提供者的文档获取数据可以包括先前文档获取操作(例如,从新闻网页取得文档、从新闻网页获取文章、从新闻网页获取图像,等等)及其相应的文档获取参数(例如,获取文档操作被重定向、获取文章操作返回具有1001Λ文档大小的文档,获取图像返回http 状态码302和30 的历史数据。在一个示例中,文档提供者的文档获取参数可以使用与对该文档提供者的文档获取操作相关联的http首部来确定。在106处,可基于文档获取数据将文档提供者分组至提供者群集中。在一个示例中,具有一小时获取10到20次的文档获取频率(例如,以该频率从响应的文档提供者获取内容)的文档提供者可以被分组至具有对应的文档获取频率类别的第一提供者群集;具有一小时获取21次之50次的文档获取频率的文档提供者可以被分组至具有对应的文档获取频率类别的第二提供者群集;等等。可以理解的是,可以基于文档获取数据中所指定的各种准则(例如,文档获取频率、文档大小、http状态码频率和/或各种与文档提供者相关的其他参数或信息(例如,文档提供者的流行度、一般从文档提供者所获取的文档类型,等等)) 将文档提供者分组至提供者群集中。在108处,可以基于提供者群集中的文档提供者的文档获取参数为该提供者群集指定简档。例如,简档可以包括一个或多个对应于文档大小参数的参数(例如,从文档提供者所获取的文档的平均大小)、http状态码频率参数(例如,响应于文档获取操作文档提供者多久返回一次特定的http状态码)、mime类型参数(例如,一般由文档提供者返回的 mime类型参数)、重定向率参数(例如,文档提供者响应于文档获取操作返回重定向页面的比率),和/或指示提供者群集中的文档提供者可展示的“预期”参数的各种其他参数。在一个示例中,基于提供者群集中具有可接受的值的范围内的文档获取参数的文档提供者的百分比,提供者群集的简档的参数可以具有对应的可接受的值的范围。包括文档提供者的群集的简档可以被用于评估由文档提供者所返回的文档以确定该文档是否是合乎需要的(例如,不是垃圾页面或维护页面)。在一个示例中,可以对一文档提供者执行当前文档获取操作以获取文档。当前文档获取操作可以和包括当前文档获取参数的当前文档获取数据相关联。可以将当前文档获取操作的当前文档获取参数(例如,文档大小、mime类型等等)和与包括文档提供者的提供者群集相关联的简档的参数进行比较。在一个示例中,该比较可以在包括当前文档获取操作的web爬行会话期间实时执行。在另一示例中,该比较可以离线执行。如果该比较指示当前文档获取参数与简档的一个或多个参数之间的差异,则就生成警告(例如,当前文档获取参数可以指定由简档的文档大小参数所指定的可接受的值范围以外的文档大小)。在另一示例中,该比较可以在多个当前文档获取操作被执行以后来执行。具体地, 可以执行对文档提供者的多个当前文档获取操作以生成计算出的当前文档获取参数(例如,当前文档获取参数的计算出的平均值和/或当前文档获取参数的计算出的标准差)。可以将与文档提供者相关联的计算出的当前文档获取参数和与包括该文档提供者的提供者群集相关联的简档的参数相比较。如果该比较指示了计算出的当前文档获取参数和简档的一个或多个参数之间的差异,则可以生成警告。为了调整与从文档提供者所获取的文档相关的改变(例如,获取频率下降、平均文档大小增大,等等),可以将文档提供者分组至新的提供者群集。例如,具有上升到预定阈值以上的警告频率的文档提供者可以被分组至具有与文档提供者的当前获取数据类似的简档的不同的提供者群集中。此外,例如,可以基于提供者群集中具有上升到预定阈值以上的警告频率的一个或多个文档提供者来对提供者群集的简档进行更新。在一个示例中,平均值和/或标准差可被用于重新群集(和/或群集)。例如,可以为部分或全部提供者的部分或全部参数来计算平均值和/或标准差。例如,具有落入一群集或另一群集的平均值的 2个标准差内的一个或多个参数的平均值的提供者可以被分组在一起。在一个示例中,警告可以指示文档提供者响应于当前文档获取操作正在向web爬行器返回垃圾网页(不合需要的文档),因为文档提供者的带宽正在被web爬行器过度消耗。以此方式,如果文档提供者的警告频率上升至预定阈值以上,则可以对执行对该文档提供者的当前文档获取操作的频率进行扼流(例如,可以较不频繁地执行当前文档获取操作)。在110处,该方法结束。将当前文档获取参数与简档的参数进行比较的一个实施例由图2中的示例性方法200示出。在202处,该方法开始。在204处,可以对一文档提供者执行当前文档获取操作以获取文档。当前文档获取操作可以和包括当前文档获取参数的当前文档获取数据相关联。在206处,可以将当前文档获取操作的当前文档获取参数和与包括该文档提供者的提供者群集相关联的简档的参数进行比较。在208处,如果该比较指示了当前文档获取参数和简档的一个或多个参数之间的差异,则可以生成警告。例如,可以在电子邮件内将警告发送至一个体,该个体可以手动检查文档提供者以确定垃圾页面和/或维护页面是否被返回为文档,垃圾页面和/或维护页面用作搜索结果是不合需要的。在210处,该方法结束。图3示出了被配置成将文档提供者分组至包括简档的提供者群集308中的系统 300的示例。系统300可以包括提供者群集组件304、简档指定组件306、比较组件322和/ 或扼流组件332。提供者群集组件304可被配置为取得一个或多个文档提供则会的文档获取数据302(例如,文档提供者(1)的文档获取数据,文档提供者( 的文档获取数据)。文档提供者的文档获取数据可包括对应于与文档提供者相关联的文档获取操作的一个或多个文档获取参数。例如,文档提供者(1)的文档获取数据(例如,历史数据)可以包括与对文档提供者(1)的针对比如文章、图像和/或其他内容之类的文档的50个先前的文档获取操作相关的信息。相应的文档获取操作可以包括文档获取参数,例如由文档提供者返回了多大的文档、文档提供者是否重定向了 web爬行器,等等。以此方式,文档获取数据可以被用于确定具有类似属性的文档提供者组(例如,历史上返回具有从Imb至3mb的大小范围的文档的文档提供者组)。 提供者群集组件304可被配置来基于文档获取数据302将文档提供者分组至提供者群集308中。例如,文档提供者O)、文档提供者(4)和文档提供者(1)可以被分组至提供者群集(1),因为相应的文档提供者具有至少一些相似的文档获取数据(例如,文档提供者的文档获取频率在一小时20次至30次获取之间,而且提供者群集(1)310具有20至30 的文档获取频率类别)。文档提供者(7)、文档提供者( 和文档提供者(9)可以被分组至提供者群集(N),因为相应的文档提供者具有至少一些相似的文档获取数据(例如,文档提供者的文档获取频率在一小时31次至50次获取之间,而且提供者群集(N)具有31至50 的文档获取频率类别)。 简档指定组件306可以被配置来基于提供者群集308中的文档提供者的文档获取参数为提供者群集指定简档。例如,简档指定组件306可以指定简档312,简档312具有从文档提供者(2)、文档提供者(4)和文档提供者(1)的文档获取参数导出的参数。简档指定组件306可以指定简档318,简档318具有从文档提供者(7)、文档提供者( 和文档提供者(9)的文档获取参数导出的参数。以此方式,提供者群集的简档可以指示当对文档提供者执行文档获取操作时相应的文档提供者历史上所展示的“预期”文档获取参数。可以理解的是,简档可以包括对应于文档大小参数、http状态码频率参数、mime类型参数、重定向率和/或与文档提供者相关的各种其他参数。
比较组件322可以被配置为对文档提供者(例如,文档提供者(7))执行当前文档获取操作324以获取文档(例如,比较组件322可以调用web爬行器来从网页获取文章)。 当前文档获取操作3M可以和包括当前文档获取参数的当前文档获取数据相关联,在一个示例中当前文档获取参数可以包括在获取数据302内。比较组件322可以被配置为将当前文档获取操作324的当前文档获取参数和与包括该文档提供者的提供者群集相关联的简档的参数进行比较(比较328)。例如,当前文档获取参数可以和包括文档提供者(7)的提供者群集(N)316的简档318的参数来比较。如果该比较指示了当前文档获取参数和简档 318的一个或多个参数之间的差异,则可以生成警告(警告330)。在一个示例中,该比较可以在包括当前文档获取操作324的web爬行会话期间实时执行。在另一示例中,该比较可以离线执行。比较组件322可以被配置为在比较进行之前执行多个当前文档获取操作。具体地,比较组件322可以被配置为对文档提供者(例如,文档提供者(7)326)执行多个当前文档获取操作以生成计算出的当前文档获取参数(例如,文档获取参数的平均值和/或标准差)。比较组件322可以将与文档提供者(7)3 相关联的计算出的当前文档获取参数和与包括文档提供者(7)的提供者群集(N)316相关联的简档318的参数进行比较。如果该比较指示了当前文档获取参数和简档318的一个或多个参数之间的差异,则可以生成警告 (警告330)。简档指定组件306可以被配置为基于文档提供者的警告频率上升至预定阈值以上来将文档提供者重新分组至新的提供者群集中。例如,可能会出现关于文档提供者(4) 的大量的警告,因为文档提供者(4) 一致地返回具有大于简档312内的可接受的文档大小值(例如,文档大小参数在Imb和2mb之间)的文档大小(例如,当前文档获取参数具有 4mb的大小)的文档。以此方式,简档指定组件306可以将文档提供者(4)重新分组至具有文档大小参数更接近4mb的简档的提供者群集中。简档指定组件306可以被配置为基于提供者群集中具有上升到预定阈值以上的警告频率的一个或多个文档提供者来对提供者群集的简档进行更新。例如,提供者群集 (1)310中的文档提供者( 和文档提供者(1)可以具有关于对相应的文档提供者的当前文档获取操作而出现的大量的警告。简档指定组件306可以通过调节一个或多个参数来反映相应的文档提供者的当前文档获取参数。扼流组件332可以被配置为基于文档提供者的警告频率上升到预定阈值以上来对执行对文档提供者的当前文档获取操作的频率进行扼流。例如,大量的警告可能关于文档提供者( 而出现。该警告可以是文档提供者(5)正在返回垃圾页面的指示,因为文档提供者(5)已确定比较组件332执行当前文档获取操作太频繁。由此,扼流组件332可以减小对文档提供者( 执行的当前文档获取操作的频率。图4示出了一个或多个文档提供者401的文档获取数据的示例400。文档获取数据可以和对文档提供者的普通或预期文档获取操作期间生成的文档获取参数相关。具体地, 文档获取数据可以包括公知的或表现良好的文档提供者(例如,在文档获取操作期间一致地返回所需要的文档而非返回垃圾页面的文档提供者)的文档获取参数。在一个示例中,一个或多个文档提供者402的文档获取数据可以包括文档提供者 (1)404(新闻网站)的文档获取数据、文档提供者(幻422(汽车试驾评论网站)的文档获取数据和/或其他文档提供者(几百到几千或更多的文档提供者)的文档获取数据。文档提供者(1)404的文档获取数据可以包括与文档获取操作相关联的文档获取参数(例如,与几百至几千个先前的文档获取操作相关联的参数)。例如,先前的文档获取操作(1)406已被执行以从文档提供者(1)(新闻网站)获取当前的体育比分。一个或多个文档获取参数已经与先前的文档获取操作(1)406相关联。例如,包括文档大小为1501Λ的文档获取参数 (1)408、包括http状态码为302的文档获取参数(幻410、包括重定向为是(yes)的文档获取参数(3)412和/或其他文档获取参数可以和先前的文档获取操作(1)406相关联。可以理解的是,文档获取操作的整数值(N)可以和文档提供者(1)404(新闻网站) 的文档获取数据相关联。例如,先前的文档获取操作(N)414已被执行以从文档提供者(1) (新闻网站)获取名人绯闻图像。一个或多个文档获取参数已经与先前的文档获取操作 (N)414相关联。例如,包括文档大小为3001Λ的文档获取参数(1)416、包括http状态码为无的文档获取参数(幻418、包括重定向为否(no)的文档获取参数(3)420和/或其他文档获取参数可以和先前的文档获取操作(N)414相关联。一个或多个文档提供者402的文档获取数据可以包括其他文档提供者的文档获取数据,例如文档提供者(幻422(汽车试驾评论网站)的文档获取数据。文档提供者0)422 的文档获取数据可以包括与一个或多个文档获取操作相关联的文档获取参数。例如,先前的文档获取操作(1)4 已被执行以从文档提供者O)(汽车试驾评论网站)获取当前的汽车试驾文章。先前的文档获取操作(1)4 可以包括一个或多个文档获取参数。可以理解的是,具有一个或多个文档获取参数的文档获取操作的整数值(N)可以和文档提供者0)422 的文档获取数据相关联。图5示出了具有简档5 的提供者群集的示例500。可以理解的是,文档提供者可以基于文档获取数据(例如,图4中的一个或多个文档提供者402的文档获取数据)被分组至提供者群集中。可以基于提供者群集中的文档提供者的文档获取参数将简档分配给相应的提供者群集。简档可以包括用作参考点的参数,将该参考点与当前文档获取操作的当前文档获取参数相比较以确定文档提供者是否正在返回所需要的文档。提供者群集(1)502可以包括分组在提供者群集(1)502中的一个或多个文档提供者。在一个示例中,文档提供者( 506(汽车试驾评论网站)、文档提供者(4)516(游戏评论网站)、文档提供者(1)522(新闻网站)和/或其他文档提供者可以被分组至提供者群集 (1)502中。例如,文档提供者(2) 506、文档提供者(4)、文档提供者(1)和/或其他文档提供者已经被分组至提供者群集(1)502中,因为相应的文档提供者具有在每小时30次之60 次获取之间的文档获取频率,其对应于每小时30次之60次获取的文档获取频率类别504。基于提供者群集(1)502中的文档提供者的文档获取数据,简档5 可以被指定给提供者群集(1)502。例如,文档提供者0)506的文档获取数据508可以包括文档获取参数 (例如,平均文档大小参数510、http状态码频率参数512、mime类型参数514,等等)。文档提供者(4)的文档获取数据518可以包括文档获取参数(例如,文档大小参数520等)。文档提供者(1)的文档获取数据5M可以包括文档获取参数(例如,文档大小参数5 等)。 示例500中所示出的文档获取参数可以是一个或多个文档获取操作的文档获取参数的“组合概要”(例如,平均大小值、http状态码的出现频率、重定向率,等等)。简档5 可以包括从提供者群集(1)502中的文档提供者的文档获取参数导出的参数。例如,可以从文档提供者0)506的文档大小参数510、文档提供者0)516的文档大小参数520、文档提供者522的文档大小参数5 和/或提供者群集(1)中的其他文档提供者的其他文档大小提供者来导出951Λ至3001Λ的文档大小参数530。简档518可以包括其他参数,例如http状态码频率参数。以此方式,简档5 可以包括这样的参数,将该参数与对提供者群集(1)502中的文档提供者的后续文档获取操作的参数进行比较以在出现差异时生成警告,使得非需要的文档不会被web爬行器保留和/或提供为搜索结果。图6示出了将当前文档获取参数与简档618的参数进行比较的比较组件602的示例600。具体地,比较组件602可以执行当前文档获取操作604来从咖啡订购网站606获取关于咖啡定价的文档(例如,比较组件602可以调用web爬行器来取得该文档)。响应于当前文档获取操作604,咖啡订购网站606可以返回数据(例如,所需要的文档、出错消息、 非需要的文档——垃圾页面、无响应,等等)。包括当前文档获取参数的当前文档获取数据 608可以从已返回的数据和/或当前文档获取操作604来确定(例如,当前文档获取参数可以从http首部数据来提取)。例如,当前文档获取数据608可以包括具有2001Λ文档大小参数的当前文档获取参数624。可以理解的是,提供者群集(5)610可以包括一个或多个文档提供者(例如,咖啡订购网站612、服装网站614、汽车制造商网站616,等等),以及包括从提供者群集(5)610 中的文档提供者的文档获取参数导出的参数的简档618。比较组件602可以将与当前文档获取操作604相关联的当前文档获取参数(例如,当前文档获取参数624)与同包括咖啡订购网站612的提供者集群(5) 610相关联的简档618的参数(例如,文档大小参数620、http 状态码频率参数622,等等)进行比较。例如,可以将具有2001Λ文档大小参数的当前文档获取参数拟4和简档618中的文档大小参数620进行比较。比较组件602可以确定在当前文档获取参数6M和文档大小参数520之间没有差异,因为2001Λ落入951Λ到3001Λ的范围内。因而,关于文档大小,由咖啡订购网站606所返回的文档可以在预期值的范围以内。 可以理解的是,可以将其他当前文档获取参数与简档618的其他参数进行比较。图7示出了比较组件702基于当前文档获取参数7 与简档718的参数的比较来生成警告724的示例700。比较组件702可以执行当前文档获取操作704以从服装网站 706获取关于服装图像的文档。服装网站706可以返回数据,例如文档。包括当前文档获取参数的当前文档获取数据708可以从已返回的数据和/或当前文档获取操作704来确定。 例如,可以在当前文档获取数据708内来确定具有151Λ文档大小参数的当前文档获取参数 726。可以理解的是,提供者群集(5)710可以包括一个或多个文档提供者(例如,咖啡订购网站、服装网站714、汽车制造商网站,等等),以及包括从提供者群集(5)710中的文档提供者的文档获取参数导出的参数的简档718。比较组件702可以将与当前文档获取操作 704相关联的当前文档获取参数和与包括服装网站714的提供者集群( 710相关联的简档718的参数(例如,文档大小参数720、http状态码频率参数722,等等)进行比较。例如,可以将具有151Λ文档大小参数的当前文档获取参数7 和简档718中的文档大小参数 720进行比较。警告7M可以基于相应的参数之间的差异来生成,因为151Λ文档大小并不在“预期的”951Λ至3001Λ文档大小范围以内。可以基于警告7 采取进一步动作。在一个示例中,服装网站706可以被手动评估以确定服装网站706是否正在返回不合需要的文档。在另一示例中,可以将关于服装图像的文档从搜索引擎将来的搜索结果中排除,服装网站可以被重新分组至不同的群集中和 /或更新群集的简档,等等。再一实施例涉及包括被配置成实现此处所呈现的技术中的一种或多种的处理器可执行指令的计算机可读介质。可以用这些方式设计的一种示例性计算机可读介质在图8 中示出,其中实现800包括其上编码有计算机可读数据814的计算机可读介质816(例如, ⑶-R、DVD-R、或硬盘驱动器盘片)。该计算机可读数据814进而包括被配置成根据此处阐述的原理中的一个或多个来操作的一组计算机指令812。在一个这样的实施例800中,处理器可执行计算机指令812可被配置成执行方法810,诸如例如,图1的示例性方法100和 /或图2的示例性方法200。在另一个这样的实施例中,处理器可执行指令812可被配置成实现一种系统,诸如例如,图3的示例性系统300。本领域普通技术人员可以设计可被配置成根据此处描述的技术操作的许多这样的计算机可读介质。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。如在本申请中所使用的,术语“组件”、“模块”、“系统”、“接口 ”等等一般旨在表示计算机相关的实体,其可以是硬件、硬件和软件的组合、软件、或运行中的软件。例如,组件可以是,但不限于是,在处理器上运行的进程、处理器、对象、可执行码、执行的线程、程序和 /或计算机。作为说明,运行在控制器上的应用程序和控制器都可以是组件。一个或多个组件可以驻留在进程和/或执行线程中,并且组件可以位于一个计算机内和/或分布在两个或更多的计算机之间。此外,所要求保护的主题可以使用产生控制计算机以实现所公开的主题的软件、 固件、硬件或其任意组合的标准编程和/或工程技术而被实现为方法、装置或制品。如这里所使用的术语“制品”可以包含可以从任何计算机可读的设备、载体或介质进行访问的计算机程序。当然,本领域的技术人员将会认识到,在不背离所要求保护的主题的范围或精神的前提下可以对这一配置进行许多修改。图9以及下面的讨论提供了用于实现这里所阐述的供应中的一个或多个的实施方式的合适计算环境的简要概括描述。图9的操作环境只是合适的操作环境的一个示例, 并且不旨在对操作环境的使用范围或功能提出任何限制。示例计算设备包括,但不限于,个人计算机、服务器计算机、手提式或膝上型设备、移动设备(诸如移动电话、个人数字助理 (PDA)、媒体播放器等等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上面的系统或设备的中的任何一种的分布式计算环境等等。尽管并非必需,但各实施例在由一个或多个计算设备执行的“计算机可读指令”的一般上下文中描述。计算机可读指令可以通过计算机可读介质来分发(下面将讨论)。计算机可读指令可被实现为执行特定任务或实现特定抽象数据类型的程序模块,诸如函数、 对象、应用程序编程接口(API)、数据结构等等。通常,计算机可读指令的功能可按需在各个环境中组合或分布。图9示出了包括被配置成实现此处所提供的一个或多个实施例的计算设备910的系统912的示例。在一种配置中,计算设备912包括至少一个处理单元916和存储器918。取决于计算设备的确切配置和类型,存储器918可以是易失性的(如RAM)、非易失性的(如 ROM、闪存等)或是两者的某种组合。该配置在图9中由虚线914来例示。在其它实施例中,设备912可以包括附加特征和/或功能。例如,设备912还可以包括附加存储(例如,可移动和/或不可移动),其中包括但不限于磁存储、光存储等等。这样的附加存储在图9中由存储920示出。在一个实施例中,用于实现此处所提供的一个或多个实施例的计算机可读指令可以在存储920中。存储920还可以储存实现操作系统、应用程序等的其它计算机可读指令。可以在存储器918中加载计算机可读指令以供例如处理单元916执行。此处所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。存储器918和存储920都是计算机存储介质的示例。计算机存储介质包括,但不限于,RAM、R0M、EEPR0M、闪存或其他存储技术,CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或可以用来存储所需信息并可以被计算设备912访问的任何其他介质。任何这样的计算机存储介质可以是设备912的一部分。设备912还可以包括允许设备912与其他设备进行通信的通信连接926。通信连接拟6可以包括,但不限于,调制解调器、网络接口卡(NIC)、集成网络接口、射频发射机/接收机、红外线端口、USB连接,或用于将计算设备912连接到其他计算设备的其他接口。通信连接拟6可以包括有线连接或无线连接。通信连接拟6可以发送和/或接收通信介质。术语“计算机可读介质”可以包括通信介质。通信介质通常以诸如载波或其他传输机制等“已调制数据信号”来体现计算机可读指令或其他数据,并包括任何信息传送介质。 术语“已调制数据信号”可以包括以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。设备912可以包括输入设备924,诸如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外照相机、视频输入设备、和/或任何其他输入设备。设备922还可以包括输出设备 912,诸如一个或多个显示器、扬声器、打印机、和/或任何其他输出设备。输入设备拟4和输出设备922可以通过有线连接、无线连接、或其任何组合来连接到设备912。在一个实施方式中,可以使用来自另一计算设备的输入设备或输出设备作为计算设备924的输入设备 922或输出设备912。计算设备912的组件可通过多种互连来连接,例如总线。这样的互连可以包括诸如PCIExpress之类的外围部件互连(PCI)、通用串行总线(USB)、火线(IEEE1384)、光学总线结构等等。在另一实施方式中,计算设备912的组件可以通过网络互连。例如,存储器 918可以包括位于通过网络互连的不同物理位置的多个物理存储器单元。本领域的技术人员将认识到,用来存储计算机可读指令的存储设备可以分布在网络上。例如,可以通过网络930访问的计算设备拟8可以储存实现此处所提供的一个或多个实施例的计算机可读指令。计算设备912可以访问计算设备930,并下载计算机可读指令的一部分或全部以便执行。或者,计算设备912可以根据需要下载计算机可读指令的一部分,或者一些指令可以在计算设备912上执行而一些指令则在计算设备930上执行。这里提供了实施方式的各种操作。在一个实施方式中,所描述的操作中的一个或多个可以组成存储在一个或多个计算机可读介质上的计算机可读指令,这些指令如果由计算设备执行则使得计算设备执行所描述的操作。描述一些或所有操作的顺序不应该被解释为暗示这些操作一定是依赖于顺序的。从本说明书获益的本领域技术人员将认识到替换顺序。此外,应该理解,并非所有的操作都一定存在于这里所提供的每一个实施方式中。此外,在此使用词语“示例性”意指用作示例、实例或说明。这里作为“示例性”所描述的任何方面或设计不必被解释为有利于其他方面或设计。相反,使用词语“示例性”旨在以具体的方式呈现各个概念。如本申请中所使用的,术语“或”意指包括性“或”而非互斥性“或”。即,除非另有指定或从上下文可以清楚,“X使用A或B”意指任何自然的包括性排列。即,如果X使用A ;X使用B^X使用A和B两者,则在任何以上情况下,都满足“X使用A或B”。此外,本申请中和所附权利要求书所使用的冠词“一”和“一个” 一般可以解释为“一个或多个”,除非另有指定或从上下文可以清楚是指单数形式。同样,虽然参考一个或多个实现示出并描述了本发明,但本领域技术人员基于对本说明书和附图阅读和理解,可以想到各种等效更改和修改。本发明包括所有这样的修改和更改,并且仅由所附权利要求书的范围来限定。特别地,对于由上述组件(例如,元素、资源等)执行的各种功能,除非另外指明,否则用于描述这些组件的术语旨在对应于执行所描述的执行此处在本发明的示例性实现中所示的功能的组件的指定功能(例如,功能上等效)的任何组件,即使这些组件在结构上不等效于所公开的结构。此外,尽管可相对于若干实现中的仅一个实现来公开本发明的一个特定特征,但这一特征可以如对任何给定或特定应用所需且有利地与其他实现的一个或多个其他特征相组合。此外,就在“具体实施方式
” 或者权利要求书中使用术语“包括”、“具有”、“带有”或其变体而言,这些术语旨在以与术语 “包括”相似的方式为包含性的。
权利要求
1.一种用于将文档提供者分组至包括简档的提供者群集中的方法(100),包括 接收104 —个或多个文档提供者的文档获取数据,所述文档提供者的文档获取数据包括对应于与所述文档提供者相关联的文档获取操作的一个或多个文档获取参数; 基于所述文档获取数据将所述文档提供者分组106至提供者群集中;以及对于相应的提供者群集,基于所述提供者集群中的文档提供者的文档获取参数给所述提供者集群指定108简档,所述简档包括对应于文档大小参数、http状态码频率参数、mime 类型参数和重定向率参数中的至少一个的一个或多个参数。
2.如权利要求1所述的方法,其特征在于,对所述文档提供者进行分组包括 将具有对应于所述提供者群集的文档获取频率类别的文档获取频率的一个或多个文档提供者置于一提供者群集中。
3.如权利要求1所述的方法,其特征在于,所述接收所述文档获取数据包括 基于与对所述文档提供者的文档获取操作相关联的一个或多个http首部确定所述文档提供者的文档获取参数。
4.如权利要求1所述的方法,其特征在于,包括对文档提供者执行当前文档获取操作以获取文档,所述当前文档获取操作与包括当前文档获取参数的当前文档获取数据相关联;将所述当前文档获取操作的当前文档获取参数与同包括所述文档提供者的提供者群集相关联的简档的参数进行比较;以及如果所述比较指示所述当前文档获取参数和所述简档的一个或多个参数之间的差异, 则生成警告。
5.如权利要求1所述的方法,其特征在于,包括对文档提供者执行多个当前文档获取操作以生成计算出的当前文档获取参数; 将与所述文档提供者相关联的计算出的当前文档获取参数与同包括所述文档提供者的提供者群集相关联的简档的参数进行比较;以及如果所述比较指示所述计算出的当前文档获取参数和所述简档的一个或多个参数之间的差异,则生成警告。
6.如权利要求5所述的方法,其特征在于,所述计算出的当前文档获取参数包括当前文档获取参数的计算出的平均值和所述当前文档获取参数的计算出的标准差。
7.如权利要求5所述的方法,其特征在于,包括基于文档提供者的警告频率上升至预定阈值以上,将所述文档提供者重新分组至新的提供者群集中。
8.如权利要求5所述的方法,其特征在于,包括基于提供者群集中具有上升至预定阈值以上的警告频率的文档提供者,更新所述提供者集群的简档。
9.一种用于将文档提供者分组至包括简档的提供者群集中的系统(300),包括 提供者群集组件(304),其被配置成取得一个或多个文档提供者的文档获取数据,所述文档提供者的文档获取数据包括对应于与所述文档提供者相关联的文档获取操作的一个或多个文档获取参数;以及基于所述文档获取数据将所述文档提供者分组至提供者群集中;以及 2简档指定组件306,其被配置成基于提供者集群中的文档提供者的文档获取参数给提供者集群指定简档,所述简档包括对应于文档大小参数、http状态码频率参数、mime类型参数和重定向率参数中的至少一个的一个或多个参数。
10.如权利要求9所述的系统,其特征在于,包括比较组件,其被配置成对文档提供者执行当前文档获取操作以获取文档,所述当前文档获取操作与包括当前文档获取参数的当前文档获取数据相关联;将所述当前文档获取操作的当前文档获取参数与同包括所述文档提供者的提供者群集相关联的简档的参数进行比较;以及如果所述比较指示所述当前文档获取参数和所述简档的一个或多个参数之间的差异, 则生成警告。
11.如权利要求10所述的系统,其特征在于,所述比较组件被配置成对文档提供者执行多个当前文档获取操作以生成计算出的当前文档获取参数;将与所述文档提供者相关联的计算出的当前文档获取参数与同包括所述文档提供者的提供者群集相关联的简档的参数进行比较;以及如果所述比较指示所述计算出的当前文档获取参数和所述简档的一个或多个参数之间的差异,则生成警告。
12.如权利要求9所述的系统,其特征在于,所述提供者群集组件被配置成将具有对应于提供者群集的文档获取频率类别的文档获取频率的一个或多个文档提供者置于所述提供者群集中。
13.如权利要求10所述的系统,其特征在于,所述简档指定组件被配置成基于文档提供者的警告频率上升至预定阈值以上,将所述文档提供者重新分组至新的提供者群集中。
14.如权利要求10所述的系统,其特征在于,所述简档指定组件被配置成基于提供者群集中具有上升至预定阈值以上的警告频率的文档提供者,更新所述提供者集群的简档。
15.如权利要求10所述的系统,其特征在于,包括扼流组件,其被配置成基于文档提供者的警告频率上升至预定阈值以上,对执行对所述文档提供者的当前文档获取操作的频率进行扼流。
全文摘要
搜索引擎可以利用web爬行器来发现可作为搜索结果被提供给用户的合乎需要的内容。不幸的是,诸如网站之类的文档提供者可能返回垃圾网页和/或维护网页作为文档结果,搜索引擎提供这些网页作为搜索结果可能是不合需要的。因此,可以将文档提供者分组至提供者群集中。简档可以被分配给提供者群集,其中简档可以包括表示历史上从对提供者群集中的文档提供者的普通文档获取操作返回的“预期”参数的参数。可以将包括文档提供者的提供者群集的简档的参数与当前文档获取操作的当前文档获取参数进行比较。如果简档的参数和当前文档获取参数不匹配,则可以生成警告。
文档编号G06F17/30GK102289456SQ20111017264
公开日2011年12月21日 申请日期2011年6月16日 优先权日2010年6月17日
发明者B·B·希亚姆库玛, H·维尔马, P·萨尼 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1