Url信誉系统的制作方法

文档序号:6359421阅读:329来源:国知局
专利名称:Url信誉系统的制作方法
URL信誉系统
背景技术
网站和其 他网络资源可具有与其相关联的各种威胁。例如,某些网站可能具有恶意软件、广告软件、病毒、或可感染计算机系统的其他有害组件。其他网络资源可能具有色情、广告、或可能不适于特定网络(例如家庭网络或商业网络)的其他信息。网站的内容分类可被称为该站点的信誉。信誉可包括可用于在某些情况中阻止访问的分类,诸如色情或赌博站点。其他信誉可具有可使安全连接或受信操作能够被执行的良好的信誉。在某些情况下,网站可具有多种特征或分类。例如,具有社交网络内容的网站可具有包含不想要的内容的一些页面,而其他页面可能具有所期望的内容。另一个网站可具有专用于显式内容的一部分范围,而该网站的其他部分可能没有这些内容。

发明内容
URL信誉系统可具有信誉服务器和带有信誉信息的高速缓存的客户端设备。从客户端到服务器的URL信誉查询可以返回信誉数据以及所请求的URL的若干变型的概率集合成员资格信息。客户端可使用该概率集合成员资格信息来确定信誉服务器是否具有另一个相关URL的附加信息、以及分类是否是可从变型之一继承的。如果概率集合成员资格信息确定信誉服务器可具有附加信息,则可对信誉服务器进行查询,否则可从存储在高速缓存中的数据推断信誉。提供本发明内容以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。


在附图中图I是示出客户端/服务器信誉系统可在其中操作的网络环境的实施例的图示。图2是具有分类的域分层结构的示例实施例的示例的图示。图3是示出用于处理信誉客户端的URL信誉请求的方法的实施例的流程图。图4是示出用于分析类别数据的方法的实施例的流程图。图5是示出用于查找请求的变型的方法的实施例的流程图。
具体实施例方式URL信誉系统可使用概率集合成员资格机制在客户端设备上构建稀疏地填充的数据库。该数据库可用于确定URL信誉,或确定信誉服务器是否具有关于特定URL的附加信肩、OURL信誉系统可将数据传送到客户端设备,使得该客户端设备可能够确定对信誉服务器的另一个查询是否可能是有益的。如果该查询将不是有益的,则客户端设备可以使用已经接收到的数据来确定URL信誉。概率集合成员资格算法可用于标识信誉服务器可具有其信息的URL。信誉服务器可以发送概率集合成员资格密钥和不同URL变型的继承属性,使得客户端可以确定另一个查询是否将产生有益的结果以及在信誉服务器不具有附加信息时如何确定信誉。URL信誉系统可将客户端设备对信誉服务器的查询最小化。在某些情形中,概率集合成员资格算法可在信誉服务器实际上没有数据时指示其具有该数据。这可导致返回无结果的某些查询。然而,该概率集合成员资格算法通常将不会在信誉服务器实际上具有信息时指示其不具有该信息。这个设计可以确保客户端设备生成具有信誉服务器上可用的数据的准确结果。在本说明书全文中,在对附图的整个描述中,相同的附图标记表示相同的元素。
当元素被称为被“连接”或“耦合”时,这些元素可被直接连接或耦合在一起,或者也可存在一个或多个中间元素。相反,当元素被称为被“直接连接”或“直接耦合”时,不存在中间元素。本主题可体现为设备、系统、方法、和/或计算机程序产品。因此,本发明的部分或全部能以硬件和/或软件(包括固件、常驻软件、微码、状态机、门阵列等)来具体化。此外,本发明可以采用其上包含有供指令执行系统使用或结合其使用的计算机可使用或计算机可读程序代码的计算机可使用或计算机可读存储介质上的计算机程序产品的形式。在本文献的上下文中,计算机可使用或计算机可读介质可以是可包含、储存、通信、传播、或传输程序以供指令执行系统、装置或设备使用或结合其使用的任何介质。计算机可使用或计算机可读介质可以是,例如,但不限于,电、磁、光、电磁、红外、或半导体系统、装置、设备或传播介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息的任意方法或技术来实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPR0M、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD )或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由指令执行系统访问的任何其他介质。注意,计算机可使用或计算机可读介质可以是其上打印有程序的纸张或其他合适的介质,因为程序可经由例如对纸张或其他合适的介质的光学扫描来电子地捕获,随后如有必要被编译、解释,或以其他合适的方式处理,并且随后储存在计算机存储器中。通信介质通常以诸如载波或其他传输机构之类的已调制数据信号来具体化计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传送介质。术语“已调制数据信号”可被定义为其一个或多个特性以对信号中的信息编码的方式设置或改变的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。上述的任何组合也应包含在计算机可读介质的范围内。当本主题在计算机可执行指令的一般上下文中具体化时,该实施例可包括由一个或多个系统、计算机、或其他设备执行的程序模块。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。通常,程序模块的功能可在各个实施例中按需进行组合或分布。图I是示出用于URL信誉的系统的实施例100的图示。实施例100是可使用信誉高速缓存数据库的系统的简化示例,该数据库包含概率集合成员资格指示符和各个URL的继承属性,这可将对信誉服务器的呼叫最小化。图I的图示出了系统的功能组件。在一些情况下,这些组件可以是硬件组件、软件组件、或者硬件和软件的组合。一些组件可以是应用级软件,而其他组件可以是操作系统级组件。在一些情况下,一个组件到另一组件的连接可以是紧密连接,其中两个或更多个组件在单个硬件平台上操作。在其他情况下,连接可通过跨长距离的网络连接来进行。每个实施例都可使用不同的硬件、软件、以及互连架构来实现所描述的功能。实施例100是客户端和可提供URL信誉服务的服务器系统的示例。服务器可维护URL信誉的大型数据库,并且客户端可以请求特定URL的信誉。客户端可以维护可包括信息的经高速缓存的信誉数据库,客户端可从该信息确定服务器是否具有关于特定URL的信 肩、OURL信誉服务可以确定给定URL的分类。该分类可由应用用来以特定的方式处理特定的URL或其他函数。在一个简单的示例中,URL信誉服务可用于对浏览器应用可请求的网页进行分类。策略集合可基于URL分类来许可或拒绝访问某些URL。该策略集合可由网络管理员来定义。例如,可以拒绝访问具有色情分类的URL,而可以许可访问具有购物分类的URL。URL信誉服务可具有很多不同的使用场景。URL信誉服务可被用作防火墙或网关设备的一部分以许可或拒绝访问受控环境(诸如,家庭或企业网络)内部的某些URL,或者作为例如台式计算机的内容监视系统的一部分。防火墙或网关可以监视恶意软件、不想要的内容、网络钓鱼网站、或其他不适当的内容的URL。另一个使用场景可以是跟踪或监视单独的应用或用户的因特网访问。还有,另一个使用场景可以是允许对URL的不同级别的访问。例如,某些受信站点可被许可具有低级别限制的经认证的连接,而其他恶意站点可被许可具有高级别限制的连接。URL信誉服务可由不同的应用以很多不同的方式来使用。在某些实施例中,URL信誉客户端可为那些应用提供服务。例如,URL信誉客户端可在用户的台式计算机上操作,并提供可与防火墙应用、web浏览器或其他应用集成的URL信誉服务。在另一个示例中,局域网中的服务器可以为该局域网中的各种客户端设备提供URL信誉服务。在这个示例中,相对于可位于因特网上的URL信誉服务器,局域网服务器可以担当URL信誉客户端。服务器可以传送概率集合成员资格信息以及URL分类。该概率集合成员资格信息可由客户端用来确定服务器是否具有关于特定URL的信息。当从经高速缓存的信誉数据库中搜索关于特定URL的信息时,客户端可以评估概率集合成员资格信息以确定服务器是否具有关于特定URL的信息。若是,则该客户端可从服务器请求信息。若否,则该客户端可通过确定哪些属性是从在经高速缓存的数据库中分类的其他URL继承的来推断URL分类。具有概率集合成员资格信息的经高速缓存的数据库可将对服务器的查询最小化,允许服务器为更多个客户端提供服务。这种系统可使得以较低的成本提供URL信誉服务,并且可使得在各种各样的应用中使用URL信誉服务。经高速缓存的数据库可以是存储URL信誉数据的高效机制,因为可以存储非常少量的数据来表示非常大量的知识。URL的很多分类可以基于URL路径或主机被继承,并且如果信誉服务器不包含特定URL的数据,则分类可从其他相关的URL继承到特定的URL。概率集合成员资格机制可以是布隆过滤器或其他类似的机制。布隆过滤器可通过取一个值的一个或多个散列值并将那些散列值表示为布隆阵列中的位来形成。值集的每个成员可被类似地散列并被添加到布隆阵列。为了确定是否一个值被表示在布隆阵列中,可对该值进行散列并与布隆阵列进行比较。如果布隆阵列包含该经散列的值,则该值可能已被包含在该集合中。如果布隆阵列不包含该经散列的值,则该值不被包含在该集合中。布隆阵列可被认为是信誉客户端使用的一个概率集合成员资格密钥。布隆过滤器可用于通过对URL集合中的每个URL进行散列并从结果创建布隆阵列来表示URL数据库中的URL。布隆阵列可以表示URL集合,并且可由客户端用来确定特定的URL是否可能存在于该集合中。
布隆过滤器是可用于URL信誉数据库的一种概率集合成员资格机制。其他实施例可使用不同的概率集合成员资格机制。一般而言,概率集合成员资格机制可由为URL树的一个或多个节点提供概率集合成员资格密钥的服务器来操作。客户端可以评估概率集合成员资格密钥以判定URL是否可在服务器上可用,并且可以使用该判定来查询服务器。在很多实施例中,概率集合成员资格机制可导致错误的正结果,但不会是错误的负结果。错误的正结果可能是当URL实际上不在URL集合中时发现该URL在该URL集合中。错误的负结果可能是当URL实际上在URL集合中时发现该URL不在该URL集合中。很多URL信誉服务可具有URL的多个分类。在某些情形中,可为URL定义十个、二十个、或甚至更多个分类。该分类可以是任何类型的分类,并可包括类别的各种程度。例如,系统可被配置为具有色情分类,并且还用不同的子分类来定义色情,诸如,稍有色情、极端色情等。每个实施例可以具有不同的分类模式。很多URL信誉服务可具有给定URL的多个分类或类别。例如,单个URL可被分类为色情、网络钓鱼、恶意软件、以及众多其他分类。设备102可提供作为URL信誉客户端来运行的监视服务。设备102可以具有各种硬件组件104和软件组件106,并且可以表示常规的计算设备。在某些实施例中,设备102可以是服务器计算机、台式计算机、游戏控制台、网络设备、或其他类似的设备。在其他实施例中,设备102可以是便携式计算设备,例如膝上型计算机、上网本、个人数字助理、蜂窝电话,或其他这种设备。设备102的体系结构可以表示典型的计算设备,但其他设备可具有不同的组件并可不同地实现某些组件例如,某些设备可将某些硬件组件作为软件组件来实现,反之亦然。硬件组件104可包括可与随机存取存储器110和非易失性存储112连接的处理器108。硬件组件104还可以包括网络接口 114和用户接口 116。软件组件106可包括操作系统118,若干应用和服务可在该操作系统118上执行。监视服务120可以截取来自web浏览器122或各种应用124的各种URL请求,并且可基于来自URL信誉客户端121的输入来应用各种策略123。监视服务120可基于策略123来许可或拒绝访问URL。在某些情形中,web浏览器122或应用124可以基于监视服务120提供的URL信誉以不同的方式来处理URL。设备102的配置只是URL信誉系统的一个实现。
URL信誉客户端121可具有分析器126,该分析器126可以分析信誉高速缓存128以确定或推断来自该信誉高速缓存128的分类信息、或者信誉服务器是否可能有可用的信誉信息。取得装置130可与信誉服务器通信以取得信誉信息并填充信誉高速缓存128。在URL被请求时,URL信誉客户端121可通过取得URL信誉信息来操作。在某些实施例中,这种机制可随时间填充信誉高速缓存128。最初,这个实施例可使用对信誉服务器的许多查询来构建数据库,但随着信誉高速缓存128被填充,查询的频率可以降低。在某些实施例中,最初可通过下载有可能被查询的流行URL的URL信誉数据 来填充信誉高速缓存128。经下载的URL信誉数据可填充信誉高速缓存128。这些实施例可用于在URL信誉客户端的启动阶段期间避免高频率的查询。设备102可被连接到局域网132。在某些实施例中,设备102可作为局域网132内的URL信誉服务来操作。在这个实施例中,设备102可从客户端设备134或设备102自身接收请求,并且该请求可具有可使用URL信誉服务的输出的应用136。这个实施例可以提供单个设备,并且可将对信誉服务器的请求最小化,该单个设备维护可由多个客户端设备134共享的信誉高速缓存128。局域网132可通过网关140连接至可能是因特网的广域网142。广域网142可具有可被分类的许多URL 143。信誉生成器144可以确定URL信誉并填充信誉数据库150。信誉生成器144可包括web爬寻器146和信誉分类器148。web爬寻器146可以爬寻广域网142以定位URL 143,而信誉分类器148可以确定URL 143的分类并将该分类存储到信誉数据库150中。信誉分类器148可以是分析URL以得到特定内容、配置、或其他特征的自动化过程。在某些实施例中,信誉分类器148可以包含人类输入以确定一个URL或URL集合的一个或多个分类。信誉服务器152可通过访问信誉数据库150并传送响应来响应来自URL信誉客户端121的请求。响应可包括URL分类以及概率集合成员资格信息。信誉服务器152可具有响应器154,该响应器可从URL信誉客户端121接收请求并传送响应。分析器156可以查询信誉数据库150,并且可以生成可被传送到URL信誉客户端121的概率集合成员资格信息。图2是示出用于不同的URL的域树的实施例200的图示。实施例200是可为其分配不同分类的域树的简化示例,其中分类中的某些可以是可继承的。实施例200可表示具有若干节点的简单域。顶层节点202可以表示URL“domain,com”。剩余的节点可以是顶层节点的主机和路径变型。在本说明书和权利要求书中使用的术语统一资源定位符或URL是指资源的地址或标识符。在许多用法中,URL既包含地址也包含作用于该资源的方式。例如,URL“http://domain, com”可以指示地址“domain, com”以及作用于地址的方法“http://”。某些实施例可以使用可能是标识资源的更通用的方式的统一资源标识符(URI),而其他实施例可以使用统一资源名称(URN)。出于本说明书和权利要求书的目的,互换地使用术语URL、URN和URI,并且这些术语中的任一个都被认为表示其他术语的任一个。节点202是顶层节点“domain, com”,并且被示为具有分类A、B*和C*。符号“B*”指示了 B是可继承的,而没有星号的分类A指示A是不可继承的。
节点204是第二层节点“a. domain, com”,并且被示为具有分类A和D。由于类B和C被示为可继承的,因此节点204可具有全部分类A、B、C和D。节点204处的分类A和D的定义示出类定义的方法,其中被继承的类在它们定义的最高级别被定义,并向下被继承到子节点。其他实施例可包括每个节点定义中被继承的分类。节点204是子主机的示例。“a. domain, com”地址可以表示来自“domain, com”的
子主机。节点206示出了是节点204的子路径的节点,并具有地址“a. domain, com/c”,其中“/c”表示从主机“a. domain, com”的路径。节点206被示为具有分类A和E*。由于节点206是具有可继承的类B*和C*的节点202的子节点,因此类B和C将通过继承被赋予到节点206。节点208示出了是节点206的子路径的节点,并具有地址“a. domain, com/c/e”。节点208被示为不具有除可继承的分类B和C以外的分类,并且E可应用到节点208。 类似地,节点210示出了节点204的子路径,并具有地址“a. domain, com/d”。节点210被示为具有分类F,并将从节点202继承分类B和C。父节点204被分类为A和D,但是由于A和D不是可继承的,因此A和D分类可能不会向下传递到节点210。节点212示出了节点202下面的第二主机,并具有地址“b. domain, com”。在许多URL命名方案中,URL可具有主机变型和路径变型。主机变型的示例可以是“a. domain, com”和“b. domain, com”,其中主机分别是“a”和“b”。路径变型的示例可以是“a. domain, com/a”和“a. domain, com/b”。在该实例中,同一主机“a. domain, com”具有从主机的不同路径“/a”和“/b”的两个URL。许多URL可具有复杂的路径变型。在某些情形中,路径可具有复杂的句法,该句法可包括传递给URL 的参数。例如,URL “a. domain. com/a/form=big&index=24”可以传递分别具有值“big”和“24”的参数“form”和“ index”。节点212被示为具有分类“ !C”,该分类可指示分类C不被应用到节点212。符号“!C”是可限制分类的继承的符号的示例。在实施例200中,分类C可从节点202向下传递到a. domain, com的节点,但不会传递到b. domain, com的节点。节点214被示为具有地址“a. domain, com/f”的节点204的子路径。节点214可被示为不具有分类,而可从节点202继承分类B和C。当接收到对URL信誉的请求时,URL信誉客户端的操作可包括收集实施例200的各种结构。例如,可以作出对节点208的信誉的请求,并且URL信誉客户端可以接收URL “a.domain, com/c/e”。URL信誉客户端可尝试在经高速缓存的信誉数据库中查找URL “a.domain, com/c/e”,但可能未定位到该URL。URL信誉客户端可以标识所请求的URL的多个变型。在该示例中,变型可包括“domain. com,,、“a. domain. com,,、“a. domain, com/c'“domain, com/c'“domain, com/c/e,,、以及所请求的URL“a. domain, com/c/e”。如果没有一个URL位于经高速缓存的信誉数据库中,则信誉客户端可将全部URL传递到信誉服务器以接收每个URL的类和概率集合成员资格密钥。接收到的信息可以是节点202、204和206的信息。在该示例中,信誉服务器可能不具有关于URL “domain, com/c”和“domain, com/c/e”的信息,因为这些URL可能不存在。信誉服务器也可能不具有关于URL “a. domain, com/c/e”的信息,因为该URL可能不具有通过继承无法确定的分类信息。在某些实施例中,信誉客户端可以创建URL的变型,并且可将全部变型传送到该信誉服务器。在其他实施例中,客户端可传送单个URL,并且信誉服务器可以创建变型,并将每个变型的分类和概率集合成员资格信息传送到信誉客户端。像在示例中描述的一个实施例,各实施例可仅在URL具有与父URL不同的分类时、或在分类的继承链在各URL之间变化时提供分类信息。在这些实施例中,一个域可具有数千个子URL,但是当那些子URL全部共享与顶层URL相同的分类时,该顶层URL的单个分类定义可被继承到全部较低级别的URL。这个实施例可以比存储许多子URL中每一个的相同的分类更高效。然而,其他实施例可以提供每个子URL的冗余或重复的分类。在某些实施例中,某些分类可通过路径但不能通过域来继承,而其他分类可通过 域而不能通过路径来继承。例如,URL “explicit, domain, com”可具有色情分类,该分类可被继承到“explicit, domain, com”的全部成员,但不能被继承到“safe, domain, com”的全部成员。在另一个示例中,URL “domain, com/explicit”可具有色情分类,该分类可通过路径“/explicit ”来继承,但不能通过“domain, com”下面的其他主机来继承。信誉服务器可向对其进行响应的每个节点提供概率集合成员资格密钥。每个概率集合成员资格密钥可用于确定一个URL是否是该密钥所表示的集合的成员。例如,节点204可具有指示了节点206和节点210是集合成员的概率集合成员资格密钥。然而,节点214可能不是该集合的成员。在此情形中,信誉客户端可以检查节点204的概率集合成员资格密钥,并判定信誉服务器不具有关于节点214的信息。由于该判定,信誉客户端可从较高级别节点的继承分类来推断节点214的分类。概率集合成员资格密钥可以标识特定URL集合中的一个URL的成员资格。在许多情形中,这个集合可以是给定URL的一个孩子后代的URL。例如,节点204的概率集合成员资格密钥可包括子节点206、210和214的URL,但不包括可从节点204移除两代的节点208。在其他实施例中,概率集合成员资格密钥可以标识包括给定节点的两代、三代、或更多代的URL集合。某些实施例可包括例如一个域中的全部节点。在某些实施例中,概率集合成员资格密钥可以标识包括给定节点的父节点和子节点二者的URL集合,并且某些可包括多代父节点和子节点。图3是示出用于处理信誉客户端的URL请求的方法的实施例300的流程图。实施例300是可由例如实施例100的URL信誉客户端121执行的方法的示例。其他实施例可使用不同的排序、附加或更少的步骤、以及不同的命名或术语来完成类似功能。在一些实施例中,各个操作或操作集合可与其他操作以同步或异步方式并行地执行。此处所选的步骤是为了以简化的形式示出一些操作原理而选择的。实施例300仅示出了信誉客户端可通过使用稀疏地填充的信誉数据库和概率集合成员资格密钥来确定分类的一个方法。信誉客户端可从URL的较高级别变型的类继承来构建给定URL的分类。当未在经高速缓存的信誉数据库中找到URL,但该URL或该URL的变型有可能从信誉服务器中获得时,可对服务器进行查询以取得分类并填充经高速缓存的信誉数据库。在框302,可以接收URL。可将URL从另一个应用、服务、网关、防火墙或可消费URL信誉信息的任何其他操作传送到URL信誉客户端。如果在框304中URL位于经高速缓存的数据库中,并且在框306中数据是当前的,则在框308,在经高速缓存的数据库中找到值。在许多实施例中,可用时间戳来标记从信誉服务器中检索的数据。该时间戳可以指示数据的期满日期,或者可以是数据被检索的时间。该时间戳可用于指示经高速缓存的信誉数据库中的数据可何时被刷新。存储在信誉数据库中的数据过一段时间可能会过时。例如,某些网站可被持续地更新,并且这些更新可导致该网站或该网站内的页面的分类被改变或更新。在某些实施例中,时间戳可指示经高速缓存的信誉数据库中的记录的期满日期。在这些实施例中,信誉服务器可确定比其他时间更短的某些URL的期满时间。不频繁更新的URL可被赋予长的期满时间,而频繁更新的URL可被赋予短的期满时间。在某些情形中, 可不向非常频繁地更新的URL赋予期满时间,这可导致客户端在每次请求时要查询信誉。如果在框304中URL不在数据库中,或者在框306中不是当前的,则信誉客户端可以评估该URL以从可用的数据来确定分类,并且若数据可用或在数据库中未找到数据,则执行对信誉服务器的查询。在框310,信誉客户端可确定URL的变型。变型可包括主机变型和路径变型。在某些情形中,变型可包括任意组合的主机和路径变型的组合。在框312,可按从最通用到最具体按序对变型排序。该次序可用于确定从较高级别到较低级别URL的可继承的分类。在框314,可以分析下一个变型。可以按照特异性增加的次序分析每个变型。要分析的第一个变型可以是来自变型列表的最高级别的域名。如果在框316中本地数据确实存在,在框318中数据是当前的,并且在框320中包括了类别数据,则在框322中可以分析该类别数据以建立最公知的数据。可在本说明书稍后呈现的实施例400中找到框322所执行的过程的示例。在某些实施例中,经高速缓存的信誉数据库中存储的数据可能不包括分类数据。在此情形中,数据可包括概率集合成员资格密钥,但不包括分类数据。此情形可在可从较高级别URL继承分类数据时发生。如果框316、318或320的条件之一不为真,则在框324,过程可返回到框314以分析另一个变型URL。该过程可以继续,直到所有变型都被分析。在框324分析变型之后,可在框326搜索URL树以标识其中概率集合成员资格密钥可指示所请求的URL或某个变型可从信誉服务器获得的节点。可在本说明书稍后呈现的实施例500中找到框326所执行的过程的示例。如果在框328中附加信息可是可用的,并且在框329中尚未进行前一个查询,则在框330中该查询可被发送到服务器并在框332中接收响应。在框334,该响应可被存储在经高速缓存的信誉数据库中,并且过程可返回到框310以便用更新后的信息来分析经高速缓存的信誉数据库。当在框329中已经进行了前一个查询时,这指示了信誉服务器可能已经传送了全部可用的信息,进一步的查询可能是没有效果的。因此,如果在框329中已经进行了查询,或当另一个模式不可用时,过程可通过使用在框322中生成的最公知的信誉数据来在框338结束。框330中的查询可以只包括来自框302的URL,而在其他实施例中,框330中的查询可包括来自框302的URL的变型。在框332中返回的结果可包括来自框302的URL以及该URL的变型的信息。在某些情形中,框332的结果可包括信誉服务器可为将来的查询而预期或预测的URL,提供了关于在框310中定义的变型的超集的信息。该超集可用于填充经高速缓存的信誉数据库,使得信誉客户端可以处理预期的URL而不必查询信誉服务器。图4是示出用于分析类别数据的方法的实施例400的流程图。实施例400是可针对实施例300的框322执行的方法的示例。其他实施例可使用不同的排序、附加或更少的步骤、以及不同的命名或术语来完成类似功能。在一些实施例中,各个操作或操作集合可与其他操作以同步或异步方式并行 地执行。此处所选的步骤是为了以简化的形式示出一些操作原理而选择的。实施例400示出了可通过其分析并应用分类以便继承的方法。如实施例300中所述,实施例400可以生成可由实施例400的连续执行和更具体的URL更新的最公知的数据
隹A
口 O在框402中,可以分析每个分类。在许多实施例中,每个URL可具有多个分类,并且可在框402中单独地分析每个分类。实施例400可执行当前URL变型相对于目标URL的分析。目标URL可以是为其请求信誉分类的终端节点,并且当前URL可以是目标URL的变型。当前URL可以是在实施例300的框314中选择的URL。如果在框404中当前URL是目标变型的主机变型,并且在框406中类未被标记为主机可继承,则可以忽略该分类,并且过程返回到框402以处理另一个分类。类似地,如果在框404中当前URL不是主机变型,而在框408中是路径变型,但在框410中类未被标记为路径可继承,则可以忽略该分类,并且过程返回到框402以处理另一个分类。如果在框404中当前URL是主机变型且类被标记为主机可继承,或者如果在框408中URL被标记为路径变型且在框410中类被标记为路径可继承,则在框412中,类设置可作为最公知的数据被添加到分类。可用实施例300中逐渐更具体的URL来重复实施例400的过程,并且可用每个连续URL的可继承分类来更新框402的数据。图5是示出用于查找来自信誉服务器的请求的变型的方法的实施例500的流程图。实施例500是可针对实施例300的框326执行的方法的示例。其他实施例可使用不同的排序、附加或更少的步骤、以及不同的命名或术语来完成类似功能。在一些实施例中,各个操作或操作集合可与其他操作以同步或异步方式并行地执行。此处所选的步骤是为了以简化的形式示出一些操作原理而选择的。实施例500是可通过其遍历变型树以确定变型是否被包括在下一个变型的概率集合成员资格密钥中的方法。在框502,可按从具体到一般对变型排序。在框504,可以分析变型中的第一个。在框506,可以创建变型的概率集合成员资格签名。在布隆过滤器的情形中,一个、两个、或更多个散列函数可以处理URL以生成在布隆过滤器中使用的签名。在框508,可对该签名与下一个变型的概率集合成员资格密钥进行比较。如果在框510中包括该变型,则在框514,可以选择正被分析的当前变型。在框514中选择的变型可以是被传送到实施例300的框330中的信誉服务器的变型。如果在框510不包括该变型,并且在框512中存在更多变型,则该过程可返回到框504以处理下一个变型。通过返回到框504,实施例500的过程可以向上遍历URL树,以查找信誉服务器可能具有其信息的变型。如果存在在信誉服务器可具有可用信息的若干变型,则实施例500将选择最具体的变型。如果在框512中处理了全部变型,并且在框508中概率集合成员资格密钥中不包括变型,则在框516中实施例500可以退出而没有可用的变型。对本发明的上述描述是出于图示和描述的目的而呈现的。它不旨在穷举本主题或将本主题限于所公开的精确形式,并且鉴于上述教导其他修改和变型都是可能的。选择并描述实施例来最好地解释本发明的原理及其实践应用,由此使本领域的其他技术人员能够在各种实施例和各种适于所构想的特定用途的修改中最好地利用本发明。所附权利要求书 旨在被解释为包括除受现有技术所限的范围以外的其他替换实施例。
权利要求
1.一种由URL信誉客户端执行的方法,所述方法在计算机处理器上执行,所述方法包括 接收第一 URL ; 确定所述第一 URL不存在于经高速缓存的信誉数据库中; 确定所述第一 URL的变型集合; 确定第一变型被存储在所述经高速缓存的信誉数据库内,所述第一变型具有第一分类; 确定所述第一分类是可继承的; 分析所述经高速缓存的信誉数据库以确定信誉服务器不包含关于所述第一 URL的分类信息,所述经高速缓存的信誉数据库包括概率集合成员资格密钥;以及将所述第一分类分配给所述第一 URL。
2.如权利要求I所述的方法,其特征在于,还包括 标识第二 URL ; 分析所述经高速缓存的信誉数据库以确定所述第二 URL被包括在所述概率集合成员资格密钥之一中; 将所述第二 URL传送到信誉服务器;以及 接收第二分类,为所述第二 URL定义所述第二分类。
3.如权利要求2所述的方法,其特征在于,还包括 对于所述第二 URL的多个URL变型中的每一个,接收概率集合成员资格密钥;以及 将所述概率集合成员资格密钥存储在所述经高速缓存的信誉数据库中。
4.如权利要求3所述的方法,其特征在于,所述概率集合成员资格密钥中的每一个具有期满设置。
5.如权利要求3所述的方法,其特征在于,还包括 确定所述多个URL变型;以及 将所述多个URL变型传送到所述信誉服务器。
6.如权利要求I所述的方法,其特征在于,所述第一分类包括第一继承指示符。
7.如权利要求6所述的方法,其特征在于,所述第一继承指示符指示了所述信誉分类< 是由路径变型可继承的。
8.如权利要求6所述的方法,其特征在于,所述第一继承指示符指示了所述信誉分类是由主机变型可继承的。
9.如权利要求I所述的方法,其特征在于,所述第一分类包括第一类和第二类中的成员资格。
10.如权利要求9所述的方法,其特征在于,所述第一类具有第一继承指示符,并且所述第二类具有第二继承指示符。
11.如权利要求10所述的方法,其特征在于,所述第一类是路径变型可继承的,所述第二类是主机变型可继承的。
12.—种URL信誉服务器,包括 处理器; 网络连接;URL信誉数据库; 所述处理器被配置成 接收作为对URL信誉的请求的一部分的URL,所述请求是从客户端设备发送的; 确定所述URL信誉和所述URL的概率集合成员资格密钥;以及 将所述URL信誉和所述概率集合成员资格密钥传送到所述客户端设备。
13.如权利要求12所述的URL信誉服务器,其特征在于,还包括 web爬寻器;以及 分类引擎,被配置为确定给定URL的分类,并用所述分类填充所述URL信誉数据库。
14.如权利要求12所述的URL信誉服务器,其特征在于,所述处理器还被配置为 确定所述URL的多个变型; 确定所述多个变型中每一个的概率集合成员资格密钥;以及 响应于所述请求,将所述概率集合成员资格密钥传送到所述客户端设备。
15.如权利要求12所述的URL信誉服务器,其特征在于,确定所述概率集合成员资格密钥用于单个地址生成。
全文摘要
URL信誉系统可具有信誉服务器和带有信誉信息的高速缓存的客户端设备。从客户端到服务器的URL信誉查询可以返回信誉数据以及所请求的URL的若干变型的概率集合成员资格信息。客户端可使用该概率集合成员资格信息来确定信誉服务器是否具有另一个相关URL的附加信息、以及分类是否是可从变型之一继承的。如果概率集合成员资格信息确定信誉服务器可具有附加信息,则可对信誉服务器进行查询,否则可从存储在高速缓存中的数据来推断信誉。
文档编号G06F17/30GK102741845SQ201180007674
公开日2012年10月17日 申请日期2011年2月1日 优先权日2010年2月1日
发明者B·阿拉, C·鲍彻, J·M·德奥利韦拉, J·科恩, N·瓦戈纳, 凌云 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1