使用了万维网上的内容项普及性变化的搜索的制作方法

文档序号:6569210阅读:163来源:国知局
专利名称:使用了万维网上的内容项普及性变化的搜索的制作方法
技术领域
本发明涉及搜索引擎,用于该搜索引擎的内容分析器,内容项的 指纹数据库,使用该搜索引擎的方法,创建该数据库的方法以及相应 的程序。
背景技术
众所周知,搜索引擎的目的是在万维网上检索与一个或多个搜索 关键字相关的文档地址列表。通常,搜索引擎是一个对因特网地址加索引(统一资源定位符("URL")、新闻组、文件传输协议("FTP")、 图像位置等等)并且可被远程访问的软件程序。该地址列表通常是信 息的"超链接"或因特网地址列表,而所述信息则来自响应于査询的 索引。用户査询可以包括关键字、关键字列表或是结构化查询表述, 例如布尔査询。典型的搜索引擎通过对存储了信息的相连计算机执行搜索来"爬 取"万维网,并且该搜索引擎还会在"万维网镜像"中产生一个信息 副本。这个副本具有文档中的关键字索引。由于索引中的任何一个关 键字都有可能存在于数以百计的文档之中,因此,对每一个关键字来 说,该索引都具有一个指向这些文档的指针列表,并且具有按照相关 性来对这些文档进行排序的方式。这些文档是按照不同的估量来进行 排序的,并且这些估量被称为相关性、有效性或价值估量。元搜索引 擎接受搜索査询,将该查询(有可能经过变换)发送到一个或多个常 规搜索引擎,并且收集和处理来自常规搜索引擎的响应,以便向用户 呈现一个文档列表。众所周知,超文本页面是基于页面的内在和外在等级来进行排序 的,而所述内在和外在等级则是以内容和连接性分析为基础的。在这 里,连接性是指从其它页面连接到指定页面的超链接,并且这种超链 接被称为"反向链接"或"回链"。这些链接可以通过数量和质量来进行加权,例如具有这些链接的页面的流行性。PageRank (TM) 是被用作Google (TM)搜索引擎(http:〃www.google.com)核心的网页的静态排列顺序。如在美国专利6751612 (Schuetze)中确认的那样,由于当前每 天都在向万维网添加数量庞大的分散信息,因此,要在搜索引擎中保 持最新的信息索引是非常困难的。有时,最新的信息是最有价值的, 但是该信息通常并没有在搜索引擎被加索引。此外,搜索引擎通常不 会在更新搜索引擎索引的过程中使用用户的个人搜索信息。Schuetze 提出根据用户的个人搜索信息(或过滤简档)在万维网上有选择地搜 索相关的当前信息,由此更有可能发现最近添加的相关信息。而用户 则提供诸如查询以及多长时间对过滤程序执行一次搜索之类的个人 搜索信息。该过滤程序调用一个万维网爬取器(crawler),以便根据 用户选定的搜索策略或排列顺序选择而在万维网上搜索选定或排序 的服务器。该过滤程序是根据下列内容来指引万维网爬取器搜索预定 数量的排序服务的(1)服务器具有与用户查询相比非常相关的内容 ("内容排序选择");(2)服务器具有频繁变更的内容的可能性("频 率排序选择");或者(3)这些内容的组合。根据美国专利申请2004044962 (Green),当前的搜索引擎系统 出于两个原因而无法返回当前内容。第一个问题是搜索引擎当前在 网络上査找发生变化的新内容的扫描率很低。对最佳的常规爬取器来 说,其大约每月才对大多数网页进行一次访问。如果要达到大约每天 的高网络扫描率,那么将会耗费太多流向网络上的少量位置的带宽。 第二个问题是当前的搜索引擎并没有很好地将新内容引入其"排列 顺序"。由于新内容本身并不具有与之相连的很多链接,因此,在 Google的PageRank (TM)方案或类似方案中不会将其排列在很高 的位置。Green提出的是采用一个元计算机,以便收集网络上的新近可用信息,所述元计算机包括信息收集爬取器,指示该爬取器滤除不 变的旧信息。为了评定这种新近信息的重要性或相关性,具有新内容 的页面是部分基于其相邻页面的权威性来进行排序的。对新内容来 说,从发现该内容时起,随着时间的经过,该内容的排列顺序将会降低。如在US6,658,423 (Pugh)所述,重复或接近于重复的文档对搜 索引擎而言是一个问题,而较理想的则是将其消除,以便(i)减小 存储需求(例如用于索引以及从索引中得到的数据结构的存储需求), 以及(ii)减少处理索引、查询等等所需要的资源。Pugh提出的是 通过下列处理来为每个文档产生指纹(i)从文档中提取某些部分(例 如字词),(ii)对所提取的每个部分执行散列处理,以便确定预定数 量的列表中的哪个列表要用指定部分填充,以及(iii)为每个列表产 生一个指纹。由此,重复性可被消除,或者可以形成接近于重复的文 档的群集,并且在该群集中将会采用传递属性。每个文档都可以具有 一个用于识别与之关联的群集的标识符。在该替换方案中,响应于搜 索查询,如果两个候选结果文档属于相同群集,并且如果两个候选结 果文档同等地良好匹配于查询,则返回一个被认为是更有可能相关的 文档(例如依照高页面排序,更为近期等等)。在爬取操作过程中, 为了加速爬取以及节约带宽,其中将会检测并且不会爬取那些几乎重 复的网页或网站,而这些网页或网站则是从先前爬取操作揭示的文档 中确定的。在爬取之后,如果发现重复,则只对其中一个进行加索引。 所述重复可以响应于某个查询而被检测,并且将会阻止将其包含在搜 索结果中,此外,通过提供与接近于重复的页面相连的链接,这些重 复也可以用于"确定"那些不再存在(在特定位置或URL)文档(例 如网页)的断开连接。发明内容本发明旨在提供改进的设备和方法。根据第一个方面,本发明提供了 一种用于搜索可以在线访问的内容项的搜索引擎,该搜索引擎具有查询服务器,该服务器被设置用 于接收来自用户的搜索查询,并且返回与搜索查询相关的搜索结果, 该查询服务器还被设置用于识别与査询相关的一个或多个内容项,以便访问所识别内容项的出现事件(occurrence)随时间变化的记录, 以及依照随时间变化的记录来对搜索结果进行排序,或是以其它任何 方式来导出搜索结果。这样做有助于用户发现那些当前有效的内容项,以及追踪或比较 内容项的流行性。特别地,这种处理对下列内容项是非常有益的,其 中对用户来说,该内容项的主观价值是由该内容项是否为时下关注或 是流行而决定的。与只依靠后向链接的数量和质量来对搜索结果进行 排序的现有搜索引擎相比,本发明的这个方面可以更快更有效地识别 出哪些内容处于上升流行趋势并由此暗示其将会更为流行或更引人 关注。此外举例来说,它还可以促使那些处于下降趋势的内容项降级。 由此可以产生与用户更为相关的搜索结果。某些实施例的一个附加特征是该搜索引擎具有一个内容分析器, 该内容分析器被设置用于为每一个内容项创建一个指纹,保持这些指 纹的指纹数据库,通过比较这些指纹来确指定内容项在指定时间的多 个出现事件,以及记录所述出现事件随出现发生的变化。这些指纹可以允许对包括音频和视频项在内的大量媒体类型进行 比较。特别地,这对广泛的类型范围以及万维网的开放性和不可控特 征来说是非常有利的。某些实施例的一个附加特征是所述出现事件包括处于不同网页位置的内容项副本。这对那些易于被用户拷贝的内容而言是非常有益 的,例如图像和音频项。该特征是以这样一种认知为基础的,那就是 先前被视为搜索引擎问题的多个出现事件(副本)实际可以作为有用 信息源而被用于多种目的。某些实施例的一个附加特征是所述出现事件还包括针对指定内 容项的引用,其中所述引用包括下列各项中的一项或多项针对指定 内容项的超链接,针对包含指定项目的网页的超链接,以及其它类型的引用。该特征对视频项这类因为过大而不易拷贝的内容或是游戏这 类交互式项目而言是非常有益的。某些实施例的一个附加特征是搜索引擎被设置用于确定一个值, 其中所述值代表的是来自副本、超链接以及其它类型的引用的加权组 合的出现事件。该加权有助于获取更为现实的值。某些实施例的一个附加特征是搜索引擎被设置用于根据下列各 项中的一项或多项来对副本、超链接以及其它类型的引用进行加权 它们的类型,它们的位置,由此偏向于那些处于与更多的活动性和其 它参数相关联的位置的出现事件。某些实施例的一个附加特征是针对内容项数据库的索引,该査 询服务器被设置用于使用该索引来选择多个候选内容项,然后则依照 候选内容项的出现事件随时间改变的记录来对候选内容项进行排序。 该特征允许在数量更为有限的项目上执行计算密集的排序操作。某些实施例的一个附加特征是 一个普及性排序服务器,该服务 器根据下列各项中的一项或多项来执行候选内容项排序多个出现事 件,处于指定日期范围以内的多个出现事件,出现事件的时间变化率 (以后将其称为普及性增长率),普及性增长率的变化率(以后将其 称为普及性加速度),以及与出现事件相关联的网站的质量度量,该 特征有助于发现更多相关结果,或是提供例如与指定项目的普及性(prevalence)相关的更丰富的信息。某些实施例的一个附加特征是内容分析器被设置用于根据内容项的媒体类型来创建指纹,以及将其与相同媒体类型的内容项的现有 指纹相比较。该特征可以使比较更为有效,并且能够更好地搜索多媒体页面。某些实施例的一个附加特征是内容分析器被设置用于以任何方 式创建指纹,由此举例来说,对超文本内容项而言,该指纹包括文 件大小、CRC (循环冗余校验)、时间戳、关键字、标题,对声音、 图像或视频内容项而言,该指纹包括下列各项的任何不同组合图像 /帧大小、时间长度、部分或所有数据的CRC (循环冗余校验)、嵌入的元数据、图像或视频的标题字段、媒体类型、MIME类型、縮 略图、声音签名。某些实施例的一个附加特征是 一个万维网收集服务器,该服务 器被设置用于确定万维网上的哪些网站被再度访问以及访问的频率, 由此向内容分析器提供内容项。该万维网收集服务器可以被设置用于 根据下列各项的一项或多项来确定网站收集内容项的媒体类型,内 容向的主题分类以及与网站相关联的内容项出现事件的变化记录。该 特征有助于允许更有效地将普及性估量保持在最新。搜索结果可以包括一个内容项列表,以及所列举内容依照其出现 事件的时间变化的排序指示。该特征有助于使搜索处理能够返回更相 关的结果。本发明的另一个方面提供了一种搜索引擎的内容分析器,它被设 置用于创建可在线访问内容项出现事件的时间变化记录,该内容分析 器具有一个指纹生成器,它被设置用于创建每一个内容项的指纹,并 且对这些指纹进行比较,以便确定同一内容项的多个出现事件,该内 容分析器被设置用于将指纹保存在指纹数据库中,并且保持至少某些 内容项出现事件的时间变化记录,以便响应于搜索査询来对其加以使 用。某些实施例的一个附加特征是内容分析器被设置用于识别每一 个内容项的媒体类型,并且指纹生成器被设置用于根据媒体类型来执 行指纹创建和比较。某些实施例的一个附加特征是 一个引用服务器,该服务器被设 置用于在页面中发现针对其它内容项的引用,并且将引用记录添加到 所引用内容项的出现事件的记录中。某些实施例的一个附加特征是指纹生成器被设置用于创建指纹, 由此对超文本内容项来说,该指纹包括下列各项的不同组合文件大 小、CRC (循环冗余校验)、时间戳、关键字、标题,对声音、图像 或视频内容项而言,该指纹包括下列各项的任何不同组合图像/帧 大小、时间长度、部分或所有数据的CRC (循环冗余校验)、嵌入的元数据、图像或视频的标题字段、媒体类型、MIME类型、縮略图、 声音签名或是其它任何类型的签名。另一个方面提供的是一个由内容分析创建并经由内容项指纹的指 纹数据库。某些实施例的一个附加特征是该指纹数据库具有内容项出现事 件随时间变化的记录。另一个方面提供的是一种使用搜索引擎的方法,该搜索引擎具有 可在线访问的指定内容项的出现事件随时间变化的记录,该方法具有 下列步骤向搜索引擎发送查询,并且从搜索引擎接收与该搜索查询 相关的搜索结果,该搜索结果是使用与査询相关的内容项出现事件随 时间变化的记录来进行排序的。这些步骤是在用户端执行的,并且这些步骤反映出用户可以从更 为相关的搜索结果以及更丰富的信息中受益,其中举例来说,所述信 息可以是关于普及性变化的信息。某些实施例的一个附加特征是搜索结果包括一个内容项列表, 以及所列举内容依照其出现事件的时间变化的排序指示。本发明的上述方面和实施例通常是在计算机程序代码中实施的, 其中举例来说,所述代码包含在机器可读介质、尤其是计算机系统中。由此,另一个方面提供的是一种机器可读介质上的程序,该程序 被设置用于执行一种用于搜索可在线访问内容项的方法,并且该方法 具有下列步骤接收搜索査询,识别与查询相关的一个或多个内容项, 访问所识别内容项的出现事件随时间变化的记录,以及根据变化记录 来范围搜索结果。某些实施例的一个附加特征是该程序被设置用于将搜索结果用 于下列各项中的一项或多项估量版权作品的普及性,估量广告的普及性,为爬取器集中网站的万维网收集,以便依照哪些网站的内容项 出现事件发生更多变化来执行爬取,使内容分析器专注于来自内容项 出现事件变化更多的网站的指纹数据库的更新部分,从指定内容项出现事件的变化记录中进行推断,以便估计未来的普及程度,根据出现 事件变化率来为广告定价,根据出现事件的变化率来为内容项下载定 价。任何一个附加特征都可以组合在一起,并且可以与任何方面相结 合。本领域技术人员来说,其它的优点、尤其是那些超越现有技术的 优点将是显而易见的。在没有脱离本发明权利要求的情况下,众多的 变更和修改都是可行的。由此应该清楚了解,本发明的形式仅仅是说 明性的,该形式并未限制本发明的范围。


现在将会参考附图来举例描述如何实施本发明,其中 图l显示的是根据一个实施例的搜索引擎的拓扑结构, 图2显示的是根据一个实施例的总体处理视图, 图3显示的是根据一个实施例的内容分析器处理,图4显示的是根据一个实施例的查询服务器处理,图5显示的是根据另一个实施例的查询服务器处理,图6显示的是根据另一个实施例的内容分析器,图7显示的是根据另一个实施例的万维网收集数据库,图8显示的是根据另一个实施例的指纹数据库采样,图9显示的是关键字数据库采样,以及图IO显示的是根据另一个实施例的内容分析器。
具体实施方式
定义举例来说, 一个内容项可以包括网页、文本摘录、新闻项、图像、 声音或视频剪辑、交互式游戏或是众多其它类型的内容。对"可在线 访问的"内容来说,它被定义成至少包含了处于万维网网站页面上的 项目,深网中的项目(例如可以通过网页查询访问的项目数据库), 可以在公司内联网上内部获取的项目,或是包括在线商家和市场在内 的任何在线数据库。在关于内容项的引用的上下文中,术语"引用"(reference)被 定义为至少包括超链接、縮略图、概要、评论、摘录、采样、译文以 及衍生物。出现事件变化可以指示出现事件数量的变化和/或出现事件质量 或特性的变化,例如将位置移动到更为普及和有效的地点。"关键字"可以包括文本的字词或短语,或是包括声音或图像签 名在内的任何图案。超链接旨在包含超文本,按钮,软键,菜单,导航栏,或是任何 可以由用户选择而给出不同内容的显示指示或听觉提示。术语"包含"是作为开放式术语使用的,它并未排除其它的项目 以及所列举的项目。图l,总体拓扑结构在图1中描述的是本发明第一实施例的总体拓扑结构。图2显示 的是某些主要处理的概要。在图1中,查询服务器50和万维网爬取 器80与因特网30相连(并且是作为万维网服务器来实现的——对 本图示来说,万维网服务器是査询和万维网爬取服务器的整体组成部 分)。万维网爬取器像蜘蛛那样在万维网上爬行,以便访问网页110 并且构建本地缓存网页的万维网镜像数据库90。该爬取器110由万 维网收集服务器730引导,其中该收集服务器对再度访问哪些网站以 及多长时间访问一次这些网站进行控制,由此内容分析器可以检测到 内容项出现事件的变化。索引服务器105从这个万维网镜像中构造网 页索引60。内容分析器100对万维网镜像中累积的网页以及相关联的多媒体文件进行处理,并且从这其中的每一个多媒体文件中得出指 纹信息。这个指纹信息是在指纹数据库65的内部获取的。此外,在 图1中还显示了一个普及性排序服务器107,该服务器可以根据来自 指纹数据库的度量来计算排序以及其它普及性。这个系统可以由分布 在网络上的众多服务器和数据库构成,原则上,它们也可以合并到单 独的位置或机器上。术语搜索引擎可以表示在本范例中作为査询服务 器的前端,以及供查询服务器使用的某些、所有后端或不是后端。借助台式计算机11或移动设备10而与因特网相连的多个用户5可以借助查询服务器来执行搜索。对在移动设备上执行搜索的用户("移动用户")来说,这些用户与网络运营商管理的无线网络20相 连,而该无线网络转而经由WAP网关、IP路由器或其它类似设备 (未明确显示)与因特网相连。在这里可以设想多种变化,举例来说,内容项可以处于除万维网 之外的其它位置,内容分析器可以从内容来源而不是万维网镜像获取 所述内容,诸如此类。设备描述用户可以从任何类型的计算设备访问搜索引擎,其中包括台式计 算机、膝上型计算机以及手持计算机。移动用户则可以使用移动设备, 例如类似于电话而在无线网络上通信的手持机,或是任何类型的无线 连接移动设备,其中包括PDA、笔记本、销售点终端、膝上型计算 机等等。每一个设备通常都包含了一个或多个CPU、存储器、1/0设 备,例如数字键盘、键盘、麦克风、触摸屏、显示器,以及无线网络 无线电接口。这些设备通常可以运行万维网浏览器或微浏览器应用程序,例如 OpenwaveTM、 AccessTM、 Opera ,并且这些应用程序可以通过因 特网来访问网页。这些网页可以是普通的HTML网页,或者它们也 可以是使用包括cHTML、 DHTML、 XHTML、 XHTML Basic以 及XHTML Mobile Profile在内的HTML的各种子集和变体而为移 动设备专门形成的页面。服务器描述
如下所述,在根据图1所示的本发明的搜索引擎的一个实施例中, 其中设想了四种主要类型的服务器。虽然被例示成是独立服务器,但 是相同的功能可以采用不同的方式来进行设置或划分,以便运行在不 同数量的服务器上或是作为不同数量进程来运行,抑或是由不同的组 织来运行。
a) 查询服务器,该服务器处理来自台式PC以及移动设备的搜 索查询,由此将其传递到其它服务器,并且酌情将响应数据 格式化到为不同类型的设备定制的网页中。作为选择,该査 询服务器可以在远端位置以及在别的组织的搜索引擎前端的 后部工作。作为选择,该査询服务器可以根据普及性增长度 量来执行搜索结果排序,或者该处理也可以由单独的普及性 排序服务器来执行。
b) 万维网收集服务器,该服务器对一个或多个万维网爬取器进 行引导,使之遍历万维网,由此将其经过的网页加载到万维 网镜像数据库中,而所述数据库则被用于以后的索引和分析 处理。该万维网收集服务器对再访哪些网站以及多长时间访 问一次进行控制,以便能够检测出现事件变化。这个服务器 保持了作为将要爬取的页面或网页的URL列表的万维网收 集。此外,该爬取器是众所周知的设备或软件,由此在这里 不必对其进行更详细的描述。
c) 索引服务器,该服务器构建处于万维网镜像中并且按照索引 存储的所有网页的可搜索索引,该索引包含了相关度排序信 息,由此允许向用户发送按照相关度排序的搜索结果列表。 该索引通常是用内容ID以及内容中包含的关键字加索引的。
d) 内容分析器服务器,该服务器读取在万维网镜像上收集的多 媒体文件,按照类别对其进行分类,并且为每一个类别推导 出一个特有指纹(关于该处理的更多细节可以参见下文),其 中该指纹将会充当该文件的指纹。这些指纹将会保存到数据库中,其中该数据库与索引服务器编写的索引是保存在一起 的。这个服务器还可以充当引用处理器,该处理器被设置成 在页面中发现针对其它内容项的引用,并且将引用记录添加 到所涉及内容项的出现事件记录中。
万维网服务器程序是查询服务器以及万维网爬取服务器的一个整
体组成部分。通过实施这些程序,可以运行ApacheTM或是某些类似 的程序,由此处理与连接在因特网上的用户进行的多个同时的HTPP 和FTP通信协议会话。该査询服务器与数据库相连,该数据库存储 了与移动设备和台式机设备有关的详细的设备简档信息,其中包括关 于设备屏幕大小、设备能力尤其是运行在设备上的浏览器或微浏览器 的能力的信息。该数据库还可以存储单独的用户简档信息,由此可以 对设备进行个性化处理,以便适应单独的用户需要。该信息既可以包 括使用历史信息,也可以不包括该信息。
搜索引擎系统包括万维网爬取器、内容分析器、索引服务器以及 查询服务器。它采用了来自用户的搜索查询请求作为其输入,并且返 回划分了优先级的搜索结果列表作为输出。关于这些搜索结果的相关 度排序是由搜索引擎通过即将更详细描述的多种可选技术来计算的。
对相关度来说,用于对其进行计算的主要是普及性增长率以及普 及性加速度估量。普及性的变化可表示示该内容当前特别流行还是特 别热门,而这将会有助于搜索引擎提高相关度或是提高效率。对某些 内容、例如网页来说,它们可以通过本领域已知的已有技术来排序, 而图像、音频之类的多媒体内容则可以通过普及性变化来进行排序。 排序的类型可以由用户进行选择。例如,通过GoogleTM的 PageRankTM之类的基于常规引述(citation)的估量或是通过其它 与普及性相关的估量,可以为用户提供一个搜索选择。
方法描述,图2, 3, 4
图2以流程图形式显示了各种处理的概观。在步骤200,网页将 被爬取,并且这些网页将被扫描或解析,以便检测内容项并且创建每 一个内容项的指纹。这些指纹将会保存在指纹数据库中,并且由内容项ID来进行加索引。在步骤210,其中将对下一个网页进行扫描并
创建指纹,在步骤220,该指纹将会与相同媒体类型的已有指纹相比 较,以便识别重复的出现事件。在步骤230,将会记录重复的时间和 数量(普及性度量)。在步骤240,其中将会周期性地重新访问规定 的网站万维网收集,并且对页面进行重新扫描,以便更新指纹数据库, 并且由此更新普及性。在步骤250,其中将对出现事件变化率之类的 普及性度量进行计算。在步骤260,其中将会根据普及性变化度量来 计算内容项排序。该处理将会为下一网页重复执行,或者在步骤270, 在任何时间,査询服务器将会使用索引和/或度量和/或排序来对数据 库查询做出响应。
图3和4显示的是分别由内容分析器和査询服务器处理执行的步 骤的概观。在步骤300,内容分析器扫描内容项,其中所述内容项通 常来自万维网镜像。在310,将创建指纹。在320,将比较该指纹, 以便发现重复的出现事件。在330,服务器将会记录出现事件时间, 并且保持指定内容项的出现事件的变化记录。图4显示的是查询服务 器处理的基本步骤。在步骤400,接收到查询。在410,使用索引来 发现与该査询相关的内容项。在420,关于指定项目的出现事件变化 记录将被访问。在430,该处理将会根据所述变化并且可选地根据其 它参数来确定针对该查询的响应。
査询服务器,图5
在图5中显示了查询服务器操作的另一个实施例。在该实例中, 在步骤500,其从用户那里接收关键字或字词。在步骤510,查询服 务器根据依照关键字预先计算的排序并且使用索引来找出文档或多 媒体文件(命中)形式的前n千个相关内容项ID。在步骤520,指 纹度量服务器计算普及性增长、普及性增长率以及普及性增长加速 度,并且使用这些度量以及使用指纹数据库来计算这些命中的排序, 作为选择,该服务器还可以使用基于历史记录或站点流行性的估量加 权来执行上述计算。在步骤530,査询服务器使用普及性度量、普及 性排序以及关键字排序来确定组合排序。在步骤540,该查询服务器将排序结果返回给用户,其中该结果可选地与用户设备、首选项等等 相适合。作为替换,在步骤550,查询服务器对结果进行进一步处理, 例如通过返回版权作品或广告的普及性来确定支付费用,通过提供反 馈来集中调整用于更新数据库的网站的万维网收集以及集中调整
(focusing)内容分析器,通过提供外推法来估计未来的流行程提供
度量或趋势的图形比较,或是根据普及性度量来确定广告或下载的价 格。此外,在这里还可以设想使用了普及性度量的其它方式。
査询服务器可以被设置为启用除关键字搜索之外的更高级搜索, 以便通过日期、地理位置、媒体类型等等来缩小搜索范围。此外,查 询服务器还可以采用图形形式显示结果,以便显示一个或多个内容项 的普及性增长曲线图。该查询服务器还可以被设置为从结果中执行外 推处理,由此举例来说,它可以对指定内容项的峰值普及性进行预测。 此外,另一个选项可以是显示关于结果可信度的指示,例如重访相关 网站的频繁程度以及从发现最后一个出现事件时起经过的时间,或是 其它的统计参数。
内容分析器,图6
在图6中显示了内容分析器操作的另一个实施例。在该示例中, 在步骤600,从万维网镜像中扫描一个网页。在步骤610,页面中的 文件的媒体类型将被识别。在步骤620,依照文件的媒体类型,每一 个文件都被应用了分析算法,以便得出其指纹。在步骤630,这个指 纹将会与指纹数据库中的其它指纹进行比较,以便寻找匹配。如果发 现匹配,那么在步骤640,该处理将会递增数据库记录中的出现事件 技术,并且将会记录一个时间戳,作为选择,它还会将新的URL添 加到记录中,由此可以通过位置来对新的出现事件进行加权,或者由 此将会存在一个备份URL。在步骤650,如果没有匹配,那么它会 在数据库中使用时间戳来创建一个新的记录。在步骤660,页面中的 任何一个URL都被分析,并且与指纹数据库或其它位置的指纹URL 相比较。如果发现匹配,那么该处理将会递增URL指向的相应指纹 的反向链路计数。同样的处理也可以为其它类型的引用实施,例如针对作者或标题的文本引用。在步骤670,其中将为下一个页面重复执 行该处理,在经过了设置时间段之后,处于指定万维网收集中的页面 将被重新扫描,以便确定其变化,并且至少保持该万维网收集的普及 性变化估量为最新。所选择的万维网收集将是有代表性的。
现在,在下文中将对不同的处理步骤进行更详细的论述。而实施 例则可以具有所述各种特征的任何组合,以便与应用相适合。
步骤1:确定将要监视的网站的万维网收集。该万维网收集应该 足够大,以便提供包含所监视内容类别的典型站点釆样,此外该万维 网收集应该足够小,以便由一组万维网爬取器执行定期和频繁(例如 每天)的重访。
步骤2:设置与这些站点相遇的万维网爬取器,并且创建包含所 有这些站点内部网页的镜像。
步骤3:在每个时间段中,扫描万维网镜像中的文件,为每个指
定网页识别在该页面内引用的文件类别(例如音频midi,音频MP3, 图像JPG,图像PNG)。
步骤4:为每个类别应用恰当的分析器算法,其中该算法对文件
进行读取,以及寻找唯一的指纹信息。该处理可以借助任何类型的指 纹处理来执行(参见下文中的某些示例)。
步骤5:在每个时间段,以及对每个页面和在该页面中发现的文
件来说,将标识符信息与己有的指纹数据库相比较。确定该指纹是否
与已有指纹相匹配(准确的匹配以及处于99%这种确定这些内容项
相同的统计概率限度以内的匹配)。
步骤6a:如果该指纹不与数据库中的任何指纹匹配,则创建具有 时间戳的新指纹实例,并且将其链接到其来源的网页URL,以此作
为新的数据库记录。包含在该数据库中的信息将会记录
多媒体内容类别(例如音频) 多媒体文件类型(例如MP3)
文件指纹(通常是计算得到的二进制或ASCII序列)万维网镜像URL: 网页资源URL: 将网页存入镜像的时间 识别文件的时间(标记指纹)
步骤6b:如果指纹并没有与数据库中的已有指纹匹配,则将该标 识符计数加1,并且在数据库中记录与该文件相关联的新的URL信 息和时间信息(将网页存入镜像的时间,识别该文件的时间)。
步骤7:随着时间的经过,为网站的指定万维网收集以及周期性 搜索的页面构建每个指纹出现事件数量的完整清单。举例来说,该出 现事件值可被加权,从而偏向于那些处于有效性很高的站点的出现事 件。这一点可以从反向链路计数或是其它度量中确定,其中所述其它 度量包括快速增长的内容项的始发站点,在这种情况下,普及性排序 服务器可以反馈信息,以便调整加权。
此外,该出现事件值还可以考虑除了重复性之外的信息。所述出 现事件值(0)可以从副本、后向链接以及引用的加权总和中计算得 到,其中
副本(=D)是处于不同网页位置的内容项的重复拷贝,其中该位 置是通过匹配其各自指纹来评估的,并且这其中包括近似匹配。
后向链接(=B)可以包括与内容项相连或是与引用或包含来自其 它网页的特定内容项的网页相连的超文本链接。
引用(=R)可以包括下列各项中的一项或多项摘录、概要、评 论、译文、缩略图、内容项适配、或是其它任何类型的引用(假设该 引用包含了来自初始项目或是与原型项目相关联的足够信息,以便能 够推断出与原型的关系)。
0=D + x(expB x Cl) + y(expR x C2)
其中x、 y、 Cl和C2是常数,并且expB和expR是B和R的
指数函数。
该算法仅仅是一个示例,并且可以想到多种其它算法。在实践中,该算法可以定期改变,以便对尝试人工影响其排序的商业用户进行计 数。步骤8:将每个指纹的总和与来自先前时间段的总和相比较。从 这些时间段中的出现事件之间的变化中计算恰当估量(例如速度、加 速度),并且将这些值写入相应指纹的索引之中。这些值将被用于计 算相关性排序,而所述相关性排序同样会被写入索弓I 。步骤9:当接收到具有关键字或关键字组合并且与特定内容类别 (例如音频)相关联的搜索查询时,所述一个或多个关键字将被用作 索引的搜索项,然后,该索引将会返回一个包含了相匹配的多媒体内 容文件的网页列表,并且这些页面是按照其包含的多媒体文件的出现 事件估量的选定变化(例如速度、加速度)来进行排序的。步骤10:用户从结果列表中选择结果页面(或者可选地选择被提 取对象),并且能够査看或播放那些在该页面内部引用且具有计算得 到的较的高排序的多媒体对象。所述指纹可以是任何类型的指纹,其示例可以包括内容项(通常 是元数据,但不局限于此)的下列方面的任意的不同组合-大小_图像/帧大小-时间长度_部分或所有数据的CRC (循环冗余校验)_嵌入的元数据,例如图像、视频等等l的标题字段,_媒体类型或MIME类型当前,如果要执行大规模处理以及对所有类型的多媒体文件的所 有内容进行分析,其计算成本将会很高。但是,用于减少该负担的技 术也是存在的。对音乐文件来说,所应用的技术是对文件开始位置 附近的内容信息进行分析,并且通过对其进行处理来提取唯一签名或标识符形式的指纹。对Midi文件来说,它们可以采用如下方式来进行处理它们很小并且它们本身包含的是数字而不是模拟信息。此外,存在一些系统,已经能以很高的精度识别音乐文件(ShazamTM, Sn0capTM)。对视频文件和其它文件类型来说,相应的签名也是可以 设想的。万维网收集,图7图7显示的是万维网收集数据库的一个实例。示出了三个万维网 收集,但是更多的收集也是可以存在的。万维网收集700用于视频内 容,并且它具有依照主题的页面列表或URL,或者优选具有网站列 表或URL,换句话说,该收集依照的是不同内容类别,例如运动、 流行音乐、购物等等。万维网收集710用于音频内容,它同样具有用 于不同主题的URL列表。万维网收集720用于图像内容,它也具有 用于不同主题的URL列表。如果存在很多内容项,以至于通过重访 所有这些内容项来更新普及性度量的处理不切实际,那么这时将会使 用这些万维网收集。由此,万维网收集是关于可以更频繁地重访的流 行或有效网站的一个典型选择,但是所述选择必须足够大,以便能够 精确监视普及性变化,或者至少监视普及性的相对变化。提供了用于保持万维网收集的万维网收集服务器730,以便保持 所述收集具有代表性,以及对重访定时进行控制。对不同的媒体类型 或主题类别来说,其对更新频率或万维网收集大小的需求有可能是不 同的。重访频率可以依照普及性排序服务器生成的普及性增长速率以 及普及性加速度度量来进行适配。例如,对与相对较高的普及性增长 率以及普及性增长加速数值相关联的网站来说,其重访频率可以自动 向上调整,对具有相对较低数值的站点来说,重访频率可以自动向下 调整。这种适配处理还可以以哪个网站排序较高为基础,其中所述排 序依照的是关键字或后向链接排序。此外,该更新也可以手动进行。 为了控制重访,万维网收集服务器会向万维网爬取器馈送一个URL 数据流,并且可以用于向内容分析器警告镜像中的哪些页面已被更新 以及应该重新扫描内容项变化。内容分析器可以被设置为执行一个初 始操作,以便在其为页面中的所有文件执行完整指纹识别处理之前发现是否所述网页从最后一次扫描时起未发生变化。数据库,图8、 9图8示出了显示了每列中的记录的指纹数据库的摘录实例。示出 了三列,但是在实践中实际有可能有数百万列。每个指纹都具有一个 具有指纹值的记录,然后是初始或始发URL,关键字列表(例如 SINGER , BEATLES, PENNY LANE),媒体类型(例如 RINGTONE),之后则是处于不同日期(Tl, T2..,)的一系列出现 事件值(Countl, Count2)。这些出现事件值既可以是简单计数, 也可以是如上所述通过组合加权计数以及加权的内容项引用数量而 形成的更复杂的值。该记录还可以包括计算得到的其它度量标准,例 如指定时间段(T1 T2)上的普及性速度v12 (例如(count2 — coimtl)/33DAYS),以及指定时间段(Tl到T3)上的普及性加速度 A123。依照应用,很多其它度量标准也是可以设想的。指纹引用可 以包括与之相关的元数据,例如其媒体类型,URL,指纹数据库中 的地址等等。图9显示的是具有分数的索引示例,并且由此显示了一系列内容 项(在本示例中是由指向始发内容或是其在万维网镜像中的拷贝的 URL进行标识)的多个列。对指定列来说,具有指定关键字的所有 内容项都会被记录。本示例中的记录具有四个部分(也可以使用更 多),这四个部分是在四个列中阐述的。第一列显示的是具有该内容 项的页面URL。下一个列具有以指向指纹数据库中的指纹记录的指 针为形式的指纹ID。每个记录的第三列具有该关键字在指定文档中 的关键字分数。第四列显示的是该分数相对于同一关键字的其它分数 的关键字排序。在这里显示了八个列,由此显示了每个关键字的前两 个内容项,但是在实践中,内容项数量可以是数百万个。该索引的目 的是允许査询服务器轻松获取指定关键字所具有的分数最高的内容 项,以及产生一个候选内容项列表,然后,该列表可以由排序服务器 根据普及性度量标准来进行排序。索弓I服务器将会创建索弓1 ,并且会在对新内容项执行爬取和指纹识别处理的时候持续对其进行添加,由此使用来自内容分析器或指纹 数据库的信息。每个列都具有用于不同关键字的多个行。关键字分数 (例如654)代表了相关度的组合分数,举例来说,相关度是以内容 项中的命中数量以及内容项中的关键字位置指示为基础的。此外,举例来说,在这里可以将更多加权给予URL之中的命中、标题、作者文本或元标签,而不是内容项主体的命中。对音频和图像文件这类非 文本项来说,它们可以通过査找元数据中的命中或者通过查找音频签名或图像之类的关键字图案(key pattern)而被包含。在某些实施 例中,普及性度量标准可以用作该分数的输入,以此作为后续依照普 及性度量标准来对候选内容项进行排序的步骤的替换或补充。在所示 示例中,其中记录的是文档的关键字分数(例如041)。与分数相邻的是关键字排序,例如12,换句话说,该排序是指当 前具有11个其它项目,并且这些项目对该关键字而言具有更大的相 关性。由此,査询服务器可以使用该索引来获取与指定关键字最相关 的候选项目的列表(实际是其指纹ID)。然后,排序服务器可以对选 定候选项目进行排序。对大量的受控内容项目集合、例如万维网来说,其索引处理通常 还包括索引处理之前的解析操作,由此可以处理大量的不一致性和数 据项差错。在这里可以保持一个有关所有可能关键字的词典,并且在 并行工作的多个索引服务器之间共享该词典。该词典也可以是具有数 百万字词的大量实体。此外,索引器通常还包括对结果排序以及产生 排序值。该索引器可以解析出每个网页中的所有超链接,并且将其信 息保存在一个锚文件中。另外,该处理还可以用于确定每个链接来源 以及指向,并且可以确定链接的文本。内容分析器,图IO图IO示出了内容分析器的示例的示意图,其中该分析器具有用于 各种不同媒体类型的指纹生成器。具有内容项的页面将被扫描,并且 不同媒体类型的项将被发现并传递到指纹生成器800。这些处理或服 务器中的每一个都会以如上所述的方式创建并比较指纹,以及构造如上所述的一个或多个指纹数据库。该数据库可以具有嵌入或分离的存 储器,其中该存储器具有指向指纹数据库中的指纹ID的索引,以及 关于排序和度量标准的记录。图10显示了查询服务器50如何可以 访问这些记录和索引。此外,该查询服务器还被设置为访问设备信息830以及用户历史记录840。 其它特征在一个可选实施例中,搜索并未涉及整个万维网,而是涉及万维 网的有限部分或指定数据库。在另一个可选实施例中,查询服务器还充当元搜索引擎,由此委 托其它搜索引擎提供结果(例如Google , Yahoo , MSNTM),并且合并来自一个以上的来源的结果。在一个可选实施例中,万维网镜像被用于推导内容项的内容概要。 这些概要可以用于形成搜索结果,以便提供比URL或关键字列表更 有用的信息。特别地,该处理对视频文件这类大型内容项来说是非常 有用的。这些概要可以与指纹保存在一起,但是由于其与关键字具有 不同用途,因此在很多情况下它们并不相同。内容概要可以包括网页 (例如来自万维网、内部网或是其它在线信息数据库)的某个方面, 其中所述方面可以作为分立的有用信息单元而从网页中汲取/提取/解 析得到。将其称为概要的原因在于它是原文中可被用户理解的被删 节縮略版本。内容概要的示例类型包括下列各项(但是并不局限于此)*网页文本——其中内容概要是来自网页的重要信息承载文本的 连续扩展,并且在概要中去除了所有的图形和导航元素。*新闻故事,其中包括网页和RSS之类的新闻订阅源——其中内 容概要是来自原始新闻项目的文本摘要,以及标题、日期和新 闻来源。*图像——其中内容概要是原始图像的小型縮略图表示,以及文 件名、创建日期和发现该图像的网站之类的元数据。*铃声——其中内容概要是铃声音频文件的起始片段,以及铃声 名称、格式类型、价格、创建日期和发现该铃声的卖家网站之 类的元数据。*视频剪辑——其中内容概要是从视频文件中提取并被设置为动 画序列的静态图像的很小集合(例如4个),以及元数据。万维网服务器可以是PC类型的计算机或是能够运行其它那些可 广泛使用的兼容HTTP (超文本传输协议)的服务器软件的常规类型的计算机。该万维网服务器与因特网30相连。并且这些系统可以在众多的硬件和软件平台上实施。查询服务器和用于索引、计算度量标准以及执行爬取和元爬取的 服务器可以用标准的硬件实现。 一般来说,任何服务器的硬件组件都包括中央处理器(CPU),输入/输出(I/O)控制器,系统电源和时钟源;显示驱动器;RAM; ROM;以及硬盘驱动器。网络接口提供了与计算机网络的连接,其中举例来说,所述计算机网络可以是以太网、TCP/IP或其它现行协议的网络接口。该功能可以在驻留于计 算机可读介质(例如硬盘驱动器、RAM或ROM)的软件中实施。 用于该系统的典型软件分层结构可以包括BIOS (基本输入输出系 统),所述BIOS是一组通常保存在ROM中的底层计算机硬件指令, 它被用于操作系统、 一个或多个设备驱动器以及硬件之间的通信。设 备驱动器是用于在操作系统与硬件周边之间通信的硬件特有代码。所 述应用是通常使用C/C++、 Java、汇编或等价语言编写的软件应用, 这些应用执行预期功能,运行于操作系统顶端并且由此依赖于操作系 统,由此与其它的软件代码和硬件进行交互。在BIOS初始化之后, 操作系统将会加载、控制并运行硬件。关于操作系统的例子包括 Linux 、 SolarisTM、 UnixTM、 OSX 、 WindowsXPTM及其等价物。
权利要求
1. 一种用于搜索可以在线访问的内容项的搜索引擎,该搜索引擎具有查询服务器,该查询服务器被设置用于接收来自用户的搜索查询,并且返回与搜索查询相关的搜索结果,该查询服务器还被设置用于识别与查询相关的一个或多个内容项,访问所识别内容项的出现事件随时间变化的记录,以及依照变化的记录来导出搜索结果。
2. 权利要求l的搜索引擎,搜索引擎被设置用于根据变化的记录 来对搜索结果进行排序。
3. 权利要求1或2的搜索引擎,该搜索引擎具有内容分析器,该 内容分析器被设置用于为每个内容项创建指纹,保持指纹的指纹数据 库,比较指纹来确定指定内容项在指定时间的多个出现事件,以及创 建出现事件随时间变化的记录。
4. 权利要求1、 2或3的搜索引擎,其中该出现事件包括处于不 同网页位置的内容项的副本。
5. 权利要求4的搜索引擎,其中该出现事件还包括针对指定内容 项的引用,该引用包括下列各项中的一项或多项针对指定内容项的 超链接、针对包含指定项的网页的超链接、以及其它类型的引用。
6. 权利要求5的搜索引擎,该搜索引擎被设置用于根据副本、超 链接以及其它类型的引用的加权组合确定代表出现事件的值。
7. 权利要求6的搜索引擎,该搜索引擎被设置用于根据下列各项 中的一项或多项来对副本、超链接以及其它类型的引用进行加权它 们的类型,它们的位置,由此偏向于处于与更多的活动性和其它参数 相关联的位置的出现事件。
8. 前述任一权利要求的搜索引擎,当从属于权利要求2时,该搜 索弓I擎包括对内容项数据库的索弓I ,该查询服务器被设置用于使用该 索引来选择多个候选内容项,然后依照候选内容项的出现事件随时间 改变的记录来对候选内容项进行排序。
9. 权利要求8的搜索引擎,该搜索引擎具有一个普及性排序服务 器,该服务器根据下列各项中的一项或多项来执行候选内容项排序 多个出现事件、处于指定日期范围以内的多个出现事件、出现事件的 变化率、出现事件变化率的变化率以及与出现事件相关联的网站的质
10. 前述任一权利要求的搜索引擎,当从属于权利要求3时,该 内容分析器被设置用于根据内容项的媒体类型来创建指纹,以及将其 与相同媒体类型的内容项的现有指纹相比较。
11. 前述任一权利要求的搜索引擎,当从属于权利要求3时,内容分析器被设置用于创建指纹,该指纹包括针对超文本内容项的下列各项的不同组合文件大小、CRC (循环冗余校验)、时间戳、关键字、标题,该指纹包括针对声音、图像或视频内容项的下列各项的任何不同组合图像/帧大小、时间长度、部分或所有数据的CRC (循 环冗余校验)、嵌入的元数据、图像或视频的标题字段、媒体类型、MIME类型、縮略图、声音签名。
12. 前述任一权利要求的搜索引擎,当从属于权利要求2时,该 楚索引擎具有万维网收集服务器,该服务器被设置用于确定要重访万 维网上的哪些网站以及以什么频率向内容分析器提供内容项。
13. 权利要求12的搜索引擎,该万维网收集服务器被设置用于根据下列各项中的一项或多项来确定重访内容项的媒体类型,内容项的主题分类以及与网站相关联的内容项出现事件的变化记录。
14. 前述任一权利要求的搜索引擎,当从属于权利要求2时,搜 索结果包括内容项列表以及所列举内容项依照其出现事件随时间变 化的排序指示。
15. —种搜索引擎的内容分析器,搜索引擎被设置用于创建可在 线访问内容项的出现事件随时间变化的记录,该内容分析器具有指纹 生成器,被设置用于创建每一个内容项的指纹,并且比较指纹,以便 确定同一内容项的多个出现事件,该内容分析器被设置用于将指纹保 存在指纹数据库中,并且保持至少一些内容项出现事件随时间变化的记录,以便响应于搜索查询来使用。
16. 权利要求15的内容分析器,该内容分析器被设置用于识别每一个内容项的媒体类型,并且指纹生成器被设置用于根据媒体类型来 执行指纹创建和比较。
17. 权利要求15或16的内容分析器,该内容分析器具有引用处 理器,该处理器被设置用于在页面中发现针对其它内容项的引用,并 且将引用记录添加到所引用内容项的出现事件的记录中。
18. 权利要求15、 16或17的内容分析器,指纹生成器被设置用 于创建指纹,该指纹包括针对超文本内容项的下列各项的不同组合 文件大小、CRC (循环冗余校验)、时间戳、关键字、标题,该指纹 包括针对声音、图像或视频内容项的下列各项的任何不同组合图像 /帧大小、时间长度、部分或所有数据的CRC (循环冗余校验)、嵌 入的元数据、图像或视频的标题字段、媒体类型、MIME类型、縮 略图、声音签名。
19. 一种指纹数据库,其中该指纹数据库是由权利要求15 18中 任一权利要求的内容分析器创建的并且该指纹数据库存储了内容项 的指纹。
20. 权利要求19的指纹数据库,该指纹数据库具有内容项出现 事件随时间变化的记录。
21. —种使用搜索引擎的方法,该搜索引擎具有可在线访问的指 定内容项的出现事件随时间变化的记录,该方法具有下列步骤向搜 索引擎发送查询,并且从搜索引擎接收与该搜索査询相关的搜索结 果,该搜索结果是使用与査询相关的内容项出现事件随时间变化的记 录来进行排序的。
22. 权利要求21的方法,该搜索结果包括内容项列表以及所列 举内容项依照其出现事件随时间变化的排序指示。
23. —种机器可读介质上的程序,该程序被设置用于执行一种用 于搜索可在线访问内容项的方法,并且该方法具有下列步骤接收搜索查询,识别与查询相关的一个或多个内容项,访问所识别内容项的 出现事件随时间变化的记录,以及根据变化的记录返回搜索结果。
24.权利要求23的程序,该程序被设置用于将搜索结果用于下列各项中的一项或多项估量版权作品的普及性,估量广告的普及性,针对爬取器集中调整网站的网页收集,该爬取器依照哪些网站的内容 项出现事件发生更多变化进行爬取,根据具有内容项出现事件的更多 变化的网站集中调整内容分析器来更新部分指纹数据库,从指定内容 项出现事件的变化的记录执行外推处理,以便估计未来的普及程度, 根据出现事件变化率来为广告定价,根据出现事件的变化率来为内容 项下载定价。
全文摘要
一种搜索引擎,它具有一个查询服务器(50),该服务器被设置为接收来自用户的搜索查询并且返回搜索结果,并且该查询服务器还被设置为识别与查询相关的一个或多个内容项,访问所识别内容项的出现事件随时间变化的记录,以及依照变化记录来对搜索结果进行排序。TM可以帮助发现那些当前有效的内容项,以及追踪或比较内容项的普及性。这对用户主观价值取决于其是否为时下关注或是流行的内容项来说是非常有益的。内容分析器(100)创建一个关于指纹的指纹数据库,以便通过比较指纹来确定指定内容项在指定时间的多个出现事件,并且记录这些出现事件随时间发生的变化。
文档编号G06Q30/00GK101283357SQ200680037812
公开日2008年10月8日 申请日期2006年10月5日 优先权日2005年10月11日
发明者史蒂芬·罗伯特·艾夫斯 申请人:泰普有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1