结合万维网搜索技术和万维网内容的被赞助搜索条目的匹配和排名的制作方法

文档序号:6566491阅读:145来源:国知局
专利名称:结合万维网搜索技术和万维网内容的被赞助搜索条目的匹配和排名的制作方法
结合万维网搜索技术和万维网内容的被赞助搜索条目的匹配和排名 相关申请
本申请要求享受2005年1月18日递交的美国临时申请No. 60/645,054 的优先权,该申请的全部内容通过引用结合于此。
本专利申请文件的公开内容的一部分包含受版权保护的资料。由于Jl: 出现在专利商标局专利文件或记录中,版权所有人不反对任何人对专利文 件或专利公开的复印,但是不管怎样,在其他情况中,保留所有的版权权 利。
賴粉
在计算机网络上传递信息是机构、公司和个人进行商务的宽耍方式。 多年来,计算机网络已经从被建立来满足单个团体的需要的独立、隔绝的 实体,发展为将不同的物理网络互联起来并允许它们作为协同的系统来工 作的众多的互联网。目前,最大的计算机网络是因特网,其是使用公共协 议进行通信的计算机网络的世界性互联。
在很大程度上由于引入万维网(World Wide Web, "web")这一信 息系统带来的驱动,因特网已经转变为货物和服务的全球性市场。连接到 因特网的计算机可以通过具有强大但易学的图形用户界面的浏览器程序, 来访问web页面。在因特网搜索引擎上的基于web的搜索中,用户输入-个或多个关键词的搜索项,搜索引擎然后使用该搜索项来生成用户通过超 链接可以访问的web页面的条目。
因特网的搜索引擎功能应当针对促进这样的在线市场,其对搜索者提 供快速、容易和相关的搜索结果,同时对因特网网络信息提供者提供定位 客户的成本有效的方式。使用促进了这种在线市场的搜索引擎的客户找到
6了提供搜索者正寻求的产品、服务或信息的公司或交易。在在线市场中, 提供产品、服务或信息的公司可以针对在由因特网搜索引擎生成的搜索结 果列表上的竞拍,在基于公开竞拍的排名环境中竞价。
某些基于竞拍的搜索引擎的运营者可能正失去潜在的收益,例如对某 些搜索项不能显示足够多的受到赞助的结果。另外,可能出现不相关的结 果和/或结果的低有效收益。某些运营者可能不能有力地控制相关性和结果 的覆盖范围之间的平衡。类似的,商业互联网的搜索查询可能不满足用户 的需要。如果被赞助结果仅仅是基于用户的搜索项中的某些项而示出的, 则可能示出了不相关的结果。此外,当利用某些基于拍卖的搜索引擎时,
广告者可能经受低的流量。广告者可能承担生成与他们的web页面相对应 的被竞价的项的负担,以试图将到他们的站点的相关搜索流量最大化。可 能发生丢失向特定査询提供高质量匹配的机会。类似的,由于该结果被发 现为是不相关的,许多用户可能访问广告者的站点而不购买任何东西。这 样,广告者可能要对来自购买物品的可能性很低的用户的点进进行付^。

发明内容
一种系统使用计算机网络,响应于来自搜索者的搜索请求,生成搜索 结果列表。可以维护包括第一多个搜索条目的第一数据库,其屮毎个搜'^ 条目可以与一个或多个搜索项相关联。可以维护包括具有--般web内容的 文档的第二数据库。搜索请求从搜索者被接收。从第一数据库中识别第一-组搜索条目,并且从第二数据库中识别第二组搜索条目,第一组搜索条B 具有产生与搜索请求的匹配的文档,第二组搜索条目具有产生与搜索请求 的匹配的文档。为来自第一组搜索条目的每个条目确定信心分数,其中信 心分数是根据每个条目当与第二组搜索条目的条目相比较时的相关性而确 定的。至少部分地根据每个搜索条目的信心分数,对来自第一组搜索条自 的识别出的搜索条目进行排序。
在研究了附图和说明书之后,本发明的其他系统、方法、特征和优点 对于本领域的技术人员来说,将会是或者将变得明显。所有这样的另外的 系统、方法、特征和优点应被包括在本说明书中,被包括在本发明的范围内,并由所附权利要求所保护。


参考附图和下面的说明,可以更好地理解本发明。附图中的组成部分 未必是按比例的,而是强调示出本发明的原理。此外,在附图中,在不同 的图形中类似的参考标号指示相应的部分。
图1示出了针对搜索査询提供结果的系统。
图2示出了用于管理査询和数据库内容的系统。 图3是示例性搜索流水线的框图。
图4是示出了用于呈现来自多种服务器的条目的条目组合集合的休系 结构的框图。
图5示出了可以被返回给用户的web页面的示例性屏幕截图。 图6是示出了使用系统将查询项和被赞助条目匹配到任意web页面的 框图。
贼鄉讨
系统可以组合对被广告者赞助的条目、广告者web站点内容、万维网 内容、查询倾向和/或用户行为统计,以提供相关的匹配者,例如被赞助的 匹配者,以及相关联的査询的属性和结果。如这里所用的,相关项包括包 括为搜索提供者带来收益的结果、深度的或者广范围的结果、和/或与搜索 者有关的结果。系统可以组合地分析由一个或多个服务器提供的搜索査询 结果。可以根据分别的、不同的搜索查询的结果,来确定来自第一搜索杏 询的结果的相关性或质量。
图1示出了针对搜索査询提供结果的系统100。诸如用户110之类的 搜索者使用访问前端服务器120 (例如YAHOO或OVERTURE)的web 浏览器,提交搜索查询。査询可以包括一个或多个项。前端服务器120可 以将搜索查询发送给第一后端服务器130,例如被赞助条目服务器或者其 他类型的服务器。被赞助条目服务器可以为搜索查询提供结果,这些结果 包括为了被包括在结果中而付费了的广告者。第一服务器130可以访问被赞助条目匹配引擎140。被赞助条目服务器130可以与IDP代理150连 接,以处理输入的搜索査询。IDP代理150可以与诸如被赞助条目搜索集 群160和免费web爬取(crawl)搜索集群170之类的不同的搜索集群连 接。
图2示出了用于管理査询和数据库内容的系统。被赞助条目服务器 130可以利用来自被赞助条目搜索集群160和免费web爬取搜索集群170 的结果。被赞助条目搜索集群160可以从被赞助条目数据库200获得条 目。当被赞助条目服务器130是由与免费web爬取搜索集群170不同的实 体运营的时候,可以使用被赞助条目数据库200。被赞助条目服务器130 和免费web爬取搜索集群170的运营者也可以是同一实体。
为了从被赞助条目数据库200获得条目,系统100可以执行上下文标 引(context indexing)。上下文标引可以包括捕获被赞助条目数据库200 的快照,以确定在前匹配的合格条目。合格的条目包括这样的条问其广 告者已经同意让他们的条目使用系统100的算法被显示。来自条目数据库 的信息可以例如通过被赞助条目更新服务器220,被传输到被赞助条l l爬 取集群210。被赞助条目编组器(marshaler) 230可以被用于创建内容的标 引。IDPD标签程序(IDPD Tag Daemon) 240可以被用于例如基于诸如去 除垃圾条目、到无用的条目的链接和具有低点进率的链接之类的编辑考 虑,标记被标引的页面。IDPD标记代理240可以从编辑数据库250获符 编辑内容。可以利用相关的注释、爬取的内容、例如与入站(inbound)链 接相关联的文本的到目标页面的锚(anchor)文本、或者算法生成的总结 或关键字,来标引条目。
为了获得用于免费web爬取搜索集群170的文档,经由免费web爬取 集群260和免费web爬取编组器270,从web 250收集文档。可以从编辑 数据库250为免费web爬取编组器280处的文档提供编辑材料。编辑材料 还可以经由IDPD标签程序290从编辑数据库250提供到免费web爬取搜 索集群170处。web地图300可以被用于向被赞助条目爬取集群210、免 费web爬取编组器270、编辑数据库250、被赞助条目编组器230和免费 web爬取编组器280提供信息,和接收来自它们的信息。web地图300可以提供关于web上的主机和超链接的信息,包括与超链接相关联的锚文 本。
编组器230和280产生被搜索集群160和170用来响应搜索査询的标 引或搜索数据库。免费web内容或一般web内容的搜索数据库可以被用于 确定来自被赞助条目的搜索数据库的结果的质量。
可以使用例如XML编码之类的传输协议来完成被赞助条目到web爬 取/标引系统的传输。可以利用还诸如IDP (INKTOMI Data Protocol) 2.0 之类的协议来完成从搜索提供者到web搜索系统的请求和响应,并且可以 利用超文本传输协议(http)来完成传输。增量更新协议可以被用于被赞 助条目的高效传输,例如通过仅传输自上次传输起已经被改变了的那些条 目。条目的属性可以被转换为用于web搜索数据库的适当的表达方式。到 可标引web内容的转换可以使用XSLT变换来完成。
可以利用显示标题、显示摘要、显示主机名、目的地URL、爬取 URL、被竞价的项、账户id、广告组、历史CTR等,来提交被赞助条 目。简单的说,广告者可以提交指向web页面树的一组爬取URL或根 URL,而不用指定标题、摘要和被竞价的项。替换地或者另外地,如果广 告者提供了对于一个条目的标题、摘要、显示主机名和目的地URL,则广 告者可以说明对于该条目没有要被爬取的内容。多个条目可以使用相同的 爬取URL。例如通过指定相关的显示频率或者请求系统对选择进行优化以 改善点进和/或换算(conversion),广告者可以针对同一 URL和被竞价的 项目,连同如何在类似的标题和摘要之间进行选择的选项说明,提交多个 标题和摘要的组合。
为了提高标引、检索(retrival)和/或记帐的性能,在被赞助条目数据 库中,多个条目可以例如根据账户、URL、相关的URL组和/或被竞价的 项而成组。为了效率,被多个条目共享的爬取URL可以仅爬取一次。也 可以使用其他的爬取量。
在条目中也可以包括与条目相关联的未标引属性,例如当一个用户 110点击条目时广告者的花费、账户/条目ID和否定关键词。否定关键词 包括由广告者选择的这样的项其使得如果该项是搜索査询的一部分,则
10广告者的条目将不出现。除了转换条目属性,文档也可以利用帮助词被注
释以进行标引,例如通过基于被竞价的项、标题、摘要、URL和/或用于 条目的被爬取的内容,添加词干变形(stemming variant)、同义词和/或相 关的项。可以创建新的文档部分,以向条目添加替代的项,例如添加 "shoe"和"shoes" 、 "running"和"run"或者项的其他变形等等。
系统100可以通过至少部分地根据结果相关性评分(例如信心分数) 和/或利用排名准则来针对搜索査询提供结果,来处理来自用户110的搜索 查询。可以执行来自被赞助条目搜索集群160和免费web爬取搜索集群 170或者其他数据库的搜索结果,并且结果可以被比较以确定要向用户显 示的结果。
当用户110输入查询时,査询可以被代理150处理。在代理150处, 系统100可以按照例如如下的方式来编辑査询错误拼写的查询的l'l动校 正、将查询划分成词或短语、改变辞格、使用概念扩展、以及例如甚于在 历史査询日子和/或web页面中出现的频率,去除不重要的词。系统100可 以将用户查询变换为针对后端查询搜索引擎的优选的形式。取决于实现方 式,如果査询或者变换后的査询与违禁项的列表上的项相关联,则可以不 返回结果。例如,如果查询包括诸如与血腥、成人内容等有关的视频相关 联的项之类的违禁项,则可以不返回内容。作为策略,可以由搜索引擎的 编写者决定定违禁项,或者由例如广告者或自动成人分类器之类的其他方 来决定。必要的査询短语的列表可以由编写者或者广告者提供,或者由算 法生成,并且这些短语可以与来自一个账户或域的一个条目、多个条目或 者全部条目相关联。如果与被赞助条目相关联的一个或多个搜索项包含了 没有被包含在用户查询中的必要的短语,则条目可以从针对该査询的结果 集合中排除。
经修改的查询可以被发给被赞助条目搜索集群160和至少一个其他搜 索集群,例如搜索一般web内容的免费web爬取搜索集群170。免费wcb 爬取搜索集群170可以搜索全尺度的web标引或者全尺度web标引的按照 已确定的参数被选择的一部分。全尺度web标引例如可以包括100亿个结 果,而为了简化处理、速度和减为了提高结果对用户110的相关度,标引的取样部分可以包括2亿个结果。可以通过基于web链接的属性来包括文 档,例如通过使用比其他链接更频繁地被访问的链接,来取样web内容。
信息可以经由系统监视器/执行器310,例如从被赞助条目搜索提供者 330,被提供给被赞助条目搜索集群160。被赞助条目搜索提供者可以利用 合约和点击数据仓库(warehouse) 340来维护关于赞助者和对赞助者web 站点发生的点击的数据。数据仓库340可以例如经由账户管理和报告模块 360,从数据质量检查模块350接收关于条目的信息。关于用户对web站 点的点击的信息可以例如在被点击日志处理和欺骗检测模块380处理之 后,经由重定向服务器370被接收。数据仓库340还可以经由査询和印象 处理模块390,从被赞助条目服务器130和/或IDP代理150,接收由用户 发出的查询的信息以及要出示给用户的结果。
被赞助条目搜索集群160可以以第一种方式提供结果,例如付费而被 包括在被赞助条目数据库中的广告者的结果根据这些结果带给搜索提供者 的收益而被排名。免费web爬取搜索集群170可以以另一种方式提供结 果,例如无论广告者是否有关,所有可能的结果或者所有可能结果的一部 分例如通过流行程度而被排序。被赞助条目数据库的搜索结果可以与一般 web内容数据库相比较,并且如果来自被赞助条目数据库的具有高排名的 结果也出现在一般web内容数据的结果的高排名中,则可以显示这些结 果。相关性或关于文档相关性的信心分数也可以被用于优化结果页面.卜.的 排列,例如条目是否要在页面的上部、侧面或底部被显示给用户110。-战 于被赞助条目和web结果的比较,被赞助结果也可以被重新排名或去除重 复。
系统100还可以针对被赞助条目数据库查询使用各种评分参数。例 如,可以对搜索结果文档的不同部分使用修正的权重。例如,出现在文档 标题中的搜索项可以考虑为比仅仅出现在文档正文中的搜索项更加重要。
可以针对每个数据库确定有关结果,并且可以利用相关性或信心分数
存储组合的结果。相关性分数可以基于许多因素,包括査询项的出现、査 询项彼此的近似程度、查询项与文档锚文本的匹配、文档目录、以及确定 出的文档质量的测量结果。出现在经排序的靠前的结果集合中的被赞助条目数据库结果还可以被进一步修改,使得其中发生了违禁关键词匹配查询 的结果可以被丢弃。另外,如果查询包括指定的商标项的列表上的项,则 可以丢弃在结果的可见部分中或者条目的被竞价的项中不包括全部商标项 的任何结果。
来自被赞助条目数据库的结果的特征可以被计算,以帮助确定哪些结
果要被显示。这些特征包括例如基于竞价排名,广告者针对用户110点击
结果的实际花费。特征还可以根据其他因素确定,例如历史点进和换算数
据。历史点进数据包括当广告者站点被提供作为结果时,关于用户110点 进广告者站点的次数的信息。换算数据包括来自广告者的关于用户110是 否执行了广告者希望的动作的信息,所述动作例如当用户110访问广告者
站点时进行了购买。其他特征包括结果在来自被赞助条目数据库和一般
web内容数据库的组合的全部排序的靠前结果的集合中的排名,以及一般 web内容数据的靠前结果的相关度分数差和比例。结果的其他特征包括査 询词/短语是否出现在标题、摘要、URL、显示主机、被竞价的关键短语和 /或算法生成的关键词或结果的总结。
个体特征可以被单独地分析,或者相结合的分析,以提高结果很好地
匹配到查询的复合信心。特征还可以被用于为每个结果创建信心分数,并 且被赞助条目服务器130或者其他服务器可以基于分数对结果排序,使得 得到较高分数的结果首先被显示在要显示给用户的搜索结果列表上。被赞 助条目服务器130可以返回输入查询的属性,例如査询的种类,并且Li丁以 返回每个条目的属性,例如与每个条目相关联的关键词。相关度评分功能 和重排名功能可以完全或部分地通过机器学习方法来构建,例如寻找线性 公式系数的方法、构建判决树的方法、构建支持向量机(Support Vector Machine)的方法、神经网络、贝叶斯网络或其他方法。可以借助历史点 击和印象数据和/或通过编辑标记的相关性判断的辅助,构建特征、特征的 组合、以及评分和重排名功能。
根据信心分数和其他因素,例如搜索提供者是否希望显示更多的相关 结果和/或更多的产生收益的结果,可以确定要被显示的结果。可以提供实 时的匹配统计报告,以便可以针对具体的搜索提供者,修改决定信心分数的特征。可以连同信心分数,向搜索提供者返回每个web搜索数据库结果 的条目ID。 web搜索数据库结果的条目ID可以被用于査找当前标题、摘 要、显示主机名、广告者对点进的花费、以及条目/账户状态。基于可能是 数小时或数天前的爬取和标引的内容,可以从当前标题、摘要、URL、 CPC和条目/账户状态的获取,解除条目的匹配。
可以显示根据上述特征的任何组合而被判断为最相关的结果。如果广 告者已经为一个条目提供了多个替代的标题和摘要,则可以基于与查询、 点进统计、和/或每个标题和摘要的期望显示频率的说明,来选择要被显示 的标题和摘要。根据査询和经变换的查询的条目中的项可以对用户突出.品 示。基于广告者对每次点进的花费、相关性分数和/或优选规则,合格的结 果可以与确切的匹配以及其他算法相混合。可以实现柔性策略,来排列由 由系统100生成的结果或将由混合由系统100生成的结果与来自其他系统 的匹配相混合。可以基于账户id、域名、从爬取URL提取的主机名、显 示URL、显示主机名和/或其他,去除多余的结果。
图3是示例性搜索流水线400的框图。在框410,从用户110接收原 始查询。可以例如利用在框420处的子短语匹配(SPM)匹配驱动器 (MD)规范(canon)査询模块和/或在框430处的MD规范査询模块,处 理原始査询,以为原始査询确定查询中的项的各种变形,去除多余的项或 字尾,例如复数字尾或者"ing"字尾,以及确定同义词。原始査询可以被 发送到框440处的IDP代理。MD canon査询可以被发送到框450处的标 题和/或描述匹配服务器。MD canon查询430也可以被发送到框460处的 确切匹配或正确拼写匹配驱动器(orthographic match driver, OMD)匹 配。连同来自SPM MD canon査询的结果,确切匹配或OMD匹配的结果 可以被发送到框470处的短语匹配或广匹配(broad match)服务器。SPM MD canon査询结果也可以被发送到框480处的局部匹配服务器。来自所 有服务器440、 450、 470和480的结果可以被发送给框490处的服务器条 目模块。每个条目被分析以确定该条目相关的条目的信心排名。
下面是系统100的示例性核心匹配算法-
"完整结果集合(foil result set)"是来自被赞助条目数据库和其他数据库的通过相关性分数排名的靠前序号候选(top mim一candidate)结果的 混合集合。可以通过计算试图捕捉结果的不理想特性的"降级 (demotion)"项的数目,对在完整结果集合中来自被赞助条目数据库的 每个结果重新评分和重排名。
在完整结果集合中使用项的"排名(rank)"和归一化的"分数 (score) ,, -
rank一demotion = 1og2(rank) rawscore一demotion = 1 - score / top_score
其中,top一score是完整结果集合中弁l结果的分数。 每个査询词的权重可以默认地设置为1.0,但是可以替换为0和1之间 的任何值。基于词权重,max一quer)^score是每个独一查询词的加权和。
可以分别为每个"section"计算三个量度,其中"section"是条I3题 目、摘要、被竞价的项或者条目的关键主题的列表。如果 "editorial_switch"参数是1,则对于还没有被编辑检查的条目,被竞价的 项可以被考虑为空白。absence—demotion 、 edit—distance—demotion和 order_distance—demotion可以如下确定
absence—demotion = (max_query_score match_weight) / max一query—score ,
其中match一weight是section中的独一査询词的加权和 edit—distance—demotion = (max一query—score - max) / max—query_scorc, 其中max可以是section中相继section词的序列之中全是査询词的 独一查询词的最大加权和。 order_distance_demotioii =
0 for l國word queries,
1 if no query words appear in section, otherwise computed as 1腳(ordered—words -1) /
(nunique一query一words -1), 其中ordered—words可以通过忽略section中的非査询词并找到独一命 令的查询词的最大数目来确定。
15当确定,例如计算,section的列表的section降级时,对三个降级类型 中的每一个,可以使用任何section的最小降级 section—demotion (sectionjist)= edit_distance_demotion_weight * min一of一sections(edit一distance—demotion)
+ order_distance_demotion—weight * min_of_sections(order_distance—demotion)
+ absent—words_demotion_weight * min_of_sections(absence_demotion)
"编辑降级(editorial demotion)"可以是l,以代表还没有被编辑检 查的条目,或者否则为0。可以使用其他的表示。 最终的相关性分数可以如下确定 relevance_confidence = base—confidence
-rawscore_demotion * rawscore_weight -ranlc一demotion * rank—weight
-section一demotion(title, abstract) * title—abstract—weight
-sectiondemotion(bidded—tenri) * biddedterm—weight
画section一demotion(title, abstract, bidded—temi) * title_abstract_bidded_term_weight
-section一demotion(topics) * topics—weight
-editorial—demotion .* editorial_weight 为了为每个被赞助结果确定actual一cpc (实际cpc,其中cpc是每点击 的花费),被赞助结果可以通过与每个结果相关联的bi(Lcpc (竞价cpc) 来排序。bid_cpc小于min_bid_cpc (最小竞价cpc)的任何结果可以被分 配等于其bid—cpc的actual—cpc。否则,底部的结果可以被分配其bid—cpc 的actual一cpc,并且每个其他结果在满足actual_cpc不超过bid_cpc的约朿 下,被分配下一结果的bicLcpc加上cpcjncrement (cpc增量)得到的 actual一cpc。relevance—confidence低于min—relevance_confidence的结果可以被拒 绝。剩余的结果可以利用如下确定的ranking_sCOre被重新排名 if actual—cpc <= cpc一knee, then cpc = actual一cpc otherwise, cpc = (cpcjoiee + cpc__slope*log2(actual—cpc +))/100) ranking_score = relevance一confidence + cpc—weight * cpc. 或者,ranking一score可以如下确定 if acrual一cpc <= cpc一knee, then cpc = actual—cpc otherwise, cpc = cpc一knee
ranking_score = relevance一confidence + cpc—weight * cpc.
美国市场的可调输入参数设置的示例性组合
0.05 rank一weight
0.24 rawscore一weight
0.45 title—abstract weight
0.0 bidded—term一weiglit
0.1 title abstract—bidded_term—weight
0.01 topics—weight
0.2 edit—distance—demotion weight
0.3 order distance—demotion weight
0.5 absent—words—demotion—weight
0.95 base—confidence
0.01 editorialweight
1 editorial switch
2.0 cpc_weight
100 num一candidates
0.35 min一relevance一confidence
$0.10 min_bid_cpc
$0.01 cpc一increment.
$0.20 cpc_knee
$1.00 cpc一slope图4是示出了用于呈现来自多种服务器的条目的条目组合集合的体系 结构的框图。在框510,用户查询被接收。在框520,査询被发给不同的 搜索服务器。査询的变形可以被发给不同的服务器。确定性分数可以附加 到查询的每个变形,作为该变形将返回相关结果的可能性。在框530,搜 索服务器将条目与査询匹配。可以向条目附加该条目是相关匹配的确定性 分数。在框540,例如根据确定性分数和其他因素,例如每点击的花费 (框550)、点进率(框560),并基于编辑考虑(框570),条目被排 名。在框580,条目可以根据排名和其他因素被呈现。条目可以按照信心 顺序示出,例如信心定为最高的条目被首先示出和/或在所显示的浏览器页 面的特定区域示出。
图5示出了可以被返回给用户的web页面的示例性屏幕截图600。如 果用户110输入了项"deboningchicken",对于该项可能没有被赞助的结 果。由于系统100包括来自web搜索数据库和一般web内容数据库的结 果,类似"ChickenShearsatShopping.com"之类的结果可能被发现。^r连 接到该链接时,用户110可以观察到诸如"Diamond Cut Multi-purpose Kitchen Shears"之类的在题目中不包括项"deboning"或者"chicken"的 结果。
系统IOO可以被定制以针对不同搜索提供者的不同需要。被赞助条0 可以与一般web内容不同地被评分,例如对被赞助条目施加更多或者史少 的强调。依赖于希望的数据库中的内容的新鲜程度,更新web搜索数据库 的爬取频率可以被改变,例如从周改变到日。可以为个体匹配准则提供可 调参数。结果可以被限制于所有查询项都出现在结果的确定部分(例如标 题或摘要)中的那些结果。诸如"a" 、 "the"和"and"之类的停止词 (stopwords)可以被排除,或者给予较低权重。 一些查询项可以被加权为 比其他项更重要。系统100可以被调节,使得査询项可以针对不同的搜索 提供者具有不同的权重。例如,项"picture"可以被加权为在重要度上是 其他词的一半。结果可以相对于web内容被排序,而不要求获取完整wcb 内容条目,例如标题和摘要。结果集合可以被缓存,以减小延迟并降低服 务成本。系统IOO还可以包括其他特征来帮助提高相关性和域收益,例如通过
使用关于访问广告者站点的用户iio的数目的历史点进数据,以及关于从 广告者站点购买物品的用户iio的数目的换算数据。对于所有查询或者对
于特定查询和查询项,数据可以每URL、每域或每合约地合计。
来自用户110的查询可以被修改,例如通过编辑地确定对特定査询或 査询项的改写,或者通过算法地确定改写。某些查询项可以被删除或者降 低权重。相关的项和项的同义词扩展可以被添加到査询并相应地加权。系 统100还可以扩展查询项,并添加词干变形,例如通过对项添加或去除 "s"和"ing",并且项的縮写变形可以被添加到查询。査询可以被分段 为短语,以便项的更好地近似评分。例如,项"New"和"Mexico"可以 被成组在一起,以得到对于陈述"NewMexico"的结果。没有分割句于的 间隔而写成的査询,例如中文査询,可以被分段为字。复合词,例如韩文 或德文査询,可以被分段为成分词。例如对亚洲语言,例如中文中的变 形,可以允许书写变形。可以根据项的改写来生成项的列表以用于点击突 出显示。例如,当结果被显示时,搜索项可以被突出显示以辅助用户,并 且搜索项的变形也可以被突出显示。对于搜索项"S.R叩era",当显示结 果时,变形"San Francisco opera"也可以被突出显示。
系统100还可以修改web搜索数据库和/或一般web内容数据库中存储 的web页面结果的内容。基于许多因素,包括页面结构、例如应用到与合 约、供给(feed)或站点相关联的文档集合的页面模板提取、每査询或査 询项的点击和换算统计,页面内容可以被削减或者增加。可以向web页而 描述添加价格,以避免不相关的匹配。同义词、替代的拼写、词干变形、 縮写变形和有关的项也可以添加到web页面描述。
系统100还可以被配置以容纳其他特征。要求开发的部件,例如査询 分类、拼写校正和査询改写,可以被添加到系统100。可以允许对区域和 语言偏好的相关性调节。可以实现区域特定的评分,使得限制到特定区域 的査询结果对于来自该特定区域的用户110被给予高的权重。使用许多冈 素,例如内容偏好、用户位置、用户人群统计和查询历史,个性化数据可 以被结合到相关性评分中。搜索提供者可以被允许控制结果是否应当朝向更相关的结果被加权,或者结果的更大覆盖范围/深度是否是首选的。可以
基于URL、域或合约,并入肯定或否定的编辑判断以用于被赞助条目。被 赞助条目供给可以被用于为相关的条目自动生成竞价项和竞价量。系统 100可以被用于实现与被竞价项的确切匹配,以便降低服务成本,并基于 用于例如web内容的不确切匹配的因素,结合确切匹配条目的相关性排 名。
系统100的其他特征包括这样的能力通过指定完全结果集合或特定 结果,编辑地确定结果集合,以进行包括、排除、提升或降级。系统100 可以包括当前广告者在结果的选择和排名中的预算。例如,如果广告者已 经用尽了其预算的已确定的百分比,则针对该广告者的结果可能不被显 示,即使该结果在其他情况中应当已经被显示,除非结果排名超过一定排 名。逻辑/地理查询、域查询和产品号查询可以被不同地评分。例如,因此 出现了局部査询,所以在其他情况中可能不被显示的结果被给予了额外的 权重并被显示。
要被编辑检查的条目队列或査询条目对可以基于若千因素被向动地生 成,这些因素包括点击数据、换算数据、查询或查询项频率、条目显示频 率、条目竞价量、前一编辑检查(如果有的话)的结果、以及用户抱怨频 率,并且可以通过账户、域、査询或查询项被总计。除了选择频率之外, 也可以使用其他因素,例如利用所用的语言、区域、内容类型、互联网 域、主题和字典,代表性的web页面内容被选择并用于生成web搜索数据 库内容的相关排名。
除了被赞助条目之外,系统100还可以适合于显示例如拍卖条目、招 聘等,并且评估与除了一般web内容之外的内容数据库有关的那些出价, 例如驱动垂直搜索的数据库或目录例如旅游、购物等的目录。可以结合相 关性评估中的其他内容属性,例如价格、可获得性、出价的持续时间、流 行性、供应商评级、以及例如尺寸、颜色和装饰之类的产品细节。系统 100可以被用于确定何时以及何地在页面上显示到优先内容的链接,例如 如"YAHOO! Shortcut"条目所做的那样,使得如果查询包括线"HONDA CIVIC",到YAHOO! Autos站点的链接可以被提供。其他特征包括广告者可以提交web页面,而不用完全指定被竞价的项、标题、摘要。另外, 可以基于web页面内容中与查询项的匹配,来修改条目摘要。
图6是示出了使用系统100将查询项和被赞助条目匹配到任意wcb页 面的框图。web页面提供者提交一个或多个URL (每个URL指定一个 web页面),或者指向web页面树的根页面。利用要与URL相关联的可 选的关键词或文本,URL可以被web页面拥有者注释。每个web页面被 放在要被被系统100爬取、编组(marshall)、标记和检索的被赞助条目数 据库中。以这种方式,系统100可以被用于确定哪些广告是相关的以显示 在页面上。
web页面拥有者可以通过向上下文向量处理器700发送被注释的 URL,来请求与web页面相关的条目。请求可以包括web页面的URL, 并且可以包括关于web页面的相关站点的另外的注释,和/或关于用于杳看 该web页面的注释,例如用户的位置和最近的动作。基于例如被注释的 URL请求之类的请求,上下文向量处理器700可以被用于向査询数据仓库 720请求一组其结果与URL、站点或账户相关的预先的搜索。杳询数据仓 库可以通过提供相关的历史搜索项和与这些搜索项相关联的结果集合的J,,4 性,来进行响应。上下文向量处理器可以分析来自可能生成另外的候选搜 索项的査询数据仓库720的结果,并且还可以生成要被提交给被赞助条目 服务器710的一组所选择的搜索项。被赞助条目服务器710利用候选条目 的列表和那些条目的属性来进行响应。上下文向量处理器700分析这组候 选条目,确定那些条目被返回,可选地对这些条目重新排名,并利用条0 和相关的属性(可以包括每个条目与web页面匹配的信心),来响应注释 的URL请求。
可以通过使用可以与注释的URL请求流同步工作的新鲜(freshness) 优化器730来优化上下文向量处理器所返回的条目的有效性。新鲜优化器 可以向查询数据仓库720请求这样的搜索项这些搜索项先前被搜索但是 最近没有被搜索以足够保证新近重新提交的査询将产生相同结果。新鲜优 化器可以向被赞助条目更新服务器740请求新近被添加到被赞助条目数据 库中的搜索项的列表。新鲜优化器可以收集来自查询数据仓库和/或被赞助
21条目更新服务器的搜索项,并向被赞助条目服务器710提交一组搜索项, 被赞助条目服务器710然后将产生要被存储在查询数据仓库720中的新鲜 的搜索结果。
虽然已经描述了本发明的多种实施例,但是对本领域的普通技术人员 来说很显然,在本发明的范围内可能有许多另外的实施例和实现方式。W 此,除了所附权利要求和它们的等同物之外,本发明并不受到限制。
权利要求
1.一种使用计算机网络,响应于来自搜索者的搜索请求,生成搜索结果列表的方法,包括维护包括第一多个搜索条目的第一数据库;维护包括具有一般web内容的文档的第二数据库;从所述搜索者接收搜索请求;从所述第一数据库中识别第一组搜索条目,并且从所述第二数据库中识别第二组搜索条目,所述第一组搜索条目具有产生与所述搜索请求的匹配的文档,所述第二组搜索条目具有产生与所述搜索请求的匹配的文档;为来自所述第一组搜索条目的每个条目确定信心分数,其中所述信心分数是根据每个条目当与所述第二组搜索条目的条目相比较时的相关性而确定的;以及至少部分地根据所述每个搜索条目的信心分数,对来自所述第一组搜索条目的识别出的搜索条目进行排序。
2. 根据权利要求1所述的方法,其中,每个搜索条目与一个或多个投 索项相关联。
3. 根据权利要求2所述的方法,其中,所述与至少一个搜索条目相关 联的一个或多个搜索项中的至少一个是基于位于与所述至少一个投索条目 相关联的第一地址处的信息而自动生成的。
4. 根据权利要求1所述的方法,还包括 在识别所述第一组之前,修改所述查询。
5. 根据权利要求1所述的方法,其中,来自所述第一组搜索条目的每个条目与第一组属性相关联,所 述第一组属性中的每个属性与一个属性权重相关联,并且其中,所述信心分数是通过利用所述相关联的属性权重,对针对毎个 条目的至少一个属性进行加权而确定的。
6. 根据权利要求5所述的方法,其中,所述搜索者与地理区域相关联,并且其中,所述信心分数是通过利用与所述地理区域相关联的第二组属性 权重,对针对每个条目的至少一个属性进行加权而确定的。
7. 根据权利要求1所述的方法,其中,所述识别出的搜索条目还根据 否定关键词的列表被排序。
8. 根据权利要求1所述的方法,其中,所述识别出的搜索条目与至少一个特征相关联,并且 其中,所述识别出的搜索条目还根据所述至少一个特征被排序。
9. 根据权利要求1所述的方法,其中,所述信心分数是使用机器学习 方法确定的。
10. —种用于使用计算机网络,响应于来自搜索者的搜索请求,生成 搜索结果列表的服务器,包括用于存储数据和指令的存储器;和与所述存储器通信的处理器,所述处理器用于基于所述被存储的指令来使能进行动作,所述被存储的指令包括用于以下内容的指令 与第一数据库通信,所述第一数据库包括第一多个搜索条目; 与第二数据库通信,所述第二数据库包括具有一般web内容的文档; 从所述搜索者接收搜索请求;从所述第一数据库中识别第一组搜索条目,并且从所述第二数据库屮 识别第二组搜索条目,所述第一组搜索条目具有产生与所述搜索请求的匹 配的文档,所述第二组搜索条目具有产生与所述搜索请求的匹配的文档;为来自所述第一组搜索条目的每个条目确定信心分数,其中所述信心 分数是根据每个条目当与所述第二组搜索条目的条目相比较时的相关性而 确定的;以及至少部分地根据所述每个搜索条目的信心分数,对来自所述第组搜 索条目的识别出的搜索条目进行排序。
11. 根据权利要求IO所述的服务器,其中,所述被存储的指令还包括 用于以下内容的指令为了识别所述第一组搜索条目,以第一方式修改所述搜索请求;以及 为了识别所述第二组搜索条目,以第二方式修改所述搜索请求。
12. 根据权利要求11所述的服务器,其中,来自所述第一组搜索条冃 的每个条目与第一组属性相关联,所述第一组属性中的每个属性与一个屈 性权重相关联,并且其中,所述信心分数是通过利用所述相关联的属性权重,对针对每个 条目的至少一个属性进行加权而确定的。
13. 根据权利要求12所述的服务器,其中,所述第一数据库与一组第一数据库属性权重相关联,并且 其中,所述信心分数是通过利用所述一组第一数据库属性权重,对针 对每个条目的至少一个 属 性进行加权而确定的。
14. 根据权利要求IO所述的服务器,其中,所述被存储的指令还包括 用于以下内容的指令存储所述第二组搜索条目;以及在预定时间段之后,自动地更新所述第二组搜索条目。
15. 根据权利要求IO所述的服务器,其中,所述第一数据库山第一实 体维护,并且所述第二数据库由第二实体维护。
16. 根据权利要求IO所述的服务器,其中,所述识别出的搜索条g还 根据否定关键词的列表被排序。
17. 根据权利要求IO所述的服务器,其中,所述识别出的搜索条目与至少一个特征相关联,并且 其中,所述识别出的搜索条目还根据所述至少一个特征被排序。
18. 根据权利要求IO所述的服务器,其中,每个搜索条目与一个或多 个搜索项相关联。
19. 一种处理器可读介质,其上具有用于使能进行动作的处理器可执 行代码,用于执行动作以使用计算机网络,响应于来自搜索者的搜索请 求,生成搜索结果列表,包括维护包括第一多个搜索条目的第一数据库; 维护包括具有一般web内容的文档的第二数据库; 从所述搜索者接收搜索请求;从所述第一数据库中识别第一组搜索条目,并且从所述第二数据库中识别第二组搜索条目,所述第一组搜索条目具有产生与所述搜索请求的匹 配的文档,所述第二组搜索条目具有产生与所述搜索请求的匹配的文档;为来自所述第一组搜索条目的每个条目确定信心分数,其中所述信心 分数是根据每个条目当与所述第二组搜索条目的条目相比较时的相关性而 确定的;以及至少部分地根据所述每个搜索条目的信心分数,对来自所述第一邻搜 索条目的识别出的搜索条目进行排序。
20. 根据权利要求19所述的处理器可读介质,其中,所述识别出的搜 索条目还根据商标关键词的列表被排序。
21. 根据权利要求19所述的处理器可读介质,其中,所述识别出的搜索条目与至少一个特征相关联,并且 其中,所述识别出的搜索条目还根据所述至少一个特征被排序。
22. 根据权利要求21所述的处理器可读介质,其中,所述至少一个特 征是从包括以下内容的组中选择的历史点进数据、转换数据、是否在标 题中出现匹配、是否在摘要中出现匹配、是否在URL中出现匹配、足否 在显示主机中出现匹配、是否在被竞价的关键短语中出现匹配、是否在算 法生成的关键字中出现匹配、以及是否在算法生成的总结中出现匹配。
23. 根据权利要求19所述的处理器可读介质,其中,每个搜索条g可 以与一个或多个搜索项相关联。
全文摘要
公开了一种用于使用计算机网络,响应于来自搜索者的搜索请求,生成搜索结果列表的系统。包括第一多个搜索条目的第一数据库被维护。包括具有一般web内容的文档的第二数据库被维护。搜索请求从搜索者被接收。从第一数据库中识别第一组搜索条目,并且从第二数据库中识别第二组搜索条目,第一组搜索条目具有产生与搜索请求匹配的文档,第二组搜索条目具有产生与搜索请求匹配的文档。为来自第一组搜索条目的每个条目确定信心分数,其中信心分数是根据每个条目当与第二组搜索条目的条目相比较时的相关性而确定的。至少部分地根据每个搜索条目的信心分数,对从第一组搜索条目的识别出的搜索条目排序。
文档编号G06F17/30GK101601032SQ200680002593
公开日2009年12月9日 申请日期2006年1月18日 优先权日2005年1月18日
发明者德韦卡·查瓦拉, 查尔斯·C·小卡森, 玛特维·内蒙曼, 莫伊特·萨哈瓦尔, 詹姆斯·B·哈维, 马可·J·扎卡 申请人:雅虎公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1