改进购物搜索引擎的制作方法

文档序号:6423705阅读:114来源:国知局
专利名称:改进购物搜索引擎的制作方法
技术领域
本发明涉及网络技术领域,尤其涉及网络技术中的搜索查询。
背景技术
对搜索引擎的使用留给用户任何给定查询的过多结果列表。某些系统试图基于例如标题中的单词或来自先前搜索的点击数按相对次序对经返回的文档进行排序。在购物搜索的情况下,可以基于经返回的文档来呈现相关项,诸如分类或价格等。由于经返回的文档的质量可能不一致,因此相关项可能包括非预期结果。例如,在流行的搜索引擎上对单词 “玫瑰”的购物搜索可以返回从音频CD到游戏控制台等文档,而在前10个结果中甚至都没有呈现花朵的文档。所呈现的购物分类的范围可以从耳环到历史书。当对诸如价格等特定特征排序时,给予该特征的过度提升可以导致该特性比另一特性占优势,而以完全丧失相关性为代价。例如,对按价格对“GPS”搜索结果排序的请求可以导致用于挂载GPS的不昂贵的支架首先被示出,而这几乎肯定不是用户正寻找的东西。

发明内容
一种更高级的结果排序系统使用机器学习技术以及人类判断来确定参数,以供基于用户期望使用搜索结果的绝对相关性值来对结果进行排序,而不是单独基于点击数和/ 或标题单词匹配来对经返回的文档进行相对排序。另外地,使用绝对排名器的查询结果可以更准确地在分类上对齐,从而允许对相似产品或互补产品的更好建议。绝对排名器可以使用代表性查询的结果以提供该查询的文档列表。人类审判员可以对每一查询的结果的样本进行排名,以提供用于对可随后捕捉人类生成的结果以应用到新查询的机器学习分类工具的进行编程的知识库。绝对排名器允许预先筛选经返回的结果,使得按特征的排序不给予无关结果过度提升。


图1是示例性计算设备的框图;图2是示例性因特网搜索环境的图示;图3A是示出机器学习分类工具训练的流程图;图;3B是示出使用机器学习分类工具来开发搜索结果的流程图;图4是示出示例性决策树的一部分的图示;以及图5示出了示出搜索结果元素的计算机屏幕截图。
具体实施例方式尽管下文阐明了众多不同实施例的详细描述,但是应当理解,该描述的法律范围由本发明所附的权利要求书的言辞来限定。该详细描述应被解释为仅是示例性的,且不描述每一可能的实施例,因为描述每一可能的实施例即使不是不可能的也是不切实际的。可使用现有技术或在本申请提交日之后开发的技术来实现众多替换实施例,而这仍落入权利要求书的范围之内。还应该理解,在本专利中,除非使用句子“如此处所用,术语‘_,特此被定义
为意指……”或者类似句子来明确地定义一个术语,否则不管是明确地还是含蓄地,没有限制该术语意义超出其平常或普通意义的意图,并且,这一术语不应该被解释为被限制在基于本专利的任何部分中(除了权利要求书的语言之外)所做的任何陈述的范围中。就本专利所附的权利要求书中所述的任何术语在本专利中以与单数意义相一致的方式来引用而言,这是为简明起见而如此做的,仅仅是为了不使读者感到混淆,且这类权利要求术语并不旨在隐含地或以其它方式限于该单数意义。最后,除非一权利要求要素是通过叙述单词 “装置”和功能而没有叙述任何结构来定义的,否则任何权利要求要素的范围并不旨在基于 35U. S. C. § 112、第6段的应用来解释。许多发明性功能和许多发明性原理最佳地使用或利用软件程序或指令以及诸如专用IC等集成电路(IC)来实现。期望本领域的普通技术人员虽然可能要进行大量的工作和由例如可用时间、现有技术以及经济问题促动的许多设计选择,但是当受到此处所公开的概念和原理的指引时仍能够容易地以最小的实验来生成这些软件指令和程序以及IC。 因此,为了简明以及最小化使根据本发明的原理和概念晦涩的任何风险,对这些软件和 IC(如果有的话)的进一步讨论将限于对于较佳实施例的原理和概念所必需的那些讨论。参考图1,用于实现所要求保护的方法和装置的示例性计算设备包括计算机110 形式的通用计算设备。虚线轮廓中所示出的组件在技术上不是计算机110的一部分,而是用于示出图1的示例性实施例。计算机110的组件可包括但不限于,处理器120、系统存储器130、存储器/图形接口 121(也被称为北桥芯片)以及I/O接口 122(也被称为南桥芯片)。系统存储器130和图形处理器190可以耦合到存储器/图形接口 121。监视器191 或其他图形输出设备可以耦合到图形处理器190。一系列系统总线可以耦合各种系统组件,这些系统总线包括处理器120、存储器/ 图形接口 121和I/O接口 122之间的高速系统总线123,存储器/图形接口 121和系统存储器130之间的前端总线124,以及存储器/图形接口 121和图形处理器190之间的高级图形处理(AGP)总线125。系统总线123可以是若干种类型的总线结构中的任一种,包括,作为示例而非限制,这些体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线和增强型ISA(EISA)总线。随着系统体系结构的进化,可以使用其他总线体系结构和芯片组,但通常大致遵循该模式。例如,诸如英特尔和AMD等公司分别支持英特尔中枢体系结构(Intel Hub Architecture, IHA)禾口超传输 TM(Hypertransport)系结构。计算机110通常包括各种计算机可读介质。计算机可读介质可以是能由计算机 110访问的任何可用介质,而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例而非局限,计算机可读介质可以包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、 ΕΕΗ 0Μ、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或能用于存储所需信息且可以由计算机110访问的任何其它介质。系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM) 131和随机存取存储器(RAM) 132。系统ROM 131可包含永久系统数据143, 诸如标识和制造信息。在某些实施例中,基本输入/输出系统(BIOS)也可存储在系统ROM 131中。RAM 132通常包含处理器120可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制,图1示出了操作系统134、应用程序135,其他程序模块136,和程序数据137。I/O接口 122可将系统总线123与将各种内部和外部设备耦合到计算机110的多个其他总线126、127和1 耦合。串行外围接口(SPI)总线1 可连接到包含帮助在诸如启动期间在计算机110内的各元件之间传递信息的基本例程的基本输入/输出系统(BIOS) 存储器133。超级输入/输出芯片160可用于连接到多个‘传统’外围设备,诸如例如,软盘152、 键盘/鼠标162和打印机196。在某些实施例中,超级1/0芯片160可以用诸如低引脚数 (LPC)总线等总线127来连接到1/0接口 122。超级1/0芯片160的各实施例在商业市场可广泛地购买到。在一个实施例中,总线1 可以是外围部件互连(PCI)总线或其变型,可用于将更高速的外围设备连接到1/0接口 122。PCI总线可被称为夹层(Mezzanine)总线。PCI总线的变型包括快速外围部件互连(PCI-E)和扩展外围部件互连(PCI-X)总线,前者具有串行接口而后者是向后兼容并行接口。在其他实施例中,总线1 可以是串行高级技术附件 (ATA)总线(SATA)或并行ATA (PATA)形式的ATA总线。计算机110还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图1示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器140。硬盘驱动器140可以是传统硬盘驱动器,或可以是类似于以下参考图2描述的存储介质。诸如通用串行总线(USB)存储器153、火线(IEEE 1394)、或CD/DVD驱动器156等可移动介质可直接或通过接口 150连接到PCI总线128。类似于以下参考图2描述的存储介质巧4可以通过接口 150来耦合。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。上文所讨论的并且在图1中所示出的驱动器以及它们的相关联的计算机存储介质,为计算机110提供了计算机可读的指令、数据结构、程序模块及其他数据的存储。例如, 在图1中,硬盘驱动器140被示为存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其他程序模块136和程序数据137相同,也可以与它们不同。给操作系统144、应用程序145、其他程序模块146、以及程序数据147提供了不同的编号,以说明至少它们是不同的副本。用户可通过诸如鼠标 /键盘162等输入设备或其他输入设备组合来将命令和信息输入计算机20。其他输入设备 (未示出)可以包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等等。这些和其他输入设备通常通过诸如SPI 126,LPC 127或PCI 1 等1/0接口总线中的一个来连接到处理器120,但可以使用其他总线。在某些实施例中,其他设备可经由超级1/0芯片160耦合到并行端口、红外接口、游戏端口以及诸如此类(未描绘)。
计算机110可使用经由网络接口控制器(NIC) 170至一个或多个远程计算机,如远程计算机180的逻辑连接来在联网环境中操作。远程计算机180可以是个人计算机、服务器、路由器、网络PC、对等设备或其它常见的网络节点,并且通常包括上面相对于计算机 110所述的许多或全部元件。图1所描绘的NIC 170和远程计算机180之间的逻辑连接可包括局域网(LAN)、广域网(WAN)或两者,但还可包括其他网络。这样的联网环境常见于办公室、企业范围计算机网络、内联网和因特网中。远程计算机180还可以表示支持与计算机 110进行交互会话的web服务器。在某些实施例中,网络接口可以在宽带连接不可用或未使用宽带连接时使用调制解调器(未描绘)。可以理解,所示的网络连接是示例性的,且可以使用在计算机之间建立通信链路的其它手段。图2是web搜索系统200的框图200。客户机计算机202可以连接到web服务器 206。web服务器206与客户机计算机202之间的通信量可以在诸如因特网等网络204上承载。web服务器206可以将搜索查询定向到搜索引擎208。搜索引擎208可以返回诸如文档列表等结果,并且将那些结果发送给诸如服务器210和212等一个或多个分类工具服务器。诸如内容服务器214以及特性服务器216等附加服务器可以支持其他功能。分类工具编程环境218可以包括分类工具开发服务器220、分类工具数据库222、以及可被用于支持人类审判员在编程阶段期间执行对返回结果的排名的多个工作站224、226、228。各种服务器和工作站可以类似于图1的示例性计算机110。尽管图2的描述将每一服务器示为执行专用功能,但可以使用硬件和软件的结合来结合或划分与所描述的示例性服务器相关联的功能。在操作中,web服务器206可以接收因特网搜索查询,诸如销售有关的查询,例如, 与待售产品或服务相关。搜索引擎208可以执行对应于销售相关的查询的搜索,并且可以返回多个响应文档。每一响应文档可以具有附随文本描述和/或照片。分类工具服务器 210、212、或两者可以使用加权树搜索来为多个响应文档的每一个开发绝对相关性排名。在一个实施例中,加权树搜索可以基于MART树算法,但可以使用众多其他机器学习分类工具产品。分类工具服务器210、212、或两者可以为每一返回的文档返回绝对相关性排名。在一个实施例中,绝对相关性排名可以处于从0到1的范围中。示例性阈值水平可以是0. 97,但可以设置、甚至例如基于由搜索返回的多个文档来动态地设置任何数量的阈值水平。可以按其绝对相关性排名的次序向用户呈现接收阈值水平以上的绝对相关性排名的文档。内容服务器214和特性服务器216可以开发对搜索结果呈现的相关细化,诸如文档的特征和特性。内容服务器214可以检查具有在阈值水平以上的绝对相关性排名的响应文档,并且确定诸如分类、品牌、价格等关于每一文档的特征。由于与相对排名器相比,绝对相关性排名给出与用户的期望响应更接近的匹配,因此所确定的关于每一文档的特征(例如分类)可以给出更窄且更准确的分类属性。为了对分类进行排序以供向用户呈现,可以对特定分类中每一文档的绝对相关性排名进行平均,使得具有最高总平均数的分类被呈现在顶部。特性服务器216可以从被选作具有在阈值水平以上的绝对相关性排名的多个响应文档中提取内容,以开发文档的特性列表。例如,特性可以包括价格、用户评级、专家评级等,如以上相对于内容服务器214描述的,特性服务器216可以仅对已经被确定为具有在阈值水平以上的绝对相关性排名的那些文档进行操作。结果,可以向希望例如按价格对文档排序的用户呈现更符合原始搜索的项,而否则原始搜索可能仅用现有技术中使用的相对排名来实现。可以使用分类工具编程环境218来对分类工具服务器210、212、或两者、及其机器学习程序进行训练、确认、以及测试。可以从搜索引擎日志中选择在编程阶段中使用的查询,以提供真实世界评估目标。可以运行查询并且提取或“刮掉(scrape)”结果以收集文档以供评估。可以采用对结果的采样。例如,在一个实施例中,前20个是来自相对排名器的结果,以及另外80个文档是从文档21至250中随机选择的。可以将查询以及每一查询的经选择的结果存储在分类工具数据库222中以供在分类工具开发服务器220上使用。开发服务器220可以将查询以及经选择的结果中的每一个呈现给工作站224、226、2观中的一个处的人类审判员。人类审判员可以相对于他或她对该查询的期望来对每一结果评级。评级、或标签可以简单地被评级为非常好、好、一般、或差。例如,在人类审判员相信不会存在更好的其他结果时可以使用“非常好”标签。好结果可以是用户可能寻找的结果,但可能有更好的结果。在它不是人类审判员寻找的但是相关的结果时可以给出“一般”标签。在返回的文档与查询无关时可以分配“差”标签。在一个实施例中,标签被转换成数字评级1-4, 其中1为差以及4为非常好。在另一实施例中,可以指数地转换标签,其中1被给予1,2被给予4,3被给予9,以及4被给予16。指数的使用在非常好与好之间创建了比好与一般之间更大的距离。人类标签数据可被用作训练中的一个元素。在一个实施例中,可以将查询、文档、 人类分配的标签(加权或不加权)与诸如标题匹配以及‘点进’等其他特性连同外来数据一起结合。点进是对作为结果的返回的文档实际上被用户点击了多少次的测量。在训练过程中所使用的其他外来数据可以包括但不限于NumberOfPerfectMatches_FeedsPhrase (完美匹配数量 _ 馈源短语)-被定义
为与查询完全匹配的短语数量(单词必须按相同次序而且它们之间没有其他单词。)注意,无用词(即,像‘the (这(那))’和‘of (之(的))’等常见单词)被移除,因此对于像 ‘Lord ofthe Dance (王者之舞),等查询将不存在完美匹配)。WordslnAccessoryListFeature (附件列表特性中的单词)-与关键词的静态列
表匹配且在附件中通常找到的单词。这是在该列表中与查询中的单词数量匹配的特性。MultiInstanceTotalNormalizer_FeedsPhrase (多实例总归一化器馈源短
语)-MultiInstanceTotalNormalizer_stream(多实例总归一化器流)是各个单
词归一化器的总和,但移除了重复。特性的值是10. O。如果存在重复项,则作为先前项的重复的每一项将具有等于其父亲的值的MultiInstanceNormalizer_stream的值。 MultiInstanceTotalNormalizer_stream 可以不对重复计数。Categoryi^ature (分类特性)——这是将查询的分类与文档的分类进行匹配的特性。FirstOccurenceOfNearTuples_FeedsTerm(附近元组的第一次出现馈源项)——查询项在流中第一次出现的偏移。对于锚,第一出现被定义为相对第一锚短语的开始的偏移。这一特性的最小查询长度是1。默认值是(文档结束-文档开始+1)(DocumentEnd-DocumentStart+1),而不是之前的零。StreamLength_FeedsPhrase (流长度_馈源短语)——分类流的长度NumberOfTruePerfectMatches_FeedsMulti (真完美匹配的数量馈源多个)-点
击预测-预测文档获得点击的可能性的模型MaticRank(静态排名)——对文档的查询无关流行度的测量。跨查询的对文档的点击的总和。这些点击可以指数地衰减,以将较高权重给予更新近的点击。总共如300 —样多的外来数据元素可以被并入开发并且训练机器学习分类工具中。图3A是示出机器学习分类工具训练的流程图300。训练过程涉及将查询以及对应的结果供应给对给定查询的结果质量进行主观地排名的人类审判员。在框302,可以生成查询集以供训练机器学习分类工具。可以从取自实际用户搜索查询的搜索引擎日志的查询来选择该查询集。在框304,可以在因特网搜索引擎上执行该查询集,以开发该查询集中的每一查询的对应的结果集。在框306,可以从每一对应的结果集中选择有限数量的文档。在一个示例性实施例中,可以将相对排名器应用于每一结果集。可以选择由相对排名器指定的前20个文档以及从由相对排名器指定的排名为21-250的文档中选择的另外80个文档。在此实施例中,随后可以提交100个文档以供评估每一查询。在框308,可为有限数量的文档中的每一个开发与其对应查询相比的主观评级。多个审判员可以各自接收文档列表和查询,并且应用主观评级。在一个实施例中,可以在四点 (four-point)的基础上执行这些评级。主观评级可以仅仅是将差、一般、好、以及完美评级分配给每一文档。可以将评级转换成数值。例如,每一文档可以分别被分配数值1-4或被加权,使得评级分别转换成数值1、4、9、和16。与好到一般评级相比,加权的评级的使用帮助增加完美与好评级之间的距离。在框310,可以至少部分地使用有限数量的文档中的每一个的主观评级来对机器学习分类工具进行编程。如以上讨论的,附加外来数据元素可以被并入开发并且训练机器学习分类工具中。尽管其他类似工具是已知的并且类似地执行,但在一个实施例中,机器学习分类工具可以是多重累计回归树(MART)工具。在框312,为帮助确保人类审判员之间的一致结果,可以基于主题评级来开发审判员间的一致率。例如,可以比较相同文档的所选数量的评级,并且可以计算统计偏差评级。
在框314,如果审判员间一致率落在一限制以下,则可以警告人类审判员,例如,可以给予人类审判员附加的评级准则以帮助实现更一致的结果。例如,可以相对于“较好”评级来更好地定义对可被考虑为“相关”的准则。图;3B是示出使用机器学习分类工具来开发搜索结果中的流程图350。在框352,可以执行返回文档集的查询。该查询可以是由诸如图2的搜索引擎208 等搜索引擎的用户提交的实际实况查询。在框354,可以选择经返回的文档集的至少一部分以供进一步处理。例如,可以使用诸如现有技术中使用的相对排名器来提供文档的高级选择以供进一步考虑。在一个实施例中,可以跨多个计算机对文档集进行划分,并且在每一计算机上可以使用一相对排名器,藉此来自每一计算机上的相对排名的顶部结果被返回以供进一步处理。在另一实施例中, 可以在单个计算机上处理文档集,并且可以使用来自该相对排名的顶部结果。例如,可以将经返回的总文档的10-30%提供给以下描述的绝对排名器。在框356,可为经返回的集合的该部分中的每一文档提供绝对相关性分数。可以使用被包含在分类工具服务器210、212、或两者的机器学习分类工具来生成绝对相关性分数。 绝对相关性分数可以是诸如以上描述的人类生成的标签以及外来数据的函数。在框360,可以使用经返回的文档的该部分的每一文档的绝对相关性分数来创建文档子集。该子集中的每一文档可以具有在阈值以上的绝对相关性评级(即分数)。在框362,可以根据其绝对相关性分数来任选地对文档子集进行排序。无论是否首先对该文档子集进行排序,可以选择基于该文档子集中的文档特征的一个或多个相关细化。选择一个或多个相关细化可以包括选择一特性和/或一特征。特性可以包括用户评级、 价格、专家评级等等。特征可以包括分类、价格范围、以及品牌。在框364,可以开始向用户呈现数据。对数据的呈现可以包括在作出请求的计算机上显示相关细化的一个或多个,并且可以包括呈现分类列表。可以通过采用特定分类中的文档的平均绝对相关性值以及按最高平均值的次序呈现分类来开发对分类的排序。在框366,可以基于文档子集的每一文档的绝对相关性分数、按与查询的最高相关性的次序来显示文档子集。可任选地,在框358,在数据的初始呈现期间或者响应于用户请求,可以对绝对相关性分数进行调整。例如,如果用户指示对按价格排序的偏好,则价格特性可以被给予额外的重要性,即被称为提升的过程。给定例如对一特性的附加重要性,机器学习分类工具可以被重新加权,或另选地,可以选择预先加权的机器学习分类工具。可以基于经提升的特征来为文档集的至少一部分的每一文档重新生成绝对相关性分数。随后还可以使用经重新生成的绝对相关性分数来重新创建文档子集。选择相关的细化以及显示文档的相关联的步骤可以被重新执行。图4示出了示例性树搜索400。节点402、404、406、408、以及410各自可以是与特定特性相关联的决策点。如果存在该特性,则可以分配值1,并且可以采取到左边的分支。 如果不存在该特性,则可以分配值0,并且可以采取到右边的分支。在训练期间,可以对每一节点进行加权以调整每一节点的决策点。在多个训练运行中,可以改变加权以确定哪些值给出最佳性能。还可以调整诸如在树中有多深才能截止(cut off)搜索等其他准则以给出更接近于人类审判员的结果的结果。图5示出了搜索结果的示例性屏幕截图500。搜索结果可以包括文档(或文档链接)502、504、506、及其各自的描述和图片(如果可用)。分类列表508可以按排名的次序示出1230个文档所属于的分类。以上讨论了对排名的次序的选择。还可以将诸如品牌510 以及价格512等其他分类显示给用户。对分类项的选择将显示具有所选择的特征的那些结果,以及在某些实施例中,将显示来自该分类的其他项。特性514也被显示并且可以被选择以根据该特性来显示结果,诸如按价格或用户评级来列出。以上描述的系统和技术向执行搜索特别是购物搜索的用户提供了更丰富的搜索体验。较高相关性的搜索节省了用户时间和精力,并且通过吸引更多通信量来有益于搜索引擎提供者。在一个示例性实施例中,正在进行的努力已经看见在训练中使用超过10000个样本查询,而成百上千个文档被评级且被用于细化机器学习分类工具。尽管上文阐明了众多不同实施例的详细描述,但是应当理解,本专利的法律范围由本专利所附的权利要求书的言辞来限定。该详细描述应被解释为仅是示例性的,且不描述本发明的每一可能的实施例,因为描述每一可能的实施例即使不是不可能的也是不切实际的。可使用现有技术或在本专利提交日之后开发的技术来实现众多替换实施例,这仍将落入定义本发明的权利要求书的范围之内。由此,可在此处所描述和示出的技术和结构上作出许多修改和变化而不脱离本发明的精神和范围。因此,应当理解,此处所描述的方法和装置仅是说明性的,且不限制本发明的范围。
权利要求
1.一种在因特网搜索中所使用的计算机上显示按相关性排名的结果的方法,所述方法包括生成查询集(302);在因特网搜索引擎上执行所述查询集中的每一个查询以开发对应的结果集(304); 从每一对应的结果集中选择有限数量的文档(306);为所述有限数量的文档中的每一个文档开发相对于主观准则的主观评级(308); 至少部分地使用所述有限数量的文档中的每一个文档的主观评级来对机器学习分类工具进行编程(310);执行返回文档集的查询(352);使用所述机器学习分类工具来为所述文档集的至少一部分生成绝对相关性分数 (356);从所述文档集的至少一部分创建文档子集,所述文档子集中的每一文档具有超过阈值的其相应的绝对相关性分数(358);基于所述文档子集中的文档的特征来选择一个或多个相关细化(362); 在所述计算机上显示所述一个或多个相关细化(364);以及基于所述文档子集的每一文档的绝对相关性分数、按与所述查询的最高相关性的次序来在所述计算机上显示所述文档子集(366)。
2.如权利要求1所述的方法,其特征在于,为所述有限数量的文档中的每一个文档开发所述主观评级包括从相对于所述主观准则对所述有限数量的文档中的每一个文档进行评级的多个审判员中的每一个接收所述主观评级。
3.如权利要求2所述的方法,其特征在于,还包括 基于所述主观评级计算审判员间一致率(312);以及当所述审判员间一致率落在一限制以下时警告所述多个审判员(314)。
4.如权利要求2所述的方法,其特征在于,开发所述主观评级包括所述多个审判员中的每一个分配差、一般、好、以及完美评级中的一个。
5.如权利要求4所述的方法,其特征在于,每一评级被分配一数值,每一对应评级的值指数地增加。
6.如权利要求1所述方法,其特征在于,从每一对应的结果集中选择所述有限数量的文档包括选择由相对排名器指定的前20个文档以及选自由所述相对排名器指定的排名为 21-250的文档中的另外80个文档。
7.如权利要求1所述的方法,其特征在于,选择一个或多个相关细化包括选择特性和特征中的至少一个,其中所述特性包括用户评级,以及所述特征包括分类、价格、以及品牌。
8.如权利要求1所述的方法,其特征在于,对所述机器学习分类工具进行编程包括对多重累计回归树(MART)工具进行编程。
9.如权利要1所述的方法,其特征在于,生成所述查询集包括从实际用户搜索查询的搜索引擎日志中选择所述查询集。
10.如权利要求1所述的方法,其特征在于,还包括 开发与所述文档集的至少一部分相关的提升的特征;基于经提升的特征来为所述文档集的至少一部分的每一文档重新生成绝对相关性分数;以及用经重新生成的绝对相关性分数来重新创建所述文档子集。
11.如权利要求1所述的方法,其特征在于,还包括基于相对排名过程从所述文档集中选择所述文档集的至少一部分。
12.一种用于为从因特网搜索查询返回的文档提供按绝对相关性排名的结果的系统, 包括web服务器,所述web服务器接收因特网搜索销售相关的查询; 搜索引擎服务器,所述搜索引擎服务器执行对应于销售相关的查询的搜索,并且返回多个响应文档;分类工具服务器,所述分类工具服务器使用加权的树搜索来为所述多个响应文档中的至少某些开发绝对相关性排名;内容服务器,所述内容服务器从所述多个响应文档中的具有在阈值以上的其相应的绝对相关性排名的至少某些文档中提取所选择的文档,并且自动地生成包括至少一产品分类的相关内容;分类工具编程环境,所述分类工具编程环境包括分类工具开发服务器、分类工具数据库、以及支持人类评级审判员的多个工作站。
13.如权利要求12所述的系统,其特征在于,还包括特性服务器,所述特性服务器从所述多个响应文档中的具有在所述阈值以上的其相应的绝对相关性排名的至少某些文档中提取特性内容,所述特性内容包括在所述多个响应文档中的一个或多个中描述的各个项的至少一个价格。
14.一种存储由计算机的一个或多个处理器执行的实现一种方法的计算机可执行指令的计算机可读存储介质,包括接收用于实现对文档的查询的准则; 执行所述查询(352); 接收由所述查询产生的文档集(352); 选择由所述查询产生的文档的子集(3M);为所述文档子集中的每一文档生成绝对相关性分数,所述绝对相关性分数是基于人类生成的标签以及外来数据的函数(356);根据所述绝对相关性分数来对所述文档子集进行排序(360); 基于具有在阈值以上的绝对相关性分数的文档子集的那些文档的特征来选择一个或多个相关细化(362);在所述计算机上显示所述一个或多个相关细化(364);以及在所述计算机上显示具有在所述阈值以上的相应绝对相关性分数的文档子集的那些文档(366)。
15.如权利要求14所述的计算机可读存储介质,其特征在于,还包括 生成测试查询集(302);在因特网搜索引擎上执行所述测试查询集中的每一个查询,来为所述测试查询集中的每一个查询开发结果集(304);基于相对排名来从每一结果集中选择有限数量的文档(306);为所述有限数量的文档中的每一个文档开发相对于主观准则的主观评级(308); 至少部分地使用所述有限数量的文档中的每一个的主观评级来对机器学习分类工具进行编程(310)。
全文摘要
本发明公开了改进购物搜索引擎的方法和系统。web搜索系统使用人类来为对各种样本搜索查询返回的结果的相关性进行排名。搜索结果可以被划分成各个组,从而允许对经排名的结果进行训练和确认。对人类评估的一致指导允许跨执行该排名的多个人的一致结果。当诸如MART等机器学习分类工具已经被编程且确认之后,可以使用它来提供经返回的文档的相关性的绝对排名,而不是基于例如关键词匹配以及点击计数的简单相对排名。当开发诸如分类和价格排序等相关细化时,可以排除考虑具有较低相关性排名的文档。
文档编号G06F17/30GK102508831SQ201110117329
公开日2012年6月20日 申请日期2011年4月11日 优先权日2010年4月9日
发明者C·郁, M·D·巴洛斯, M·帕拉欣, Q·吴, S·P·坎杜利 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1