用于搜索电子内容的方法、计算系统和计算机可读介质的制作方法

文档序号:6386006阅读:198来源:国知局

专利名称::用于搜索电子内容的方法、计算系统和计算机可读介质的制作方法
技术领域
:本发明涉及搜索领域,更具体地涉及搜索中的相关度排序,尤其涉及用于搜索中相关度排序的提取搜索聚焦的关键η元组和/或短语。
背景技术
:作为搜索引擎进行的最重要处理之一的相关度排序分配表示文档关于查询的相关程度的得分,并根据它们的得分对文档进行排序。在网络搜索中,相关度排序模型分配表示网页关于查询的相关程度的得分,并根据得分对网页进行排序。相关度排序模型可使用诸如标题、正文、URL、锚链接文本以及页面的搜索日志数据中查询词的词频这样的信息,用于表示相关度。传统地,通过被调整的少数参数手动地产生相关度排序模型。近来,被称为学习排序的机器学习技术也已经应用于排序模型构造。诸如VectorSpaceModel(向量空间模型)、BM25(也称为OkapiBM25)、LanguageModelforInformationRetrieval(用于信息检索的语言模型)、MarkovRandomField(马尔科夫随机场)这样的传统模型以及学习排序模型都使用查询和文档中存在的η元组作为特征。在所有这些技术中,查询和文档被视作η元组的向量。直观地,如果查询的η元组在文档中出现多次,那么很可能该文档与查询相关。存在具有丰富信息(诸如锚链接文本和搜索-查询日志数据)的流行的网页。对于这些页面,排序模型容易预测页面关于查询的相关度,并为它们分配可信的相关度得分。与之不同,也有不太流行的、不包含足够的信息的网页。对于这些信息不足够的页面正确计算相关度成为一个很有挑战性的问题。如同这里所述,具有很多锚链接文本和搜索-查询日志数据中的关联查询的网页被称为头部网页,具有较少锚链接文本和关联查询的网页被称为尾部页面。这意味着如果有网页的访问分布,那么头部页面应当具有高访问频率,而尾部页面具有低访问频率。网络搜索的最难的问题之一是改进尾部网页的相关度排序。
发明内容在一些实施例中,一种搜索电子内容的方法包括至少部分地基于从搜索-查询日志挖掘的信息,从多个检索的电子文档提取搜索聚焦的信息;将所提取的搜索聚焦的信息表示为关键η元组和/或短语;以及至少部分地基于所提取的搜索聚焦的信息的特征或特性中的至少之一,对搜索结果中的检索的电子文档排序。在一些实施例中,一种搜索提供者的计算系统,包括至少一个处理器;至少一个存储装置,用于存储搜索聚焦的数据和计算机可执行指令,搜索聚焦的数据包括η元组和/或短语、内容定位符和η元组/短语权重,每个η元组和/或短语从至少一个电子文档提取,每个内容定位符识别从其提取对应的提取的η元组和/或短语的电子文档的位置,以及每个η元组/短语权重与提取的η元组和/或短语相关联,并且提供关联的提取的η元组和/或短语关于从其提取关联的提取的η元组和/或短语的对应电子文档的相关度的量度,当在一个或多个处理器上执行时,计算机可执行指令使得所述一个或多个处理器执行以下操作,包括响应于搜索查询,至少部分地基于所述搜索查询来检索多个电子文档;以及至少部分地基于所述搜索聚焦的数据的至少一个η元组/短语权重,计算检索的电子文档的相关度排序。可以至少部分地基于从搜索-查询的日志挖掘的搜索聚焦的信息来训练η元组和/或短语提取模型。η元组和/或短语提取模型可以至少部分地基于关键η元组和/或短语的特征和/或特性以及至少部分地基于搜索聚焦的信息的特征和/或特性,从检索的电子文档中提取关键η元组和/或短语。提取的关键η元组和/或短语可以被加权。可以至少部分地基于由η元组和/或短语提取模型提取的信息训练相关度排序模型。相关度排序模型可以至少部分地基于提取的η元组和/或短语的权重,提供针对搜索结果中列出的电子文档当的相关度排序得分。提供
发明内容是为了以简化形式介绍下面在具体实施方式中进一步描述的概念的选择。
发明内容不意在识别所主张的主题的关键特征或基本特征,也不意在限制所主张的主题的范围。参照附图描述具体实施方式。在附图中,附图标记最左边的数字指示该附图标记首次出现的附图。不同附图中相同的附图标记表示相似或相同的项。图1是用于提供搜索结果的示例性环境的示意图,其中从电子文档提取搜索聚焦的信息。图2是电子文档的示意图。图3是用于记录搜索聚焦的η元组和/或短语数据的示例性数据结构的方框图。图4是用于从电子文档提取搜索聚焦的信息的示例性处理的流程图。图5是用于至少部分地基于提取的搜索聚焦来提供相关度排序的示例性处理的流程图。图6是用于从电子文档提取搜索聚焦的信息并提供搜索结果排序的示例性处理的流程图。图7是在图1所示环境中可部署的示例性计算装置的方框图。具体实施例方式概述在一些实施例中,电子文档(包括尾部和头部电子文档)的相关度排序可包括从电子文档提取搜索聚焦的信息;将关键η元组作为搜索聚焦的信息的表示;采用学习排序技术,以至少基于搜索-查询日志数据训练关键η元组和/或短语提取模型;以及采用学习排序技术,以至少基于作为特征的搜索聚焦的关键η元组来训练相关度排序模型。在一些示例中,可将电子文档的搜索-查询视作搜索电子文档的好查询。可将搜索-查询日志数据用于训练关键η元组和/或短语提取模型。因为相比尾部电子文档,在搜索-查询日志中有更多头部电子文档的信息,所以可用来自头部电子文档的信息来训练模型,然后将其应用于尾部电子文档。关键η元组提取可用于近似关键短语提取。查询(特别是长查询)难以分割,例如“starwarsanniversaryeditionlegodarthvaderfighter,,。如果查询与搜索-查询日志数据中的电子文档相关联,那么可将查询中的所有η元组用作电子文档的关键η元组。通过这种方式,可以跳过难以以高准确度进行的查询分割。在一些实施例中,通过从电子文档提取“好查询”可以处理尾部电子文档的相关度排序,其中“好查询”最适合于搜索电子文档。在一些示例中,可以假定用于提取的数据源限于电子文档的特定部分,诸如网页的标题、URL以及主体。通常,特定部分为头部电子文档和尾部电子文档所共用。当通过电子文档的好查询进行搜索时,电子文档应当与查询相关。这里将这种提取任务称为搜索聚焦的(search-focused)提取。搜索聚焦的关键η元组可从诸如网页这样的电子文档提取,并且可用于相关度排序,特别是针对尾部电子文档相关度。关键η元组构成搜索电子文档的好查询。在一些实施例中,由于以下原因选择关键η元组提取而非关键短语提取。首先,传统的相关度模型(不管它们是否通过机器学习产生)一般只使用查询和文档的η元组。因此,关键η元组的提取完全足以提高传统排序模型的性能。其次,η元组的使用意味着不需要进行查询和文档的分割,因此不存在分割的错误。在一些实施例中,可以采用用于关键η元组提取的学习排序方法。问题被形式化为将来自给定电子文档的关键η元组排序。在一些示例中,关键η元组的重要性可能只相对地有意义,因此可以避免对于哪些是重要的η元组以及哪些是不重要的η元组的分类决定。在一些示例中,可将位置信息(例如,η元组位于电子文档中的哪个位置)和词频用作学习排序模型的特征。可将搜索-查询日志数据用作用于学习关键η元组和/或短语提取模型的训练数据。在电子文档是网页的示例中,可将位置信息、词频技术、网页中η元组的html标签和/或作为训练数据的锚链接文本数据等等用作用于学习关键η元组和/或短语提取模型的训练数据。可以假定,能够学习与电子文档相关联的好查询的统计学特性,并将其应用于不同的电子文档。学习的目的可以是十分准确地提取搜索聚焦的关键η元组,因为与电子文档相关联的查询是用于搜索的关键η元组的集合。因为可用于头部电子文档的搜索-查询日志数据有很多,所以可以主要从头部电子文档学习关键η元组和/或短语提取模型。通过这种方式,可将从头部电子文档获取的知识延伸和传播到尾部电子文档,并且因此有效地解决尾部电子文档相关度排序。此外,经过学习的关键η元组和/或短语提取模型也可以帮助改进头部电子文档的相关度排序。电子文档的提取的关键η元组也可以具有表示关键η元组强度的得分或权重或排序。可采用学习排序方法,以至少基于作为相关度排序模型的附加特征的关键η元组和它们的得分,来训练相关度排序模型。如同这里所述,当只使用一元组时,用于相关度排序性能的性能是好的。但是,当还包括二元组和三元组时,可以进一步改进性能。此外,在一些实施例中,前20个关键η元组提取实现了相关度排序中的最佳性能。此外,已经观察到使用关键η元组的得分可以进一步改进相关度排序。如同这里所述,将η元组定义为被标点符号分开的短文本中的η个连续单词,并且在电子文档是格式化HTML(超文本标记语言)的情况下,将η元组定义为被标点符号和特殊HTML标签分开的短文本中的η个连续单词。在一些示例中,HTML标签提供文本的自然分离,例如,“〈hl>ExperimentalResult〈/hl>”表不“ExperimentalResult”是短文本。但是,有些HTML标签不表示分离,例如,“〈fontcolor="red">significant</font>improvement,,。如同这里所述,被访问最频繁的电子文档被称为“头部”电子文档,而被访问最不频繁的电子文档被称为“尾部”电子文档。访问率在前百分之80或以上的电子文档可视作“头部”电子文档,而在后百分之20或以下的电子文档可视作“尾部”电子文档。例如,诸如一年中在搜索提供者的搜索-查询日志数据中有超过600,000次“点击”的网页(其中点击表示网页被访问的一种实例)这样的电子文档可以是“头部”网页,而同一年中只有23次点击的另一个网页可以是尾部网页。“头部”电子文档可用于训练可应用于“尾部”电子文档的关键η元组和/或短语提取模型。如下所述,候选η元组和/或短语具有低相关度,而关键η元组和/或短语具有高相关度。关键η元组的示例可以是与搜索查询的η元组匹配的η元组。例如,对“BrooklynDODGERS”的搜索-查询包括一元组“Brooklyn”和另一个一元组“DODGERS”。相比于不匹配的η元组,电子文档中与一元组“Brooklyn”和“DODGERS”中任一个匹配的η元组更有可能是相关的。一个电子文档中关键η元组的特征和/或特性可用于预测另一个电子文档中的关键η元组。在一些示例中,头部电子文档中关键η元组的特征和/或特性可用于预测尾部电子文档中的关键η元组。这里描述的处理和系统可通过多种方式实施。下面参照附图提供示例性实施方式。示例性环境图1是用于提供搜索结果的示例性环境100的示意图,其中从电子文档(例如网页)提取搜索聚焦的信息。该环境包括搜索提供者102,搜索提供者102从具有客户端装置108的用户106接收搜索-查询(SQ)104,并向用户106提供搜索结果(S/R)110。用户106可以使用客户端装置108、经由一个或多个网络112与搜索提供者102通信。客户端装置108可以是移动电话、智能电话、平板电脑、膝上型电脑、上网本、个人数字助理(PDA)、游戏机、媒体播放器或者包括与网络112的连接的任何其他计算装置。网络112可包括使能环境100中各种实体之间的通信的有线和/或无线网络。在一些实施例中,网络112可包括有可能相互结合使用的局域网(LAN)、广域网(WAN)、移动电话网络(MTN)以及其他类型的网络,以便利搜索提供者102与用户106之间的通信。搜索提供者102可具有数据存储器114。数据存储器114可包括服务器以及用于存储和检索信息的其他计算装置。数据存储器114可存储搜索-查询日志数据116、搜索聚焦的提取的η元组和/或短语数据118、以及模型训练数据和/或模型120。搜索-查询日志数据116可包括但不限于搜索查询、搜索-查询104的结果(其中搜索-查询104的结果可以是电子文档(例如网页)的列表)、搜索结果中列出的电子文档的排序、电子文档访问信息(可以是次数的指示)、和/或次数(搜索结果中列出的电子文档被访问的次数)的百分比、电子文档定位符(可以是搜索结果中列出的电子文档的位置的指示)。电子文档定位符的非限制性示例可以是网页的统一资源定位符(URL)。搜索-查询日志数据116可以被挖掘用于查找关键η元组和/或短语提取训练数据。搜索聚焦的η元组和/或短语数据118可包括但是不限于已经通过训练的关键η元组和/或短语提取模型从电子文档提取的η元组和/或短语。模型训练数据和模型120可包括训练的机器学习模型,例如关键η元组和/或短语提取模型和相关度排序模型。可以使用机器学习技术(例如支持向量机器(SVM)和RankingSVM(排序SVM),但是不限于此),至少部分地基于模型训练数据120来训练模型。环境100还包括电子文档(E/D)主机122。电子文档主机122可以存储和提供电子文档124。在一些示例中,电子文档主机122可以是计算装置,例如服务器和/或网络服务器,但是不限于此。在一些示例中,电子文档124可以是网页。示例性电子文档图2是电子文档200的示意图。在下面的讨论中,以网页来讨论电子文档200。但是,这些讨论不是限制性的,其仅用于提供电子文档的具体示例。搜索提供者102可以记录一个时间段(例如,一个月、一年等等)里用户106访问搜索结果110中列出的电子文档200的次数。经常,不同的电子文档200可具有用于其的相同或相似的模式(pattern)。尤其,这些模式可用于从电子文档提取关键η元组和/或短语以及帮助训练相关度排序模型。电子文档200可包括部分202-208。例如,部分202可包括电子文档的标题和副标题,部分204可包括电子文档200的主要内容。部分206和208可包括导航链接。例如,部分206可包括到与电子文档200相同的网站中其他电子文档的导航链接,部分208可包括到其他网站中的电子文档的导航链接。格式化信息、词频信息和位置信息以及电子文档200的其他信息可用于确定η元组和/或短语是否有可能是关键η元组和/或短语。例如,部分202和204可包括这样的η元组和/或短语其中一些可以是候选η元组和/或短语、其他的可以是关键η元组和/或短语。部分202和204中与搜索-查询104的η元组匹配的η元组和/或短语很可能是关键η元组。部分202和204中的η元组和/或短语可以与搜索-查询日志数据116相关,以识别关键η元组和/或短语(例如,可将部分202和204中与搜索-查询104的η元组匹配的η元组和/或短语识别为关键η元组和/或短语),然后识别关键η元组和/或短语的特征和/或特性——例如,标题中关键η元组和/或短语的字体大小是主要内容中η元组的字体大小的两倍;可以强调关键η元组和/或短语(例如,粗体、斜体、下划线和/或彩色字体);关键η元组和/或短语可以出现在两个特定HTML标签之间。可以至少部分地基于电子文档200中关键η元组和/或短语的特征和/或特性与另一个电子文档中关键η元组和/或短语的特征和/或特性之间的相似度,来预测该另一个电子文档中的关键η元组和/或短语。示例性搜索聚焦的数据图3是用于记录搜索聚焦的η元组和/或短语数据118的示意性数据结构300的方框图。搜索聚焦的η元组和/或短语数据118包括关键η元组和/或短语302。通过训练的关键η元组和/或短语提取模型从电子文档124提取关键η元组和/或短语302。对于每个关键η元组和/或短语302,可以有多个内容定位符304。每个内容定位符304提供用于定位包含对应的关键η元组和/或短语302的源电子文档124的信息。例如,在一些示例中,电子文档124可以是网页,并且在这种情况下,内容定位符304可以是用于网页的URL。对于每个内容定位符304,可以有通过经过训练的关键η元组和/或短语提取模型从电子文档124提取的特征/数据306。特征/数据306中可以包括用于对应的关键η元组和/或短语302的权重。作为非限制性示例,关键η元组可以是单词“Xanadu”。训练的关键η元组和/或短语提取模型可以识别包含作为关键η元组的单词“Xanadu”的1,000,000个电子文档124,并且可以记录用于每个识别的电子文档124的内容定位符304。训练的关键η元组和/或短语提取模型可以在识别的电子文档124中识别并记录与关键η元组“Xanadu”有关的特征和/或数据306。特征和/或数据306可包括识别的电子文档124中关键η元组的出现频率、识别的电子文档124中关键η元组的位置信息、用于识别的电子文档124的相关度信息、权重等等。在电子文档的第一个中,“Xanadu”可以在标题中,而在电子文档的第二个中,“Xanadu”可以在到另一个电子文档的链接中。在第一电子文档中,“Xanadu”可以是第一电子文档的所有η元组中最上层的(topmost)关键η元组,而在第二电子文档中,“Xanadu”可以是第二电子文档的所有η元组中的中间层的关键η元组。通过记录特征和/或数据306,可以记录第一电子文档和第二电子文档两者中用于关键η元组“Xanadu”的对应权重。示例性操作图4是用于从电子文档154提取搜索聚焦的信息的示例性处理400的流程图。处理400被示出为逻辑流程图中方框的集合,其表示可以以硬件、软件或者它们的组合实现的操作的序列。在软件下,方框表示计算机可执行指令,当通过一个或多个处理器执行时,计算机可执行指令使得一个或多个处理器进行列举的操作。一般而言,计算机可执行指令包括执行特定功能或者实施特定抽象数据类型的例程、程序、对象、分量、数据结构等等。描述操作的顺序并非意欲解释为限制性的,而是任意数量的所述方框可以以任何顺序和/或并行组合,以实现处理。因此,应当相应地解释整个说明书中描述的其他处理,包括下面所述的处理。在下面的讨论中,以网页作为将要搜索和排序的电子文档来讨论。但是,处理400以及下面所述的其他处理不限于网页。此外,在一些实施例中,在期间搜索提供者102不响应搜索-查询104的下线/离线模式下,可通过搜索提供者102实施处理400。在402,从网络服务器检索网页的样本集合,用于尤其为关键η元组和/或短语提取模型提供训练数据。在404,对网页的样本集合进行预处理。网页的样本集合(可以是HTML格式)的预处理可包括解析网页的样本集合并将经过解析的网页的样本集合表示为标签/单词的序列。预处理还可包括将单词转换为小写字体并去除停用词(Stopword)。示例性停用词包括a>a’S、able、about、above>according、accordingly、across、actually、after>afterwards>again、against、aren’t、all、allow等等,但是不限于此。在406,从数据存储器114检索搜索-查询日志数据116。至少基于搜索-查询104,可以挖掘搜索-查询日志数据116并将其用于识别头部电子文档和对应的关键η元组。在408,至少部分地基于从检索的搜索-查询日志数据116挖掘的信息以及预处理的网页的样本集合,产生训练数据。搜索-查询日志数据116表示用户106对于搜索-查询104与电子文档124之间相关度的隐性判断,并且因此,搜索-查询日志数据116可用于训练关键η元组和/或短语提取模型。更具体而言,如果用户106通过搜索-查询104进行搜索、之后点击搜索结果110中列出的网页并且这出现多次(例如,超过阈值),那么很可能该网页与搜索-查询104相关。在这种情况下,可以从网页提取诸如查询中使用的单词或短语这样的信息。对于头部网页,搜索数据日志116可将搜索-查询与每个头部网页相关联,这样的数据可用作用于对网页的查询的自动提取的训练数据,并且这样的数据对于尾部页面特别有用。产生的训练数据包括从网页提取的η元组。在一些示例中,与网页相关联的每个搜索-查询104中的η元组可以被标记为网页的关键η元组。例如,当网页包括“ABDC”并且与对“ABC”的搜索-查询相关联时,通过关键η元组和/或短语提取模型,可将一元组“A”、“B”、“C”以及二元组“ΑΒ”标记为关键η元组,并将其排序为高于一元组“D”以及二元组“BD”和“DC”。在410,提取η元组和/或短语特征。当与纯文本比较时,网页包含丰富的格式化信息。为了进行准确的关键η元组提取,可将文本信息和格式化信息两者用于产生关键η元组和/或短语提取模型中的特征(并且可用于相关度排序模型)。下面是特征的列表,根据对500个随机选取的网页以及与它们相关联的搜索聚焦的或者关键的η元组的实证研究,发现这些特征是有用的。可以用不同的HTML格式化信息来突出η元组,并且格式化信息对于识别η元组的重要性是有用的。1、频率特征使用若干域、标签和属性中η元组的原始/标准化词频。a)FrequencyinFields(域中的频率):在网页的四个域中n元组的频率,四个域为URL、页面标题、元关键词和元描述。b)FrequencywithinStructureTags(结构标签中的频率):通过包括<hl>、〈h2>、<h3>、<h4>、<h5>、<h6>、〈table〉、<li>和<dd>的HTML标签指示的头部分、表格或列表内的文本中η元组的频率。c)FrequencywithinHighlightTags(突出标签中的频率)通过包括<a>、<b>、<i>、<em>、〈strong〉的HTML标签突出或强调的文本中η元组的频率。d)FrequencywithinAttributesofTags(标签的属性中的频率)网页的标签的属性中η元组的频率。这些文本是对用户不可见的隐藏文本。但是,这些文本对于关键η元组提取仍然有用,例如,图像的标题〈imgtitle=''StillLife:VasewithFifteenSunflowers”.../>。特别地,使用标签的标题、alt、href和src属性。e)FrequenciesinOtherContexts(其他上下文中的频率):其他上下文中n兀组的频率1)页面的头部分,指的是<hl>、<h2>、...、<h6>标签中的任意个中的η元组频率,2)页面的元数据字段,3)页面的主体,4)整个HTML文件。2、外观特征η元组的外观也是指示它们的重要性的重要指示符。a)Position(位置):在页面不同部分(包括标题、头部分、段落和整个文档)中出现的η元组的第一位置。b)Coverage(覆盖范围)标题或头部分中的η元组的覆盖范围,例如,η元组是否覆盖标题的50%以上。c)Distribution(分布):η元组在页面不同部分中的分布。页面分为若干部分,并使用这些部分的η元组的交叉熵。在412,至少基于提取的搜索聚焦的或者关键的η元组和/或短语和/或提取的η元组和/或短语特征、特性和/或数据,学习关键η元组和/或短语提取模型。可将关键η元组和/或短语提取模型形式化为对排序问题的学习。在学习中,给定网页以及与页面相关联的关键η元组,训练排序模型,排序模型可以根据η元组作为网页的关键η元组的相对重要性,对η元组排序。对特征进行定义并将其用于η元组的排序。在提取中,给定新网页和训练的模型,通过模型将新网页中的η元组排序。例如,可以训练关键η元组和/或短语提取模型,以至少部分地基于训练数据中关键η元组的特征和/或特性(例如,位置、字体大小、强调的字体(例如,粗体、斜体、下划线、彩色等等)、出现的频率等等),将η元组识别为关键η元组。网页可包括很多η元组和/或短语。这些η元组和/或短语首先是“候选”η元组和/或短语。训练关键η元组和/或短语提取模型,以从“候选”η元组和/或短语识别“关键”η元组和/或短语。在一些示例中,网页可包括M个提取的η元组和/或短语,其中选择前K个η元组和/或短语作为网页的关键η元组。在一些示例中,K值可以在5-30的范围内。在5-30之间改变K值的排序实验的一些实验中,随着K的增加,排序性能提高然后下降。实验表明,在K的值大约为20时,排序性能最大化。在一些实施例中,可将每个关键η元组排序和/或加权,并将排序和/或权重用于计算相关度得分。搜索聚焦的提取的η元组和/或短语模型至少基于以下形式化的学习任务。令X€IRP是η元组的特征空间,而Y={r1;r2,..·,rj是排序空间。在排序中存在总顺序rm这里,m=2,表示关键η元组和非关键η元组。目标是学习排序函数f(χ),使得对于任何η元组对(Xi,Yi)和(χ」,Yj),以下条件成立权利要求1.一种搜索电子内容的方法,所述方法包括至少部分地基于从搜索-查询日志挖掘的信息,从多个检索的电子文档提取(608)搜索聚焦的信息;将所提取的搜索聚焦的信息表示为(610)关键η元组和/或短语;以及至少部分地基于所提取的搜索聚焦的信息的特征或特性中的至少之一,对搜索结果中的检索的电子文档排序(614)。2.如权利要求1所述的方法,还包括挖掘搜索-查询日志。3.如权利要求1所述的方法,其中从多个检索的电子文档提取搜索聚焦的信息包括在检索的电子文档中识别候选η元组和/或短语;识别所述候选η元组和/或短语的特征和/或特性,识别的特征包括频率特征或外观特征中的至少之一;至少部分地基于所述候选η元组和/或短语的对应特征和/或特性,并且至少部分地基于搜索聚焦的信息的特征和/或特性,对所述候选η元组和/或短语进行加权;以及至少部分地基于所述候选η元组和/或短语的对应权重,从所述候选η元组和/或短语中选择关键η元组和/或短语。4.如权利要求1所述的方法,其中所述多个检索的电子文档是第一多个电子文档,并且所述方法还包括从所述搜索-查询日志确定关键搜索-查询η元组和/或短语;至少部分地基于从所述搜索-查询日志挖掘的信息来选择第二多个电子文档,所述第二多个电子文档不同于所述第一多个电子文档;至少部分地基于所述关键搜索-查询η元组和/或短语,在所述第二多个电子文档中识别关键η元组和/或短语;识别所述关键η元组和/或短语的特征和/或特性;以及使用所述关键η元组和/或短语的所述特征和/或特性,从所述第一多个电子文档提取关键η元组和/或短语。5.一种搜索提供者的计算系统,包括至少一个处理器(702);至少一个存储装置(704),用于存储搜索聚焦的数据(710)和计算机可执行指令(708),所述搜索聚焦的数据包括η元组和/或短语、内容定位符以及η元组/短语权重,每个η元组和/或短语从至少一个电子文档提取,每个内容定位符识别从其提取对应的提取的η元组和/或短语的电子文档的位置,以及每个η元组/短语权重与提取的η元组和/或短语相关联,并且提供关联的提取的η元组和/或短语关于从其提取关联的提取的η元组和/或短语的对应电子文档的相关度的量度,当在一个或多个处理器上执行时,所述计算机可执行指令使得所述一个或多个处理器执行以下操作,包括响应于搜索查询,至少部分地基于所述搜索查询来检索(514)多个电子文档;以及至少部分地基于所述搜索聚焦的数据的至少一个η元组/短语权重,计算(518)检索的电子文档的相关度排序。6.如权利要求5所述的计算系统,其中通过经训练的关键η元组和/或短语提取模型提供所述搜索聚焦的数据。7.如权利要求5所述的计算系统,其中所述至少一个存储装置还存储相关度排序模型,所述相关度排序模型至少部分地基于所述搜索聚焦的数据的至少一个η元组/短语权重来计算检索的电子文档的相关度排序,所述相关度排序模型至少部分地基于所述搜索聚焦的数据来训练。8.如权利要求5所述的计算系统,其中以超文本标记语言格式将所述电子文档格式化。9.一个或多个用于存储计算机可执行指令(708)的计算机可读介质(704),当在一个或多个处理器上执行时,所述计算机可执行指令使所述一个或多个处理器执行以下操作,包括响应于搜索查询,至少部分地基于所述搜索查询来检索(514)多个电子文档;以及至少部分地基于搜索聚焦的数据来计算(518)检索的电子文档的相关度排序,所述搜索聚焦的数据由所述一个或多个计算机可读介质存储并且包括η元组和/或短语、内容定位符和η元组/短语权重,每个η元组和/或短语从至少一个电子文档提取,每个内容定位符识别从其提取对应的提取的η元组和/或短语的电子文档的位置,以及每个η元组/短语权重与提取的η元组和/或短语相关联,并且提供关联的提取的η元组和/或短语关于从其提取关联的提取的η元组和/或短语的对应电子文档的相关度的量度。10.如权利要求9所述的一个或多个计算机可读介质,其中至少部分地基于搜索聚焦的数据计算检索的电子文档的相关度排序包括至少部分地基于所述搜索聚焦的数据的至少一个η元组/短语权重,计算检索的电子文档的相关度排序。全文摘要本发明提供一种用于搜索电子内容的方法、计算装置和计算机可读介质。该方法包括至少部分地基于从搜索-查询日志挖掘的信息,从多个检索的电子文档提取搜索聚焦的信息;将提取的搜索聚焦的信息表示为关键n元组和/或短语;以及至少部分地基于所提取的搜索聚焦的信息的特征或特性中的至少一个,对搜索结果中的检索的电子文档排序。本发明能够改进电子文档的相关度排序。文档编号G06F17/30GK103064956SQ20121058728公开日2013年4月24日申请日期2012年12月28日优先权日2011年12月29日发明者胡云华,李航申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1