对多意义查询的相关术语提议的制作方法

文档序号:6551611阅读:167来源:国知局
专利名称:对多意义查询的相关术语提议的制作方法
技术领域
本发明的系统和方法适合于数据挖掘。
背景技术
关键字或短语是当网上冲浪者在全球网(WWW)上搜索相关网页/网站时向搜索引擎提交的单词或术语的集合。搜索引擎根据在网页/网站上出现的关键字和关键字短语确定网站的相关性。由于网站通信量的重要比率是由搜索引擎的使用引起的,因而网站创办人们知道适当的关键字/短语选择对于增加网站通信量以获得所需的站点的曝光度是至关重要的。识别相关网站关键字、用于搜索引擎结果最佳化的技术包括,例如,由网站内容的人进行评估机器目的来识别相关关键字。这种评估可以包括关键字常用工具的使用。这种工具确定有多少人将特定关键字或包括关键字的短语提交给搜索引擎。为使搜索引擎结果最佳化,通常为网站选择与网站相关并确定在搜索查询中要常常加以使用的关键字。
在识别一批用于使网站的搜索引擎结果最佳化的关键字之后,创办人们可能希望提升网站到搜索引擎结果中更高的位置(相比较其它网站搜索引擎结果的显示位置)。为此,创办人对关键字出价以表明每次网上冲浪者点击与关键字相联系的创办人的列表时,创办人将支付多少费用。换句话说,关键字出价是每次点击支付出价。相比较对于相同关键字的其它出价,关键字出价的量越大,搜索引擎将在搜索结果中根据关键字显示相联系的网站位置越高(就重要性而言更显著)。
鉴于以上,更好地识别与网站内容相关的关键字的系统和方法将受到网站创办人的欢迎。这将允许创办人对用户推荐的术语出价。理想地,这些系统和方法将独立于人的需要以评估网站内容以识别用于搜索引擎最佳化和关键字出价的相关关键字。
概要描述了用于相关术语提议的系统和方法。一个方面,术语群集是作为术语向量的计算出的相似性的函数而生成的。每个已经由搜索结果生成的术语向量都与先前提交给搜索引擎的高出现次数出现(FOO)历史查询集合相关联。响应于从实体接收术语/短语,由术语群集中的术语/短语来评估该术语/短语以识别一个或多个相关术语提议。
附图简述在附图中,组件附图标记的最左边的数字表示该组件第一次出现的那个特定附图。


图1举例说明用于对多意义查询的相关术语提议的示意性系统。
图2举例说明用于对多意义查询的相关术语提议的示意性程序。
图3举例说明用于对多意义查询的相关术语提议的示意性程序。该程序的操作是基于图2的操作。
图4示出了示意性适用计算环境,在该环境中可以完全或部分地实现随后描述的用于对多意义查询的相关术语的提议的系统、装置和方法。
详细描述综述看来提议相关术语/短语的最简单的方法就是使用子字符串匹配的途径,当一个术语/短语包括另一个术语/短语的一些或全部的字时它判定两个术语/短语为相关的。然而,该技术基本上是有限的。由于相关术语不必包含共同的词,因而该方法会忽略许多语义上相关的术语。举个例子,认为鞋类(footwear)公司希望知道“鞋(shoe)”的相关术语。如果使用常规匹配途径,将仅仅提议“女人的鞋”,“折扣鞋”,等等。然而,还存在许多其它相关术语诸如“运动鞋(sneaker)”、“远行靴(hiking boot)”、“耐克”等等。
以下的用于为多意义查询的相关术语提议的系统和方法致力于常规子字符串匹配技术的限制。为此,系统和方法为语义相关的术语/短语挖掘搜索引擎结果至提交术语/短语的用户(例如,网站创办者、广告商、等等)。通过从搜索引擎结果挖掘语境(例如,文本,和/或等等)来构建语义关系,围绕术语/短语的语境能够启示术语/短语的意思。更确切地说,查询项的集合是从历史查询日志中聚集其所计数的出现次数(FOO)而来的。这些查询术语逐个提交给搜索引擎。在一个实施方案中,与其它历史查询日志术语的出现次数相比较而言,所提交的历史查询日志术语具有相对高的出现次数。
响应于接收各个所提交的查询,搜索引擎返回搜索结果的排序列表,包括URL、结果标题、以及每个结果和/或所提交的查询周围的语境的简要描述。由于接收到搜索引擎结果,系统和方法从返回的搜索结果(例如,一个或多个第一结果)中选择一个来提取特征集合(关键字和使用公知的TFIDF技术计算的相应的权值)。从提交的搜索查询中提取相应的搜索引擎结果特征之后,将所提取的特征标准化。标准化的特征用于表示每个提交的查询,并依照文本群集算法使用该标准化特征以将提交的查询术语分组到群集中。
响应于从用户接收术语/短语,将术语/短语与术语群集中的各个术语/短语相比较。由于术语群集包括彼此上下文联系的术语,因而当术语/短语与群集内的术语相比较时,根据任一多个相关的语境,或“意思”对术语短语进行评估。在一个实施方案中,如果术语/短语与来自群集的术语匹配,那么在提议术语列表中群集返回到用户。提议术语列表包括确定将与术语/短语语义地和/或上下文相关地联系的术语/短语、与术语/短语相似性测量(信用值)相关的各个术语/短语、以及各个术语/短语出现次数(FOO)。根据FOO和信用值的组合对返回列表进行排序。如果术语/短语与多于单个的术语群集匹配,那么生成多个提议术语列表。根据群集大小对列表进行排序;并且根据FOO和信用值的组合对每个列表内的术语排序。如果没有识别出匹配群集,那么查询术语进一步与从低FOO查询术语生成的扩展的群集相匹配。
在一个实施方案中,通过为术语群集训练分类器(例如,最接近K的临近值分类器)将低FOO的查询术语分组,所述术语群集是从高出现次数出现的历史查询日志术语生成的。逐个提交确定具有低出现次数的历史查询术语至搜索引擎。然后从返回的搜索结果中选择的术语(例如,第一网页、和/或等等)中提取特征。将所提取的特征标准化并用于表示低FOO的查询术语。然后将查询术语分类到已存在的群集中以根据训练的分类器生成扩展的群集。然后根据这些扩展的群集来评估提交术语/短语的用户以识别和返回提议的术语列表至用户。
现在将更详细地描述用于对多意义查询进行相关术语/关键字提议的系统和方法的这些以及其它方面。
示意性系统翻至附图,其中同样的参考数字表示同样的元素,描述了用于对多意义查询的相关术语提议的系统和方法并且作为在适合的计算环境中实现而示出。尽管未作要求,但本发明是以由个人计算机执行的计算机可执行指令(程序模块)的通用环境中描述的。程序模块通常包括执行特定任务或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构、等等。当在前述环境中描述系统和方法时,下文中所描述的动作和操作也可以以硬件实现。
图1示出用于对多意义查询的相关术语提议的示意性系统100。在该实施方案中,系统100包括经由网络104耦合到客户计算设备106的编辑验证服务器(EVS)102。响应于,例如是从客户计算设备106或在EVS102上执行的另一个应用(未示出),接收术语/短语108,EVS102生成并通信提议术语列表110至客户计算设备106以允许用户在实际对术语/短语出价之前评估与术语/短语108语义地/上下文地相关的一组术语。网络104可以包括局域网(LAN)和通用广域网(WAN)通信环境的任意组合,诸如在办公室常见的网络、企业域计算机网络、内部网、以及因特网。当系统100包括客户计算设备106时,客户计算设备是诸如个人计算机、膝上型电脑、服务器、移动计算设备(例如,蜂窝电话、个人数字助理、或手持式计算器)等等计算设备中的任一种。
提议术语列表110包括,例如,确定与术语/短语108相关的术语/短语,为了测量术语/短语108相似性(信用值)的各个术语/短语,以及各个术语/短语出现次数(FOO)——在历史查询日志中的出现次数。以下将参考以关键字挖掘所标题的部、特征提取、和术语群集来更详细地描述用于识别相关术语/短语、生成相似性方法、和生成FOO值的技术。
表1示出确定与“mail”的术语/短语108相关的术语的示意性提议术语列表110。相关术语/短语108的术语在该实施例中列1中示出,标题为“所提议的术语”。
表1对出价术语“邮件”的示范性提议术语列表


参考表1,注意在提议术语列表中的术语被映射到术语相似性值(参见,列2,标题“相似性”)和出现次数的得分(参见,列3,标题“出现次数”)。在标题为“术语群集”的部中,每个如下文所描述的计算得到的术语相似性值,都提供相应提议术语(列1)和术语/短语108(在该实施例中是“mail”之间的相似性测量方法。每个出现次数值,或得分,都表明在历史查询日志中所提议的术语出现的次数。将所提议的术语列表根据术语相似性函数来分类,和/或以出现次数来评分作为商业目标的函数。
任一给定术语/短语108(例如,邮件,等)可以具有多于单一的语境,在该语境中出价术语可以使用。为了说明这个,STS模块112在提议术语列表110中提供指示,其中所提议的术语对应于术语/短语108的多语境的指示。例如,参照表1,术语/短语108“mail”具有两个(2)语境(1)传统脱机邮件以及(2)联机电子邮件。注意为这两个出价术语语境的每一个都示出了相关术语的各个列表。
另外,用于任意术语/短语108的提议的术语可以多于出价术语的同义词。举个例子,参照表1,提议术语“usps”是用于处理邮件的组织的缩写,而不是用于出价术语“mail”的缩写。然而,“usps”也是与“mail”出价术语非常相关的术语,因此,示出在提议术语列表110中。在一种实施方案中,STS模块112确定在相关术语R(例如,“usps”)和目标术语T(例如,“mail”)之间的连系作为以下联系规则的函数itr(T)——>itr(R),其中“itr”表示“对……感兴趣”。如果用户(广告商,网站创办人,和/或等等)对R感兴趣,那么用户也将对T感兴趣。
EVS102包括若干计算机程序模块以生成提议术语列表110。计算机程序模块包括,例如,搜索术语提议(STS)模块112和分类模块114。STS模块112从查询日志118中检索一批历史查询116。历史查询包括先前提交给搜索引擎的搜索查询术语。STS模块112对历史查询116进行评估作为出现次数的函数以标识高频率出现搜索术语120的以及相对较低频率出现的搜索术语122。在该实施方案中,可配置阈值用于确定历史查询是具有相对高还是较低的出现次数。举个例子,在历史查询116中、出现至少阈值数的次数的搜索查询术语被认为具有高频率的出现次数。类似地,在历史查询116中、出现少于阈值数的次数的搜索查询术语被认为具有低频率的出现次数。为了举例说明,在“其它数据”124的各个部分示出了这样的阈值。
关键字挖掘和特征提取STS模块112通过将每个查询(搜索查询)逐个提交至搜索引擎126来挖掘出现查询术语120的语义/语境意思高出现次数。响应于接收搜索查询128,搜索引擎126返回搜索结果130中的排列列表(其序号是可配置的)至STS模块112。排列列表包括URL、结果标题、和与提交的搜索查询128相关的查询术语的简要描述和/或语境。排列列表存储在搜索结果132中。对每个搜索查询128都进行这种搜索结果检索。
STS模块112解析网页超文本标记语言(HTML)以从每个检索的搜索结果132中为每个查询术语提取URL、结果标题和查询术语的简要描述和/或语境。由STS模块112将URL、结果标题、查询术语的简要描述和/或语境,以及用于获得检索的搜索结果132的搜索查询128存储在所提取的特征134的各个记录中。
在解析了高频率出现的查询术语120的搜索结果130之后,STS模块112对所提取的特征134进行文本预处理操作以根据所提取的特征来把语言符号(符号化)生成为单个关键字。为了减小记号的维数,STS模块112去除任意无用字(例如,“the”、“a”、“is”、等等)并去除通常的后缀以标准化该关键字,例如,使用公知的Porter stemming算法。STS模块112将结果提取特征134安排到一个或多个术语向量136中。
每个术语向量136具有基于术语出现次数和转换的文档出现次数(TFIDF)得分的维数。第i向量的第j个关键字的权值如下计算wij=TFijxlog(N/DFj)其中TFij表示术语出现次数(在第i个记录中关键字j的出现数目),N是查询术语的总共数目,DFj是包含关键字j的记录的数目。
术语群集STS模块112将相似术语分组以从术语向量136生成术语群集138。为此,在该实施方案中,每个术语的给定的向量表示,用余弦函数来测量一对术语之间的相似性(调用标准化向量)sim(qj,qk)=Σi=1dwij·wik]]>因而,两个术语之间的距离(相似性测量)被定义为dist(qj,qk)=1-sim(qj,qk)在“其它数据”124的各个部分示出这种相似性测量方法。在表1的示意性提议术语列表110中示出示意性的该相似性值。
STS模块112使用所计算的相似性测量方法以将关键字向量134表示的术语群集/分组到术语群集138中。更确切的说,在该实施方案中,STS模块112使用公知的基于密度的群集算法(DBSCAN)以生成术语群集138。DBSCAN使用两个参数Eps和MinPts。Eps表示在群集138中的点间的最大距离。由于当向量的尾部移动到原点时每个向量都能够由向量的首部的点表示,因而这里点是向量的等价物。MinPts表示群集138中的点的最小数。为了生成群集138,DBSCAN以任意点p开始并从p检索关于Eps和MinPts所有点可达到密度。如果p是核点,那么该程序产出关于Eps和MinPts的群集138。如果p是界线点,那么从p没有点是可达到密度的并且DBSCAN访问下一个点。
术语匹配响应于从用户(例如,广告商,网站创办人,等)接收术语/短语108,STS模块112将术语/短语108与向群集138中的各个术语/短语作比较。由于术语群集138包括彼此语境地相关的术语,因而根据多个相关的和历史的语境、或“意思”来评估术语/短语108。在一个实施方案中,如果STS模块112确定术语/短语与来自群集138的术语/短语相匹配,那么搜索术语提议模块112从群集138生成提议术语列表110。在该实施方案中,匹配可以是精确的匹配或者带有少量变形诸如单一/多种形式、拼错、标点符号、等等的匹配。返回的列表根据FOO和信用值的结合来排序。
如果STS模块112确定术语/短语108与多术语群集138中的术语相匹配,那么搜索术语提议模块112从中多个术语群集138中的术语生成多个提议术语列表110。列表以群集大小排序;每个列表内的术语以FOO和信用值来排序。
低FOO术语的分类当从出现高频(FOO)查询术语120生成的术语群集138不包括至用户输入术语/短语108的相同术语时,分类模块114生成提议术语列表110。为此,分类模块114从根据高频率出现(FOO)的查询日志术语120生成的术语群集138来生成训练分类器140。在适用于分类操作的向量空间模型中,术语群集138中的术语已经具有相应的关键字向量。另外,去除无用字和单词词干化(去除后缀)减少了术语向量136的维数(群集138基于此)。在一个实施方案中,可以采用另外的维数减少方法,例如,特征选择或再参数化。
在该实施方案中,为了将未知类查询术语120进行分类,分类模块114使用最接近k的分类器算法在所有已知类查询术语120中根据它们的相应特征向量,来查找k个最相似的临近值,并使用临近值的分类标签的权值的大部分来预测新的查询术语的分类。当每个群集138由简单序号来标号时,已经在术语群集138中的每个查询术语被分配给与它们相应的群集的标签相同的标签。使用X的每个相邻值的相似性来加权这些相邻值,其中相似性是由欧几里得的距离或者两个向量间的余弦值来测量的。余弦相似性如下sim(X,Dj)=Σti(x∩Dj)xi·dij||X||2·||Dj||2]]>其中X是测试术语,即,要加以分类的查询术语,被表示为向量;Dj是第j个训练术语;ti是由X和Dj共享的词;xi是X中的关键字ti的权值;dij是D中关键字ti的权值,||X||2=x12+x22+x32]]>是X的范数,‖Dj‖2是Dj的范数。因而,测试术语X的分类标签是所有相邻值的类别标签的加权的多数label(X)=argmaxli(ΣAllDjwhere label(Dj)=lisim(X,Di))]]>在另一个实施方案中,不同的统计分类和机器学习技术(例如,包括回归模块,贝叶斯分类器,决定树,神经网络,以及支持向量机器)而非最接近的相邻值分类技术用于生成训练的分类器140。
分类模块114逐一(经由各个搜索查询128)将出现低出现次数(FOO)的查询术语提交给搜索引擎126。响应于接收与特定搜索查询128相关联的搜索结果130,并使用已经描述的技术,分类模块114从一个或多个由搜索结果130识别的所检索的搜索结果132中提取特征(已提取的特征134)。在该实施方案中,从第一级的搜索结果132中提取特征。对于每个经检索和解析的搜索结果132,分类模块114在提取的特征134的各个记录中存储以下信息URL,结果标题,查询术语的简要描述和/或语境,以及用于获得所检索的搜索结果132的搜索查询128。接下来,分类模块114作标记,减少维数,并将从低FOO查询术语122导出的提取特征134标准化,以生成术语向量136。从而,分类114将查询术语分组到群集138的各个集合。使用训练的分类器140(根据高FOO查询术语120生成)来执行该分组操作。
分类114根据这些已扩展的术语群集(根据低FOO查询术语122生成)来评估提交术语/短语108的用户,以识别并返回一个或多个提议的术语列表110至用户。以上在段00320033和以下部分中描述了示意性的该程序。
示意性程序图2举例说明用于对多意义查询的相关术语提议的示意性程序200。为了便于讨论,就图1的组件讨论程序的操作。(所有的参考序号都是以其中组件是以其中第一次介绍该组件的附图的数字开始的)。在块202,搜索术语提议(STS)模块112(图1)从查询日志120采集历史查询术语116。STS模块112组织历史查询为116作为出现次数的函数。在块204,STS模块112发送出现高出现次数的查询术语120至搜索引擎132并接收相应的搜索结果130。在块206,STS模块112从每个搜索结果130中提取片断描述并将片断描述(提取特征134)合并在一起以形成术语向量136。为每个不同的出现高出现次数查询术语120生成不同术语向量136。
在块208,STS模块112运用群集算法以将基于术语向量136的基本上相似的术语分组到术语群集138中。在块210,响应于从用户接收术语/短语108,STS模块112从来自术语群集138的任意关键字/关键短语生成提议术语列表110,所述术语群集138确定基本上与术语/短语108相似。在块212,STS模块112确定来自关键字群集138的任一关键字/短语是否基本上与术语/短语108相似。如果是,在块214程序继续,其中在STS模块112发送提议术语列表110至用户。否则,如页上参考标记“A”所示,在图3的块302程序继续。
图3举例说明用于对多意义查询的相关术语提议的示意性程序300。程序300的操作是基于附图2的程序200的操作。为了便于讨论,就图1的组件讨论程序的操作。(所有的参考序号都是以其中组件是第一次介绍的附图的数字开始的)。在块302,STS模块112从术语群集138生成分类器140,其中以上根据高出现次数查询术语120。在块304,STS模块112逐个发送低出现次数查询术语122至搜索引擎132并接收相应的搜索结果130。在块306,STS模块112从搜索结果130提取片断描述(所提取的特征134),并由此生成术语向量136。在块308,根据训练的分类器140,STS模块112将根据出现低出现次数查询术语122生成的术语向量136分类,以根据低出现次数出现查询术语来生成各个术语群集138。
在块310,STS模块112从来自术语群集138的任意关键字/关键短语生成提议术语列表110,所述术语群集138确定基本上与术语/短语108相似。在块312,STS模块112发送提议术语列表110至用户。
示意性操作环境图4举例说明适于计算环境400的实施例,其中可以部分或全部的实现用于关于对多意义查询的术语提议的图1的系统100和图2和3的方法。示意性计算环境400仅仅是一个适于计算环境的实施例,并非用于对在此描述的系统和方法的功能性或使用范围建议任何限制。也不应当将计算环境400解释为依赖或需要涉及在计算环境400中所举例说明的组件的任一或其组合。
在此描述的方法和系统可与若干其它通用目的或特殊目的计算系统环境或结构操作。适合使用的公知计算系统、环境、和/或结构的实施例包括,但不局限于,个人计算机、服务器计算机、多处理器系统、基于微处理器的系统、网络PC、小型型计算机、大型计算机、包括以上任一种系统或设备的分布式计算环境、等等。也可以在有限资源的客户端,诸如手提式计算机、或其他计算设备来实现该结构的简化或部分设备的版本。本发明实践于由经过通信网络链接的远程处理设备执行任务的分布式计算环境中。在分布式计算环境中,程序模块可以位于局域以及远程的存储器存储设备中。
参照图4,用于对多意义查询的相关术语提议的示意性系统包括计算机410形式的通用目的计算设备。以下所描述的计算机410的方面是客户计算设备PPS服务器102(图1)和/或客户计算设备106的示意性实施方案。计算机410的组件可以包括,但不局限于,处理单元420、系统存储器430、和将包括系统存储器的各种系统组件耦合至处理单元420的系统总线421。系统总线421可以是包括存储器总线或存储控制器、外围总线、和使用各种总线结构的局部总线的任意几种总线结构。通过非限制性实施例,这种结构可以包括工业标准结构(ISA)总线,微通道结构(MCA)总线,扩展工业标准结构(EISA)总线,视频电子标准协会(VESA)局域总线,和外围组件互连(PCI)总线以及公知的多层架构总线。
计算机410典型地包括各种计算机可读介质。计算机可读介质可以是由计算机410访问的任何可用的介质,并包括易失性和非易失性介质,可移动和不可移动介质。通过非限制性实施例,计算机可读介质可以包含计算机存储介质和通信介质。计算机存储介质包括在为信息存储的任一方法或技术中实现的易失性和非易失性、可移动和不可移动介质,所述信息诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括,但不局限于,RAM,ROM,EEPROM,闪存或其它存储器技术,CD-ROM、数字通用盘(DVD)或其它光盘存储设备、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或能用于存储所想要的信息并能够由计算机410访问的任何其它介质。
通信介质典型地包括有计算机可读指令、数据结构、程序模块或诸如载波或其它传送机制的调制数据信号中的其它数据,并包括任一信息传递介质。术语“调制数据信号”意思是具有一个或多个其特征集或以这种方式变换以便在信号中编码信息的信号。通过非限制性实施例,通信介质包括诸如有线网络或直线连接的有线介质和诸如声音、RF、红外线和其它无线介质。以上任一合并都应当包括在计算机可读介质的范围内。
系统存储器430包括诸如只读存储器(ROM)431和随机访问存储器(RAM)432的易失性和/或非易失性形式的计算机存储介质。基本输入/输出系统433(BIOS),诸如在启动期间包含帮助在计算机410内的元素传送信息的基本例行程序,典型地存储在ROM431中。RAM432典型地包含可立即访问和/或由处理单元420正操作的数据和/或程序模块。通过非限制性实施例,图4举例说明操作系统434,应用程序435,其它程序模块436,和程序数据437。在一个实施方案中,其中计算机410是PPS服务器102。在该情形中,应用程序435包含搜索术语提议模块112,和分类模块114。在该相同情形中,程序数据437包含术语/短语108,所提议的术语列表110,历史查询116,搜索查询128,搜索结果130,搜索结果132,所提取的特征134,术语向量136,关键字群集138,所训练的分类器140,和其它数据124。
计算机410也可以包括其它的可移动/不可移动、易失性/非易失性计算机存储介质。仅仅通过实施例,图4举例说明读取或写入不可移动、非易失性磁介质的硬盘驱动441,读取或写入可移动、非易失性磁盘452的磁盘驱动451,和读取或写入诸如CD ROM或其它光介质的可移动、非易失性光盘456的光盘驱动455。其它可用于示意性操作环境的可移动/不可移动、易失性磁性/非易失性计算机存储介质包括,但不局限于,盒式磁带、闪存卡、数字通用盘、数字录像磁带、固态RAM、固态ROM、等等。经过诸如接口440的不可移动存储器接口,硬盘驱动441典型地连接到系统总线421,并且经过诸如接口450的可移动存储器接口,磁盘驱动451和光盘驱动455典型地连接到系统总线421。
以上讨论并在图4中举例说明的驱动器和与它们相联的计算机存储介质为计算机410提供计算机可读指令、数据结构、程序模块、和其它数据的存储。在图4中,例如,硬盘驱动441举例说明以存储操作系统444、应用程序445、其它程序模块446、和程序数据447。注意,这些组件能够与操作系统434、应用程序435、其它程序模块436、和程序数据437相同或不同。在此对操作系统444、应用程序445、其它程序模块446、和程序数据447给出不同的序号以举例说明它们至少是不同的拷贝。
用户可以通过输入设备诸如键盘462和点击设备461(通常称作鼠标、跟踪球、或触摸垫)将命令和信息输入到计算机410中。其它输入设备(未示出)可以包括麦克风、操纵杆、游戏板、附属盘(satellite dish)、扫描仪、等等。这些输入设备和其它输入设备通常经耦合到系统总线421的用户输入接口460连接到处理单元420,但也可以通过其它接口和总线结构连接,诸如并行端口、游戏端口或通用串行总线(USB)。
监视器491或其它类型的显示设备也可以经由诸如视频接口490的接口连接到系统总线421。除监视器,计算机还可以包括诸如可以通过输出外围接口495连接的扬声器497和打印机496的其它外围输出设备。
计算机410在使用逻辑连接到一个或多个远程计算机,诸如远程计算机480,的联网环境中操作。远程计算机480可以是个人计算机、服务器、路由器、网络PC、对等设备、或其它普通网络结点,并且作为其特定实施方案的功能,虽然在图4中仅仅举例说明了存储器设备481,但是可以包括以上所描述的涉及计算机410的许多或所有元件。在图4中所描写的逻辑连接包括局域网络(LAN)471和广域网络(WAN)473,但是也可以包括其它网络。这种网络环境在办公室、企业范围内计算机网络、企业内部网和因特网中很常见。
当在LAN联网环境中使用时,计算机410经由网络接口或适配器470连接到LAN471。当在WAN联网环境中使用时,计算机410典型地包括调制解调器472或用于在WAN473上建立通信,诸如因特网,的其它装置。可以将内部或外部的调制解调器472,经由用户输入接口460或其它适当的机制连接到系统总线421。在联网环境中,所描述的与计算机410相关,或是其部分的程序模块,可以存储在远程存储装置设备中。通过非限制性实施例,图4举例说明驻留在存储设备481上的远程应用程序485。示出的网络连接是示意性的并可以使用在计算机间建立通信的其它装置。
结论尽管已经以特定结构特征和/或方法操作或动作的语言描述了用于对多意义查询的相关术语的提议的系统和方法,但是应当理解到,所附权利要求中限定的实施方案并不必局限于所描述的特定特征或动作。因此,特定特征和动作是作为实施所要求主题内容的示意性形式而公开的。
权利要求
1.一种用于相关术语提议的方法,该方法包含生成术语群集作为术语向量的所计算的相似性函数,每个根据搜索结果所生成的术语向量都与先前提交给搜索引擎的高出现次数出现(FOO)历史查询的集合相关;并且响应于从实体接收术语/短语,根据术语群集中的术语/短语来估计术语/短语以标识一个或多个相关的术语提议。
2.权利要求1中所述的方法,其中多意义查询包含术语/短语。
3.权利要求1中所述的方法,其中实体是计算机程序应用和/或用户。
4.权利要求1中所述的方法,还包含如下确定所计算的相似性sim(qj,qk)=Σi=1dwij.wik;]]>其中第i个向量的第j个术语的权值w是如下计算的wij=TFijxlog(N/DFj);并且其中Tfij表示术语出现次数,N为查询术语的总共数目,而DFj是包含术语j的所提取的特征记录的数目。
5.权利要求1中所述的方法,还包含从查询日志中采集历史查询术语;以及确定具有高FOO的历史查询术语中的术语。
6. 权利要求1中所述的方法,还包括在创建术语群集之前减少术语向量的维数;以及标准化术语向量。
7.权利要求1中所述的方法,其中估计还包含识别术语/短语和来自一个或多个术语群集中的术语/短语之间的匹配;以及响应于识别,生成包含术语/短语的相关术语提议。
8.权利要求7中所述的方法,其中相关术语提议还包含对于术语/短语的每个术语/短语,表明在挖掘的历史查询集合中术语/短语出现的次数的出现次数值。
9.权利要求1中所述的方法,其中生成术语群集还包含发送高FOO历史查询中的各个至搜索引擎以获得搜索结果;从相应于各个术语的搜索结果的至少子集合中提取特征;以及根据特征产生术语向量作为术语和转换的术语出现次数的函数。
10.权利要求9中所述的方法,其中特征包括标题、描述、和/或用于高出现次数历史查询术语中的各个术语的语境。
11.权利要求9中所述的方法,其中各个术语包含搜索结果中的排列第一的术语。
12.权利要求1中所述的方法,其中术语群集是术语群集的第一集合,并且其中该方法还包含确定在术语和术语之间不匹配;以及响应于该确定根据术语向量所计算的相似性来制作术语群集的第二集合,根据搜索结果生成的每个术语向量都与先前提交给搜索引擎的低FOO历史查询的集合相关联;以及根据术语群集的第二集合的术语/短语来估计术语/短语以识别一个或多个相关的术语提议。
13.权利要求12中所述的方法,其中制作还包含根据从查询日志挖掘的历史查询来识别低FOO历史查询;发送低FOO历史查询的至少子集合中的各个术语至搜索引擎以获得搜索结果;从搜索结果的至少子集集合中提取特征;以及根据特征产生术语向量作为术语和转换的术语出现次数的函数。
14.权利要求13中所述的方法中,还包含在群集之后确定在术语/短语和来自术语群集的第一集合的术语/短语中不存在匹配,所述第一集合基于高FOO历史查询;以及响应于确定,标识术语/短语和来自术语群集的第二集合的一个或多个术语/短语之间的匹配,所述第二集合基于低FOO历史查询;以及响应于标识,生成包含术语/短语的相关术语提议。
15.一种包含计算机可执行指令的计算机可读介质,所述计算机可执行指令用于生成术语群集作为术语向量的所计算的相似性函数,每个根据搜索结果所生成的术语向量都与先前提交给搜索引擎的高出现次数出现(FOO)历史查询的集合相关;并且响应于从实体接收术语/短语,根据术语群集中的术语/短语来估计术语/短语以标识一个或多个相关的术语提议。
16.权利要求15中所述的计算机可读介质,其中多意义查询包含术语/短语。
17.权利要求15中所述的计算机可读介质,其中实体是计算机程序应用和/或用户。
18.权利要求15中所述的计算机可读介质,还包含用于如下确定所计算的相似性的计算机可执行指令sim(qj,qk)=Σi=1dwij.wik;]]>其中第i个向量的第j个术语的权值w是如下计算的wij=TFijxlog(N/DFj);并且其中Tfij表示术语出现次数,N为查询术语的总共数目,而DFj是包含术语j的所提取的特征记录的数目。
19.权利要求15中所述的计算机可读介质,还包含计算机可执行指令用于从查询日志中采集历史查询术语;以及确定具有高FOO的历史查询术语中的术语。
20.权利要求15中所述的计算机可读介质,计算机可执行指令用于在创建术语群集之前减少术语向量的维数;以及标准化术语向量。
21.权利要求15中所述的计算机可读介质,其中估计还包含计算机可执行指令用于识别术语/短语和来自一个或多个术语群集中的术语/短语之间的匹配;以及响应于识别,生成包含术语/短语的相关术语提议。
22.权利要求21中所述的计算机可读介质,其中相关术语提议还包含对于术语/短语的每个术语/短语,表明在挖掘的历史查询集合中术语/短语出现的次数的出现次数值。
23.权利要求15中所述的计算机可读介质,其中生成术语群集还包含计算机可执行指令用于发送高FOO历史查询中的各个至搜索引擎以获得搜索结果;从相应于各个术语的搜索结果的至少子集合中提取特征;以及根据特征产生术语向量作为术语和转换的术语出现次数的函数。
24.权利要求23中所述的计算机可读介质,其中特征包括标题、描述、和/或用于高出现次数历史查询术语中的各个术语的语境。
25.权利要求23中所述的计算机可读介质,其中各个术语包含搜索结果中的排列第一的术语。
26.权利要求15中所述的计算机可读介质,其中术语群集是术语群集的第一集合,并且其中计算机可执行指令还包含指令用于确定在术语和术语之间不匹配;以及响应于该确定根据术语向量所计算的相似性来制作术语群集的第二集合,根据搜索结果生成的每个术语向量都与先前提交给搜索引擎的低FOO历史查询的集合相关联;以及根据术语群集的第二集合的术语/短语来估计术语/短语以识别一个或多个相关的术语提议。
27.权利要求26中所述的计算机可读介质,其中制作还包含计算机可执行指令用于根据从查询日志挖掘的历史查询来识别低FOO历史查询;发送低FOO历史查询的至少子集合中的各个术语至搜索引擎以获得搜索结果;从搜索结果的至少子集集合中提取特征;以及根据特征产生术语向量作为术语和转换的术语出现次数的函数。
28.权利要求27中所述的计算机可读介质,还包含计算机可执行指令用于在群集之后确定在术语/短语和来自术语群集的第一集合的术语/短语中不存在匹配,所述第一集合基于高FOO历史查询;以及响应于确定,标识术语/短语和来自术语群集的第二集合的一个或多个术语/短语之间的匹配,所述第二集合基于低FOO历史查询;以及响应于标识,生成包含术语/短语的相关术语提议。
29.一种计算设备包含处理器;和耦合到处理器的存储器,存储器包含可由处理器执行的计算机程序,用于生成术语群集作为术语向量的所计算的相似性函数,每个根据搜索结果所生成的术语向量都与先前提交给搜索引擎的高出现次数出现(FOO)历史查询的集合相关;并且响应于从实体接收术语/短语,根据术语群集中的术语/短语来估计术语/短语以标识一个或多个相关的术语提议。
30.权利要求29中所述的计算设备,其中多意义查询包含术语/短语。
31.权利要求29中所述的计算设备,其中实体是计算机程序应用和/或用户。
32.权利要求29中所述的计算设备,还包含用于如下确定所计算的相似性的计算机可执行指令sim(qj,qk)=Σi=1dwij.wik;]]>其中第i个向量的第j个术语的权值w是如下计算的wij=TFijxlog(N/DFj);并且其中Tfij表示术语出现次数,N为查询术语的总共数目,而DFj是包含术语j的所提取的特征记录的数目。
33.权利要求29中所述的计算设备,还包含计算机可执行指令用于从查询日志中采集历史查询术语;以及确定具有高FOO的历史查询术语中的术语。
34.权利要求29中所述的计算设备,计算机可执行指令用于在创建术语群集之前减少术语向量的维数;以及标准化术语向量。
35.权利要求29中所述的计算设备,其中估计还包含计算机可执行指令用于识别术语/短语和来自一个或多个术语群集中的术语/短语之间的匹配;以及响应于识别,生成包含术语/短语的相关术语提议。
36.权利要求35中所述的计算设备,其中相关术语提议还包含对于术语/短语的每个术语/短语,表明在挖掘的历史查询集合中术语/短语出现的次数的出现次数值。
37.权利要求29中所述的计算设备,其中生成术语群集还包含计算机可执行指令用于发送高FOO历史查询中的各个至搜索引擎以获得搜索结果;从相应于各个术语的搜索结果的至少子集合中提取特征;以及根据特征产生术语向量作为术语和转换的术语出现次数的函数。
38.权利要求37中所述的计算设备,其中特征包括标题、描述、和/或用于高FOO历史查询术语中的各个术语的语境。
39.权利要求37中所述的计算设备,其中各个术语包含搜索结果中的排列第一的术语。
40.权利要求29中所述的计算设备,其中术语群集是术语群集的第一集合,并且其中计算机可执行指令还包含指令用于确定在术语和术语之间不匹配;以及响应于该确定根据术语向量所计算的相似性来制作术语群集的第二集合,根据搜索结果生成的每个术语向量都与先前提交给搜索引擎的低FOO历史查询的集合相关联;以及根据术语群集的第二集合的术语/短语来估计术语/短语以识别一个或多个相关的术语提议。
41.权利要求40中所述的计算设备,其中制作还包含计算机可执行指令用于根据从查询日志挖掘的历史查询来识别低FOO历史查询;发送低FOO历史查询的至少子集合中的各个术语至搜索引擎以获得搜索结果;从搜索结果的至少子集集合中提取特征;以及根据特征产生术语向量作为术语和转换的术语出现次数的函数。
42.权利要求41中所述的计算设备,还包含计算机可执行指令用于在群集之后确定在术语/短语和来自术语群集的第一集合的术语/短语中不存在匹配,所述第一集合基于高FOO历史查询;以及响应于确定,标识术语/短语和来自术语群集的第二集合的一个或多个术语/短语之间的匹配,所述第二集合基于低FOO历史查询;以及响应于标识,生成包含术语/短语的相关术语提议。
43.一种计算设备包含生成装置,生成术语群集作为术语向量的所计算的相似性函数,每个根据搜索结果所生成的术语向量都与先前提交给搜索引擎的高出现次数出现(FOO)历史查询的集合相关;并且响应于从实体接收术语/短语,估计装置根据术语群集中的术语/短语来估计术语/短语以标识一个或多个相关的术语提议。
44.权利要求43中所述的计算设备,其中多意义查询包含术语/短语。
45.权利要求43中所述的计算设备,其中实体是计算机程序应用和/或用户。
46.权利要求43中所述的计算设备,还包含采集装置,从查询日志中采集历史查询术语;以及确定装置,确定具有高FOO的历史查询术语中的术语。
47.权利要求43中所述的计算设备,其中估计装置还包含识别装置,识别术语/短语和来自一个或多个术语群集中的术语/短语之间的匹配;以及响应于识别,生成装置生成包含术语/短语的相关术语提议。
48.权利要求43中所述的计算设备,其中生成术语群集的生成装置还包含发送装置,发送高FOO历史查询中的各个至搜索引擎以获得搜索结果;提取装置,从相应于各个术语的搜索结果的至少子集合中提取特征;以及产生装置,根据特征产生术语向量。
49.权利要求43中所述的计算设备,其中术语群集是术语群集的第一集合,并且其中该计算设备还包含确定装置,确定在术语和术语之间不匹配;以及响应于该确定制作装置,根据术语向量所计算的相似性来制作术语群集的第二集合,根据搜索结果生成的每个术语向量都与先前提交给搜索引擎的低FOO历史查询的集合相关联;以及估计装置,根据术语群集的第二集合的术语/短语来估计术语/短语以识别一个或多个相关的术语提议。
50.权利要求49中所述的计算设备,还包含计算装置,计算在术语/短语和来自术语群集的第一集合的术语/短语中不存在匹配,所述第一集合基于高FOO历史查询;以及响应于确定,标识装置以标识术语/短语和来自术语群集的第二集合的一个或多个术语/短语之间的匹配,所述第二集合基于低FOO历史查询;以及响应于标识,生成装置以生成包含术语/短语的相关术语提议。
全文摘要
描述了一种用于相关术语提议的系统和方法。在一个方面,生成术语群集作为术语向量的所计算的相似性函数。每个根据搜索结果所生成的术语向量都与先前提交给搜索引擎的高出现次数出现(FOO)历史查询的集合相关。响应于从实体接收术语/短语,根据术语群集中的术语/短语来估计术语/短语以标识一个或多个相关的术语提议。
文档编号G06F17/30GK1684072SQ200510071689
公开日2005年10月19日 申请日期2005年4月13日 优先权日2004年4月15日
发明者B·章, H-J·曾, L·李, T·纳吉姆, 马维英, Y·李, 陈正 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1