对于包含非编码字符的查询使用统一资源定位符来增强搜索结果相关性排序的制作方法

文档序号:6431866阅读:182来源:国知局
专利名称:对于包含非编码字符的查询使用统一资源定位符来增强搜索结果相关性排序的制作方法
对于包含非编码字符的查询使用统一资源定位符来增强搜
索结果相关性排序
背景技术
与网页相对应的统一资源定位符(URL)已显示为包含用于测量网页对于搜索查询的相关性的有用信息。已执行了大量的解决利用URL来改善搜索结果相关性排序的质量的问题的工作。这种工作传统上集中于西方语言网页,其字母集合例如能够通过编码诸如ASCII字符之类的字符来表示,这是因为URL由US-ASCII字符集(在这里称为编码字符)中的字符的字符串组成。对于包括不允许在URL中使用的字符(即,“非编码字符”(NEC),例如,其可以包括中文、日文,韩文和其他的类似语言)的语言而言,由于URL利用编码字符来表示,所以将查询与URL匹配往往是困难的。为了更有效地将URL用于NEC语言市场中的相关性排序,所希望的是以相同的格式来表示搜索查询和相应的URL。能够采用两种方式之一来实现一致的格式。第一种方式是在在线服务时间改变查询,其中NEC查询基于映射表被变换为英文单词、拼音表示(即,中文字符的发音)、数字字符或这些的组合,其中映射表根据NEC字与其对应的编码语言形式之间类似的含义或发音的规则离线建立。另一种更坚固的方案是将URL中的有意义部分转换成NEC字,并在索引生成期间将转换的URL内置到网页索引中。

发明内容
这个概述部分用于以简化形式介绍下面在详细描述部分中进一步描述的概念的选择。这个概述部分不打算标识所请求保护的主题的关键特征或基本特征,也不打算被孤立用作辅助手段来确定所请求保护的主题的范围。本发明的实施例用于执行离线程序,其中这些离线程序通过包括URL与相应NEC字的配对来有助于增强网页索引,以便于NEC语言搜索的搜索结果相关性排序。在实施例中,网页的URL被接收。URL子串从URL中进行提取,并与消除歧义信息进行比较,以推断出该URL的恰当的相应NEC表示。在实施例中,例如,诸如标题、锚(anchor )、层次结构中的字符串等之类的元素从网页中进行提取。每一个元素被断字(word-broken)为NEC字的序列。参考NEC-编码语言映射表来标识元素中的每个NEC字的所有可能的编码语言表示。在实施例中,代表断字元素的格被生成,其中每一个节点对应于NEC字的可能的编码语言表示。使用这些格,能够采用遍历这些格的算法,其定义能够与所提取的URL子串进行比较的格路径,以标识匹配。连同与相应匹配相关联的置信度分数(confidence score) —起,与URL子串相匹配的格路径被添加到潜在的候选字符串列表。这些潜在的候选字符串能够与相应URL子串进行配对,并被并入网页索引中,以便于在线采用的NEC语言搜索结果相关性排序。


下面参考附图详细描述本发明的实施例,其中
图1是适合于实施本发明的实施例的示例性计算设备的框图;图2是适合于用于实施本发明的实施例的示例性网络环境的框图;图3描述用于根据本发明的实施例利用NEC语言/编码语言配对来增强网页索引的处理组件的说明性的实施方式;
图4描述根据本发明的实施例的说明性的映射表;图5描述根据本发明的实施例的显示其各子串的说明性的URL ;图6描述根据本发明的实施例的说明性的中文语言网页;图7描述根据本发明的实施例的代表网页元素的说明性的格集合;图8描述根据本发明的实施例的说明性的URL候选字符串匹配处理;图9描述根据本发明的实施例的说明性的修剪格;
图10是说明根据本发明的实施例、利用URL/NEC字对来增强网页索引以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序的示例性方法的流程图;和
图11是说明根据本发明的实施例、利用URL/NEC字对来增强网页索引以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序的示例性方法的另一流程图。
具体实施例方式在这里披露的本发明的实施例的主题利用特异性来描述,以满足法定要求。但是,该描述本身并不打算来限制这个专利的范围。相反,发明人已考虑配合其他的当前或未来的技术,所请求保护的主题也可能以其他的方式来实现,以包括不同的步骤或与这个文献中所描述的相类似的步骤的组合。此外,虽然在这里可能使用术语“步骤”和/或“方框”来暗示所采用的方法的不同元素,但是除非且除了明确地描述各步骤的顺序之外,这些术语不应被解释为暗指在这里所公开的各种步骤之中或之间任何特定的顺序。在这里所描述的本发明的实施例包括计算设备和计算机可读媒体,用于使得计算设备执行利用URL/NEC字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。在实施例中,该说明性方法包括接收与网页相对应的统一资源定位符(URL),其中URL包括编码字符的第一字符串。在实施例中,该说明性方法也包括将编码字符的第一字符串变换为一个或多个NEC字;以及将NEC字的集合包括在网页索引中。在第二说明性的实施例中,计算机可执行指令使得计算设备执行利用URL/NEC字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。在实施例中,该说明性方法包括创建包括NEC语言与字符编码语言之间的映射的映射表。接收与网页相对应的统一资源定位符(URL)字符串。该方法的实施例也包括参考来自网页的多个元素,并且基于这些元素,将URL字符串转换成NEC字的序列。在实施例中,该说明性方法也包括构建包括NEC字集合的网页索引。在第三说明性的实施例中,计算机可执行指令集提供利用URL/NEC字对来增强网页索引的示例性方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。在实施例中,该方法包括接收与网页相对应的统一资源定位符(URL),以及从该URL中提取URL子串。从网页中接收元素,其中该元素利用NEC语言来表示,并且参考映射表来标识该元素的可能的编码字符表示。在实施例中,该说明性方法进一步包括确定该元素的多个可能的编码字符表示之一与URL子串相匹配;以及将所选择的编码字符表示和相应NEC字包括在网页索引中。本发明的实施例的各方面可以在计算机程序产品的一般语境中进行描述,其中计算机程序产品包括计算机代码或机器可用指令,这些指令包括由计算机或诸如个人数据助理或其他手持设备之类的其他机器执行的计算机可执行指令,诸如程序模块。一般,包括例程、程序、对象、组件、数据结构等等的程序模块指的是执行特定任务或实施特定的抽象数据类型的代码。本发明的实施例可以在各种系统配置中进行实践,其中系统配置包括专用服务器、通用计算机、膝上型计算机、更专业计算设备等等。本发明也可以在分布式计算环境中进行实践,其中任务由通过通信网络链接的远程处理设备来执行。计算机可读媒体包括易失性和非易失性媒体、可拆卸和不可拆卸媒体二者,并考虑可由数据库、处理器和各种其他联网的计算设备读取的媒体。利用示例并且不是限制,计算机可读媒体包括以用于存储信息的任何方法或技术来实施的媒体。存储信息的示例包括计算机可执行指令、数据结构、程序模块和其他的数据表示。媒体示例包括但不限于RAM、ROM、EEPR0M、闪存和其他的存储技术、⑶-ROM、数字多功能盘(DVD)、全息媒体和其他的光盘存贮器、磁带盒、磁带、磁盘存贮器以及其他的磁存储设备。这些技术能够瞬间、暂时或永久存储数据。下面描述其中可以实施本发明的各方面的示例性操作环境,以便提供对于本发明的各方面的一般背景。特别地,最初参见图1,用于实施本发明的实施例的示例性操作环境被显示,并一般被指定为计算设备100。计算设备100只是适当的计算环境的一个示例,并且不打算暗示针对本发明的使用或功能的范围的任何限制。计算设备100也不应该被解释为具有与所说明的任一组件或组件的组合有关的任何依赖或要求。计算设备100包括直接或间接耦合下列设备的总线110 存储器112,一个或多个处理器114,一个或多个演示组件116,输入/输出端口 118,输入/输出组件120,以及说明性的电源122。总线110代表的可能是一条或多条总线(例如,地址总线、数据总线或其组合)。虽然为了清晰起见而利用线条来显示图1的各个方块,但在现实中,划定各个组件并不是如此清晰的,并且用比喻而言,这些线条将更准确地是灰色和模糊的。例如,可以考虑诸如显示设备之类的演示组件是I/O组件。同样,处理器具有存储器。我们认识到,这是本领域的特性,并且重申图1的框图仅仅说明能够与本发明的一个或多个实施例结合使用的示例性计算设备。不区分诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等之类的类别,因为所有这些被考虑在图1的范围之内并称为“计算设备”。存储器112包括存储在易失性和/或非易失性存储器中的计算机可执行指令113。该存储器可以是可拆卸的、不可拆卸的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括与系统总线110耦合的一个或多个处理器114,其中处理器从诸如存储器112或I/O组件120之类的各种实体中读取数据。在实施例中,一个或多个处理器114执行计算机可执行指令113,以执行由计算机可执行指令115定义的各种任务和方法。一个或多个演示组件116被耦合到系统总线110,并且向用户或其他设备呈现数据指示。示例性演示组件116包括显示设备、扬声器、打印组件等。I/O端口 118允许将计算设备110逻辑耦合到包括I/O组件120的其他设备,其中的一些设备可以被内置。说明性组件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、无线设备、键盘、笔、语音输入设备、触摸输入设备、触摸屏设备、交互式显示设备或鼠标。I/O组件120也能够包括通信连接121,其能够有助于将计算设备100通信连接到远程设备,例如,诸如其他的计算设备、服务器、路由器等等。由于URL通常由编码语言字符(例如,ASCII字符)组成,所以例如在中文网页设计者创建新的页面时,他往往使用英文单词、拼音、数字字符串或这些的组合来表示其中文名称。例如,如果该网页包括在线游戏(注意用于“online games (在线游戏)”的相应断字中文是“网络游戏”),则网页所有者可能例如为该URL选择以下ACSII名称^onlinegames'\"wangluoyouxi"(全拼音表示)或“wlyx”(缩写拼音)。因而,为了便于搜索结果相关性排序,搜索查询和网页索引信息应以类似方式来表示。虽然将查询变更为其ASCII格式是将URL用于NEC (中文、日文和韩文语言)页面的相关性改进的一种解决方案,但是其往往是相对无效的和低效的。本发明的实施例反而便于将URL变换处理移到脱机(离线)环境,其中URL的有意义部分被转换为NEC字。在这种处理中,诸如标题和锚之类的重要页面内容能够用于决定或消除候选NEC字之间的歧义。这些NEC字能够被内置到网页索引中作为备用元流(metastream),以替换或补充用于NEC页面排序的原始URL元流。现在转到图2,显示适合于用于实施本发明的实施例的示例性网络环境200的框图。网络环境200包括用户设备210、网络211、搜索引擎212、网页索引216 (这包括与网页218和220相关联的可搜索的索引的信息,其能够由web服务器提供)以及NEC索引服务222。用户设备210通过网络211与搜索引擎212通信,其中所述网络可以包括任何数量的网络,例如,诸如局域网(LAN)、广域网(WAN)、因特网、蜂窝网络、对等(P2P)网络、移动网络或网络的组合。图2中所示的示例性网络环境200是一个合适的网络环境200的示例,并且不打算暗指对于在这个文献中公开的本发明的实施例的使用或功能的范围的任何限制。示例性网络环境200也不应被解释为具有与在这里说明的任何单个组件或组件的组合相关的任何依赖或要求。用户设备210可以是能够允许用户向搜索引擎212提交搜索查询以及响应于搜索查询而从搜索引擎212接收搜索结果页面的任何类型的计算设备。例如,在实施例中,用户设备210可以是计算设备,诸如在上面参考图1所描述的计算设备100。在实施例中,用户设备210可以是个人计算机(PC)、膝上型计算机、工作站、移动计算设备、PDA、蜂窝电话等寸。搜索引擎212以及索引216和NEC索引服务222能够被实施为服务器系统、程序模块、虚拟机、一个或多个服务器的组件、网络等等。在一个实施例中,例如,组件212、216和222之中的每一个被实施为单独的服务器。在另一个实施例中,所有的组件212、216和222在单个服务器或服务器组上进行实施。在一个实施例中,用户设备210与搜索引擎212和/或图2所示的其他组件相分离并且有别于这些组件。在另一个实施例中,用户设备210与搜索引擎212相集成。为了解释清楚,我们应描述其中用户设备210以及组件212、216和222之中的每一个是分开的实施例,同时明白在本发明内考虑的各种配置中,可能并非如此。如图2所示,用户设备210与搜索引擎212通信。搜索引擎212接收由用户经由用户设备210提交的搜索查询,S卩,搜索请求。从用户接收的搜索查询能够包括由用户手动或口头输入的搜索查询、向用户建议并由用户选择的查询以及由搜索引擎212接收的被用户以某种方式认可的任何其他的搜索查询。在实施例中,搜索查询包括一个或多个NEC字。由于在这里使用术语,所以“NEC字”指的是与NEC语言(例如,中文、日文、韩文等等)相关联的任何类型的符号、字符、标记、图画等等。“NEC字”也能够包括符号、字符、标记、图画等等的序列。也就是说,遍及目前披露的内容,“NEC字”能够指字、字的一部分、短语、缩写词或者书面或口头NEC语言的任何其他部分。在一些实施例中,搜索查询能够仅包括NEC字,而在其他实施例中,例如,搜索查询能够包括NEC字和某些其他类型的字或字符诸如编码字符的组合。例如,搜索引擎212可以是或者包括搜索引擎、履带(crawler)等等。在一些实施例中,搜索引擎212被配置成使用通过用户设备210提交的查询来执行搜索。在各种实施例中,搜索引擎212能够为与用户设备210进行通信的用户提供用户界面,以有助于搜索体验。在一个实施例中,搜索引擎212监视搜索活动,并且能够产生一个或多个记录或日志,其表示搜索活动、所提交的先前查询、所获得的搜索结果等。这些服务能够进行杠杆作用(leverage),以便以许多不同的方式来改善搜索体验。根据本发明的不同实施例,搜索引擎212参考相关联的网页索引216来标识与从用户接收的搜索查询相关的搜索结果。如图2所示,搜索引擎212与NEC索引服务222通信。在本发明的一个实施例中,索引服务222有助于利用URL/NEC字对来增强网页索引216,以便在网页索引216中标识的搜索结果的相关性排序中使用。在实施例中,NEC索引服务222脱机执行这样的增强,并提供最终得到的URL/NEC字对给网页索引216。在一个实施例中,搜索引擎212被配置成接收所提交的查询,并且使用该查询来执行搜索。在一个实施例中,一旦标识满足搜索查询的搜索结果,搜索引擎212就利用诸如搜索结果页面之类的图形界面返回一组搜索结果给用户设备210。一组搜索结果包括被认为与用户定义的搜索查询相关的内容或内容网站(例如,包含内容的网页、数据库等等)的表示。例如,搜索结果可以被呈现为内容链接、片段、缩略图、概要等等。内容链接指的是与相关联内容的地址相对应的内容或内容网站的可选择的表示。例如,内容链接可以是与统一资源定位符(URL)、IP地址或其他类型的地址相对应的可选择的表示。这样,内容链接的选择能够导致用户的浏览器重定向至相应地址,由此用户能够访问相关联的内容。内容链接的一个常用示例是超链接(在这里可以互换地称为锚)。如图2所示,搜索引擎212参考索引216。本领域普通技术人员应明白索引216是可缩放的,并且实际上可能具有许多的与搜索引擎212相关联的索引模块。索引216能够驻留在与搜索引擎212相同的机器上。在另一个实施例中,索引216远离搜索引擎212,并且在任一种情况中,搜索引擎212与索引216通信,以执行搜索和检索存储在索引216或未在图2中示出的某一其他存储模块上的内容、索引项等等。继续参考图2,NEC索引服务222包括URL字符串管道226、候选字符串管道2 和匹配组件230。URL字符串管道2 包括用于处理从网页218和220接收的URL的软件、组件、模块等等。在实施例中,URL字符串管道从URL中提取子串,以便在相对于从相应网页的元素中提取的候选字符串进行匹配中使用。在一些实施例中,例如,URL字符串管道从网页218或220接收URL、根据特殊字符(例如,“/”、“. ”、“&”等等)来分割URL并且从分离的URL中提取子串(例如,子域、基域、路径等等)。URL子串随后能够被提供给匹配组件230,以便相对于候选字符串(或者,互换地,候选路径)进行匹配。
候选字符串管道2 接收来自网页218和220的元素、从这些元素中提取NEC字,并且从这些NEC字中生成候选字符串,以便与所提取的URL子串进行匹配。在实施例中,元素能够包括任何类型的对象、文本、HTML元素等等,例如,诸如网页标题、锚、层次结构中的字符串以及来自网页主体的文本。例如,在一个实施例中,候选字符串管道2 从网页218或220中提取网页的标题以及网页218或220的层次结构中的字符串。在一些实施例中,如图2所示,网页220能够包括以另一个网页218为目标的锚221。由于在这里使用术语,所以“锚”指的是以网页为目标的一组超文本。在实施例中,锚221能够从网页220中进行提取,并与网页218相关联。每当接收到具有与锚221相同的超文本的锚时,能够更新与锚221的特定超文本相对应的频率指示,以反映该锚的频率,其中所述频率指的是在语法分析其他网页期间遭遇到具有以特定网页为目标的特定超文本集合的锚的次数。候选字符串管道2 将所提取的元素分为NEC字的序列。对于每一个NEC字,候选字符串管道在映射表232中查找NEC-编码字符映射,以找到所有其可能的编码表示,其中所述映射表例如可以保持在与NEC索引服务222相关联的存贮器234中。暂时转到图4,描绘说明性的映射表400。图4中所示的说明性映射表是一个适当的映射表400的示例,并且不打算暗指任何的对于在这个文献中公开的本发明的实施例的使用或功能的范围的限制。该说明性映射表400也不应被解释为具有与在这里说明的任何单个组件或组件的组合相关联的任何依赖或要求。如图4所示,例如,说明性映射表400包括NEC语言410与诸如ASCII字符、UTF-8字符等等的编码语言字符412之间的映射。在所说明的实施例中,映射表400包括中文字410与中文字的全拼音表示414之间的映射、中文字410与中文字的缩写拼音表示416之间的映射以及中文字410与相应的英文翻译418之间的映射。在实施例中,例如,映射表400可以从三个源中生成汉一英词典(其包含446,908个翻译对);中文一拼音映射表(其包含60,878个中文字及其相应的拼音发音);以及一组各种不规则的但是流行的中文-ASCII映射对,诸如“sina<->新浪”和“el0ng<->艺龙”。在映射表400的各实施例中能够包括任何数量的其他源、NEC语言、映射等等。返回到图2,并且根据本发明的实施例,候选字符串管道2 生成与每一个处理的元素相对应的格。在实施例中,格的每个节点是与NEC字相对应的编码表示(例如,拼音或英文单词),并且通过该格的每条路径是该元素的候选编码字符串。因为网页218或220的主体通常包含大量的字,其中的大多数与URL字符串是无关的,因此,在一些实施例中,在这里描述的匹配处理中不使用该主体。然而,在一些实施例中,网页218或220的主体可以用于提供额外的信息,从中能够推断出URL子串的可能的NEC翻译。根据本发明的实施例,NEC索引服务222利用URL字符串管道226、候选字符串管道228以及匹配组件230来标识URL子串与匹配NEC字的配对。相关领域的技术人员应该意识到因为NEC语言的特性以及NEC语言与诸如编码字符(例如,拼音、英文等等)之类的西方语言之间翻译的特性,特定URL子串可能与许多不同的NEC字相匹配。在实施例中,NEC索引服务222也计算与匹配的配对相关联的置信度分数,其中这些分数可以与这些配对一起被提供给网页索引216,以便在搜索结果相关性排序程序中使用,如本领域中所公知的。现在转到图3,描绘本发明的实施例的示例性实施方式300。示例性实施方式300包括具有相应URL 312以及一组元素314的网页310。如图3中所示,URL字符串管道316从网页310接收URL 312。候选字符串管道318从网页310接收元素314,并将这些元素变换为NEC字的序列,以便由匹配组件320使用。一旦接收到URL 312,URL字符串管道从URL 312中提取URL子串324。在实施例中,构成URL 312的每一个子串能够被提取,而在其他的实施例中,仅提取特定类型的子串。暂时转到图5,描绘示例性URL 500。如图5中所示,URL 500具有三个主要部分方案512、域514和路径516。该方案代表与URL 500相关联的HTML文件所使用的协议。该域包括三个不同的子串子域518、基域520和顶级域522。基域520通常是主办(host)网页310的网站的注册名称,而子域518通常代表网站的通道。顶级域522通常包含网站的类型和位置信息。路径516对主机网站上的网页410的目录和文件名进行编码(为了清楚起见而没有示出)。基于上面的URL结构分析,有意义的信息应一般在子域518、基域520和路径516中找到。基域520和子域518名称通常是导航查询的目标,而路径516能够提供有关网页310内容和类别的有用信息。返回到图3,由于站点的官方名称经常出现在站点的页面标题、主体内容以及指向该站点的主页的锚文本等等中,所以这些类型的元素能够被杠杆作用,以推断出至从网页310中提取的URL 312的基域和子域部分的中文名称映射。此外,在URL的路径部分中的最后斜杠(或文件名称部分)之后的最后部分通常与页面标题以及可见标题具有密切相关性。在最后斜杠之前的路径部分有时也能够映射到该页面中的层次结构中的字符串。继续参考图3,在URL字符串管道316中,例如,URL 312字符串被诸如“/”、“.,,、“&”等之类的特殊字符分割。在实施例中,由URL字符串管道316提取URL子串324。例如,所提取的子串3M能够包括子域、基域、路径等等。这些URL子串3M是将与从元素314(例如,页面标题、锚、层次结构中的字符串等等)变换的候选编码字符串进行匹配的候选字符串。如图3所示,候选字符串管道318包括将元素315分成NEC字328的序列的断字器(word breaker)326。每一个NEC字3 被提供给变换器330,其中变换器330参考映射表322来确定每一个NEC字328的所有可能的编码语言表示。在实施例中,映射表322能够包括NEC语言与编码字符之间的映射。例如,在一个实施例中,映射表322包括中文字与英语表示之间的映射以及中文字与那些字的拼音表示之间的映射。一旦获得NEC字328的可能的编码语言表示,候选字符串管道3 生成与每一个处理的元素相对应的格。在实施例中,格的每一个节点是与NEC字相对应的编码表示(例如,拼音或英文单词),并且通过该格的每一条路径是该元素的候选编码字符串。候选字符串格322被提供给匹配组件320。匹配组件320接收每个提取的URL子串324,并将这些(子串)与从元素314中变换的每一个候选编码字符串进行匹配。根据一些实施例,在匹配之前,使用启发式规则来修剪该格,以使得匹配处理是有效的。例如,在一些实施例中,匹配处理开始于具有与URL子串相同的初始编码字符的格节点,其中所述格节点将与所述URL子串进行匹配。此外,在实施例中,因为观察显示与少于三个字符的英文单词的匹配往往是不可靠的,所以对于该格中的英文单词节点来说,如果由该英文单词的前三个字母字符构成的子串没有出现在任何的URL子串中,那么能够从该格中剪除该节点。进一步,在一些实施例中,能够假定URL—般包括标题、锚和/或层次结构中的字符串的缩写,并因而应该在长度上短于这些元素。因此,在实施例中,当在该格的候选编码字符串中包含的拼音或英文项的数量超过将要匹配的URL子串的长度时,匹配组件320能够停止匹配处理。 根据实施例,由匹配组件320执行的候选匹配对搜索算法能够被描述为如下 在上面的算法中,称为“MatchURLSubMringWithLattice”的函数将输入URL子串与每一个可能的格路径进行匹配,并输出匹配的格路径及其各自的置信度分数。在实施例中,这个函数能够被描述为如下 在这个函数中,从具有与URL子串相同的初始字母或数字字符的格节点开始生成路径。首先,具有一个格节点的路径(即,长度=1)将与URL子串进行匹配,随后将匹配长度=2、长度=3等等的路径。匹配函数“MatchingTermlnitialCharactersWithURL”被设计成将每一个项的初始子串与URL子串进行匹配。例如,如果候选路径是包含三个项“ zhang”、“bo”、“zhi”的“zhang bo zhi”并且URL子串是“zbozh”,那么匹配处理能够如图8中所
暂时转到图8,说明示例性的格路径810 “zhang bo zhi”和示例性的URL子串812“zb0zh”。因而,例如,如利用箭头814所示,URL子串中的第一字符“ζ”能够匹配“zhang”的开头。类似地,如利用箭头816所示,由URL中的第二和第三字符组成的字符串“bo”能够匹配“bo”的开头。此外,如利用箭头818所示,由URL中的第四和第五字符组成的字符串“zh”能够匹配“zhi”的开头。因此,这将是有效的匹配,并因而导致候选匹配对的标识。随后,所有匹配的格路径将被添加到候选路径列表,并且能够为其中的每条格路径计算置信度分数。在实施例中,例如,置信度分数可以基于路径长度、匹配部分长度、跳过的节点号等等。在一些实施例中,可以采用各种量度来使得该算法是更坚固的。例如,在一些实施例中,能够使用人工智能、用户反馈、统计评估等等来调节在这里描述的NEC索引处理和算法的方面。在一个实施例中,匹配处理能够被配置成跳过一定数量的格节点,从而允许一些部分匹配进入最后的候选路径列表。返回到图3,匹配组件20将最终得到的URL/NEC字对334 (并且,在一些实施例中,相应的置信度分数)提供给映射表322。这样,在每次执行匹配处理时,能够更新映射表322,从而增加能够从映射表322中参考的可用映射的数量。此外,在实施例中,最终得到的URL/NEC字对334被包括在网页索引336中。在一些实施方式中,最终得到的URL/NEC字对334能够被添加到现有网页索引336。在其他的实施方式中,最终得到的URL/NEC字对334能够在创建网页索引336时被并入网页索引336中。在进一步实施例中,最终得到的URL/NEC字对334可以被保持在与网页索引336分离但是相关联的数据结构(例如,表格,数据库
绝绝、由
寸寸夕T °为了说明操作中的本发明的实施例,参考图6-9。在图6中说明示例性的中文网页600。示例性的中文网页包括标题610和层次结构中的字符串612。此外,如图2所示,来自以网页600为目标的其他网页的锚221能够被提取,并且频率指示与之相关联。在实施例中,三个最常发生的超文本集合(例如,作为其他网页上的锚)被选择(并且在这里可以被称为“前三位锚”)。对于图6中描绘的示例性网页600,假定基于目标网页600的频率,前三位锚是“张柏芝NSN首页”、“张柏芝”以及“女明星张柏芝”。如图6所示,网页600的标题是“张柏芝_明星主页_娱乐_资讯与娱乐_MSN中国”。在断字之后,前三位锚可以被表示成“张柏芝msn首页”、“张柏芝”以及“女明星张柏芝”。类似地,断字的标题是“张柏芝明星主页娱乐资讯与娱乐 msn 中国”。为了本示例的目的,假设对应于这些字的中文-编码语言(在这种情况中,利用拼音和英文表示来表征的ASCII)映射表类似于表1。表1.字的拼音和英文映射
中文字拼音英文张柏芝zhangbozhiCecilia首页shouyehomepage女ηνfemale明星mingxingstar主页zhuyehomepage娱乐yuleentertainment资讯zixunnews与yuand
权利要求
1.一种或多种计算机可读媒体,其中在所述计算机可读媒体上已包括有计算机可执行指令,所述计算机可执行指令当由与搜索服务相关联的计算设备中的处理器执行时使得所述计算设备执行利用统一资源定位符(URL) /非编码字符(NEC)字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序,所述方法包括接收(1010)与网页相对应的统一资源定位符(URL),其中所述URL包括编码字符的第一字符串;将编码字符的第一字符串变换(1020)成一个或多个NEC字,其中所述变换包括基于来自所述网页的内容来推断出变换;以及将NEC字的集合包括(1030)在网页索引中。
2.权利要求1的媒体,其中所述编码字符的第一字符串包括一个或多个英文字符。
3.权利要求1的媒体,其中所述编码字符的第一字符串包括中文字的一个或多个拼音表不。
4.权利要求1的媒体,其中将编码字符的第一字符串变换成一个或多个NEC字包括利用一对或多对URL子串和相应NEC字来表示所述编码字符的第一字符串,其中所述表示包括参考来自所述网页的多个元素;将所述URL字符串转换成NEC字的序列,其中所述转换部分地基于所述多个元素;参考映射表,所述映射表包括多个NEC字符与相应编码字符之间的映射;借助于所述映射表,标识所述元素的多个可能的编码字符表示;以及选择所述元素的多个可能的编码字符表示之一。
5.权利要求1的媒体,其中所述NEC字包括中文字、日文字或韩文字。
6.权利要求1的媒体,其中将NEC字的集合包括在网页索引中包括在生成所述网页索引时,将NEC字的集合并入所述网页索引中。
7.权利要求1的媒体,其中将NEC字的集合包括在网页索引中包括将NEC字的集合并入现有网页索引中。
8.一种或多种计算机可读媒体,其中在所述计算机可读媒体上已包括有计算机可执行指令,所述计算机可执行指令当由与搜索服务相关联的计算设备中的处理器执行时使得所述计算设备执行利用统一资源定位符(URL) /非编码字符(NEC)字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序,所述方法包括创建(1110)包括NEC语言与编码字符语言之间的映射的映射表;接收(1120)与网页相对应的统一资源定位符(URL)字符串,其中所述URL字符串以编码字符语言来表示;参考(1140)来自所述网页的多个元素;将所述URL字符串转换(1020)成NEC字的序列,其中所述转换部分地基于所述多个元素;以及构建(1030)网页索引,所述网页索引包括NEC字的集合。
9.权利要求8的设备,其中所述多个元素包括锚、标题和层次结构中的字符串。
10.权利要求9的设备,其中将所述URL字符串转换成NEC字的序列包括参考映射表,所述映射表包括多个NEC字与相应编码字符之间的映射;借助于所述映射表,标识所述元素的多个可能的编码字符表示;以及选择所述元素的多个可能的编码字符表示之一,其中所述选择包括确定所选择的编码字符表示匹配从所述URL字符串中提取的子串,以及其中所述提取的子串包括子域。
11.权利要求8的设备,其中所述NEC字包括中文字、日文字或韩文字。
12.—种或多种计算机可读媒体,其中在所述计算机可读媒体上已包括有计算机可执行指令,所述计算机可执行指令当由计算设备中的处理器执行时使得所述计算设备执行利用统一资源定位符(URL)/非编码字符(NEC)字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序,所述方法包括接收(1120)与所述网页相对应的统一资源定位符(URL),所述URL包括编码字符的第一字符串;从所述URL中提取(1130) URL子串,所述URL子串包括编码字符的第一序列;接收(1140)来自所述网页的元素,其中所述元素利用NEC语言来表示;参考(1150)映射表,所述映射表包括多个NEC字与相应编码字符之间的映射;借助于所述映射表,标识(1150)所述元素的多个可能的编码字符表示;确定(1160)所述元素的多个可能的编码字符表示之一与所述URL子串相匹配;以及将所选择的编码字符表示和相应NEC字包括(1180)在网页索引中。
13.权利要求12的媒体,其中第一元素是所述网页的标题、锚或层次结构中的字符串。
14.权利要求12的媒体,其中标识所述元素的多个可能的编码字符表示包括将NEC字的第一字符串分成NEC子串的序列;以及从所述映射表中检索每一个NEC子串的多个可能的编码字符表示。
15.权利要求14的媒体,进一步包括创建与所述元素相关联的格,所述格包括多个节点,其中所述多个节点中的每一个节点对应于NEC子串的多个可能的编码字符表示之一;定义候选字符串,其中所述候选字符串包括格路径;确定所述候选字符串与所述URL子串相匹配;以及确定与所述候选字符串相关联的路径置信度分数,其中所述选择所述元素的多个可能的编码字符表示之一至少部分地基于所述路径置信度分数。
全文摘要
计算机可读媒体、计算机系统以及计算设备有助于利用统一资源定位符(URL)/非编码字符(NEC)字对来增强网页索引,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。URL从网页中接收,并从URL中提取子串。附加的元素从网页中接收、被断字成NEC字序列并被转换成编码语言表示,其中编码语言表示相对于URL子串进行匹配,以标识候选URL/NEC对,以便在相关性排序中使用。
文档编号G06F17/30GK102385609SQ20111025229
公开日2012年3月21日 申请日期2011年8月30日 优先权日2010年8月30日
发明者姚 Q., 宋睿华, 陈俊燕 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1