对跨语言查询建议的查询翻译进行评价的制作方法

文档序号:6484858阅读:163来源:国知局
对跨语言查询建议的查询翻译进行评价的制作方法
【专利摘要】描述了用于生成跨语言查询建议的用计算机实现的方法、系统、计算机程序产品。对于以第一自然语言书写的每个查询建议,根据查询建议生成候选分段,并且根据每个候选分段生成候选翻译。基于与得到每个候选翻译的各自的候选分段相关联的分段质量的度量,以及候选翻译在目标语言查询日志中出现的频率,对候选翻译进行评价。与每个候选分段相关联的分段质量的度量进一步基于候选分段在源语言查询日志中出现的频率。基于评价的结果,提供候选翻译,作为主要语言查询建议的跨语言查询建议。
【专利说明】对跨语言查询建议的查询翻译进行评价
【技术领域】
[0001]本说明书涉及用计算机实现的查询建议服务,尤其涉及提供跨语言查询建议。
【背景技术】
[0002]搜索引擎可以提供与用户的查询输入相对应的输入建议(例如查询建议)。输入建议包括对用户提交的搜索查询的查询替选项和/或与用户输进的部分查询输入匹配的建议(例如自动完成)。为了提供可能与用户的兴趣和当前信息需要相关的输入建议,搜索引擎在选择特定输入建议候选对象以向用户呈现之前,基于各种标准对输入建议候选对象进行评价。
[0003]有关同一主题或信息的因特网内容在万维网上经常以不同的自然语言和/或书写系统而存在。多语言用户可以尝试以不同的语言和/或书写系统拟定相应的查询,并且向搜索引擎提供查询以定位不同语言和/或书写系统的相关内容。然而,即使有多语言字典的帮助,使用非母语语言或书写系统拟定有效搜索查询,对于许多多语言用户来说也可能是挑战。能够提供跨语言输入建议(例如跨语言查询建议)的搜索引擎可以帮助减轻这种困难。需要提高机器生成的跨语言查询建议的质量和有效性的技术。

【发明内容】

[0004]本说明书描述与跨语言查询建议的生成有关的技术。
[0005]通常,在本说明书中描述的主题的一个方面可以通过包括如下动作的方法来实施:接收以第一语言书写的查询,所述查询是基于向搜索引擎提交的用户输入生成的主要语言查询建议;获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成;对于所述一个或更多个唯一候选分段中的每一个,通过翻译所述候选分段的片段的各自的序列,确定第二语言的一个或更多个候选翻译的各自的集合;对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译:(I)至少部分基于从所述唯一候选分段的片段的各自的序列中去除了多少个停止词,以及所述唯一候选分段在第一查询日志中作为以所述第一语言书写的完整查询出现的各自的第一频率,确定所述唯一候选分段的各自的分段质量;以及(2)至少基于针对所述唯一候选分段确定的所述各自的分段质量,以及所述候选翻译在第二查询日志中作为以所述第二语言书写的完整查询出现的各自的第二频率,确定所述候选翻译的各自的评分;以及基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个,作为所述查询的跨语言查询建议。
[0006]通常,在本说明书中描述的主题的一个方面可以通过包括如下动作的方法来实施:接收以第一语言书写的查询;获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成;对于所述一个或更多个唯一候选分段中的每一个:(I)确定所述唯一候选分段的分段质量的各自的度量;以及(2)通过翻译所述候选分段的片段的各自的序列,获得第二语言的一个或更多个候选翻译的各自的集合;对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译:(1)确定所述候选翻译在第一查询日志中作为以所述第二语言书写的完整查询出现的第一频率;以及(2)至少基于所述候选翻译在所述第一查询日志中作为以所述第二语言书写的完整查询出现的所述第一频率,以及所述候选分段的分段质量的度量,确定所述候选翻译的各自的评分;以及基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个,作为所述查询的跨语言查询建议。
[0007]这些方面的其它实施例包括各自被配置为执行这些方法的动作的相应的计算机系统、装置和记录在一个或更多个计算机存储设备上的计算机程序。可以如此构成一个或更多个计算机的系统,通过将软件、固件、硬件或它们的组合安装在该系统上,在操作中使系统执行这些动作。可以如此构成一个或更多个计算机程序,通过具有指令,当由数据处理装置执行这些指令时,指令使装置执行这些动作。
[0008]这些和其它实施例可以任选地包括以下特征中的一个或更多个。
[0009]在一些实施方式中,获得所述第一语言的所述查询的一个或更多个唯一候选分段的动作还包括:获得作为所述第一语言的所述查询的分区的至少一个候选分段。在一些实施方式中,获得所述第一语言的所述查询的一个或更多个唯一候选分段的动作还包括:获得从所述候选分段中去除了一个或更多个停止词的至少一个候选分段。
[0010]在一些实施方式中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量的动作还包括:至少部分基于从所述候选分段的片段的各自的序列中去除了多少个停止词,确定所述分段质量的各自的度量。
[0011]在一些实施方式中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量的动作还包括:确定所述候选分段在第二查询日志中作为以所述第一语言书写的完整查询出现的各自的第二频率;以及至少部分基于所述候选分段在所述第二查询日志中作为以所述第一语言书写的完整查询出现的所述各自的第二频率,确定所述分段质量的各自的度量。
[0012]可以实施在本说明书中描述的主题的特定实施例,以实现以下优点中的一个或更多个。
[0013]使用在本说明书中描述的技术的特定实施例,可以自动向以第一语言(例如用户的母语)输进查询输入的用户提供跨语言查询建议(即第二语言的查询建议)。可以与基于用户的初始查询输入提供的第一语言的相应查询建议一起,提供跨语言查询建议。每个跨语言查询建议已经由搜索引擎进行了评价,并且确定不仅是适当或准确的对第一语言的相应查询建议(例如主要语言查询建议)的翻译,还是用于检索与主要语言查询建议所针对的主题或信息相同的主题或信息有关的跨语言内容的有效搜索查询。通过选择跨语言查询建议,用户可以检索到可能比以第一语言可获得的内容更相关或全面的第二语言的内容。另外,可以以高效的方式实施搜索任务,并且搜索任务可以提供良好的用户体验。不仅可以避免人工翻译主要语言查询建议的需要,同样可以提高基于机器翻译生成的跨语言查询建议的有效性。
[0014]在附图和下面的描述中叙述在本说明书中描述的主题的一个或更多个实施例的细节。从文字描述、附图和权利要求,本主题的其它特征、方面和优点将变得明显。【专利附图】

【附图说明】
[0015]图1是示出生成不同自然语言的查询建议的示例系统中的数据流的示例的框图。
[0016]图2是示出呈现第一语言的第一查询建议组和不同的第二语言的第二查询建议组的示例网页的屏幕截图。
[0017]图3是示出基于由翻译子系统的细化模块进行的查询翻译评价,提供作为跨语言查询建议的查询(例如主要语言查询建议)的翻译的翻译子系统的示例的框图。
[0018]图4是示出如图3所示的翻译子系统中的细化模块的示例的框图。
[0019]图5是示出对作为潜在跨语言查询建议的查询翻译进行评价,并且基于评价提供作为跨语言查询建议的查询翻译的示例处理的流程图。
[0020]各个图中相同的附图标记和指定指示相同的元素。
【具体实施方式】
[0021]搜索引擎可以响应于用户输进的查询输入,提供主要语言查询建议。主要语言查询建议是使用用户的原始查询输入的语言或书写系统书写的查询建议。搜索引擎还可以针对每个主要语言查询建议提供跨语言查询建议,其中,跨语言查询建议是使用与主要语言查询建议的语言或书写系统不同的第二语言或书写系统书写的查询。当提供跨语言查询建议时,搜索引擎对主要语言查询建议的多个候选翻译进行评价,并且选择不仅是主要语言查询建议的准确翻译、而且还可能是用于检索跨语言内容的有效搜索查询的候选翻译,跨语言内容是关于与主要语言搜索查询所针对的主要语言内容相同的主题。
[0022]如在本说明书中所描述的,搜索引擎可以依靠包括根据主要语言查询建议生成的每个候选分段的分段质量以及根据每个候选分段生成的每个候选翻译的翻译质量的多个因素,来对作为主要语言查询建议的潜在跨语言查询建议的候选翻译进行评价。在其它因素中,候选分段的分段质量可以基于在主要语言查询日志(也称为“源语言查询日志”)中找到的并且与候选分段匹配(例如与候选分段一致,或者除了一个或更多个停止词之外与候选分段一致)的用户提交的搜索查询的查询频率(或查询计数)。类似地,候选分段的候选翻译的翻译质量可以基于在跨语言查询日志(也称为“目标语言查询日志”)中找到的并且与候选翻译匹配的用户提交的搜索查询的查询频率(或查询计数)。
[0023]查询频率不仅可以帮助搜索引擎评估特定翻译是否符合目标语言中的习惯语言使用,而且还可以帮助搜索引擎评估特定翻译是否符合以目标语言为母语的人拟定搜索查询的方式。
[0024]图1是示出以不同形式的自然语言表示生成输入建议(例如查询建议)的示例系统中的数据流的示例的框图。在客户设备115上运行的模块110、(例如JavaScript脚本)监视来自用户122的在搜索引擎查询输入栏中接收到的输入120。输入120以第一形式的自然语言表示,例如作为以英语单词、以中文字符、以拼音、以平假名或者以片假名书写的术语或短语书写。
[0025]更通常地,第一形式是第一自然语言使用的第一书写系统。作为示例,第一书写系统可以是汉字(使用汉字字符表示),并且用于第一自然语言中文。可选地,第一书写系统可以是音标拼写系统(例如使用英语字母表的字母表示),并且用于第一自然语言英语。一些书写系统可以用来表示多个自然语言。该书写系统可以与不同的声音系统(例如音素的系统)一起使用以对多种自然语言的含义进行编码。作为示例,第一书写系统可以是音标拼写系统(例如使用标准或扩展拉丁字母表的字符表示),并且用于自然语言英语、自然语言德语或者自然语言中文(例如如在中文罗马拼音或者拼音中使用)。
[0026]在一些实施方式中,模块110是在客户设备115上运行的web浏览器中安装的插件软件。在一些可选实施方式中,将模块110安装在例如从客户设备115接收输入120的中间服务器上。模块110接收输入120,并且在接收到输入120时自动将输入120发送到建议服务模块125。在一些实施方式中,建议服务模块125是在接收文本输入(例如用户提交的搜索查询)并且返回文本输入的替选项(例如查询建议)的服务器(例如与中间服务器不同的服务器)上运行的软件。
[0027]建议服务模块125确定第一形式的第一输入建议(例如主要语言查询建议)的集合,并且向翻译服务模块130发送第一输入建议中的一个或更多个。第一输入建议是输入120的替选项、例如扩展和完成。例如,如果输入120包括以英语书写的字母或单词,则第一输入建议可以包括作为与输入120匹配的相关可选查询或者自动完成的查询的、以英语书
写的查询建议。
[0028]在一些实施方式中,翻译服务模块130是在接收文本输入(例如第一形式的查询建议)并且返回使用不同的书写系统或自然语言表示的文本输入的替选项(例如翻译和音译)的服务器上运行的软件。可以使用翻译服务130识别不同的第二形式的第一输入建议的表示。
[0029]不同的第二形式可以是与第一形式不同的书写系统,而用于与第一形式相同的自然语言。换句话说,不同的第二形式的第一输入建议的表不可以是音译。作为不例,第一输入建议可以是汉字字符“车”(例如英语中的“car”),并且相关联的第二输入建议可以是"che"(例如“车”的中文罗马拼音表示)。
[0030]不同的第二形式也可以是与第一形式不同的书写系统,和/或用于与第一形式不同的自然语言。换句话说,不同的第二形式的第一输入建议的表示可以是使用不同的书写系统的翻译。作为示例,第一输入建议可以是英语单词“car”,并且相关联的第二输入建议可以是“车”(例如意为“car”的汉字字符)。
[0031]此外,不同的第二形式可以是与第一形式相同的书写系统,而用于与第一形式不同的自然语言。换句话说,不同的第二形式的第一输入建议的表示是使用同一书写系统的翻译。作为示例,第一输入建议可以是英语单词“car”,并且相关联的第二输入建议可以是“chg” (例如可以意为“car”的汉字字符“车”的中文罗马拼音表示)。
[0032]在一些实施方式中,用户122通过用户喜好的设置来指定不同的第二形式。在一些实施方式中,模块110从包括第一形式的频繁使用的语言对中,自动选择不同的第二形式。
[0033]识别不同的第二形式的第一输入建议的表示,作为第二输入建议(例如跨语言查询建议)。翻译服务模块130向建议服务模块125返回第二输入建议。翻译服务模块130还返回识别第一输入建议和第二输入建议之间的关联的数据。关联指示特定第二输入建议是第一形式的特定第一输入建议的第二形式的表不。
[0034]模块110接收来自建议服务125的第一输入建议、第二输入建议以及关联。第一输入建议和第二输入建议都与输入120不同。[0035]模块110可以实时,即在用户122正在搜索引擎查询输入栏中键入字符时,向用户122呈现第一输入建议(例如主要语言查询建议)和第二输入建议(例如跨语言查询建议)。例如,模块110可以呈现与用户122键入的第一字符相关联的、第一组的第一输入建议和第二输入建议,并且响应于用户122键入第一字符和第二字符的序列中的第二字符,呈现与该序列相关联的、第二组的第一输入建议和第二输入建议等。
[0036]图1表示提供主要语言查询建议和跨语言查询建议两者的系统中的总体示例数据流。可以针对每个第一形式的查询建议(例如每个主要语言查询建议)生成多个候选翻译(例如使用机器翻译子系统),并且不是所有候选翻译都是针对关于与第一形式的查询建议相同的主题的内容的有效查询。如在本说明书中所描述的,翻译服务模块130对作为潜在跨语言查询建议的多个候选翻译进行评价,并且基于评价,识别既是对第一形式的查询建议的准确翻译、也是用于检索关于与第一形式的查询建议所针对的主题相同的主题的跨语言内容的有效查询的候选翻译。然后,通过建议服务模块125向用户提供识别的候选翻译。
[0037]图2是示出呈现第一形式的第一输入建议(例如主要语言查询建议)组和不同的第二形式的第二输入建议(例如跨语言查询建议)组的网页200的示例的屏幕截图。该网页包括搜索查询输入栏220。搜索查询输入栏220包括用户提交的查询输入“长”,例如在英语中意为“ long”的中文罗马拼音“chdng”,或者在英语中意为“elder”的中文罗马拼音“zhang,,。
[0038]响应于查询输入的输进,用户的设备(例如通过图1中的模块110)从建议服务模块(例如图1中的建议服务模块125)请求输入建议。在客户设备接收到第一输入建议之后,客户设备提供第一输入建议以在示出网页200的web浏览器的界面元素中进行显示。在图2的示例中,界面元素是示出作为汉字字符“长”的扩展(例如在英语中意为“ivy”的“长春藤”以及在英语中意为航空公司“Evergreen”的“长荣”等)的第一输入建议的下拉菜单。
[0039]在图2的示例中,客户设备还被配置为从建议服务模块请求与第一输入建议相对应的第二输入建议。在接收到第二输入建议之后,客户设备提供第一输入建议和第二输入建议以在网页200的不同部分并行地进行显示。例如,在同一界面元素(例如下拉菜单)的第一部分240中提供第一输入建议,并且在第二部分250中提供第二输入建议。
[0040]在图2的示例中,还通过第一输入建议和相应的第二输入建议的水平对齐,可视地表不每个第一输入建议和相应的第二输入建议之间的关联。例如,第一输入建议“长春藤”与作为“长春藤”的翻译的第二输入建议“ivy”水平地对齐。第一输入建议“长荣”与作为“长荣”的翻译的第二输入建议“Evergreen”水平地对齐。第一输入建议“长春藤大学”与作为“长春藤大学”的翻译的第二输入建议“ivy league”水平地对齐。
[0041]一个或更多个第一输入建议可能不与任何合适的第二输入建议相关联。在图2的示例中,不与任何第二输入建议相关联的第一输入建议不与任何第二输入建议对齐。作为示例,第一输入建议“长安汽车”不与第二输入建议对齐。汉字字符“长安汽车”的整个序列在英语中没有有意义的表示。然而,注意,分开来说,“长安”在英语中可以意为“Chang’ an”(唐朝时期中国的首都),并且“汽车”可以在英语中意为“car”。
[0042]当用户从用户界面元素中选择了输入建议中的一个时,模块110在搜索请求中发送该选择,并且web浏览器实例重新指向显示搜索引擎针对所选择的输入建议所生成的搜索结果的网页。
[0043]如图2的示例所示,一些第一输入建议具有在第二形式中非常明确的翻译。例如,“长春藤”在英语中的字面翻译是“ ivy”。当使用“长春藤”和“ ivy” 二者作为搜索查询时,“长春藤”和“ivy”两者分别在搜索中文和英语的与同一类型的常青植物相关的内容时同样有效。相反,“长春藤大学”可以翻译成“ivy university”、“ivy college”、“ivy league”、“ivy schools”。即使“ivy university”、“ivy college” 和“ivy schools” 是中文词语“长春藤”和“大学”更字面的翻译,但是“ivy league”是作为第二输入建议的更好的选择。原因是母语为英语的用户使用英语作为搜索查询更频繁地输进“ivyleague”,并且“ivyleague”在检索关于与中文查询“长春藤大学”所针对的主题相同的主题的英语内容时,t匕“ ivy university”、“ ivy college” 和 “ ivy schools” 更有效。
[0044]图3示出了基于对查询310的多个候选查询翻译的评价,提供作为跨语言查询建议的查询310的翻译380的子系统300的示例。查询310可以是图1中的建议服务模块125向翻译服务模块130提供的第一输入建议中的一个。子系统300可以用作图1中的翻译服务模块130。
[0045]如图3所示,示例子系统300包括分段模块320、翻译模块330、跨语言建议(下文中称为“CLS”)字典340、细化模块350、目标语言查询日志360和源语言查询日志370。
[0046]在包含在子系统300中的模块和元素中,分段模块320用于根据以第一形式(例如第一自然语言和相关联的书写系统)书写的查询310生成一个或更多个唯一候选分段。查询310的每个候选分段由通过在去除或者不去除停止词的情况下,以特定方式分割或划分输入的查询310而获得的片段的唯一序列构成。每个片段包括输入的查询310的一个或更多个构成n-gram(n元组)(例如英语或德语查询中的单词或者中文或韩文查询中的字符)。如果从分割或划分查询310的特定方式获得的片段包括一个或更多个停止词,则可以去除停止词,从而在获得的分段中仅保留不是停止词的片段。如果不从分段中去除停止词,则分段也是查询310的所谓的“分区”。查询310的分区包括从分割或划分输入的查询310的特定方式获得的所有片段。对于每个输入的查询,分段模块320可以生成一个或更多个候选分段。依据分段模块320使用的算法,一些候选分段具有比其它候选分段好的质量。分段的质量越高,使得在翻译模块330翻译分段的片段时,有越好的机会生成输入的查询310的正确翻译。
[0047]翻译模块330用于将一个或更多个唯一候选分段中的每一个候选分段的各个片段序列,翻译成第二形式(例如第二自然语言和相关联的书写系统)的一个或更多个候选翻译的各个集合。由于候选分段的一个或更多个片段可以具有多于一个的第二形式的翻译,因此每一个候选分段也可以具有多于一个的第二形式的翻译。
[0048]翻译模块330可以使用各种机器翻译技术,来基于输入的查询310的每个候选分段,生成输入的查询310的候选翻译。例如,翻译模块可以使用在线机器翻译服务或者多语言字典。在一些实施方式中,翻译模块320可以使用用于基于输入的查询310的候选分段翻译输入的查询310的专用字典(例如CLS字典340)。CLS字典340包括基于另一字典(例如在线字典)、在线发布信息和提供由第一语言的单词或短语和其相应的第二语言的翻译构成的翻译对的半结构化网页中的至少一个而创建的大量条目。
[0049]在翻译模块330基于候选分段中的每一个而生成输入的查询310的候选翻译之后,翻译模块330可以将候选翻译提供给细化模块350。细化模块350用于对作为潜在第二输入建议(例如跨语言查询建议)的候选翻译进行评价。细化模块350可以基于评价的结果,来识别既是输入的查询310的准确翻译而且还是用于搜索关于与输入的查询310相同的主题的跨语言内容的有效搜索查询的一个或更多个(例如一个)候选翻译。
[0050]当对由翻译模块320生成的候选翻译进行评价时,细化模块350可以依靠存储在一个或更多个查询日志中的信息。查询日志存储用户先前向搜索引擎提交的查询。在一些实施方式中,搜索引擎可以使用不同的域名,对不同的局部或者地理区域提供搜索界面(例如对英国提供www.search, com, uk ;对香港提供www.search, com, hk ;对法国提供www.search, com, fr等)。因此,可以按照地理区域或国家和/或与不同的地理区域或国家共同相关联的语言来划分查询日志。
[0051]如图3所示,源语言查询日志370存储以第一形式(例如第一语言和相关联的书写系统)书写的用户查询,并且目标语言查询日志360存储以第二形式(例如第二语言和相关联的书写系统)书写的用户查询。在一些实施方式中,每个查询日志还包括表示查询日志中的每个用户提交的搜索查询的各个查询频率的数据。用户提交的搜索查询的查询频率可以是在给定时间段内提交的搜索查询的查询计数,或者在查询日志中累积的搜索查询的总查询计数。在一些实施方式中,可以用新鲜度因子对查询频率进行调整,可以对近来在查询日志中中计数平平、但是在短时间段内查询计数显著上升的搜索查询的查询频率给予提升(例如大于I的乘数)。
[0052]如在下面的示例中更详细地描述的,分段模块320可以访问存储在查询日志中的信息以生成查询310的分段。细化模块350可以访问存储在查询日志中的信息,以对分段质量、翻译质量以及输入的查询310的作为跨语言查询建议的候选翻译的有效性进行评价。
[0053]在细化模块350结束对输入的查询310的不同候选翻译的评价之后,细化模块350可以识别候选查询翻译(例如翻译380)之一,作为输入的查询310的最合适的查询翻译,并且通过建议服务模块(例如图1中的建议服务模块125)返回向用户提供识别的候选查询翻译380作为跨语言查询建议。然后,可以将跨语言查询建议和输入的查询310 —起进行呈现,作为第一查询建议和第二查询建议的列表中的查询建议对。
[0054]在一些实施方式中,可以将识别的查询建议对存储在索引中,其中,索引中的每个条目包括作为彼此的翻译、并且作为在检索关于同一主题的它们各自的语言的内容时有效的、用户提交的母语查询的查询建议对。在展开这种索引之后,可以在索引中查找,而不是急匆匆地得出第一语言输入建议的跨语言查询建议。
[0055]为了进行说明,下面,在第一语言是中文,第二语言是英语,并且输入的查询310是在英语中意为“travel destination”的中文字符序列“旅游目的地”的示例性场景下,详细讨论子系统300的操作。
[0056]在接收到输入的查询310 “旅游目的地”(例如,其中,“旅游目的地”是响应于用户通过搜索引擎网页输进的查询输入“旅”而生成的主要语言查询建议)时,分段模块320通过将输入的查询310 “旅游目的地”划分为片段的序列,来生成一个或更多个唯一候选分段。依据输入的查询“旅游目的地”的划分点的位置,可以获得不同的候选分段。
[0057]在一些实施方式中,可以通过列举输入的查询310的连续字符的所有可能组合,来获得候选分段。例如,可以将“旅游目的地”分割为以下片段的唯一序列:(1)“旅,游,目,的,地”;⑵“旅游,目,的,地”;(3) “旅游目,的,地”;(4) “旅游目的,地”;(5) “旅游目的地”;(6) “旅,游目,的,地”;(7) “旅,游目的,地”;(8) “旅,游目的地”;(9) “旅,游,目的,地”;(10) “旅,游,目的地”;(11) “旅游;目的地”;(12) “旅游,目,的地”;(13) “旅游,目的,地”等。
[0058]在一些实施方式中,分段模块320还可以查找CLS字典340,以判断特定分段是否将生成在CLS字典340中无法找到的片段。如果对输入的查询310的进行分割的特定方式将生成在CLS字典340中无法找到的(作为停止词的片段之外的)片段,则分段模块320可以判断为对输入的查询310的这种方式的分割将获得不正确的分段,并且避免基于这种方式的对输入的查询310的分割生成候选分段。例如,如果在CLS字典340中无法找到片段“游目的”,则分段模块320可以排除分段“旅,游目的,地”,作为输入的查询“旅游目的地”的候选分段。
[0059]在一些实施方式中,分段模块320还查找与中文语言相关联的查询日志(例如源语言查询日志370)。如果特定方式的对输入的查询的分割将生成在与中文语言相关联的查询日志中找不到的片段,则分段模块320可以判断为这种方式的对输入的查询310的分割将获得不正确的分段,并且避免基于这种方式的对输入的查询的分割生成候选分段。例如,如果在源语言查询日志370中无法找到片段“游目的”,则分段模块320可以排除分段“旅,游目的,地”,作为输入的查询“旅游目的地”的候选分段。
[0060]在一些实施方式中,分段模块320还可以查找与中文语言相关联的查询日志(例如源语言查询日志370),来查看特定分段是否在查询日志中存在。如果在中文语言的查询日志中特定分段存在,则很可能该特定分段是中文中的输入的查询310的正确分段。例如,如果许多用户作为搜索查询输进并且在源语言查询日志370中登记了 “旅游目的地”,则分段模块320可以确定“旅游,目的地”是输入的查询“旅游目的地”的高质量的候选分段。
[0061]在一些实施方式中,如果在作为用户提交的搜索查询的第一语言的查询日志中找到了特定分段,则分段模块320可以将用户提交的搜索查询的查询频率和与该特定候选分段相关联地进行记录,从而细化模块350可以使用查询频率来评估该特定分段的分段质量。查询频率或查询计数越高,指示分段质量越高。在一些实施方式中,查询频率可以是基于用户提交的搜索查询的新鲜度调整后的查询频率。
[0062]假设在排除包括在CLS字典340中找不到的(作为停止词的片段之外的)片段的分段之后,分段模块340生成以下唯一候选分段:(I) “旅游,目,的,地”;⑵“旅游,目的,地”;和(3) “旅游,目的地”。
[0063]对于这些候选分段中的每一个,分段模块320判断候选分段是否包括任何停止词。在一些实施方式中,可以参阅预定停止词列表来判断候选分段是否包括作为停止词的任何片段。英语中的停止词的示例包括:“the”、“a”、“t0”、“0f”等。中文中的停止词的示例包括:“的”、“了”、“吗”等。在一些实施方式中,分段模块320可以从每个候选分段中去除识别为停止词的片段,以使得候选分段仅包括作为在CLS字典中找到的词语的片段。
[0064]例如,在分段⑴中,在去除停止词“的”之后,候选片段⑴变为“旅游,目,地”。CLS 字典 340 包含例如“旅游:travel”、“旅游:trip”、“ 目:eye,,、“ 目:catalogue ","j*:earth”和“地:gr0und”的翻译对。换句话说,翻译模块330稍后仅翻译片段“旅游”、“目”和“地”。[0065]在一些实施方式中,分段模块340可以记录从候选分段中去除的停止词的数量,从而细化模块350可以使用该数量作为判断候选分段的质量和通过翻译分段的片段而获得的候选翻译的质量时的因子。通常,当去除的停止词越少时,认为获得的片段和相关联的候选翻译的质量越好。
[0066]类似地,在分段(2) “旅游,目的,地”中,在片段中没有识别出停止词。因此,候选分段仍然是“旅游,目的地”。由于没有去除停止词,因此该候选片段包括输入的查询的所有字符,因此是输入的查询310的分区。在所有内容相同的情况下,认为分区具有比去除了一个或更多个停止词的候选分段更高的分段质量。CLS字典340包含例如“旅游:traVel”、“旅游:trip”、“ 目的:aim”、“ 目的:goal”、“ 目的 purpose”、“地:earth”和“地:ground”的翻译对。因此,翻译模块30将翻译片段“旅游”、“目的”和“地”,以基于该候选分段生成输入的查询310的候选翻译。
[0067]在分段(3)中,在CLS字典340中找到了片段“旅游”和“目的地”两者,并且分段(3)不包含任何作为停止词的片段。因此,分段(3)也是输入的查询310的分区。CLS字典340包含例如“旅游:travel”、“旅游:trip”和“目的地destination”的针对这两个片段的翻译对。因此,翻译模块330将使用片段“旅游”和“目的地”,来基于该候选分段生成输入的查询310的候选翻译。
[0068]在一些实施方式中,分段模块340还可以使用与第一语言相关联的查询日志(例如源语言查询日志370)中的信息来判断分段质量。例如,当用户使用搜索引擎进行搜索时,有时一些用户将输进已经示出正确的分段的形式的搜索查询,而另一些用户将输进未分割的搜索查询。例如,对于搜索查询“旅游目的地”,一些用户可能在向搜索引擎提交查询时,在“旅游”和“目的地”之间插入空格。因此,在源语言查询日志中将找到候选分段“旅游,目的地”。如果查询“旅游目的地”具有高查询频率,则可以对候选分段“旅游目的地”给予高分段质量评分。
[0069]在一些实施方式中,分段模块320不对候选分段进行评分,而仅记录与该候选分段相关联的查询频率,从而细化模块可以使用查询频率,来判断候选分段的分段质量。在一些实施方式中,在对分段质量进行评分时,对查询频率给予比从候选分段中去除的停止词的数量更大的权重。
[0070]作为另一示例,可能以高查询频率在查询日志中找到的另一查询是“旅游目的”(在英语中意为“travel purpose”)。例如,在候选分段“旅游,目的,地”中可以找到该特定分段。在一些实施方式中,可以使用这种部分匹配,确定候选分段“旅游,目的,地”至少是部分正确的。在一些实施方式中,由于有时以与“的”类似的方式使用“地”,因此可以将字符“地”视为停止词,并且从候选分段中去除。因此,在这些实施方式中,根据源语言查询日志370中的数据,可以将“旅游目的”视为正确的分段。但是候选分段“旅游目的”的总体分段质量的打分,比候选分段“旅游,目的地”低,因为前者去除了一个停止词,而后者没有去除停止词。
[0071]基于上面的操作,分段模块320将查询310 “旅游目的地”分割为三个唯一候选分段(I) “旅游,目的,地”;⑵“旅游,目,地”;和(3) “旅游,目的地”,并且将它们发送到翻译模块330进行翻译,并且发送到细化模块350进行评价。
[0072]在接收到三个唯一候选分段时,翻译模块330基于包含在CLS字典340中的翻译对,将它们翻译成英语中的各种翻译。在一些实施方式中,翻译基于对候选分段中的每个片段的直接翻译,而不管获得的翻译是否符合常规使用,或者是否在整体上有意义。例如,对于候选分段“旅游,目,地”,翻译模块330可能将其翻译成包括“trip eye earth","tripcatalogue earth'“travel eye ground,,和 “travel catalogue ground,,等的候选翻译,即使获得的这些翻译中的一些或全部不具有合理的含义,或者在平常说话或书写中的习惯使用中不出现。
[0073]虽然在一些实施方式中,翻译模块330可以使用传统翻译技术,尝试例如通过省略含义与其它片段的含义不相容的片段来得到合理的翻译,但是在其它实施方式中,优选候选翻译与候选分段的片段严格地相对应。保持不完全符合平常说话或书写中的常规使用的翻译的原因,是向搜索引擎提交的搜索查询经常具有与人们通常对另一人说话或书写的方式不同的结构。因此,虽然如此,有些脱离日常说话或书写中的习惯使用的候选翻译仍可能是有效搜索查询。
[0074]在一些实施方式中,当翻译模块330翻译候选分段时,获得的翻译可能包括第二语言中的停止词。例如,当使用传统机器翻译服务来翻译候选分段“旅游,目的”时,获得的翻译可能是诸如“the purpose of travel”的符合常规使用的短语。该翻译包括两个停止词“the”和“of”,并且两个单词“purpose”和“travel ”的顺序相对于两个词语“旅游”和“目的”的顺序反转。在一些实施方式中,翻译模块可以从候选翻译中去除停止词,并且在翻译中将术语的顺序反转,使得候选翻译不包括任何停止词,并且术语的顺序与候选分段中的术语的顺序相对应。在一些实施方式中,忽略单词的顺序。
[0075]例如,对于候选分段“旅游,目的”,翻译模块330可以将其翻译成“th印urposeof travel”,其在去除停止词“the”和“of”,并且反转单词顺序之后,获得翻译“travelpurpose”。去除停止词并且反转或忽略术语的顺序的一个原因,是当针对在与第二语言相关联的查询日志(例如目标语言查询日志360)中找到的查询对候选翻译进行评价时,查询日志中的查询已经去除了停止词。
[0076]在完成对候选分段的翻译后,将获得的一个或更多个候选翻译统一传送到细化模块350进行评价。评价至少基于得到候选翻译的分段的质量以及作为第二语言的搜索查询的翻译的质量。如稍早在本说明书中简要地叙述的,可以基于从候选分段中去除的停止词的数量,来判断候选分段的分段质量。在所有内容相同的情况下,去除的停止词的数量越大,对应于分段质量评分越低。另外或者可选地,如果可以在第一语言的查询日志(例如源语言查询日志370)中找到候选分段,则可以对该候选分段的分段质量评分给予提升。对分段质量评分给予的提升的量可以基于与和该特定候选分段匹配的查询相关联的查询频率。查询频率越高,可以给予的提升越大。在一些实施方式中,要求匹配是完全匹配(即分段作为在查询日志中没有修改的完整的查询而出现)。在一些实施方式中,可以将部分匹配同样视为匹配。
[0077]在一些实施方式中,可以基于是否可以在与第二语言相关联的查询日志(例如目标语言查询日志360)中找到候选翻译,如果可以找到,则基于与查询日志中的匹配查询相关联的查询频率,来判断作为搜索查询的候选翻译的质量。查询频率越高,与其相关联的候选翻译的翻译质量可以越高。在一些实施方式中,要求完全匹配。在一些实施方式中,可以同样考虑部分匹配。[0078]在一些实施方式中,细化模块350可以从分段模块320和翻译模块330,获得用来对候选翻译进行评分的数据(例如查询频率、去除的停止词的数量、与查询日志中的查询的匹配程度)。在一些实施方式中,细化模块350可以直接从查询日志360和370获得这些数据中的一些。
[0079]图4是如图3所示的示例细化模块350的框图。如图4所示,细化模块350包括分段评价子模块410、翻译评价子模块420和评分子模块430。在各个实施方式中,细化模块350的子模块可以在细化模块350内彼此进行通信和交互、和/或与细化模块350外部的其它模块进行通信和交互。
[0080]继续使用在图3中使用的具体示例“旅游目的地”,对于一个或更多个唯一候选分段中的每一个的每个候选翻译,翻译评价子模块420通过从目标语言查询日志(例如图3中的查询日志360)检索数据,可以确定候选翻译作为以英语书写的完整查询在目标语言查询日志(例如英语查询日志)中出现的频率。例如,对于候选分段“旅游,目,地”的候选翻译“travel eyeground”,即使在目标语言查询日志中存在该翻译,与查询“travel eyeground”相关联的查询频率也应当非常小或可忽略。然而,对于候选分段“旅游,目的地”的候选翻译“travel destination”或“trip destination”,可以以相对显著的查询频率(例如总查询计数为一千万或者每个月的平均查询计数为一万)作为英语的查询在目标查询日志中找到每一个。翻译评价可以向评分子模块430提供针对每个候选翻译的子评分或者相关联的查询频率。然后,评分模块430可以基于每个候选翻译作为完整查询在目标查询日志160中出现的数量(如由实际或调整后的查询频率所表示的),对候选翻译进行评价。
[0081]分段评价子模块410确定一个或更多个唯一候选分段中的每一个的分段质量的各自的度量。如稍早在本说明书中所叙述的,该确定可以至少部分基于从候选分段的片段的各自的序列中去除了多少个停止词,和/或候选分段在源语言查询日志370中作为用中文书写的完整查询出现的各自的频率(例如如由实际或调整后的查询频率所表示的)。分段评价模块410可以从分段模块320或者直接从源语言查询日志370 (例如中文语言查询日志)获得该数据。
[0082]继续使用示例“旅游目的地”。候选分段“旅游,目,地”去除了一个停止词(即“的”);候选分段“旅游,目的,地”和“旅游,目的地”没有去除停止词。因此,与其它两个分段相比,分段评价子模块410可以对候选分段“旅游,目,地”的分段质量给予较小的基本评分。评分子模块430可以在对从候选分段得到的候选翻译进行评价时使用基本评分。
[0083]另外,分段评价模块410确定候选分段在源语言查询日志(例如中文查询日志)中作为用第一语言书写的完整查询出现的各自的频率,假设分段“旅游目的地,”作为查询比分段“旅游目地”和“旅游目的地”在中文语言查询日志中更频繁地输入,可以对候选分段“旅游,目的地”给予比候选分段“旅游,目,地”和“旅游,目的,地”更高的分段质量评分的提升。
[0084]在一些实施方式中,分段评价子模块410可以从分段模块320获得用于对候选片段的分段质量进行评价的数据。在一些实施方式中,分段评价子模块410可以直接从源语言查询日志370获得该数据中的一些。
[0085]在翻译质量评价子模块420和分段评价模块410完成它们各自的评分之后,评分子模块430可以通过合成翻译评价模块420和分段评价模块410生成的子评分,来计算对每个候选翻译的最终评分。在各个实施方式中,可以将不同的权重与翻译评价模块420生成的子评分和分段评价模块410生成的子评分相关联。
[0086]在一些实施方式中,评分子模块330可以直接基于候选翻译在目标语言查询日志360中作为完整查询出现的频率、与该候选翻译相关联的分段在源语言查询日志370中出现的频率以及从分段中去除的停止词的数量,来确定评分。为了进行说明,在出现频率方面,发现与其它候选翻译相比,候选翻译“travel destination”与目标语言查询日志360中的最高查询频率相关联。同时,与翻译“travel destination”相关联的候选分段“旅游,目的地”相对于其它两个候选分段具有最高分段质量,因为其不仅没有去除停止词,还作为完整查询在源语言查询日志370中,相对于其它两个分段与最高查询频率相关联。因此,评分子模块430将对候选翻译“travel destination”分配最高评分。类似地,评分子模块330可以对其它候选翻译分配较低的评分。
[0087]在一些实施方式中,评分模块430得到每个候选翻译的最终评分,并且根据它们各自的最终评分对候选翻译进行排序。最后,细化模块350输出具有最高最终评分的候选翻译“travel destination”,作为主要语言查询建议“旅游目的地”的跨语言查询建议。
[0088]在一些实施方式中,可以针对由建议模块生成的每个主要语言查询建议重复进行上述处理,并且可以针对每个主要语言查询建议识别相应的跨语言查询建议。在一些实施方式中,可以建立阈值评分,从而如果没有主要语言查询建议的候选翻译超过该阈值评分,则不对主要语言查询建议提供跨语言查询建议。可以经由如图2所示的下拉菜单,向用户呈现获得的跨语言查询建议。在一些实施方式中,可以使用其它方式(例如在搜索界面上使用表)向用户呈现获得的跨语言查询建议。
[0089]通过选择或点击诸如“travel destination”的在搜索界面中呈现的跨语言查询建议,将搜索查询“travel destination”传送到搜索引擎,并且搜索引擎向用户返回基于搜索查询“travel destination”识别的搜索结果。
[0090]注意,上面的描述仅用于进行说明,本领域技术人员可以进行各种修改和变形,而不脱离所描述的技术的范围和精神。例如,在分段过程期间,可以预先设立其它适当的标准,来更好地识别一个或更多个唯一候选分段中的停止词,并且拒绝特定分段作为后续翻译的候选分段。另外,可以向用户呈现多于一个的候选翻译作为跨语言查询建议。在一些实施方式中,可以基于在本说明书中描述的方法,随着时间建立用于不同的源-目标语言对的查询建议对的数据库或索引,从而基于主要语言查询建议在数据库或索引中的简单查找可以获得相应的第二语言查询建议。
[0091]图5是示出对查询的候选翻译进行评价,并且基于评价提供候选翻译中的一个作为跨语言查询建议的示例处理500的流程图。例如,可以由图1所示的翻译服务模块130中的一个或更多个模块进行示例处理500。
[0092]当翻译模块接收到以第一语言书写的查询(510)时,处理500开始。查询可以是建议模块响应于用户输进的查询输入生成的主要语言查询建议。然后,处理500进行到步骤520。在步骤520,翻译模块获得第一语言的查询的一个或更多个唯一候选分段(例如如图3中的分段模块320所实现的)。每个唯一候选分段由通过对第一语言的查询进行分割而获得的片段的各个序列构成。对于一个或更多个唯一候选分段中的每一个,在步骤530,翻译服务模块确定该唯一候选分段的分段质量的各个度量(例如如图4中的分段评价子模块410所实现的)。另外,在步骤540,对于一个或更多个唯一候选分段中的每一个,翻译服务模块通过翻译候选分段的片段的各个序列,获得第二语言的一个或更多个候选翻译的各
I朱口 ?
[0093]然后,对于一个或更多个唯一候选分段中的每一个的每个候选翻译,在步骤550,翻译服务模块确定候选翻译在第一查询日志(例如目标语言查询日志)中作为以第二语言书写的完整查询出现的第一频率(例如如翻译评价子模块420所实现的)。另外,对于一个或更多个唯一候选分段中的每一个的每个候选翻译,在步骤560,翻译服务模块至少基于候选翻 译在第一查询日志中作为以第二语言书写的完整查询出现的第一频率和候选分段的分段质量的度量,确定候选翻译的各自的评分(例如如图4中的评分子模块430所实现的)。
[0094]在步骤570,翻译服务模炔基于候选翻译各自的评分,提供候选翻译中的至少一个作为查询的跨语言查询建议。
[0095]在本说明书的其它部分中,例如针对图1-4,描述上述示例处理和其它处理的其它特征。
[0096]可以使用数字电子线路,或者使用计算机软件、固件或硬件,包括在本说明书中公开的结构和它们的结构等同物、或者它们中的一个或更多个的组合,来实现在本说明书中描述的主题的实施例和功能操作。可以作为一个或更多个计算机程序产品,即在有形程序载体上编码的、由数据处理装置执行或者用于控制数据处理装置的操作的计算机程序指令的一个或更多个模块,来实现在本说明书中描述的主题的实施例。有形程序载体可以是计算机可读介质。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备或者它们中的一个或更多个的组合。
[0097]术语“数据处理装置”包含用于对数据进行处理的所有装置、设备和机器,作为示例包括可编程处理器、计算机或者多个处理器或计算机。除了硬件之外,装置还可以包括创建所讨论的计算机程序的执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一个或更多个的组合的代码。
[0098]可以使用任何形式的编程语言,包括汇编或解释性语言或者声明或过程语言,来编写也已知为程序、软件、软件应用、脚本或代码的计算机程序,并且可以以任意形式(包括作为独立程序或者作为模块、部件、子例程或者适合在计算环境中使用的其它单元)来调用计算机程序。计算机程序不一定与文件系统中的文件相对应。可以将程序存储在保持其它程序或数据(例如存储在标记语言文档中的一个或更多个脚本的文件的一部分)中、所讨论的程序专用的单个文件中或者多个协作文件(例如存储一个或更多个模块、子程序或代码部分的文件)中。可以调用计算机程序,以在一个计算机上或者在位于一个地点或跨多个地点分布并且由通信网络互连的多个计算机上执行。
[0099]可以通过一个或更多个可编程处理器执行用于通过对输入数据进行运算并生成输出来执行功能的一个或更多个计算机程序,来执行在本说明书中描述的处理和逻辑流。还可以由例如FPGA(场可编程门阵列)或ASIC(专用集成电路)的特殊用途逻辑线路执行这些处理和逻辑流,并且还可以作为例如FPGA(场可编程门阵列)或ASIC(专用集成电路)的特殊用途逻辑线路来实现装置。
[0100]作为示例,适合执行计算机程序的处理器包括通用和特殊用途微处理器以及任意种类的数字计算机的任意一个或更多个处理器两者。通常,处理器接收来自只读存储器或随机存取存储器或者两者的指令和数据。计算机的必要元素是用于执行指令的处理器以及用于存储指令和数据的一个或更多个存储器设备。通常,计算机还包括例如磁盘、磁光盘或者光盘的用于存储数据的一个或更多个大容量存储设备,或者计算机被操作性地耦接以从一个或更多个大容量存储设备接收数据或者向一个或更多个大容量存储设备传送数据或者进行数据接收和数据传送两者。然而,计算机不需要具有这些设备。此外,可以将计算机嵌入另一设备,仅举例来说,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器。
[0101]适合存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,作为示例包括:例如EPROM、EEPROM的半导体存储器设备和闪存设备;例如内部硬盘或可移动盘的磁盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由特殊用途逻辑线路进行补充或者包含在特殊用途逻辑线路中。
[0102]为了提供与用户的交互,可以在具有用于向用户显示信息的例如CRT(阴极射线管)或LCD(液晶显示器)监视器的显示设备以及用户可以用来向计算机提供输入的例如鼠标或跟踪球的键盘和指示设备的计算机上,实现在本说明书中描述的主题的实施例。还可以使用其它种类的设备,来提供与用户的交互;例如,向用户提供的反馈可以是任意形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任意形式接收来自用户的输入,包括声音、语音或触觉输入。
[0103]可以在包括例如作为数据服务器的后端部件、或包括例如应用服务器的中间件部件、或包括例如具有用户可以用来与在本说明书中描述的主题的实施方式进行交互的图形用户接口或Web浏览器的客户计算机的前端部件、或者一个或更多个这种后端部件、中间件部件或前端部件的任意组合的计算系统中,实现在本说明书中描述的主题的实施例。系统的这些部件可以用任意形式的数字数据通信或数字数据通信介质、例如通信网络互连。通信网络的示例包括局域网(“LAN”)和例如因特网的广域网(“WAN”)。
[0104]计算系统可以包括客户机和服务器。客户机和服务器通常彼此远离,并且一般通过通信网络进行交互。客户机和服务器的关系借助于在各自的计算机上运行并且彼此具有客户机-服务器关系的计算机程序形成。
[0105]虽然本说明书包含许多【具体实施方式】细节,但是这些细节不应当被解释为对任意实施方式的范围或要求保护的内容的限制,而是作为对具体到特定实施方式的特定实施例的特征的描述。在单独的实施例的情境下在本说明书中描述的某些特征,也可以在单个实施例中组合地实现。相反,在单个实施例的情境下描述的各个特征,也可以在多个实施例中单独或者以任意适当的子组合实现。此外,虽然上面作为在某些组合中进行动作、甚至最初要求这样进行保护,描述了特征,但是在一些情况下,可以从要求保护的组合中去除该组合中的一个或更多个特征,并且要求保护的组合可以针对子组合或者子组合的变化。
[0106]类似地,虽然按照特定顺序在附图中描绘了操作,但是这应当被理解为要求按照所示出的特定顺序或者按照相继的顺序进行这些操作,或者进行所有示出的操作,以获得希望的结果。在某些情形下,多任务和并行处理是有利的。此外,上面描述的实施例中的各个系统部件的分离,不应当被理解为要求在所有实施例中进行这种分离,而应当被理解为所描述的程序部件和系统通常可以在单个软件产品中被集成在一起,或者被打包到多个软件广品中。
[0107]对在本说明书中描述的主题的特定实施例进行了描述。其它实施例在所附权利要求的范围内。例如,可以按照不同的顺序进行在权利要求中叙述的动作,而仍然获得希望的结果。作为一个示例,在附图中描绘的处理不一定需要按照所示出的特定顺序或相继的顺序进行,以获得希望的结果。在某些实施方式中,多任务和并行处理是有利的。
【权利要求】
1.一种用计算机实现的方法,包括: 接收以第一语言书写的查询,所述查询是基于向搜索引擎提交的用户输入生成的主要语言查询建议; 获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成; 对于所述一个或更多个唯一候选分段中的每一个,通过翻译所述候选分段的片段的各自的序列,确定第二语言的一个或更多个候选翻译的各自的集合; 对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译: 至少部分基于从所述唯一候选分段的片段的各自的序列中去除了多少个停止词、以及所述唯一候选分段在第一查询日志中作为以所述第一语言书写的完整查询出现的各自的第一频率,确定所述唯一候选分段的各自的分段质量 '及 至少基于针对所述唯一候选分段确定的所述各自的分段质量、以及所述候选翻译在第二查询日志中作为以所述第二语言书写的完整查询出现的各自的第二频率,确定所述候选翻译的各自的评分;以及 基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个作为所述查询的跨语言查询建议。
2.一种用计算机实现的方法,包括: 接收以第一语言书写的查询; 获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成; 对于所述一个或更多个唯一候选分段中的每一个: 确定所述唯一候选分段的分段质量的各自的度量;及 通过翻译所述候选分段的片段的各自的序列,获得第二语言的一个或更多个候选翻译的各自的集合; 对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译: 确定所述候选翻译在第一查询日志中作为以所述第二语言书写的完整查询出现的第一频率;及 至少基于所述候选翻译在所述第一查询日志中作为以所述第二语言书写的完整查询出现的所述第一频率、以及所述候选分段的分段质量的度量,确定所述候选翻译的各自的评分;以及 基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个作为所述查询的跨语言查询建议。
3.根据权利要求2所述的用计算机实现的方法,其中,获得所述第一语言的所述查询的一个或更多个唯一候选分段还包括: 获得作为所述第一语言的所述查询的分区的至少一个候选分段。
4.根据权利要求2所述的用计算机实现的方法,其中,获得所述第一语言的所述查询的一个或更多个唯一候选分段还包括: 获得从所述候选分段中去除了一个或更多个停止词的至少一个候选分段。
5.根据权利要求4所述的用计算机实现的方法,其中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量还包括: 至少部分基于从所述候选分段的片段的各自的序列中去除了多少个停止词,确定所述分段质量的各自的度量。
6.根据权利要求2所述的用计算机实现的方法,其中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量还包括: 确定所述候选分段在第二查询日志中作为以所述第一语言书写的完整查询出现的各自的第二频率;以及 至少部分基于所述候选分段在所述第二查询日志中作为以所述第一语言书写的完整查询出现的所述各自的第二频率,确定所述分段质量的各自的度量。
7.一种系统,包括: 一个或更多个处理器;以及 存储有指令的存储器,当由所述一个或更多个处理器执行所述指令时,所述指令使所述一个或更多个处理器进行包括如下步骤的操作: 接收以第一语言书写的查询; 获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成; 对于所述一个或更多个唯一候选分段中的每一个: 确定所述唯一候选分段的分段质量的各自的度量;及 通过翻译所述候选分段的片段的各自的序列,获得第二语言的一个或更多个候选翻译的各自的集合; 对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译: 确定所述候选翻译在第一查询日志中作为以所述第二语言书写的完整查询出现的第一频率;及 至少基于所述候选翻译在所述第一查询日志中作为以所述第二语言书写的完整查询出现的所述第一频率、以及所述候选分段的分段质量的度量,确定所述候选翻译的各自的评分;以及 基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个作为所述查询的跨语言查询建议。
8.根据权利要求7所述的系统,其中,获得所述第一语言的所述查询的一个或更多个唯一候选分段还包括: 获得作为所述第一语言的所述查询的分区的至少一个分段。
9.根据权利要求7所述的系统,其中,获得所述第一语言的所述查询的一个或更多个唯一候选分段还包括: 获得从所述候选分段中去除了一个或更多个停止词的至少一个候选分段。
10.根据权利要求9所述的系统,其中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量还包括: 至少部分基于从所述候选分段的片段的各自的序列中去除了多少个停止词,确定所述分段质量的各自的度量。
11.根据权利要求7所述的系统,其中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量还包括: 确定所述候选分段在第二查询日志中作为以所述第一语言书写的完整查询出现的各自的第二频率;以及 至少部分基于所述候选分段在所述第二查询日志中作为以所述第一语言书写的完整查询出现的所述各自的 第二频率,确定所述分段质量的各自的度量。
【文档编号】G06F17/30GK104011712SQ201180072566
【公开日】2014年8月27日 申请日期:2011年6月24日 优先权日:2011年6月24日
【发明者】陈启亮, 谭卫华 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1