跨语言信息检索的制作方法

文档序号:6477829阅读:361来源:国知局
专利名称:跨语言信息检索的制作方法
跨语言信息检索 相关串i青 本申请要求2007年5月16日提交的美国临时申请No. 60/938448和2008年4月 29日提交的美国专利申请No. 12/111888的优先权,通过引用将其全文合并于此。
背景技术
本说明书的主题一般地涉及搜索系统。 万维网("Web")过去主要是由英语内容所充盈(populate)。现在,随着非英语 用户和内容提供者的数量的增加,在Web上存在相当数量的非英语内容。说英语的人能够 得益于访问非英语内容中所包含的信息和知识,反之亦然。可以使用传统的机器翻译工具 将内容从一种语言翻译为另一种语言。

发明内容
—般地,本说明书中所描述的主题的一个方面可以以方法来实现,所述方法包括 以下动作接收源语言的源查询;将所述源查询翻译为与所述源语言不同的第一目标语言 的候选查询;接收将所述候选查询修改为所述第一目标语言的第一目标查询的输入;识别 满足所述第一 目标查询的所述第一 目标语言的一个或多个资源;将所识别的资源翻译为所 述源语言的对应的翻译资源;并且呈现与所述翻译资源相对应的搜索结果。该方面的其它 实施例包括对应的系统、装置、计算机程序产品和计算机可读介质。 —般地,本说明书中所描述的主题的另一个方面可以以方法来实现,所述方法包 括以下动作接收指定源语言、所述源语言的查询以及目标语言的一个或多个用户输入; 呈现所述查询到所述目标语言的翻译;接收对所述查询的翻译进行修改的用户输入;并且 呈现满足所述查询的经修改的翻译的所述目标语言的一个或多个搜索结果到所述源语言 的翻译。该方面的其它实施例包括对应的系统、装置、计算机程序产品和计算机可读介质。
—般地,本说明书中所描述的主题的另一个方面可以以方法来实现,所述方法包 括以下动作在显示设备上生成搜索界面,所述搜索界面包括用于接收源语言的查询的第 一用户输入的第一域、用于接收指定所述源语言的第二用户输入的第二域以及用于接收指 定目标语言的第三用户输入的第三域;基于所述第一、第二和第三用户输入,在所述显示设 备上生成第一结果界面,第一结果界面包括所述查询到所述目标语言的翻译以及用于接收 对所述查询的翻译进行修改的第四用户输入的第四域;并且基于所述第一、第二、第三和第 四输入,在所述显示设备上生成第二结果界面,所述第二结果界面包括满足所述查询的经 修改的翻译的所述目标语言的一个或多个搜索结果到所述源语言的翻译。该方面的其它实 施例包括对应的系统、装置、计算机程序产品和计算机可读介质。 可实施该说明书中所描述的主题的特定实施例来实现以下一个或多个优势。交互 式跨语言搜索允许用户对所翻译的搜索查询进行修改以便优化搜索结果。所述跨语言搜索 允许对目标语言具有一些了解的用户以目标语言构建有用的搜索查询。 以下结合附图和描述给出该说明书中所描述的主题的一个或多个实施例的细节。根据描述、附图和权利要求,所述主题的其它特征、方面和优势将变得显而易见。


图1是图示网络环境的框图。 图2是图示示例性跨语言信息检索(CLIR)系统的框图。
图3是图示用于对内容执行跨语言搜索的示例性过程的流程图。
图4A-4C图示了用于跨语言内容搜索的示例性用户界面。
图5是图示示例性计算机系统的框图。 图6是图示用于对内容执行跨语言搜索的另一示例性过程的流程图。
各附图中相同的附图标号和名称表示相同元素。
具体实施例方式
图1图示了网络环境100,其可包括搜索系统104、翻译系统106、跨语言信息检索 (CLIR)系统108和用户客户端102。这些组件可通过一个或多个网络IIO进行通信。例如, 网络110可包括局域网、广域网、无线网络、移动电话网和因特网。 搜索系统104对资源服务器所托管的资源进行索引。搜索系统104在所述资源服 务器上进行爬行(crawl)以识别可用于索引的资源。在一些实施方式中,搜索系统104还 存储经索引的资源的副本。被搜索系统104所爬行和索引的资源包括不同语言的资源。资 源的示例包括网页、音频文件、视频文件、可移植文档格式(PDF)文档、文本文件、字处理文 档、图像等。资源可具有一个或多个语言成分(例如,能够以例如英语、法语、德语、中文等 对应的语言的知识所理解的文本、演讲、歌曲的歌词等)。 搜索系统104(例如,从用户客户端102)接收对资源的查询,并且针对各个查询, 对索引搜索满足各个查询的经索引的资源。查询包括一个或多个词语(例如,词、短语、字 符、表意符号、数字等)。所述查询可以以任意的一种或多种语言被呈现。搜索结果从搜索 系统104传送到用户客户端102以便向用户呈现。所述搜索结果可包括到满足所述查询的 经索引资源的链接和其摘录(例如,片段)。 翻译系统106将资源从一种语言翻译为另一种语言。在一些实施方式中,翻译系 统106能够作为直接输入(例如,输入到文本域中的文本)或者作为到所要翻译的资源的 统一资源定位符(URL)接收所要翻译的资源。翻译系统106可被实施为使用各种机器翻译 技术(例如,各种统计或基于示例的机器翻译技术)的任意一种对资源进行翻译。在一些 实施方式中,翻译系统106基于用于将资源从一种语言翻译为另一种语言的特定翻译模型 而使用统计技术对资源进行翻译。在一些实施方式中,翻译系统106支持多种语言。翻译 系统106连同所要翻译的资源一起接收所述资源的源语言以及所述资源要被翻译成的目 标语言的指定。 在一些实施方式中,CLIR接口 108促进跨语言信息检索,其允许用户以一种语言 (例如,用户流利使用的语言)对一种或多种其它语言的资源进行搜索。CLIR接口 108与 搜索系统104和翻译系统106进行通信。CLIR接口 108可从用户客户端102接收第一语言 的查询。所接收的查询被翻译为第二语言。搜索结果可包括到满足翻译成第二语言的所述 查询的资源从所述第二语言到第一语言的翻译的链接。CLIR接口 108将所述搜索结果传送
6给用户客户端102。所述搜索结果还可包括来自满足翻译成第二语言的所述查询的资源的 片段从所述第二语言到第一语言的翻译。 用户客户端102可以是通过一个或多个网络110与CLIR接口 108进行数据通信并 且可选地与搜索系统104和翻译系统106进行数据通信的任意设备。在一些实施方式中, 用户客户端102包括能够访问CLIR接口 108、搜索系统104和/或翻译系统106的客户端 应用(例如,web浏览器)。用户客户端的示例包括台式电脑、笔记本电脑、膝上电脑、个人 数字助理(PDA)、移动电话、智能电话、媒体播放器、游戏控制台、便携式游戏设备或机顶盒。
图2图示了 CLIR系统200。 CLIR系统200包括搜索引擎202、翻译引擎210和 CLIR引擎216。搜索引擎202、翻译引擎210和CLIR引擎216通过一个或多个网络226进 行数据通信。 搜索引擎202包括搜索模块204、相关查询模块206和资源的索引208。在一些实 施方式中,搜索引擎202是搜索系统(例如,搜索系统104)的一部分。
搜索模块204接收搜索查询并使用索引208来识别满足所接收的搜索查询或所述 查询的翻译的资源。相关查询模块206针对查询识别相关查询。在一些实施方式中,相关 查询可包括查询的一个或多个词语的同义词、所述查询和其它词语的组合、所述查询减去 一个或多个词语和/或查询中词语的重新排序。在其它实施方式中,相关查询可包括对所 述查询的一个或多个建议纠正(例如,建议的拼写纠正)。索引208是搜索引擎202所爬行 的资源的索引。索引208可对来自多种语言的资源进行索引。在一些实施方式中,搜索引 擎202还存储经索引的资源的副本和/或摘录。 翻译引擎210包括翻译模块212。翻译模块212接收一种语言的输入文本并且将 所述输入文本翻译为另一种语言的输出文本。在一些实施方式中,翻译引擎210还包括一 个或多个翻译模型214。翻译模块212可在翻译过程期间使用翻译模型214。不同的翻译 模型214可被用来翻译不同的语言组合(例如,被用来将英语翻译为法语的翻译模型与被 用来将中文翻译为阿拉伯文的翻译模型可不同)。在一些实施方式中,翻译引擎210(例如, 在缓存中、在数据库中)存储所述翻译用于后续检索。 翻译引擎210可以作为直接输入(例如,用户将文本输入键入在线表格并且提交 所述文本)或者作为到包含所要翻译的文本的页面的URL接收所要翻译的文本输入。在URL 的情况下,翻译模块212从所述URL所指定的位置获得文本并且对所获得的文本进行翻译。 在一些实施方式中,进入输入引擎210用于翻译的输入还包括搜索引擎202所接收的查询。
在一些实施方式中,翻译引擎210是翻译系统(例如,翻译系统106)的一部分。
CLIR引擎216包括CLIR前端218和CLIR模块220。 CLIR前端218生成CLIR引 擎的用户界面。例如,在一些实施方式中,当用户从客户端应用224访问CLIR引擎216时, 客户端应用224所显示的用户界面由CLIR前端218生成。如以下将要更为详细地描述的, CLIR模块220对内容执行跨语言搜索。 在一些实施方式中,CLIR引擎216是CLIR接口 (例如,CLIR接口 108)的一部分。
在一些实施方式中,所述CLIR引擎能够以不同语言提供用户界面(例如,中文用 户界面或英文用户界面)。此外,用户界面的语言无需与查询的源语言以及对应于搜索结果 的内容的目标语言相同。 用户客户端222可以是通过网络226提供对CLIR引擎216的访问并且可选地提供对搜索引擎202和翻译引擎210的访问的设备。用户客户端222可包括能够呈现CLIR 前端218所生成的用户界面的客户端应用224。在一些实施方式中,客户端应用224是web 浏览器,并且CLIR前端218所生成的用户界面是基于web的界面。 图3图示了用于对资源执行跨语言搜索的过程300。过程300促进使用以一种语 言输入的搜索查询对另一种语言的资源进行搜索。为了方便,以下将参考执行过程300的 系统(例如,CLIR系统200)对过程300进行描述。 所述系统接收用户所提交的查询(302)。用户客户端222处的用户访问CLIR前端 218所生成的用户界面并以特定语言("源语言")输入查询("源查询")。所述源查询从 用户客户端222发送到CLIR引擎216。用户客户端222处的用户还提供指定源语言和目标 语言的输入,所述输入被发送到CLIR引擎216。例如,如果用户提供了以英语书写的查询并 且希望搜索日文内容,则用户将英语指定为源语言并且将日文指定为目标语言。在一些实 施方式中,所述源查询可包括两种或更多语言的内容而形成混合查询(例如,在用户对目 标语言具有一些了解但是不足以形成完整查询时)。例如,查找米兰歌剧院附近的酒店和 餐厅的用户可提交包括意大利歌剧院名称的查询"hotels andrestaurants near Teatro Alia Scala in Milano"。用户可以将英语指定为源语言并且将意大利语指定为目标语言 以便搜索意大利语资源并且使得搜索结果以英语进行呈现。 所述系统通过将源查询翻译为目标语言而将源查询转换为翻译查询(304)。例如,
CLIR模块220将所述源查询发送给翻译引擎210。翻译模块212将以源语言提供的源查询
翻译为其目标语言的翻译。翻译引擎212将翻译查询发送回到CLIR引擎216。 如果查询具有多个可能的翻译,则翻译模块212从多个可能的翻译中选择一个作
为翻译查询。例如,在使用基于模型的统计机器翻译技术的翻译引擎中,可以选择基于语言
模型具有最高概率的翻译作为翻译。在一些实施方式中,可以向用户呈现其它的可能翻译,
其进一步的细节将在以下进行描述。如果翻译模块212仅提供一个翻译,则该翻译被用作
翻译查询。 在一些实施方式中,所述系统可以接收对所述翻译查询进行修改的用户输入。例 如,在向用户显示所述翻译查询之后,用户能够对所述翻译查询进行人工编辑或者从源查 询的一个或多个替选翻译和/或与所述翻译查询相关的查询进行选择。在一些实施方式 中,所述相关查询由相关查询模块206确定。所编辑的翻译查询或从相关查询或替选翻译 所进行的选择成为新的翻译查询。 所述系统识别目标语言中满足所述翻译查询的资源("原始资源")(306)。例如, CLIR模块220将翻译查询发送给搜索引擎202。搜索模块204使用所述翻译查询在索引 208中执行对目标语言的资源的搜索。所识别资源的URL以及可选地所述资源的副本或摘 录被发送给CLIR引擎216。 所述系统将所识别的原始资源翻译为源语言的对应的翻译资源。例如,CLIR模块 220将原始资源的URL发送给翻译引擎210。翻译模块212从所述URL获得原始资源,对所 获得的原始资源进行翻译,并且将翻译资源发送给CLIR模块220。 在一些实施方式中,所识别的原始资源不进行全文翻译。可在最初翻译所述原始 资源的一部分(例如,所述资源中文本的片段、所述资源的标题、超链接文本等)。当用户选 择了对应于翻译资源的搜索结果之后,对对应的原始资源的全文进行翻译。
所述系统呈现搜索结果(310)。在一些实施方式中,CLIR前端218根据源语言的 翻译资源以及目标语言的原始资源生成搜索结果页面(例如,用户界面400(图4A-4C))。 所述搜索结果页面包括到翻译资源的超链接,并且可选地包括翻译资源的源语言的部分内 容(例如,摘录)。所述搜索结果页面还可包括到目标语言的原始资源的摘录和原始资源的 超链接。所述搜索结果页面被传送到用户客户端222以便向用户呈现。在一些其它实施方 式中,搜索引擎202生成搜索结果页面并将搜索结果传送给用户。 在一些实施方式中,搜索结果页面中到原始资源和原始资源的摘录的超链接可被 用户隐藏。此外,搜索结果页面还可选地显示源查询和翻译查询。 在一些实施方式中,所述系统识别与源查询的翻译(g卩,翻译查询)相关的目标语 言的查询。在一些实施方式中,相关查询模块206识别与翻译查询相关的目标语言的查询。 相关查询可包括翻译查询中一个或多个词语的同义词、翻译查询和附加词语的组合、翻译 查询的改写形式、翻译查询的縮写、翻译查询中词语的重新排序、翻译查询减去一个或多个 词语等等。能够确定匹配资源的估计数目(即,搜索结果的估计数目)和/或相关查询的 质量分值。在一些实施方式中,其匹配资源的估计数目低于预定阈值(例如,IOOO)的那些 相关查询可被丢弃。在一些其它实施方式中,其质量分值低于预定阈值的那些相关查询可 被丢弃。其余的相关查询在搜索结果页面中连同源查询到目标语言的翻译(即,翻译查询) 一起向用户呈现。用户能够选择相关查询中的一个以使用所选择的相关查询发起搜索。
在一些实施方式中,相关查询模块206识别与源查询相关的源语言的查询。相关 查询可包括源查询中一个或多个词语的同义词、源查询与附加词语的组合、源查询的改写 形式、源查询的縮写、源查询中词语的重新排序、源查询减去一个或多个词语等等。能够确 定匹配资源的估计数目(即,搜索结果的估计数目)和/或相关查询的质量分值。在一些实 施方式中,其匹配资源的估计数目低于预定阈值(例如,IOOO)的那些相关查询可被丢弃。 在一些其它实施方式中,其质量分值低于预定阈值的那些相关查询可被丢弃。其余的相关 查询可在搜索结果页面中连同源查询和源查询的翻译一起向用户呈现。用户能够选择相关 查询中的一个以使用所选择的相关查询到目标语言的翻译进行搜索。也就是说,所选择的 相关查询成为了新的源查询。 以下参考图4B-4C进一步描述相关查询的呈现示例。 图6图示了用于对资源执行跨语言搜索的过程600。过程600促进使用一种语言 所输入的搜索查询对另一种语言的资源进行搜索。为了方便,以下将参考执行过程600的 系统(例如,CLIR系统200)对过程600进行描述。 所述系统接收用户所提交的查询(602)。用户客户端222处的用户访问CLIR前端 218所生成的用户界面并以特定语言("源语言")输入查询("源查询")。所述源查询从 用户客户端222发送到CLIR引擎216。用户客户端222处的用户还提供指定源语言和目标 语言的输入,所述输入被发送到CLIR引擎216。例如,如果用户提供了以英语书写的查询并 且希望搜索日文内容,则用户将英语指定为源语言并且将日文指定为目标语言。在一些实 施方式中,所述源查询可包括两种或更多语言的内容而形成混合查询(例如,在用户对目 标语言具有一些了解但是不足以形成完整查询时)。例如,查找米兰歌剧院附近的酒店和 餐厅的用户可提交包括意大利歌剧院名称的查询"hotels andrestaurants near Teatro Alia Scala in Milano"。用户可以将英语指定为源语言并且将意大利语指定为目标语言
9以便搜索意大利语资源并且使得搜索结果以英语呈现。 所述系统将源查询翻译为目标语言的候选查询(604)。例如,CLIR模块220将所 述源查询发送给翻译引擎210。翻译模块212将源语言的源查询翻译为其目标语言的翻译。 翻译引擎212将所述候选查询发送回到CLIR引擎216。所述候选查询接着被传送到用户客 户端222以便向用户呈现。 如果查询能够具有多个可能的翻译,则翻译模块212选择可能翻译中的一个作为 候选查询。例如,在使用基于模型的统计机器翻译技术的翻译引擎中,可以选择基于语言模 型具有最高概率的翻译作为翻译。在一些实施方式中,可以向用户呈现其它的可能翻译,其 进一步的细节将在以下进行描述。如果翻译模块212仅提供了一个翻译,则该翻译被用作 候选查询。 所述系统接收将所述候选查询修改为目标语言的修改查询的输入(606)。所述系 统可以接收对所述候选查询进行修改的用户输入。例如,在源查询被翻译为候选查询之后, 向用户呈现所述候选查询。还可以向用户呈现与所述候选查询相关的查询或者源查询的一 个或多个替选翻译。用户可以通过人工编辑所述候选查询或者从所述源查询的到目标语言 的替选翻译或者与所述候选查询相关的目标语言的查询中选择一个来对所述候选查询进 行修改。人工编辑的候选查询或者从相关查询或替选翻译中所进行的选择是修改查询。
在一些实施方式中,候选查询也是依据过程300随搜索结果一起呈现的翻译查 询。例如,依据过程300,源查询被翻译为翻译查询并且使用所述翻译查询执行搜索。搜索 结果页面可以在文本域中呈现翻译查询,用户能够利用其对所述翻译查询进行编辑。搜索 结果页面还可以呈现所述源查询的到目标语言的替选翻译或者与所述翻译查询相关的目 标语言的查询的菜单。用户能够编辑翻译查询,或者从所述菜单中选择替选翻译形式或相 关查询。所编辑的查询或者从所述菜单中进行的选择是修改查询,如以下所描述的,可利用 所述修改查询执行搜索。 所述系统识别目标语言中满足所述修改查询的资源("原始资源")(608)。例如, CLIR模块220将修改查询发送给搜索引擎202。搜索模块204使用所述修改查询在索引 208中搜索目标语言的资源。所识别的资源的URL以及可选地所述资源的副本或摘录被发 送给CLIR引擎216。 所述系统将所识别的资源翻译为源语言的对应的翻译资源(610)。例如,CLIR模 块220将资源的URL发送给翻译引擎210。翻译模块212从所述URL获得资源,对所获得的 资源进行翻译,并且将翻译资源发送给CLIR模块220。 在一些实施方式中,所识别的资源并不进行全文翻译。可在最初翻译所述资源的 一部分(例如,所述资源中文本的片段、所述资源的标题、超链接文本等)。当用户选择了翻 译资源时,对对应的资源的全文进行翻译。 所述系统呈现搜索结果(612)。在一些实施方式中,CLIR前端218根据源语言的 翻译资源以及目标语言的原始资源生成搜索结果页面(例如,用户界面400(图4A-4C))。 所述搜索结果页面包括到翻译资源的超链接,并且可选地包括翻译资源的源语言的部分内 容(例如,摘录)。所述搜索结果页面还可包括到目标语言的原始资源的摘录和原始资源的 超链接。所述搜索结果页面被传送到用户客户端222以便向用户呈现。在一些其它实施方 式中,搜索引擎202生成搜索结果页面并将搜索结果传送给用户。
图4A-4C图示了用于跨语言内容搜索的示例性用户界面400。在一些实施方式中, 用户界面400是基于web的界面。界面400包括搜索框402、源语言选择菜单406和目标语 言选择菜单408。 在搜索框402中输入查询。所述查询可以以源语言选择菜单406中所列出的任一 种语言进行书写。在一些实施方式中,所述查询由用户使用输入方法编辑器(頂E)输入到 搜索框402种。在一些实施方式中,所述ME是允许用户输入与其输入设备(例如,键盘) 不相关联的字符或符号的程序、应用、模块等。例如,中文頂E模块允许用户使用QWERTY键 盘输入中文字符。用户还在源语言菜单406中选择源语言并且在目标语言菜单408中选择 目标语言。例如,在图4A中,所输入的查询是英语短语"beijing m即s"。如源语言菜单406 中所指示的,源语言为英语。如目标语言菜单408中所指示的,目标语言是简体中文。当用 户按压"搜索(Search)"按钮405时,所述查询以及源语言和目标语言的指定被提交。
在按压"搜索(Search)"按钮405之后,用户界面400进行刷新以显示输入到搜索 框402中的查询的翻译404。所显示的翻译404是所输入的查询从源语言到目标语言的翻 译。用户界面400还包括编辑链接410,用户能够选择所述编辑链接来修改所翻译的查询, 其进一步的细节在以下进行描述。 刷新的用户界面400还包括对于翻译查询的搜索结果414和所翻译的搜索结果 412。搜索结果414呈现满足翻译查询404的目标语言的资源(例如,网页等)。搜索结果 414包括到所述资源的超链接410,并且可选地包括目标语言的资源的摘录422。
所翻译的搜索结果412列出满足翻译查询的资源到源语言的翻译。换句话说,所 翻译的搜索结果412对应于与搜索结果414相对应的资源的翻译。所翻译的搜索结果412 包括到翻译资源的超链接416和摘录418,所述摘录418可以是摘录422的翻译。
在一些实施方式中,所翻译的搜索结果412和搜索结果414并行显示在界面400 中,如图4A所示。搜索结果414中资源的列举与所翻译搜索结果412中资源的对应的翻译 的列举并行排列。如果对搜索结果显示了摘录(例如,摘录422),则对所翻译的搜索结果 的列举显示所述摘录的翻译(摘录418)。此外,在一些实施方式中,所翻译的搜索结果414 可有选择地从视图中隐藏(例如,通过选择"隐藏结果(hideresults)"链接424)。相反, 当搜索结果414被隐藏时,例如可通过选择"显示结果(show results)"链接或其它显示机 制来解除它们的隐藏。 在一些其它实施方式中,替代如图4A所示的并行显示,资源的列举与对应的翻译 的列举内嵌(inline)显示。例如,目标语言的资源的列举(例如,超链接、摘录)可以显示 在对应的翻译的列举的右下方。所述资源的列举可以单独或全部一起被隐藏或者解除隐 藏。 如果用户选择了编辑链接410,界面400刷新为如图4B所示的界面400。显示翻 译查询框424,框424中显示翻译查询。还显示目标语言的查询的菜单426。查询菜单426 显示目标语言的查询,所述查询与搜索框402中的源查询的翻译查询和/或替选翻译相关。 例如,菜单426中的查询可包括翻译查询的同义词、翻译查询和附加词语的组合、翻译查询 的改写形式、翻译查询的縮写、源查询的替选翻译等等。在一些实施方式中,菜单426还为 每个相关查询或替选翻译显示满足所述查询的资源的估计数目。例如,在菜单426中,相关 查询"北京地图查询-Beijing maps inquiries"具有约一千二百万个结果(即,满足目标语言的查询的资源)。在示例性实施方式中,菜单426仅显示其满足各相关查询或替选翻译
的资源的估计数目高于预定阈值(例如,1000)的相关查询和/或替选翻译。 用户也可以例如使用输入方法编辑器(IME)对翻译查询框424中的查询进行编
辑。例如,如果用户感到翻译查询不是最佳的翻译,或者如果用户希望向翻译查询添加附加
词语,则用户能够编辑翻译查询并且提交经编辑的查询以用于搜索。所编辑的查询成为了
源查询的新的翻译404,并且满足所编辑查询的搜索结果412和搜索结果412的翻译414被显示。 在一些实施方式中,界面400可以显示与在搜索框402输入的源查询相关的查询, 如图4C所示。相关查询428可包括源查询的同义词、源查询与附加词语的组合、源查询的 改写形式、源查询的縮写等等。当用户选择了相关查询428中的一个时,所选择的查询成为 新的源查询。 图5是一般计算机系统500的示意图。系统500可被用于实践结合技术300所描 述的操作。系统500可包括处理器510、存储器520、存储设备530和输入/输出设备540。 组件510、520、530和540中的每一个使用系统总线550进行互连。处理器510能够处理用 于在系统500内执行的指令。例如,这样执行的指令能够实现搜索引擎202、翻译引擎210 和/或CLIR引擎216的一个或多个组件。在一些实施方式中,处理器510为单线程处理 器。在其他实施方式中,处理器510为多线程处理器。处理器510能够处理存储在存储器 520中或者存储在存储设备530上的指令以显示用于输入/输出设备540上的用户界面的 图形信息。 存储器520是存储系统500内的信息的诸如易失性或非易失性存储器的计算机可 读介质。例如,存储器520可存储表示内容索引208或语言模型214的数据结构。存储设 备530能够为系统500提供持久存储。存储设备530可以是软盘设备、硬盘设备、光盘设备、 带设备或者其它适当的持久存储装置。输入/输出设备540为系统500提供输入/输出操 作。在一些实施方式中,输入/输出设备540包括键盘和/或指示设备。在其它实施方式 中,输入/输出设备540包括用于显示图形用户界面的显示单元。 所公开的和其它实施例以及该说明书中所描述的功能操作可以以数字电子电路
来实施,或者以计算机软件、固件或硬件或者它们中一个或多个的组合来实施,包括该说明
书中所公开的结构和其它结构等同物。所公开的和其它实施例可以被实现为一个或多个计
算机程序产品,即在计算机可读介质上编码以便由数据处理装置执行或者控制数据处理装
置的操作的计算机程序指令的一个或多个模块。所述计算机可读介质可以是机器可读的存
储设备、机器可读的存储基片、存储器设备、影响机器可读传播信号的物质合成物或者它们
中一个或多个的组合。术语"数据处理装置"涵盖用于处理数据的所有装置、设备和机器,
例如包括可编程处理器、计算机或者多个处理器或计算机。除硬件之外,装置可包括为所讨
论的计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操
作系统或者它们中一个或多个的组合的代码。传播信号是人为生成的信号,例如,机器生成
的电、光或电磁信号,其被生成以对信息进行编码以便传输到适当的接收器装置。 计算机程序(也被称作程序、软件、软件应用、脚本或代码)可以以任意形式的编
程语言书写,包括编译和解释语言,并且其能够以任意形式被部署,包括作为独立程序或者
作为模块、组件、子程序或者适于在计算环境中使用的其它适合单元。计算机程序不必对应
12于文件系统中的文件。程序可以存储在保存其它程序或数据的文件的一部分中(例如,存 储在标记语言文档中的一个或多个脚本),存储在专用于所讨论程序的单个文件中,或者存 储在多个协同文件中(例如,存储一个或多个模块、子程序或部分代码的文件)。计算机程 序可被部署为在一个或多个计算机上执行,所述多个计算机位于一个地点或者分布于多个 地点并且通过通信网络进行互连。 该说明书中所描述的过程或逻辑流程可由一个或多个可编程处理器执行,所述可 编程处理器执行一个或多个计算机程序而通过对输入数据进行操作并生成输出来执行功 能。所述过程和逻辑流程还可以由专用逻辑电路执行,并且装置也可以被实现为专用逻辑 电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。 例如,适于执行计算机程序的处理器包括通用和专用微处理器,以及任意类型的 数字计算机的任意一个或多个处理器。通常,处理器将从只读存储器或随机存储存储器或 者其二者接收指令和数据。计算机的主要元件为用于执行指令的处理器以及一个或多个用 于存储指令和数据的存储器设备。通常,计算机还将包括一个或多个用于存储数据的大容 量存储设备,或者可操作地耦接到所述大容量存储设备以便从其接收数据或者对其传送数 据,所述大容量存储设备例如磁盘、磁-光盘或光盘。然而,计算机无需具有这样的设备。适 于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒体和 存储器设备,例如包括半导体存储器设备,例如EPR0M、EEPR0M和闪存设备;磁盘,例如内部 硬盘或可移动盘;磁_光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以以专用逻辑 电路进行补充或者集成在专用逻辑电路中。 为了提供与用户的交互,所公开的实施例可以实现在具有用于向用户显示信息 的显示设备以及键盘和指示设备的计算机上,所述显示设备例如CRT(阴极射线管)或 LCD(液晶显示器)监视器,所述指示设备例如鼠标或轨迹球,用户能够利用其向计算机提 供输入。也可使用其它类型的设备来提供与用户的交互;例如,提供给用户的反馈可以为任 意形式的感官反馈,例如视觉反馈、声音反馈或触觉反馈;并且来自用户的输入可以以任意 形式被接收,包括声音、语音或触觉输入。 所公开的实施例可以在计算系统中实施,所述计算系统包括例如数据服务器的后 端组件,或者包括例如应用服务器的中间件组件,或者包括例如客户端计算机的前端组件, 所述客户端计算机具有图形用户界面或Web浏览器,用户能够通过其与这里所公开的实施 方式进行交互,或者包括一个或多个这样的后端、中间件或前端组件的组合。所述系统的组 件可以通过任意形式或介质的数字数据通信进行互连,例如通信网络。通信网络的示例包 括局域网("LAN")和广域网("WAN"),例如因特网。 所述计算系统可包括客户端和服务器。客户端和服务器通常彼此远离并且典型地 通过通信网络进行交互。客户端和服务器的关系源于在各自计算机上运行并且彼此具有客 户端_服务器关系的计算机程序。 虽然该说明书包含许多特定细节,但是这些不应被理解为对所要求保护或可要求 保护的范围的限制,相反应理解为对专对于特定实施例的特征的描述。该说明书中在分立 实施例背景下所描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例背 景下描述的各种特征也可以在多个实施例中独立实施或者以适当的任意子组合来实施。此 外,虽然特征在以上可被描述为以某些组合进行作用并且甚至最初如此要求,但是来自所要求组合的一个或多个特征在一些情况下可从组合排除,并且所要求的组合可针对子组合 或者子组合的变化形式。 类似地,虽然在附图中以特定顺序对操作进行了描述,但是这不应被理解为要求 这些操作以所示顺序或连续顺序执行,或者要执行所图示的所有操作以实现所需的结果。 在某些情况下,多任务和并行处理会是有利的。此外,以上实施例中所描述的各系统组件的 划分不应当被理解为在所有实施例中要求这样的划分,并且其应当被理解为所描述的程序 组件和系统一般可以在单个软件产品中集成在一起或者封装到多个软件产品中。
由此,已经描述了特定实施例。其它实施例在所附权利要求的范围之内。
权利要求
一种方法,包括接收源语言的源查询;将所述源查询翻译为与所述源语言不同的第一目标语言的候选查询;接收将所述候选查询修改为所述第一目标语言的第一目标查询的输入;识别满足所述第一目标查询的所述第一目标语言的一个或多个资源;将所识别的资源翻译为所述源语言的对应的翻译资源;以及呈现与所述翻译资源相对应的搜索结果。
2. 如权利要求1所述的方法,进一步包括与所述搜索结果一起呈现所述翻译资源中的 一个或多个的所述源语言的摘录。
3. 如权利要求2所述的方法,进一步包括为相应翻译资源的相应摘录呈现所述第一目 标语言的相应资源的对应摘录,其中所述相应翻译资源是所述相应资源的翻译。
4. 如权利要求1所述的方法,其中将所述源查询翻译为候选查询包括 选择所述源查询的所述第一目标语言的一个或多个候选翻译中的一个作为所述候选 查询。
5. 如权利要求4所述的方法,其中接收将所述候选查询修改为第一 目标查询的输入包括接收选择与所述候选查询不同的所述候选翻译中的一个作为所述第一目标查询的输入。
6. 如权利要求l所述的方法,进一步包括 生成与所述源查询相关的一个或多个查询;并且将与所述源查询相关的查询翻译为所述第一 目标语言的一个或多个候选相关查询; 其中接收将所述候选查询修改为第一目标查询的输入包括接收选择所述候选相关查 询中的一个作为所述第一目标查询的输入。
7. 如权利要求l所述的方法,进一步包括 识别与所述候选查询相关的一个或多个查询;其中接收将所述候选查询修改为第一目标查询的输入包括接收选择与所述候选查询 相关的查询中的一个作为所述第一目标查询的输入。
8. 如权利要求1所述的方法,接收将所述候选查询修改为第一目标查询的输入包括 接收将所述候选查询编辑为所述第一目标查询的用户输入。
9. 一种方法,包括接收指定源语言、所述源语言的查询以及目标语言的一个或多个用户输入; 呈现所述查询到所述目标语言的翻译; 接收对所述查询的所述翻译进行修改的用户输入;以及呈现满足所述查询的经修改的翻译的所述目标语言的一个或多个搜索结果到所述源 语言的翻译。
10. 如权利要求9所述的方法,其中呈现所述查询的翻译进一步包括呈现与所述查询 的所述翻译相关的所述目标语言的一个或多个查询。
11. 如权利要求io所述的方法,其中与所述查询的所述翻译相关的所述目标语言的查询包括由以下所构成的组中的至少一个所述查询的所述翻译的同义词、所述查询的所述翻译的縮写、所述查询从所述源语言到所述目标语言的替选翻译以及所述查询的所述翻译和一个或多个附加词语的组合。
12. 如权利要求IO所述的方法,其中接收对所述查询的所述翻译进行修改的用户输入包括接收选择与所述查询的所述翻译相关的所述目标语言的查询中的一个的用户输入。
13. 如权利要求9所述的方法,其中接收对所述查询的所述翻译进行修改的用户输入包括接收对所述查询的所述翻译进行编辑的用户输入。
14. 如权利要求9所述的方法,其中呈现一个或多个搜索结果的翻译包括呈现所述搜索结果的所述翻译的所述源语言的摘录。
15. 如权利要求9所述的方法,进一步包括呈现满足所述查询的经修改的翻译的所述目标语言的搜索结果。
16. 如权利要求15所述的方法,其中呈现满足所述查询的经修改的翻译的所述目标语言的搜索结果包括呈现所述搜索结果的所述目标语言的摘录。
17. —种方法,包括在显示设备上显示搜索界面,所述搜索界面包括用于接收查询的第一用户输入的第一域,用于接收指定所述第一用户输入的源语言的第二用户输入的第二域,以及用于接收指定目标语言的第三用户输入的第三域;基于所述第一、第二和第三用户输入,生成第一结果界面并且在所述显示设备上显示所述第一结果界面,所述第一结果界面包括所述查询到所述目标语言的翻译,以及用于接收对所述查询的所述翻译进行修改的第四用户输入的第四域;以及基于所述第一、第二、第三和第四输入,生成第二结果界面并且在所述显示设备上显示所述第二结果界面,所述第二结果界面包括满足所述查询的经修改的翻译的所述目标语言的一个或多个搜索结果到所述源语言的翻译。
18. —种系统,包括一个或多个处理器;禾口被配置为由所述一个或多个处理器执行的指令,所述指令包括用来执行以下的指令接收源语言的源查询;将所述源查询翻译为与所述源语言不同的第一 目标语言的候选查询;接收将所述候选查询修改为所述第一 目标语言的第一 目标查询的输入;识别满足所述第一 目标查询的所述第一 目标语言的一个或多个资源;将所识别的资源翻译为所述源语言的对应的翻译资源;以及呈现与所述翻译资源相对应的搜索结果。
19. 一种计算机程序产品,编码在有形的程序载体上,可操作以使得数据处理装置执行包括以下的操作接收源语言的源查询;将所述源查询翻译为与所述源语言不同的第一 目标语言的候选查询;接收将所述候选查询修改为所述第一 目标语言的第一 目标查询的输入;识别满足所述第一 目标查询的所述第一 目标语言的一个或多个资源;将所识别的资源翻译为所述源语言的对应的翻译资源;以及呈现与所述翻译资源相对应的搜索结果。
20. —种系统,包括用于接收源语言的源查询的装置;用于将所述源查询翻译为与所述源语言不同的第一目标语言的候选查询的装置;用于接收将所述候选查询修改为所述第一目标语言的第一目标查询的输入的装置;用于识别满足所述第一目标查询的所述第一目标语言的一个或多个资源的装置;用于将所识别的资源翻译为所述源语言的对应的翻译资源的装置;禾口用于呈现与所述翻译资源相对应的搜索结果的装置。
全文摘要
用于跨语言信息检索的方法、系统、装置,包括计算机程序产品。接收源语言的源查询。将所述源查询翻译为目标语言的目标查询。识别满足所述目标查询的一个或多个目标语言资源。将所识别的资源翻译为源语言。呈现与所翻译资源相对应的搜索结果。
文档编号G06F17/30GK101743544SQ200880024748
公开日2010年6月16日 申请日期2008年5月16日 优先权日2007年5月16日
发明者亚历山德拉·科约乌霍夫, 林嘉珊, 檀慧, 秦家豪, 莫琳·海曼斯 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1