多语言信息检索的制作方法

文档序号:6454791阅读:435来源:国知局
专利名称:多语言信息检索的制作方法
技术领域
本披露涉及信息检索和/或搜索领域。更具体地,本披露涉及属于信息
检索(IR)的子领域的跨语言信息检索。
背景技术
3争语言信息;险索(CLIR)处理提供一种语言的查询而用一种或多种不 同语言搜索文档集。例如,用户可能会使用中文进行他/她的查询,但却希 望检索最初用英文书写的相关文档。跨语言信息检索也被称为多语言或跨越 语言信息;险索。
在这个信息爆炸的时代,尤其是随着因特网(WWW或Web)的发展, 人人都可以创建自己的网站(例如,博客),如何在海量的可用信息中查找 用户所需的信息成为一项具有挑战性的工作,如果用户需要查找的信息是其 它语言书写妁,则查找的难度更大。在许多情况下,最相关的信息是使用外 语表述的。然而,采用传统的信息检索工具,语言障碍可能会阻碍用户检索 到这种文档。例如,如果用户使用英语发出关于"伊拉克战争"的查询请求, 传统的信息检索系统不会获取使用中文表述的包含"伊拉克战争"字样的文 章,例如可在http:〃14U55.90.70:88/files/articles/Iraq.htm上获得的这篇文 章,因此无法体现中文信息发布者对伊拉克问题所持的观点。另一方面,如 果用户使用中文发出"毛泽东"的查询请求,系统也不会获得采用英语书写 的文章,例如在 http:〃www.time.com/time/thiielOO/leaders/profile/rnao.htrnl 上的文章,因此无法展现出英语用户对毛泽东所持的观点。
在执行单语言搜索(信息检索)的传统技术中,用户在一个输入框中指 定一组单词,短语或语句(以下单独或统称词语),用以传达所需查找信息的语义,也可称为查询请求,该查询请求可通过点击近旁的"搜索,,按钮等 方式进行提交。传统系统会以尽可能完整的方式,在目标文档組中(例如, 网上的所有或部分文档)搜索与查询请求相关的文档,然后会根据这些文档 与查询请求的相关程度进行排序,最终按照排序显示搜索结果。传统信息检 索系统的主要目的在于尽可能多地发现与用户查询请求相关的文档(查全) 而尽可能少的检索到非相关文档(精准)。传统信息检索系统如图l所示。 网上的文档类型各式各样,且文档的表述语言各不相同。许多文档都采
用各种不同格式(如,Html, Doc, PDF ),且各种图片上的说明也可能采用不 同语言。 一项单一的查询请求最好触发对所有这类资源的搜索。
查询请求通常会经过处理,以便信息检索系统可以利用此类查询进4亍适 当的搜索。如果一种信息检索系统能够将查询请求翻译为另一种语言,该系 统则能够在文档组中搜索其它语言的相关文档。同样,如果信息检索系统能 够将查询请求转换为另外一种形式,则信息检索系统将能够有效扩大搜索范 围。通常,为了确保完整地进行搜索,往往需要进行人机互动。
一系列技术被提出用于解决如何在电脑中表述文档的问题。另外,还有 许多其它用于解决查询处理,索引,排序的信息检索技术。例如,在一种传 统技术中,文档集是通过一组索引词语或关键词来表述的。此类关键词可以 从文档的正文中直接提取,也可以通过人工指定,例如图书馆学中经常采用 的方式。索引方法案例如图2所示。
在跨语言搜索中,需进行一种或多种语言的翻译,例如,将一项查询请 求从源语言翻译为目标语言,然后使用翻译后的查询请求进行单语言搜索, 或者将文档从目标语言翻译为源语言,然后使用原查询请求进行单语言搜 索。另外也有人提出将查询请求和文档都翻译为某种中间表述,以便能够对 两者进行比较。图3中的表格是对当前跨语言信息检索方法的筒要概述。
美国专利号码5,301,109,名为"采用隐性语义索引进行计算机化跨语 言文档检索"的专利,可为跨语言信息检索提供一种基于语料库的中间表述 方法。美国专利号码5,867,811,名为"采用双语数据库包括对齐语料库的方法、设备、系统、存储装置及计算机可读介质,,同样也提出了一种基于语 料库的方法
美国专利号码6,321,191,名为"拥有多个跨语言检索单元、可根据所 提取的独立词语进行语句匹配的相关语句检索系统",提出一种技术,为从 n种跨语言检索系统中检索出相关语句。n种系统中,每一种都包含了一个 数据匹配存储单元,可对拥有相同含义的多个匹配数据(两种语言)进行存 储。
当用户使用自然语言进行查询时,无论是单语言信息检索还是跨语言信 息检索都面临着理解用户真实意图的困难。信息检索不同于数据检索,主要 任务是确定文档集中的哪些文档包含了用户查询请求中的关键词。与针对符 合给定查询请求的数据检索相比,信息检索的用户对于就某一主题检索信息 更为关心。用户只是采用自然语言来表述所要查询的信息。因此,好的信息 检索系统应具备一定的自然语言理解能力。例如,如果用户查询"便宜的电 脑",包含"廉价计算机"但不包含"电脑"或"便宜"的文档可能就不会 被展现给用户。
为了确保搜索结果的完整性,查询请求可被处理为一组同义词,例如, (cell phone, mobile phone, cellular phone,手机,移动电话),(布什、布 希,Bush),等等。
G. Salton在《美国社会信息科学杂志》的"外语文档的自动处理"(1970) 一文中提出了在跨语言信息检索中采用同义词辞典(存储了多个同义词)的 技术。Salton发表了一种实验方法,可采用向量表述和搜索技术,配合人工 创建的双语同义词辞典进行一种语言文档对另 一种语言查询请求的自动检 索。测试样本获得的摘要和查询结果让我们感到前景光明。然而,要创建一 个足够规模的多语言同义词辞典难度很大且需要相当多的人力成本。
如下案例说明了为何需要将一个查询请求扩展为一组同义词。在搜索关 于跨语言信息检索的文档时,许多同义词可能会在搜索中进行替换,例如"跨 越语言信息检索,,,"多语言信息检索",而"Information Retrieval"可能会被"Search,,或"communication,,所替代,"-lingual"可能会被"Language,,所 替代。这个案例短语可被扩展为至少12个同义或相关词语。另外,此搜索 还可能通过相关技术领域的规范来引导,例如"搜索引擎","机器翻译,,, 等等。
例如, 一 位用户可能会在搜索引擎中查询西班牙语"conjeturar sin fundamento,"且可能会检索包括原查询词语或与原查询词语密切相关的结 果。然而,为了搜索与"conjeturar sin fimdamento"相关的文档并尽可能多地 查找与用户查询相关的文档,在搜索中会需要进行多个同义词的替换,例如 "adivinar a ciegas", "hacer suposiciones gratuitas"。 但是,如何自动生成一组 同义词来基于一个查询词语触发多重搜索仍然是一项具有挑战性的任务。
中国计算技术研究所软件部开发了 一套关于中国旅游的搜索引擎问答 系统,采用同义词辞典将用户查询扩展为多个同义词或相关单词。然而,同 义词辞典是由人类信息专家人工开发和维护的。
基于字典的方法通常会存在oov (超出词库范围)这个主要问题,例
如人名,公司名/机构名和地名,品牌名称,等等。传统的基于静态字典的 跨语言信息检索方法无法跨越这个难题。另外,同义词辞典可以将用户查询 请求扩展为多个同义词或相关单词,但无法尽可能少地检索非相关文档,因 为它无法指定该搜索的相关语境,从而缩小检索结果的范围。
美国专利号码6,604,101,名为"在计算机网络上查询和搜索跨语言翻 译及多语言信息检索的方法和系统"提出了一种"严格/受控的查询"方法, 即当用户通过源语言输入一项查询请求后,该请求会经过一个"方言控制器" 的标准化和规范化处理,如果没有找到该用户的查询请求的标准化形式,该 用户将被提示采用另 一种方式来描述所要查找的信息,然后标准化的查询词 语;故翻译为目标语言查询词语,用于搜索目标语言文档组。美国专利号码 6,604,101未披露或建议采用存储同义词或相关词语,或类似说法的多语言、 动态演进的字典。
美国专利申请公开号码20040139107Al,名为"通过跟踪和保存用户互动结杲而实现的动态更新搜索引擎知识和处理数据库,,,提出将跟踪用户互 动及其所保存的信息作为一项查询请求的补充信息。然而,美国专利应用出
版号码20040139107 Al并未披露或建议根据多语言web用户投票来更新多 语言知识库。
在美国专利申请公开号码20040139106 Al,名为"可基于自然语言来 有效切分用户查询并进行相关反馈学习的搜索引擎,,,提出一种方法,可通 过与用户之间的互动和反馈来服务于用户。然而,美国专利应用出版号码 20040139106http:〃appftl .uspto.gov/netacgi/nph-Parser Sectl=PT02&Sect2=H ITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.html&r=99&f=G&l=Al并未 披露或建议采用基于多语言网络用户投票的多语言知识库。
美国专利号5,384,701,名为"语言翻译系统"的专利,提出了一种可 将第 一语言翻译为第二语言的系统。该系统包括一个保存了第二语言短语集 合的存储库。用第二语言表述的短语事先已准备好并保存在存储库中。例如, "你好"被保存为"How do you do "。然而,美国专利号码5,384,701的专利 并未披露或建议知识库可通过web用户的贡献来进行动态更新。
跨语言信息检索技术仍然存在很大的提升空间。

发明内容
本披露的主旨在于提供一种通过多重版本的查询文档以及(或者)相应 的翻译结果自动扩展查询请求并且增加相关文档检索的可能性的方法。
一方面,采用源语言的搜索查询请求被翻译为采用目标语言的多个搜索 查询请求。另外,检索到的目标语言文档可以被翻译回源语言,并且拥有多 重翻译结果。这样不仅与搜索查询匹配的相关文档能被检索并展现给用户, 而且与其同义词,翻译选项或相关词语相匹配的文档也能被检索并且展现给 用户。
本披露的主旨还在于提供一种通过用户投票来对信息检索系统中的同 义词辞典和/或字典进行动态更新的方法。一方面,提供了一个投票界面,允许用户对与相关语境有关系的特定翻 译选项进行编辑,存储,并且(或者)进行投票以表示支持或者反对。通过 积累此类投票,形成了一个多语言选词数据库,而且随着时间不断发展,还 可依据用户互动,贡献和/或编辑进行动态更新。选词数据库是对外开放的, 任何感兴趣的人都可以访问。此外,投票人可以输入相关的词语以规定具体 领域,范围和/或语境,此类相关词语也可被储存在选词数据库中(例如作为 翻i奪选项的一部分)。
本披露同时提供了 一种可自我学习的翻译引擎,能够根据要求翻译文 档,并且选词数据库中多语言且不断升级的知识进行动态的自我更新。例如, 文档能被切分成语句和/或者其它自然语言单元,诸如短语,关键字,俗语 表达等等,源语言单元可同其翻译结果一同被保存,进一步强化多语言信息 库。从而翻译引擎可随着时间和自然语言的发展趋势进行更新。
此外,本披露的主旨还在于提供一种方法,根据不断更新的多语言知识 库组织并维护多语言文档库,且根据相关的语境自动生成多重版本的文档。 从而一个文档变为多个相似文档,从而不论在多语言搜索中,还是在单一语 言搜索中,都提高了检索相关结果的概率。
因此,本披露的另一个方面说明了翻译引擎能够对文档执行对语境敏感
的翻i奪。


参照附图和下面的详细说明,可以更好地理解本披露的特性,其中
图1显示说明一种传统信息检索系统的方框图2显示说明 一 种采用索引方式的传统信息检索方法的流程图3显示一种简要归纳传统跨语言信息检索技术的表格;同时,
图4显示了 一种依据本"&露的示范性实施例的多语言信息检索方框图。
具体实施例方式
本披露的主旨包括对自然语言随着时间不断演进,以及随地理区域而变 "^匕的i人4口。 虽然"mobile phone"或者"cellular phone"是jt匕类电^舌的才示准 用词,但使用的几率却越来越有限,而如今电话通常被广泛地称为"cell phones"。几年前,年轻女孩可以被称为" miss 或者 "young lady", 但是 现在在网上聊天环境中更为经常被称为"chick"。在汉语中,上个世纪年轻 女孩被称为带有政治色彩的"同志",但是在当代中国,可通过更加丰富的 词语来称呼她们,例如"小姐,,,"美女,,,"靓女","美眉,,等等。此 外,大陆人说"布什",台湾人说"布希,,,而香港人则是说"布殊,,。新 词语,新的实体名称,人或机构名称等更是日新月异。
因此,为信息检索系统使用的存储于字典或同义词辞典中的知识进行动 态更新的能力是本披露的重要内容。在示范性的实施例中, 一个存储单词、 短语或语句的动态多语言库被生成,并通过世界各地的多语言用户(即,使 用多于一种语言说话或交流的人)进行公众投票实现更新。例如,任何多语 言用户都有权根据自己的个人理解决定如何将某个单词、短语或者语句翻译 成作为众多翻译选项之一的目标语言。在一个特定的语境中,西班牙语短语 "conjeturar sin fundamento"可从源-i吾言西班牙语翻-泽为目标语言汉语中的 "瞎猜"。另一位用户可能才更票表示相同的短语"conjeturar sin fundamento" 翻译为目标语言汉语中的"没有根据的猜想"。在又一种语境下,同样的短 语"conjeturar sin fundamento"可負^会纟皮译为目标语言汉语中的"乱猜"。 在再一种i吾境下,同才羊的短j吾"conjeturar sin fundamento"可能会孚皮i奪为目 标语言汉语中的"无根据的假定"。
用户可通过投票界面添加投票,并且可以编辑,存储和/或投票赞成或 者反对某个与相关语境有关的翻译选项,形成一个随时间演进的多语言选词 数据库,并且通过用户间的互动、贡献和/或编辑进行动态更新。用户也可 通过(以下单独和/或统称为"相关词语")增加相关的单词、短语或语句来描述某个翻译选项,为他或她添加投票的网页指定一种语境,以使机器记
录网页的相关语境关系。例如,在某些语境中,可添加"Hongkongers"作 为描述翻译选项"Bush"-"布殊"的相关词语。
每个人都有权力决定某个单词/短语/语句应如何被翻译,并应当获得同 等的机会针对某个单词/短语/语句来创建自己的翻译。每个人都可以投票赞 同现有的翻译,或者投票反对现有的翻译。另外,在排名并展现热门文档时, 用户可以选择使用自己认为最舒服的词语,并/或指定在哪些相关语境中检. 索文档。
词语的翻译因人而异。例如,台湾人通常会将"president Bush ,,翻译为
"布希总统,,,而大陆人习惯于将其翻译为"布什总统",香港人则一般将其翻 译为"布殊总统"
因特网对于全球因特网用户来说是"民有、民享和民治"的。因此,每 个人都有权力访问任何文档,不论它是英文的、中文的、德文的或法文的。 每个人都有权力以自己的语言和方言,向世界传达他的观点(例如通过创建 自己的个人网站),并且可以与全世界上的其他人共享自己的知识、词汇以 及表达方式。本披露所提供的主题本质是为每个人提供一个以自己所需的语 言在因特网上发表观点,词汇等等的渠道。
例如,如果一位用户为非赢利性组织"亚洲育才学校"工作,该用户可 以指定将该机构的名字翻译为"Asian-American Coalition for Education"。该 搜索引擎可4吏用"Asian-American Coalition for Education" 来查询英语文档, 或者该翻i斧引擎可以使用中英对照的方式来4丸行文档翻i奪,从而该中文名字 不会乓皮翻译为蹩脚的英文,例如,"Asia Mode school"。
文档的解释也可能会因人而异。某人可能将"Can you give me a hand " 解释为"Can you assist me to do this ",而另 一人可能解释为"Can you help me "。采用多语言知识库,用户可以通过将文档翻译为不同版本并翻译回去 而自动生成一个文档的多个版本。这样该用户就可以利用搜索引擎进行查 询,并检索一个文档派生出来的多个版本。例如,包舍"cheap airplane tickets sold at the lowest price"的文档可能以 不同形式被翻译或解释。根据添加到多语言选词数据库的翻译选项,该词语 可被翻译为多种汉语形式,如"廉价的机票,,,"最低价出售"、"便宜机 票卖最低价格"、"甩卖飞机票"或者"飞机票大减价","价格最低"等, 当更多的翻译选项被输入到多语言选词数据库后,在其它网页中它可能被翻 译为更多的版本。同时,用户还可以通过汉译英的形式插入翻译选项,在各 文本中将"廉价"翻译为"discounted"或者"inexpensive",将"机票"翻 译为"airline ticket"或者"plane ticket",将"甩卖,'翻译为"dumping" 或者"on sale"。因此,使用多语言知识库且在动态演进的多语言选词数据 库中结合不同的翁3译选项,包含"cheap airplane tickets sold at the lowest price"的文本可自动地翻译回源语言英语,并生成多种结果,例如"cheap airplane tickets on sale" 、 "inexpensive plane tickets sold at the lowest price"、 "discounted airplane tickets on sale"或者"dumping airline tickets", 并可負fe 根据当前的投票而产生更多版本。源于该文档的多种版本可能被存储,然后 帮助在搜索引擎中使用各种查询词语进行查询的用户进行检索,例如 "discounted tickets" 、 "inexpensive tickets" 、 "plane tickets lowest price"、 "airplane tickets on sale"和/或"dumping plane tickets"等。从而,尽可負fe 多地查找与用户查询请求相关的文档。
进而,用户可根据自己的查询词语和/或相关词语规范来检索文档,从 而缩小搜索结果的范围。用户可以在翻译选项中选择一个同义词来指定搜索 查询请求,并/或选择一个相关词语来指定相关语境,然后依照自己的查询 词语和/或相关语境的规范来显示搜索结果。例如,用户可以选择翻译选项 "布殊"和/或相关词语"Hongkongers",然后根据所指定的搜索查询请求 和/或相关词语显示相关搜索结果。
对于搜索查询请求和检索文档的多重翻译结果某个源语言的搜索查询 请求被翻译成一组采用目标语言的多个搜索查询请求,并通过它查询目标语 言文档库。检索到的目标语言文档可以被翻译回源语言,并且拥有多重翻译结果。同时,源语言的某个搜索请求可被用来查询源语言文档库,然后,所 检索到的源语言文档可被翻译为多个目标语言的文档,并拥有多重翻译结 果。在翻译过程中,当多个单词,短语,语句或表达的翻译选项都可用时, 则选词数据库中获得最多投票数的那个选项被采用,同时其它选项会以元数 据和/或隐藏字段的形式被保存在翻译文档中。例如, 一个西班牙语的搜索
查询请求"conjeturar sin flindamento"可能被翻译成一 系歹'j目标语言为中文 的搜索请求,比如"瞎猜","没有根据的猜想","乱猜"和/或"无根 据的假定"。然后,检索到的目标语言文档会被重新翻回源语言西班牙语, 生成像"conjeturar sin fundamento" , "adivinar a ciegas",和"hacer suposiciones gratuitas"等多个翻译结果。在翻译过程中,具有最多投票数的选项"conjeturar sin fundamento"可育M皮选择,同时其它选项"hacer suposiciones gratuitas"和 "adivinar a ciegas"会以元数据和/或隐藏字段的形式被保存在翻译文档中。
通用选词数据库中的公共投票通用选词数据库是公开的,任何人通过 因特网均可访问。任何人都能够浏览并更新它。当某个人建议源语言的某个 单词,短语,语句或表达X应该被翻译成目标语言的单词,短语,语句或 表达Y时,针对X—Y关系(称为翻译选项)的投票数会被增加一,越多的 人为X—Y关系投票,在结果文档中X被翻译成Y的可能性就越大。在给 出建议的同时,该人还可以输入一些相关的短语来提示此关系的领域,范围 和/或语境,并且相关单词、短语或语句也可以:故存储在选词数据库中,与 某个特定的翻译选项相关联。比如,在相关词语被投票为雅虎和/或共同创 办人的情况下,"Jerry Yang"可能会被投票翻译为"杨致远"。针对相关 语境,在相关词语被投票为总统和/或"Hongkongers"的情况下,"Bush"可 能被投票翻译为"布殊"。
通用翻译引擎通用翻译引擎是一种能根据请求翻译任何文档的翻译 引擎。它能够通过自学存储在通用选词数据库中的多语言知识,来进行动态 更新。基于通用选词数据库中的公共投票,通用翻译引擎能够自学不断演进 的自然语言知识,吸收新的翻译选项到它的数据库,字典或同义词辞典中,从而能够进行自我动悉更新,以确保在自然语言发展趁势中保持最新状态。
例如,"美眉"到"hotchick",这个通用选词数据库中新的中到英翻译选 项,可能被吸收到通用翻译引擎词典中,并被用来根据请求翻译任何文档。 在专用选词数据库中为特定语境进行的公众投票专用选词数据库与特 定的语境相关联,也是公开的,所有人都可以通过因特网进行访问。任何人 都可以浏览并更新与特定语境(比如一页网页或一组相关网页)相关联的专 用选词数据库。用户可以在专用选词数据库中添加新的翻译选项,并在与特 定语境相关联的专用选词数据库中对当前的翻译选项进行编辑、存储和/或 进行投票表示赞同或反对。因此,当有人建议将源语言的某个单词、短语、 语句或表达X在特定的语境中翻译成目标语言的单词、短语、语句或表达 Y,那么在与给定语境相关联的特殊选词数椐库中对X —Y(被称为翻译选 项)的赞同票数就增加l票。在翻译过程中,如果单词、短语、语句或表达 在通用选词数据库或专用选词数据库中对应于多个翻译选项,专用选词数据 库中拥有最高赞同票数的选项则自动被列为默认选项,同时其他的选项以元 数据和/或隐藏字段的形式保存在翻译文档中。例如在一个或一组相关网页 中,如果是包含"president Bush"的香港网页或一组香港网站,那么在与香 港网站相关联的专用选词数据库中拥有最高赞同票的翻译选项"Bush"—"布 殊"就自动成为翻译过程中的默认选项。其他选项如通用选词数据库中的 "Bush"—"布什,,及"Bush"—"布希"则以元数据和/或隐藏字^f殳的形式保 存在翻译文档中。
专用翻译引擎专用翻译引擎是一种能根据请求在特定语境下翻译文档 的翻译引擎。它能够被训练为通过自学存储在专用选词数据库中的多语言知 识,来进行动态自我完善。基于通用选词数据库中的公共投票,专用翻译引 擎能够不断自学关于自然语言的知识,吸收新的翻译选项到它的数据库,字 典或同义词辞典中,从而能够进行自我动态更新,以确保根据自然语言发展 趋势,在特定语境下保持最新状态。例如,在某个香港网站中,专用选词数 据库中的一个新的中英翻译选项"董建华"—"Tung Chee-hwa"可能会被纳入专用翻译引擎的词典,并用于根据请求对一组香港网站中的文档进行翻 译。
对语境敏感的翻译翻译应对语境敏感。语境表现为多种形式,包括但 并不仅限于基于网络的环境、文档类别和/或网络链接等等。例如, 一个网 络链接和/或一组网络链接(如同 一个域名或同 一个子域名下的网络链^妄) 可以构成通过电脑处理自然语言的语境。如果在给定的网络链接中通过才殳票 界面向选词数据库中插入投票,那么将自动生成一个基于该网络链接(语境) 的专用选词数据库,该链接与用于描述本次投票的相关词语相关联,与此同 时,该次投票将被插入与该网络链接(语境)无关的通用选词数据库中。专 用选词数振库中的投票数由电脑独立统计。在给定语境的翻译过程中,如果 存储在专用选词数据库中某翻译选项(如,,Jerry Yang"—"杨致远,,)的才殳票 数与通用选词数据库中的票数不 一 样,则优先采用专用选词数据库中的票 数。在给定语境的翻译过程中,如果单词、短语、语句或表达方式在通用选 词数据库和专用选词数据库中对应于多个翻译选项,专用选词数据库中拥有 最高票数的选项将自动列为针对该语境的默认选项。电脑并不能像人一样 "理解,,语境然后进行表述,但它可以记录并保存基于网络的环境、文档类 别和/或网络链接,通过它们可以插入投票并与用于描述投票的相关词语相 关联(票数)。因此,新文档的"语境,,可以由基于网络的环境、文档类别 和/或网络链接来决定,通过此方式,该文档被提交进入翻译程序。在翻译 过程中,针对由域名、子域名和/或一组域名所确定的一组类似网络链接将 使用不同的专用选词数据库及专用翻译引擎。例如,同一域名下有网络链接 1和网络链接2,基于网络链接1的专用选词数据库和专用翻译引擎可以按 照翻译要求应用于通过网络链接2提交的新文档。另外,用于描述投票的相 关词语也可以用来描述插入投票的网络链接("语境")。因此,语境在电 脑中表现为相关词语。
动态翻译数据库选词数据库由用户持续更新,因此可以用作一个动态 翻译数据库,它涵盖了自然语言中的大部分最新单词、短语、语句或表达。该选词数据库有别于传统意义上的词典,同时也通过下面的方式对传统词典 进行了补充它是交互式的,翻译数据库与用户的互动使得用户可以对该数
据库进行实时更新,并实时搜索和查看更新内容;它所包含的内容比传乡充词 典更为广泛,收集了独特的表达方式、产品名称、地名、人名等等,这些是 传统词典中所没有的内容,但搜索者经常在搜索查询中用到;它是动态的, 根据用户对单词、短语、语句及表达的翻译结果的选择及喜好程度而发展变 化(而传统词典的内容在出版发行之后是固定不变的,只能在一段时间如几 个月甚至几年之后进行改动,因此对搜索者在进行多语搜索时具有一定的局 限性);它包含大多数的最新信息,不像传统词典的编译过程会造成延时; 它收集了所有用户的投票,因此在翻译过程中它就可以考虑到单个用户对最 新单词、短语、语句和/或表达方式的投票,而机器翻译引擎所使用的传统 词典则没有这种功能,这样就使得基于这些词典的翻译引擎无法识别这些单 词、短语、语句和/或表达方式。
公众投票中的自动双向翻译选项针对任何翻译选项的投票会自动进行 回译,因此X和Y之间的关系就被保存为双向的翻译选项,即关系X — Y 的投票每增加一,对反关系Y —X的投票也自动增加一。因此,该选词^t据 库可以以两种方式4吏用/人源-浩言到目标语言以及从目标语言到源i吾言,这 样就丰富了翻译选项。例如,某个用户可以在多语选词数据库中加入"hot chick"—"美眉"翻译选项或对其进行投票,此时对"美眉"—"hot chick" 翻译选项的投票也自动增加一。
翻译文档的本地服务器存储从因特网上下载已翻译成目标语言的文档 并保存在一组本地服务器上。源语言文档通常保存在位于别处甚至是其他洲 的远程服务器上,因为远距离因特网传输的缘故很难对这些文档进行检索。 因此,这些文档在检索之前就已经被翻译为目标语言并保存在本地服务器 上,从而确保通过搜索引擎实现最快速的检索,从而使多语搜索更加方便。 例如,可以将网站www.youtube.com及其网页翻译成中文并保存在一组本地 服务器上,因此中国的用户可以在搜索引擎中发送中文查询请求"播送你自己,,并对从因特网上下栽的网页的翻译丈档进行检索,从而查找
www.youtube.com网力占上的英文1言息。
多语言库源语言文档和已翻译文档一起被存储于一组本地服务器上构 成了一个多语言库。这个已保存信息数据库包括源语言和目标语言之间平行 页面,文本,单词,短语,语句,表达和文档,并通过网页用户添加新文档 及为数据库投票来进行自动更新。当翻译引擎从因特网接收到一个用于查询 网页或基于网络的任何其它信息的查询请求时,翻译引擎自动执行翻译程 序,然后源语言文档和已翻译文档被一 同添加到多语言库并存储到 一组本地 服务器上。同时,已翻译文档可被译回源语言,并根据选词数据库中的当前 投票状态,连同多个已翻译版本,添加到多语言库,存储到一组本地服务器 上。这样源语言和目标语言之间的平行页面,文本,单词,短语,语句,表 达和文档就被从因特网下栽并以可浏览网页和/或元数据和/或隐藏字段的形 式成对组织起来。这些匹配对可被进一步扩展为更多语言对,并以元数据和 /或隐藏字段的形式被组织为 一系列在因特网上可显示及浏览的网页,并通 过某些如"English", "Spanish", "Chinese"的按钮或链接来导航。例如, 一个 包含词语"cheap airplane tickets sold at the lowest price"的网页可被发送到翻 译引擎并根据当前投票被自动翻译为多个中文版本,然后作为 一组包含各种 中文词语的网页被保存到本地服务器,例如"廉价的机票,最低价出售", "便宜机票卖最低价格","甩卖飞机票",或"飞机票大减价,价格最低"等等。 之后,连同源网页和已翻译网页 一起被从因特网下载下来并存储到一组本地 月良务器上,以包含词i吾"cheap airplane tickets sold at the lowest price"和已翁'〗 译词语"廉价的机票,最低价出售",或是其它选项如"便宜机票卖最低价格",
"甩卖飞机票,,,和"飞机票大减价,价格最低"等等可浏览网页的形式被成对 组织起来,并以元数据和/或隐藏字段的形式被保存。中英匹配对可进一步 扩展为包括更多语言的匹配对,例如包含词语"se venden billetes de avi6n mds baratos"的英语-西班牙语匹配对,因此一组包含词语"cheap airplane tickets sold at the lowest price","廉价的机票,最低价出售"和"se venden billetes deavi6n m&s baratos"的网页以元数据和/或隐藏字段的形式被组织为 一 系列在 因特网上展现的可查看网页,并用类似"English", "Spanish", "Chinese,,等等 的按钮或链接用于导航。
将保存在多语言库中的文档自动切分为语句和/或其它自然语言单元形 式,例如短语,关4建词,口语表达等等,从而形成一个公众可访问的平4亍语 言信息库。当从因特网上下载的文档被翻译并保存到本地服务器时,源文档 和已翻译文档均;故自动切分为语句和/或自然语言单元的其它形式,例力。短 语,关键词,口语表达方式等等,从而形成一个平行语言信息库。被切分单 元在公开目录中以成对和/或成串的形式被自动组织并显示,任何人均可通 过因特网进行访问。在公开目录中,拥有多个翻译选项的已切分单元,单词, 短语,语句或者表达均被突出显示。任何人均可浏览这些翻译选项及其相关 词.语,通过在选词数据库中添加新投票及(或)选择任何一个现有翻译选项 作为建议来加入自己的投票。例如, 一个源文档及其已翻译结果可能会被切 分为一对词"i吾"cheap airplane tickets sold at the lowest price"和"廉j介的才几 票,最寸氐价出售,',和/或一串词语"cheap airplane tickets sold at the lowest price","廉价的才凡票,最4氐^f介出售"和"se venden billetes de avi6n mds baratos,,,然后在公开目录中被显示出来供公开投票。通过浏览公开目录中显 示的成对词语和/或成串词语,用户可加入一个新的选词建议,即将"cheap airplane tickets sold at the lowest price,,翻译为"減价卖4/L票"。某些用户也许还 可以将公开目录中的修改单元上传到本地服务器上保存的网页并使之自动 替换在因特网上显示的老翻译版本。
多语言搜索条源语言文档和已翻译文档一起被存储于一组本地服务器 上构成了一个多语言库。通过提供多语言搜索条将某些查询词语指定到多语 言库中保存的文档,非跨语言搜索引擎也可获得多语言搜索功能。已保存信 息数据库包括源语言和目标语言之间的平行页面,文本,单词,短语,语句,
表达和文档,从而使搜索引擎可在从其它语言翻译过来的文档中进行检索, 并通过在现有搜索页中添加多语言搜索条实现跨语言功能。例如,包含词语"cheap airplane tickets sold at the lowest price"的丈档可4艮4居当前投票4皮翁3译 为多个中文版本并作为包含多个中文词语的一组文档被保存到本地服务器 上,例如"廉价的机票,最低价出售","便宜机票卖最低价格","甩卖飞机 票,,,或"飞机票大减价,价格最低,,等等。用户可以在与多语言搜索条相连接 的非跨语言搜索引擎中发送搜索查询请求"便宜机票",这个搜索引擎即可将 该查询请求指定到保存在多语言库中的已翻译文档并检索包含中文词语"便 宜机票"的文档。这样,多语言搜索的功能即可通过非跨语言搜索引擎来实 现。
通过某个文档派生的多个版本检索该文档 一位用户还可以在搜索引擎 中使用源语言发送搜索查询请求,并通过该文档派生的多个版本检索该文 档,该文档将被译回源语言并以元数据和/或隐藏字段的形式保存在本地服 务器上。例如,中翻英时,当前投票可能会将"廉价"翻译为"discounted"或将 "inexpensive","才几票,,翻译为"airline ticket", "plane tickets"或"airfare",或是 将"甩卖"翻译为"dumping,,或"on sale"。因此, 一个包含"cheap ahplane tickets sold at the lowest price"的文档会自动从包含中文"廉价","机票"和 "甩卖"的文档翻译回源语言英文,并根据当前投票生成包含词语如"cheap airplane tickets on sale", "inexpensive plane tickets sold at the lowest price", "discounted airfare on sale",或"dumping plane tickets"等的多个已翻译文 档。这些从该文档翻译而来的多个版本也以元凄t据和/或隐藏字4殳的形式^L 保存到本地服务器上, 一位用户可能会使用源语言发送搜索查询请求,例如 "discounted airfare", "inexpensive plane tickets", "plane tickets lowest price", "airplane tickets on sale",或"dumping plane tickets,,等等,并通过该文档派 生的多个版本,检索与用户查询请求相关的源语言文档。
已翻译文档的多面性(Multiple Facet):在任何从源语言翻译为目标语 言的文档中,尽管该文档通过选择其中某个单词,短语,语句和表达的翻译 选项之一进行了翻译,但其它翻译选项仍以元数据和/或隐藏字段的形式被 保存在文档中。因此已翻译文档不仅可以通过可浏览单词,而且可以通过隐藏单词的方式接受搜索引擎的访问。例如"手机,,这个词拥有如下翻译选项 cell phone, cellular phone, cell, mobile phone等等,尽管"cell phone',可能作
为获得最多投票的翻译选项或在特定语境中的默认翻译选项而被用作最终 显示出来的翻译结果,然而这组翻译选项均以元数据和/或隐藏字段的形式 保存在已翻译文档中。因此,已翻译文档不仅可通过搜索引擎在目标语言文 档中使用可浏览单词"cell phone"进行检索,而且可以在目标语言文档中使用 以元数据和/或隐藏字段形式保存的其它翻译选项"cellular phone", "cell", "mobile phone"等进行检索。
多重结果使用目标语言的一个文档基于该文档中的单词,短语,语句 和表达的翻译选项被翻译为使用源语言的一组文档。同时,使用源语言的一 个文档也可以同样方式翻译为使用目标语言的一组文档。所有这些已翻译文 档均拥有相似含义(以下称"相似文档,,),但措辞不同。因此一个文档变 为一组文档保存在多语言库中,从而增加了搜索引擎查寻到的几率并可提升 其在搜索结果列表中的排名。例如,搜索包含"conjeturarsinfundamento"的 文档,并尽可能多地查找与用户查询请求相关的文档,多个包含同义词的文 档如"adivinar a ciegas", "hacer suposiciones gratuitas,,可能会在4臾索结果中 被检索到,用户可通过指定一个同义词作为搜索查询请求,和/或一个相关 词语作为相关语境对搜索结果进行排名、显示并缩小搜索结果的范围。
动态浏览由于翻译文档具有多面性,即当一个文档(源)被翻译为一 组文档(目标)时,结果文档之一仅显示了该文档中在单词,短语,语句和 表达方面拥有最多投票数的翻译选项,或显示了在特定语境下的默认翻译选 项,而其它翻译选项则作为隐藏单词保存在元数据中,例如在一个特定网页 或一组相关网页中。这个所显示的,可浏览的目标文档即为查询源文档的翻 译时获得的文档。但当对源文档中任何单词,短语,语句和表达的投票数更 新后,原文档将动态获取一个新的目标文档,展现给搜索者,供其浏览。因 此任何所显示的,可浏览的目标文档总是伴随投票数的更新而更新。因此, 任何源语言文档到目标语言文档的翻译结果都是根据当前投票数而动态更新的。另外,存储于多语言库的文档可被某些用户进行修订,例如已翻译网 页的授权站长,并且拥有修订已保存文档权限的用户还可以将修订词语和/
或其它内容,包括但不限于图表,音乐,字幕,歌词等上传到保存于本地服 务器的网页上并自动替换该翻译结果的老版本和/或网上展现出来的其他内
容。例如,显示词语"mobile phone"的已翻译网页可根据通用选词数据库或 专用选词数据库中的当前投票情况和/或根据已翻译网页的站长修订,动态 获取一个包含词语"cell phone"的新目标文档,从而最新词语"cell phone"即 会被显示在已翻译网页中,取代词语"mobilephone"作为网上显示的可浏览 翻译结果。
自动同义词数据库在选词数据库和翻译数据库的帮助下,使用任4可语 言X的自动同义词数据库以如下方式自动生成根据使用X语言的任何单 词/短语/语句/表达E,查找在Y语言中的所有E的翻译选项,然后根据每个 Y语言的翻译选项,查找其在X语言中的所有翻译选项。使用X语言的所 有翻译选项加上使用Y语言的所有翻译选项构成了单词,短语,语句或表 达E在X语言的同义词数据库。在所得到的自动同义词数据库的帮助下, 与源语言文档相配的性能被显著改进。自动同义词数据库不同于传统的同义 词数据库,它是互动的,动态的,不断更新的,且拥有更强的理解能力,因 此可提升搜索查询请求的丰富性,并提供更加全面的搜索结果。例如,"手 才儿"这个词才用有^口下翁3译选项cell phone, cellular phone, cell, mobile phone 等等,也因此这些翻译选项拥有如下对应的翻译选项"手机","移动电话", "大哥大,,,"无线电话","蜂窝式电话,,,"细胞","蜂窝"等等。后面的一组 单词,短语和表达被保存在自动同义词数据库中,用于增加搜索查询请求并 提供更全面的搜索结果。
多选项的显示当一位用户通过使用搜索查询请求获取到检索结果,该 结果被显示为与用户搜索查询请求相匹配的 一些文档。同时该查询请求的同 义词会自动生成,且与这些同义词相关的词语也会在搜索结果页显示给用 户。当用户选择了任何的同义词和/或相关词语时,与所选同义词相匹配的文档就会在结杲页中提交给用户。因此,不仅与所输入的查询请求相匹配的 文档,而且与查询请求的同义词相匹配的文档均会一 同在最终显示界面提供
给用户。例如,用户可能会在自动生成的一組同义词中选择词语"discounted airfare"作为搜索查询请求"cheap tickets"的同义词之一,并在搜索结果中显 示与指定同义词相匹配的相关文档。另外, 一位用户还可能会选择与某个查 询请求在特定语境下的同义词相关联的相关词语之一,并4艮据自己对该相关 词语的说明显示结果文档,以缩小搜索结果的范围。例如,该用户可能会从 与人名"Jerry Yang"相关的 一组词语中选择相关词语"Yahoo Co-founder" 在搜索结果页显示,然后只有与名字"Jerry Yang"相匹配且和语境"Yahoo Co-founder"相关的文档才被显示给用户,从当前结果页中隐藏其它非相关搜 索结果。 '
一站式跨语言查询当一位用户使用源语言进行查询,这项查询请求以 及检索结果,会自动在内部与目标语言相互翻译,不受用户的任何千涉。该 用户可使用自己的语言(源语言)输入查询请求并且多语言的搜索结果也会 通过源语言展现出来。无需用户再输入其它查询请求,翻译查询请求,使用 目标语言检索文档,然后翻译文档等等。例如,用户可输入"discounted airfare",用英语展现的搜索结果不仅检索了与搜索查询请求"discounted airfare,,相匹配的使用英文书写的文档,还(或)自动生成了同义词,并将中 文,西班牙文,法文,德文,^我文等"i吾言书写的文档自动在内部翻i奪为英文, 与^!臾索查询请求和/或自动生成的同义词相匹配。
单语导航和/或多语导航如果一位用户使用源语言输入一项查询请求, 查询结果可能仅显示为源语言,尽管查询结果既包括了来自源语言的文档, 也包括了来自目标语言的文档。原本使用目标语言的文档被提前翻译为源语 言,并保存在多语言库中,然后与所输入的查询请求和/或自动生成的同义 词相匹配。从用户的角度看,在这两种文档中没有任何差异,用户感觉自己 是使用源语言通过单语界面在单语世界中浏览。同时,如果一位用户使用源 语言输入一项查询请求,检索结果可以同时被展现为源语言和相应的目标语言,以便用户进行多语言浏览。在搜索结果页, 一个选项可同时以源语言文 档和相应目标语言已翻译文档的形式展现出来提供给用户,且/或同时显示 以目标语言文档和翻译回源语言的对应文档。
多语言标志为了区分跨语言搜索结杲和其原语言,检索到的翻译丈档 通过原语言的提示标注了原语言条。反之,搜索结果中则不会出现这样的原
语言条o
混合搜索当一位用户提交了一个查询请求后,可通过保存在本地月l务 器的翻译文档以及从网络上来获取搜索结果。通过将搜索查询请求翻译为目 标语言,然后使用已翻译的查询请求来在网络上搜索,原来未被翻译和保存 在多语言库中的新文档可通过网络被检索到,列入搜索结果,并翻译回源语 言。因此混合搜索方法不《又允许通过用户查询请求增加多语言库,而且还有 助于提升多语言搜索质量,使之保持最新且更全面。
消除歧义在任何的已翻译文档中,具有多个翻i斧选项的单词,短语, 语句或者表达均被突出显示。用户可以浏览这些翻i奪选项以及相关词语,选 择其中任何一个作为建议。系统将4巴这个建议作为一次投票。用户在添加对殳 票时也可以指定一个插入该投票的语境,通过加入一些相关词语来描述某一 个翻译选项,然后让机器记录相关的翻译语境。例如,用户可以添加 "Hongkongers,,作为 一个相关词语来描述某语境中"布殊"的翻译选项"Bush", 可以在另 一个语境中添加"Yahoo Co-founder"作为一个相关词语来描述"杨 致远,,的翻译选项"Jerry Yang"。在搜索结果页,搜索查询请求的同义词和其 相关词语都被显示出来,因此,用户可以从它们中间选择一个以指定该搜索 查询请求,并且(或者)选择一个相关词语来指定语境,然后根据用户查询 词语的指定和/或相关语境显示出搜索结果。例如,用户可能选择了"Jerry Yang"和/或相关词语"Yah00 Co-founder",然后显示出与所指定的搜索查询 请求和/或相关词语关联的搜索结果,这就解决了由这个名字"Jerry Yang" 51 起的模糊含义,因为很多人都会有着相似甚至相同的名字。
查询的歧义消除当用户使用自己的语言输入查询请求时,系统能够实时以他们的语言向该用户展示翻译选项中的相关单词,用卢可以选择这些词 语中的任何 一 个对查询请求进行微调。
短语和表达的探测新的短语和表达可通过计算在同一文档、段落或语 句中两个或两个以上词语连续出现的机率而被查找到。这些新的短语和表达 可能有也可能没有翻译选项。但是它们作为短语或表达已经存储在翻译凄t据 库中。翻译一篇文档时,如果该文档包含此类没有翻译选项的短语或表达, 这些短语和表达会被突出显示,提示用户为这些短语或表达投票。
一个跨语言信息检索系统的实例(如图4所示)包括一个翻译引擎l、 搜索引擎2、网络蜘蛛3、选词数据库4、同义词辞典5、新词数据库6、新 词查找器7、文档库8、搜索界面9和投票界面10。翻译引擎l将文档和查 询请求从源语言翻译成目标语言。搜索引擎2根据用户的查询请求搜索文档 库8和Web。网络蜘蛛3爬取Web并下载文件。选词数据库4存储投票信 息。同义词辞典5存储同义词,新词数据库6存储没有投票的新词。新词查 找器7查找新词。文档库8存储下载文件和翻译文件。用户使用搜索界面9 来输入搜索查询请求并浏览检索结果。用户使用投票界面IO浏览并更新选 词凄t据库。
上述组件相互之间的工作和互动原理如下
网络蜘蛛3在Web中爬取并下载感兴趣的网页,形成一个不断扩大的 信息库。下载的网页存储在文档库8中。翻译引擎1对下载的文档进行翻译 并存储到文档库8中。在翻译文档的过程中,翻译引擎1查询选词数据库4, 检索的词语的可用翻译选项(单词/短语/表达方式),并将其翻译为拥有最 多投票数的翻译选项。在翻译文档的过程中,翻译引擎1将其它投票数较少 的翻译选项作为元数据和/或隐藏字段保存在文档中。如果该单词没有翻译 选项但同时出现在新词数据库6中,翻译引擎1用特殊标记突出显示该词以 提示这是一个新的短语。投票界面IO接受用户投票,并实时双向更新选词 数据库4,如果该词语出现在选词数据库4中,则将其(单词/短语/表达) 从新词数据库6中移除。投票界面IO调用翻译引擎1以更新包含该词语(单词/短语/表达方式)的文档,使翻译文档与新输入的信息保持动态更新。
查询词语的同义词按如下方法生成根据使用X语言的任何词语E(单 词/短语/语句/表达),查找在所有E的Y语言翻译选项,然后根据每个Y 语言的翻译选项,查找其在X语言中的所有翻译选项。使用X语言的所有 翻译选项加上Y语言的所有翻译选项构成了 X语言的词语E的同义词lt据 库。产生的同义词被存储在同义词辞典5中。
搜索界面9在接收到用户查询请求后调用搜索引擎2。搜索引擎2运用 用户查询请求对文档库8和Web进行搜索,然后以用户的母语将文档列表 排序并返回搜索界面9。搜索界面9不仅向用户显示文档列表,还会通过搜 索同义词辞典5显示一组与用户查询请求相关的同义词 。如果用户点击某个 查询词语的同义词,会开始 一 个新的用所选同义词进行的搜索过程,系统会 显示出与该同义词相关的搜索结果的文档列表。如果用户点击已显示的该文 档链接,该文档内容将显示在屏幕上,包括每个词语(单词/短语/语句/表达 方式)在选词数据库4和新词数据库6中的投票状态。用户可通过点击投票 状态浏览每个单词/短语/表达的投票信息。然后用户进入投票界面IO为每个 单词/短语/表达和短语进行投票。新词查找器7按如下方式在后台运行它 通过计算在文档库8中同一文档、段落或语句中两个或两个单词连续出现的 机率查找新短语, 一旦查找到新的短语,它们将被存储在新词数据库6中。 显然,上述作为范例讨论的跨语言信息检索系统可作为独立系统或作为 传统搜索引擎及信息检索系统的后端系统为搜索引擎或系统提供本说明书
中描述的附加功能。
上述特定的范例和实施例是说明性质的,这些范例和实施例可能会进行
多个变化调整,但不会背离本说明书的精神或超出所含权利要求的范围。例
如,不同说明性实施例的元素和/特性可能会在本说明和附属权利的范围内
相互关联,且(或)相互替代。
本说明书要求2006年5月12日提交的美国专利临时申请号60/800,059
主张的优先权,其全部内容附后作为参考。
权利要求
1. 一种用于当不同于一种或多种目标语言的源语言的搜索词语被提供时搜索所述一种或多种目标语言的一组文档的系统,所述方法包括存储多个目标语言文档的文档库;为将源语言的搜索查询请求翻译为所述一种或多种目标语言的多个搜索查询请求而配置的翻译引擎;为用多个目标语言搜索查询请求中的每一个搜索查询请求在文档库中搜索多个目标语言文档,以返回多个相匹配的目标语言文档而配置的搜索部件,其中,该翻译引擎将多个相匹配的目标语言文档翻译成对应的源语言翻译文档。
2. 根据权利要求1所述的系统,其中从该翻译引擎返回的源语言的翻译文档包括一个或多个词语的多重翻"^结果。
3. 根据权利要求1所述的系统,还包括一个或多个本地服务器,其中在 用户检索前,该翻译文档被下载到一个或多个本地服务器。
4. 根据权利要求3所述的系统,其中所述翻i奪文档和对应的目标语言文 档被所述一个或多个本地服务器存储到多语言库中。
5. 根据权利要求4所述的系统,其中在所述多语言库中,目标语言文档 中的目标语言词语与对应的翻译文档中的一个或多个源语言词语相关联。
6. 根据权利要求4所述的系统,还包括为使用目标语言查询请求和源语言查询请求中的任何一个来搜索多语言库 而配置的多语言搜索工具。
7. 根据权利要求6所述的系统,其中所述翻译引擎选择一个词语的多重 翻译结果中的一个,在该翻译文档的正文之中使用所选择的翻译结果,并将该 词语的剩余翻译结果作为元数据和/或隐藏字段储存在该翻译文档中。
8. 根据权利要求7所述的系统,其中所述多语言搜索工具在该翻译文档 中对所述元数据和隐藏字段进行搜索。
9.根据权利要求1所述的系统,其中所述翻译引擎把一个源语言词语翻译为多个目标语言翻译选项,将所述多 个目标语言翻译选项翻译为对应的源语言翻译结果,并将源语言翻译结果的集 合作为该源语言词语的同义词存储于同义词数据库中。
10.根据权利要求9所述的系统,进一步包括为显示该查询请求中的一个或多个词语的同义词而配置的用户界面。
11. 根据权利要求10所述的系统,其中所述用户界面还进一步配置用于 使用户能够从所显示的同义词中选择一个,并且该搜索部件查找与所选择的同 义词相匹配的文档,并将与所选择的同义词相匹配的文档返回搜索结果中。
12. 根据权利要求1所述的系统,进一步包括为显示源语言搜索结果和/或显示对应的目标语言搜索结果而配置的用户 界面。
13. 根据权利要求12所述的系统,其中该搜索结果中的源语言文档之一 由目标语言翻译而来,并且在该用户界面所显示的搜索结果中被以目标语言提 示标记。
14. 根据权利要求1所述的系统,其中,当该翻译引擎把目标语言文档翻 -泽为多个源语言翻i奪文档后,目标语言文档和对应的源语言文档被储存在多语 言文档库中。
15. —种多语言信息检索系统,包括为将第一源语言词语翻译为对应的第一目标语言词语,并且将第二目标语言词语翻译为对应的第二源语言词语而配置的翻译引擎;存储多个目标语言文档和对应的源语言翻译文档的文档库;搜索部件,被配置用于接收源语言查询请求,提供一个或多个待由所述翻译引擎翻译的查询词语,从该翻译引擎接收目标语言翻译词语,使用翻译词语搜索该文档库来查找相关目标语言文档,并返回搜索结果,该搜索结果包括从该文档库中选4奪的,与相关文档对应的源语言翻译文档。
16. 根据权利要求15所述的系统,其中所述文档库进一步存储多个源语言文档和对应的目标语言翻译文档;并且所述搜索部件进一步被配置用于接收源语言查询请求,使用源语言查询词 语搜索该文档库,以查找相关源语言文档,并返回搜索结果,该搜索结果包括 从该文档库中选择的,与相关文档对应的翻译为目标语言的源语言文档。
17. 根据权利要求15所述的系统,还包括选词数据库,该选词数据库用 于为与目标语言词语相对应的每个源语言翻译选项存储每个目标语言词语的投票数。
18. 根据权利要求17所述的系统,其中所述翻译引擎通过从该选词数据 库中才企索与所选词语相对应的源语言翻i奪选项来对目标语言文档中的所选词语 进行翻i奪,所述检索出的翻i奪选项在与所选目标语言词语相对应的各个源语言 翻译选项中拥有最高投票数。
19. 根据权利要求15所述的系统,还包括选词界面,其中当用户通过该 选词界面指定将源语言词语翻译为目标语言词语时,作为该源语言词语的翻译 选项的该目标语言词语的投票数即增加。
20. 根据权利要求19所述的系统,其中当用户通过该选词界面指定将源 语言词语翻i奪为目标语言词语时,作为该目标语言词语的翻译选项的该源语言 词语的投票数即增加。
21. 根据权利要求19所述的系统,其中当用户通过该选词界面指定将源 语言词语翻译为目标语言词语时,该用户还指定与该翻译对应的描述,且所指 定的描述与该翻译一同被保存在该选词数据库中。
22. 根据权利要求15所述的系统,进一步包括动态维护的同义词辞典, 其中使用第一语言的所选词语在同义词辞典中的词条进行更新是通过将该词语 翻译为另 一种语言的多个翻译选项,将所述多个翻译选项翻译为所述第 一语言 的相应翻译结果,并将所述翻译结果的集合作为该词语在所述第一种语言的同 义词保存到所述同义词辞典中。
23. 根据权利要求15所述的系统,进一步包括新词查找器和新词数据库, 其中上述新词查找器会对所选文档进行切分,以在所选文档中识别没有翻"^选项的两个以上连续的单词,然后将所述两个以上连续的单词作为新词保存在所 述新词数据库中。
24. 根据权利要求23所述的系统,其中当该翻译引擎翻译文档时,如果 在该文档中发现没有翻译选项的词语,该词语将会被突出显示,提示用户指定 或者投票选出翻译选项。
25. —种多语言信息检索系统,包括选词数据库,被配置用于为与目标语言词语对应的各个源语言翻译选项存 储每个目标语言词语的投票数,翻译引擎,被配置用于将目标语言文档翻i奪为源语言翻译文档, 其中所述翻译引擎通过从选词数据库中检索与所选词语相对应的源语言翻 译选项对目标语言文档中的所选词语进行翻译,所述检索出的翻译选项在与所 选目标语言词语相对应的各个源语言翻译选项中拥有最高投票数。
26. 根据权利要求25所述的系统,其中所述翻译引擎选择该词语的具有 最高投票数的翻译选项作为首要翻译结果,该词语的剩余翻译选项在翻译文档 中以元数据或者隐藏字段的方式表现。
27. 根据权利要求25所述的系统,其中当所选词语的第一翻译选项被该 所选词语的另 一翻译选项所取代成为拥有最多投票数的翻译选项时,每一个使 用第 一翻i奪选项并以此作为该所选词语的首要翻i奪结果的翻译文档都会进行动 态更新,以反映将该所选词语的该另 一翻i奪选项作为对该所选词语的翻i奪。
28. 根据权利要求25所述的系统,进一步包括用户界面,其中多个用户 可通过上述用户界面访问选词数据库,当用户通过所述用户界面指定将源语言 词语翻译为目标语言词语时,该选词数据库中维护的作为源语言词语的翻译选 项的目标语言词语投票数就会增加。
29. 根据权利要求28所述的系统,其中当用户通过选词界面指定将源语 言词语翻译为目标语言词语时,作为该目标语言词语翻译选项的该源语言词语 的才殳票数即增加。
30. 根据权利要求28所述的系统,其中当用户通过该选词界面指定将源语言词语翻译为目标语言词语时,该用户还指定与该翻译对应的附加信息,且 所指定的附加信息与该翻译一同被保存在该选词数据库中。
31. 根据权利要求30所述的系统,所指定的附加信息是与翻译相关联的语境。
32. 根据权利要求30所述的系统,所指定的附加信息提示该翻译将被使 用的领域,环境或者地理范围。
33. 根据权利要求25所述的系统,其中选词数据库在动态翻译数据库中 进行维护,用户和翻译数据库互动,以实时更新翻译数据库中的信息。
34. 根据权利要求25所述的系统,其中当用户指定将源语言词语翻译为 目标语言词语时,源语言词语和目标语言词语之间的关系祐:双向存储,作为源 语言词语的翻译选项的目标语言词语的投票数就会增加,且作为目标语言词语 的翻译选项的源语言词语的投票数也会增加。
35. —种多语言信息;险索方法,包括维护选词凄t据库,用于为与目标语言词语相对应的源语言翻i奪选项存4诸每 个目标语言词语的投票数;以及通过从选词数据库中检索与所选词语相对应的源语言翻译选项,对目标语 言文档中的所选词语进行翻译,其中所述检索出的翻译选项在与所选目标语言 词语相对应的各个源语言翻译选项中拥有最高投票数。
36. 根据权利要求35所述的方法,进一步包括 将该目标语言文档翻译为源语言文档,其中具有最多投票数的源语言翻译选项在源语言文档中被作为所选目标语 言词语的源语言翻译选项,在该翻译文档中该词语的剩余源语言翻译选项以元 数据或者隐藏字段的方式表现。
37. 根据权利要求35所述的方法,进一步包括对于一个词语,当第一翻"^爭选项被另一翻译选项所取代成为该词语拥有最 多投票数的翻译选项时,以第一个翻译选项作为该词语首要翻译结果的每一个 翻译文档都会进行动态更新。
38. 根据权利要求35所述的方法,进一步包括当用户指定将源语言词 语翻译为目标语言词语时,作为源语言词语的翻译选项的该目标语言词语的投 票数即会增加。
39. 根据权利要求38所述的方法,进一步包括当用户指定将源语言词 语翻译为目标语言词语时,作为目标语言词语的翻译选项的该源语言词语的投 票数即会增加。
40. 根据权利要求38所述的方法,其中当用户指定源语言词语翻译为目 标语言词语时,该用户还指定与该翻译对应的附加信息,且所指定的附加信息 与该翻译一 同被保存在选词数据库中。
41. 根据权利要求35所述的方法,进一步包括在动态翻译数据库中维护 选词数据库,其中用户和翻译数据库互动以实时更新翻译数据库中的信息。
42. 根据权利要求35所述的方法,其中当用户指定将源语言词语翻译为 目标语言词语时,源语言词语和目标语言词语之间的关系被双向存储,作为源 语言词语翻译选项的目标语言词语的投票数就会增加,且作为目标语言词语翻 译选项的源语言词语的投票数也会增加。
43. 根据权利要求35所述的方法,还包括在所显示的文档中显示所选词语的多个翻译选项;以及当用户通过用户界面选择翻^奪选项时,更新该翻i奪选项的4殳票数。
44. 根据权利要求35所述的方法,还包括 才巴源语言词语翻译为多个目标语言翻i奪选项;将多个目标语言翻译选项翻译为相对应的源语言翻译结果;以及将该源语言翻译结果的集合作为该源语言词语的同义词存入同义词数据库。
45. 根据权利要求44所述的方法,还包括把目标语言文档翻译为源语言文档,其中,具有最多投票数的源语言翻译 选项被作为所选目标语言词语在源语言文档中的源语言翻译使用;以及 显示该源i吾言词"^吾的同义词。
46. 根据权利要求35所述的方法,还包括当用户用源语言输入查询请求时,显示该查询请求中的一个或多个词语的 同义词。
47. —种当不同于目标语言的源语言的搜索词语被提供时在一组目标语 言文档中进行搜索的方法,该方法包括将源语言搜索查询请求翻译为多个目标语言搜索查询请求; 使用所述多个目标语言搜索查询请求中的每一个,以目标语言搜索目标语 言文档组,从而返回多个目标语言文档;将所述多个目标语言文档翻^^为对应的源语言翻^^文档。
48. 根据权利要求47所述的方法,还包括使用源语言搜索词语在同义词数据库中保存的多个同义词中的每一个同义 词,以源语言搜索源语言文档,以返回多个源语言文档,以及 将多个源语言文档翻译为对应的目标语言翻译文档。
49. 根据权利要求48所述的方法,还包括将一个或多个源语言翻译文档显示为搜索结果,和/或将一个或多个对应的 目标语言文档显示为搜索结果。
50. 根据权利要求48所述的方法,其中源语言翻译文档包括一个或多个 词语的多重翻i奪结果。
51. 根据权利要求48所述的方法,进一步包括维护选词数据库,其中每 一个拥有多个翻译选项的词语其每一个翻译选项与对应的投票数相关联,并且 和翻译选项相关联的投票数被存入该选词数据库。
52. 根据权利要求51所述的方法,进一步包括选择具有最多投票数的翻 译选项作为该词语的首要翻译结果,其中该词语的剩余翻译选项在翻译文档中 以元数据或者隐藏字段的方式表现。
53. 根据权利要求51所述的方法,进一步包括对于某一个词语,当第 一翻译选项被另 一翻译选项所取代成为拥有最多投 票数的翻译选项时,以第一翻译选项作为该词语首要翻译结果的每一个翻译文档都会进行动态更新;以及显示与首要翻译结果对应的动态更新过的翻译文档。
54. 根据权利要求51所述的方法,其中该选词数据库在动态翻译数据库 中进行维护,用户和翻译数据库互动以实时更新翻译数据库中的信息。
55. 根据权利要求51所述的方法,其中当用户指定将源语言词语翻译为 目标语言词语时,源语言词语和目标语言词语之间的关系被双向存储,作为源 语言词语翻译选项的目标语言词语的投票数就会增加,且作为目标语言词语翻 译选项的源语言词语的投票数也会增加。
56. 根据权利要求51所述的方法,还包括提供用户界面,用以在搜索结果中浏览源语言翻译文档,和/或在搜索结果 中浏览对应的目标语言文档;在显示的文档中显示所选词语的多个翻i奪选项;以及当用户通过该用户界面选择翻译选项时,更新该翻译选项的投票数。
57. 根据权利要求51所述的方法,其中该选词数据库允许多个用户进行 访问,且当用户指定将源语言词语翻译为目标语言词语时,作为该源语言词语 翻译选项的该目标语言词语的投票数即增加。
58. 根据权利要求57所述的方法,其中当用户指定将源语言词语翻译为 目标语言词语时,作为该目标语言词语翻译选项的该源语言词语的投票数即增 加。
59. 根据权利要求57所述的方法,其中当用户指定将源语言词语翻译为 目标语言词语时,该用户还指定与该翻译对应的描述,且所指定的描述与翻译 一同 一皮保存在该选词凄t据库中。
60. 根据权利要求48所述的方法,还包括 在用户检索之前,将翻译文档下载到一个或多个本地服务器上。
61. 根据权利要求60所述的方法,还包括将所述翻译文档和对应的目标语言文档存储在一个或者多个本地服务器 上,以形成多语言库。
62. 根据权利要求61所述的方法,其中在所述多语言库中,目标语言文 档中的目标语言词语和对应的翻译文档中的一个或多个源语言词语相关耳关,源 语言文档中的源语言词语和对应的翻译文档中的一个或多个目标语言词语相关联。
63. 根据权利要求61所述的方法,进一步包括提供多语言搜索工具,该多语言搜索工具使用目标语言查询请求和源语言 查询请求中的任何一个来搜索所述多语言库。
64. 根据权利要求63所述的方法,进一步包括 选才奪词语的多重翻"i奪结果中的一个;在该翻译文档的正文中使用所选择的翻译结果;以及 将该词语的剩余翻译结果以元数据和/或隐藏字段的方式保存在该翻译文 档中。
65. 根据权利要求64所述的方法,其中所述的多语言搜索工具在该翻译 文档中对所述元数据和隐藏字段进行搜索。
66. 根据权利要求61所述的方法,进一步包括将新的源语言搜索查询请求应用于所述多语言库和附加的源语言文档集。
67. 根据权利要求48所述的方法,进一步包括 4巴一个源语言词语翻i奪为多个目标语言翻译选项;将多个目标语言翻i奪选项翻译为相对应的源语言翻译结果;以及 将源语言翻译集合结果作为该源语言词语的同义词存入同义词数据库。
68. 根据权利要求67所述的方法,进一步包括 显示与源语言翻译文档对应的搜索结果;以及 显示搜索查询请求中的该词语的同义词。
69. 根据权利要求68所述的方法,进一步包括当用户从所显示的同义词中选择一个时,^是^l与所选同义词相匹配的文档, 且将所提取的文档包含在搜索结果中。
70. 根据权利要求67所述的方法,进一步包括当用户用源语言输入查询请求时,显示出查询请求中的一个或多个词语的 同义词。
71. 根据权利要求48所述的方法,进一步包括用源语言显示搜索结果,其中,该搜索结果中的一个或多个源语言文档是 从目标语言文档翻译而来,并且/或者用对应的目标语言显示搜索结果,其中, 在搜索结果中的一个或者多个对应的目标语言文档是由源语言文档翻译而来。
72. 根据权利要求71所述的方法,其中搜索结果中由目标语言文档翻译 而来的所述一个或多个源语言文档在该搜索结果中以目标语言提示标记。
73. 根据权利要求48所述的方法,进一步包括 将目标语言文档翻i,为多个源语言翻i奪文档;将该目标语言文档和对应的源语言翻译文档存入多语言文档库。
74. 根据权利要求48所述的方法,进一步包括 将源语言文档翻i奪为多个目标语言翻译文档; 将该源i吾言文档和对应的目标语言翻i奪文档存入多语言文档库。
75. —种多语言信息检索方法,包括将多个目标语言文档和对应的源语言翻i奪文档存储在文档库中; 接收源语言查询请求;把一个或者多个源语言查询词语翻译为目标语言翻译词语; 使用翻译的目标语言词语搜索文档库以查找相关的目标语言文档; 返回搜索结果,该搜索结果包括从该文档库中选择的,与相关文档对应的 翻译的源语言文档;以及
76. 根据权利要求75所述的方法,进一步包括将多个源语言文档和对应的目标语言翻译文档存储在该文档库中; 使用源语言词语搜索该文档库以查找相关的源语言文档;以及 返回搜索结果,该搜索结果包括从该文档库中选择的,与相关文档对应的 翻译为目标-浯言的源i吾言文档。
全文摘要
记述了多语言信息检索的方法、设备和系统。
文档编号G06F17/28GK101443759SQ200780017159
公开日2009年5月27日 申请日期2007年5月9日 优先权日2006年5月12日
发明者蓓 姜, 陈柏吟 申请人:乐图集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1