跨语言检索请求的转换及跨语言信息检索方法和系统的制作方法

文档序号:6574675阅读:206来源:国知局
专利名称:跨语言检索请求的转换及跨语言信息检索方法和系统的制作方法
技术领域
本发明涉及信息处理技术,具体地,涉及跨语言检索请求的转换方法 和装置以及跨语言信息检索方法和系统。
背景技术
随着网络的普及,网络上的信息资源日益丰富且用户对于网^fT息资 源的需求也在遲渐提高.但是,在网^ff息资源日益丰富的同时,却又存 在着阻碍这些资源为用户所广泛共享的一个主要障碍一多语种问题。其原 因在于,目前网络用户获得网络信息资源的 一个主要途径是通过信息检索 系统,但传统的倌息检索系统主要是针对于单一语种的文档集而实现的. 也就是说,传统的信息检索系统一般允许用户选择某一语种作为查询语言, 但仅向用户返田符合其查询条件的、与该查询语言相同的语种的文档。目前,由于用户需要查询多语种文本的情形已变得越来越普遍,所以, 为了满足人们对于不同语种的网络信息资源的共享需求,跨语言信息检索 技术正在受到广泛的关注及普遍的应用。跨语言信息检索技术是结合了传统文本信息检索技术和机器翻译 (machinetranslation, MT)技术的一门热点技术。^"言信息检索系统 使得用户能够以其选定的源语言提交检索请求,而对目标语言的文档进行 检索。具体地,在i^言信息检索系统中,广泛地使用基于机器翻译系统 的查询翻译方法来实现上ilJ^语言的信息检索。也就是说,跨语言信息检 索系统首先利用基于机器翻译系统的查询翻译方法自动地将用户的检索请 求从其源语言翻译到目标语言,从而得到该检索请求的目标语言译文,然后再根据该目标语言译文来构造与该检索请求对应的目标语言检索请求, 从而使该跨语言信息检索系统能够利用该目标语言检索式对符合查询^ 的目标语言的文档进行单语检索。但是,在以往的跨语言信息检索系统中,通常都直接使用单个机器翻 译系统来生成检索请求的目标语言译文、进而构造检索式,从而这样的跨求译文的质量.从而,当机器翻译系统的译文质量较差时,直接使用该机 器翻译系统所生成的检索请求的译文来构造检索式,通常也会使得跨语言 信息检索系统得到质重较差的检索结果。因此,需要设计出一种新的跨语言检索请求的转换技术以及跨语言信 息检索技术,来提高跨语言信息检索系统的检索性能。发明内容本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供一 种跨语言检索请求的转换方法和装置以及跨语言信息检索方法和系统,以 便通过融合多个机器翻译系统所生成的^言检索请求的译文来构造检索 式,从而提高跨语言信息检索系统的检索性能。根据本发明的一个方面,提供一种跨语言检索请求的转换方法,包括 利用多个不同的机器翻译系统分别对上^语言检索请求进行从源语言到目标语言的翻译,以得到该跨语言检索请求的多个目标语言译文;以及以上i2lif语言检索请求的上述多个目标语言译文为基础,构造与该跨语言检索请求对应的目标语言检索请求。根据本发明的另一个方面,提供一种跨语言信息检索方法,包括从检索用户处获得料言检索请求;利用上述的种言检索请求的转换方法对上述跨语言检索请求进行从源语言到目标语言的转换,以生成与该w言检索请求对应的目标语言检索请求;以及根据上述目标语言检索请求从 信息源检索满足条件的目标语言文档。根据本发明的另一个方面,提供一种跨语言检索请求的转换装置,包括多个机器翻译块,其分别对上i4J^语言检索请求进行从源语言到目 标语言的翻译,以得到该跨语言检索请求的多个目标语言译文;以及目标 语言检索请求构造模块,其以上iii^语言检索请求的上述多个目标语言译 文为基础,构造与该跨语言检索请求对应的目标语言检索请求。根据本发明的另一个方面,提供一种降洽言信息检索系统,包括用 户模块,其从检索用户处获得跨语言检索请求,并向检索用户呈现该# 言信息检索系统的检索结果;上述的跨语言检索请求的转换装置,其对上 述跨语言检索请求进行从源语言到目标语言的转换,以生成与该#言检 索请求对应的每标语言检索请求;以及检索模块,其根据上述目标语言检 索请求从信息源检索满足条件的目标语言文档。


相信通过以下结合附困对本发明具体实施方式
的说明,能够使人们更 好地了解本发明上述的特点、优点和目的。困1是根振本发明实施例的跨语言信息检索方法的流程图;困2是根振本发明实施例的跨语言检索请求的转换方法的流程图;图3是根振本发明实施例的跨语言信息检索系统的方框图;以及图4是M本发明实施例的跨语言检索请求的转换装置的方框图。
具体实施方式
在对本发明的各个优选实施例进行详细描述之前,首先对现有的跨语 言信息检索系统进行简单介绍。现有的i^if言信息检索系统可以是在传统的信息检索系统的M上增加了对检索请求在不同语言之间的翻译等功能之后的信息检索系统,也可 以是重新枸造的具有上述功能的新的信息检索系统。也就是说, 一个现有的跨语言信息检索系统不仅涉及到信息检索的技术领域,而且还涉及到机器翻译的技术领域。具体地,融合这两个领域的技术,现有的跨浩言信息检索系统进行信息检索的主要过程如下用户向、该跨语言信息检索系统提交检索请求,从而形成一个源语言的检索式;该 系统利用一个机器翻译系统对该源语言的检索式进行语言识别,并在识别 出语种后,对其进行词法分析和结构分析,然后将分析后的源语言的检索 式翻译成某一种或某几种目标语言,从而生成相应目标语言的检索式;最 后,所生成的各相应目标语言检索式被提交给该系统中的检索部分,以便 从信息源的备相应目标语言的文档中检索符合*的信息。其中,在检索请求被翻译为多种目标语言的情况下,该#言信息检 索系统所得到的检索结果中含有这多种目标语言的符合条件的信息。此外,需要指出的是,跨语言信息检索并不包括这样的情况检索请 求中包括不同语种的检索词,但信息检索系统并不具有在进行检索之前识 别检索请求的语种进而将其翻译为另一语种的功能,即使该系统检索得到 的检索结果中包括了上述各语种的信息。举例来说,如果在某一不具有检 索请求的翻译功能的信息检索系统中输入检索请求"知识发现knowledge" 并选择所有语种,则在进行检索时,只要内容中既包括"知识发现"又包 括"knowledge",那么任何这样的文档都会被检索出来,而不管该文档中 的其他部分是中文的、英文的还是日文的。但是,由于该信息检索系统在 检索过程中并不识别检索请求的语种也未进行检索请求的语种转换,从而 所实现的也不是利用源语言对目标语言文档进行的检索,所以这不是真正 的跨语言信息检索。本发明所讨论的跨语言信息检索是利用某一语种(源语言)的检索请 求对另一或另一些不同语种(目标语言)的信息进行检索的情况。 下面就结合附图对本发明的各个优选实施例进行详细的说明。 图l是根椐本发明实施例的跨语言信息检索方法的流程图。 如图l所示,首先,在步骤105,检索用户利用源语言输入跨语言检 索请求,并提交给跨语言信息检索系统。在本实施例中,用户输入跨语言检索请求所使用的源语言可以是该跨语言信息检索系统所能够支持的任何 语言,例如中文等。此外,用户所输入的跨语言检索请求可以是用户感兴 趣的内容中包括的单字、词语或术语,或者是与文档密切相关且能独立区分的属性等,也就是说,所有与欲检索文档相关的内容都可以作为冷浯言 检索请求。需要说明的是,对跨语言检索请求的支持是基于跨语言信息检 索系统的数据库容量及匹配逻辑来实现的,并且由于其不是本发明的特征 所在,所以本发明对此步骤没有特别的限定。接着,在步骤110,对上i^语言检索请求进行从源语言到目标语言 的转换,以获得与该跨语言检索请求对应的目标语言检索请求。以下,结合图2对上面图1的步骤110中跨语言检索请求从源语言到 目标语言的转換方法进行详细描述。困2是示出根据本发明实施例的跨语言检索请求的转换方法的流程 图。在本实施例中,为了简单起见,仅讨论将上述跨语言检索请求从源语 言转换为一种目标语言以便从该目标语言的信息中检索符合条件的文档的 情况。在此情况下,该目标语言可以是用户在提交该跨语言检索请求时所 选定的语种,也可以是未经用户选择而由该奪浯言信息检索系统所默认的 语种,例如英文等.如图2所示,首先,在步骤205,利用多个不同的机器翻译系统对上 述跨语言检索箭求进行从源语言到目标语言的翻译。具体地,在本步骤中,利用上述多个不同的机器翻译系统中的每一个 将上iiJ^语言检索请求从源语言翻译为指定的目标语言,以得到该跨语言 检索请求的指定目标语言的一个译文.从而,在本步骤中,利用这多个不 同的机器翻译系统可得到该跨语言检索请求的多个目标语言译文,在本步骤中,对于每一个机器翻译系统来说,其对上^语言检索请求的翻译过程均涉及到对该跨语言检索请求的多种自然语言处理,具体地, 每一个机器翻译系统的处理过程主要包括源语言分析、从源语言到目标语 言的转换、目标语言的生成等。其中,源语言分析又可以分为词法分析、 词性标注与句法分析、语义分析、语用和语境分析等不同的分析层次。再 者,源语言和目标语言之间的转换是机器翻译的核心技术,可利用大目 双语(或多语)语料库及其标注等翻译知识为基础来具体实现。并且由于 本发明的特征在于下面所描述的如何融合这多个不同的机器翻译系统所生成的上iwrr检索请求的多个目标语言译文,而并非具体的机器翻译过 程本身,所以本发明对于各机器翻译系统的具体实现及其工作过程并没有特别的限制,并且只要能够实现跨语言检索请求的从源语言到指定目标语 言的翻译,本发明可使用任何现在已知或将来可知的机器翻译系统来实现。此外,需JH兌明的是,在本步骤中,对于这多个不同的机器翻译系统 的启用顺序并没有特别的限制。可以按顺序依次启用这些机器翻译系统对 上^j^言检索请求进^译,也可以同时地启用这些机器翻译系统对该 跨语言检索请求进行翻译。接着,在步骤210,获得上述多个不同的机器翻译系统中的每一个的译文质量得分。具体地,在本实施例中,这多个不同的机器翻译系统中的 每一个的译文质量得分是通过预先离线针对该机器翻译系统进*文质量 的评测而得到的。关于译文质量的评测,可以根据由用户来选择测试集并制定分数等级的人工评测方式来实现,也可以根据利用NIST的Scoring Software自动打分工具等的自动评测方式来实现。并且,由于译文质量的 评测是本领域中的通用技术并且其也不是本发明的特征所在,所以本发明 对此步骤没有特别的限制。此外,需要说明的是,在本实施例中,是预先为各机器翻译系统生成 译文质量得分而在以后对跨语言检索请求进行转换的过程中直接来使用 的。但在其他实施例中,本步骤也可以这样来实现首先判断上述各机器 翻译系统是否已具有针对该机器翻译系统所评测的译文质量得分,若具有, 则直接获得其译文质量得分;若某一机器翻译系统不具有译文质量得分, 则针对该机器翻译系统进辨i^t量的评测,以便为其获得译^t量得分。在步骤215,对于上述多个机器翻译系统所获得的上述多个目标语言 译文中的每一个,利用一个语言模型来计算其可信度。利用语言模型来计 算译文的可信度也是本领域的通用技术,在此对其不再作进一步详细描迷。在步骤220,对于上iWf言检索请求的上述多个目标语言译文中的 每一个,将在步骤210中所获得的生成该目标语言译文的机器翻译系统的 译文质量得分与在步骤215中所获得的该目标语言译文的可信度相结合,以得到该目标语言译文的翻译可信度。具体地,在本实施例中,对于上述^言检索请求的上述多个目标语言译文中的每一个,将在步骤210中所 获得的生成该目标语言译文的机器翻译系统的译文质量得分与在步骤215 中所获得的该目标语言译文的可信度相乘,以得到该目标语言译文的翻译 可信度。但在其他实施例中,只要能够得到表示目标语言译文的翻译可信 度的信息,也可采用其他的方式对各机器翻译系统的译文质量得分与目标 语言译文的可信度进行关联.在步骤225,合并上述跨语言检索请求的上述多个目标语言译文,以 形成检索词列表。具体地,在本步骤中,识别出各目标语言译文中的对于 检索来i兑有用的检索词,而删除各目标语言译文中的功能词,从而将这些 对于检索来说有用的检索词组合在一起形成检索词列表。其中,各目标语 言译文中的功能词是指其功能主要在于表达一种语法关系、而没有具体词 汇含义的词,如介词、连词等。此外,在本实施例中,在形成上述检索词列表时,将在上述多个目标 语言译文中重复出现的所识别出的检索词合并,并针对该检索词记录有关 其曾出现在其中的哪些目标语言译文中的信息,以4更在下面的步骤230中 使用。此外,在其他实施例中,也可以不合并这些重复出现的检索词,而 在检索词列表中单独记录每一个检索词以及有关其是出现在其中的哪一个 目标语言译文中的检索词的信息。在步骤230,为在步骤225中获得的上述检索词列表中的各检索词计算权值。在本步騍中,首先获得检索词列表中的各检索词及相关信息以及上述多个目标语言译文中的每一个的翻译可信度,然后将各目标语言译文 的翻译可信度用于为该检索词列表中的各检索词计算基于翻译可信度的权值。具体地,在本步骤中,利用TF-IDF算法来计算各检索词的权值,下 面,以根据跨语言检索请求《的7V个目标语言译文所形成的检索词列表为 例来说明利用TF-IDF算法为其中的检索词/计算权值的过程,其中在步 骤220中计算的各目标语言译文/ (tl AO的翻译可信度被用于计算检索词/的词频,也就是说,下面所讨论的情况是,利用了iV个机器翻译系统分别对跨语言检索请求《进行了从源语言到目标语言的翻译从而生成了该跨语言检索请求《的7V个目标语言译文,并根据这iV个目标语言译文形成 了该跨语言检索请求《的检索词列表。从而,在此情况下,对于根据这7V 个目标语言译文所形成的检索词列表中的检索词/,可根据下式来求得其权 值其中 Z)<formula>formula see original document page 14</formula>其中,^;,为^i"言检索请求《中的检索词/的权值;7T;,为检索词/在跨语言检索请求《中的加权词频;/D《为检索词/的反向文档频率;"为文梱总数;《为包含检索词/的文档数;/^,为检索词/在跨语言检索请求《的目标语言译文f中出现的次数;rc,为跨语言检索请求《的目标语言译文r的翻译可信度.此外,需要说明的是,在本实施例中虽然使用了 TF-IDF算法为上述 检索词列表中的各检索词计算权值,但这仅是示意性的说明,而并非要对 本发明进行限制,只要能够达到本发明的目的,可使用任何能够根据各目 标语言译文的翻译可信度得到检索词列表中各检索词的权值的算法.接着,在步棵235,根据上述检索词列表及其中各检索词的权值来构 造与上iiJ^语言检索请求对应的目标语言检索请求。具体地,在本步骤中, 以上述检索词列表中的各检索词及其权值为H得到嫌索词权值>对, 从而上述检索词列表中的所有检索词的嫌索词权值>对组合在一起构成 了与上^语言检索请求对应的目标语言检索式,作为上述目标语言检索 请求,从而成为检索的依据。以上,就是对本实施例的跨语言检索请求的转换方法的描述。从以上描述可知,本实施例首先利用多个机器翻译系统对用户所输入的跨语言检 索请求进行从源语言到目标语言的翻译以得到该跨语言检索请求的多个目标语言译文,并为这多个目标语言译文中的每一个计算翻译可信度;然后 融合这所有目标语言译文以获得一个带有翻译可信度信息的检索词列表; 最后,根据该检索词列表中各检索词的基于翻译可信度的权值来构造与上 述跨语言检索请求对应的目标语言检索式。因而,在本实施例中,由于融合多个机器翻译系统所生成的跨语言检 索请求的目标语言译文,所以可以构造出与该跨语言检索请求更加相关的 目标语言检索式。此外,需要说明的是,上面结合图2对本实施例的跨语言检索请求的 转换方法的说明中,是为了方便起见而以一定的顺序对各步稞进行描述的, 但这并非是限制性的,只要能够达到本发明的目的,可采用任何顺序来执 行这些步骤.此外,还应该指出的是,以上是针对于将跨语言检索请求从源语言转 换为一种指定的目标语言的情况进行描述的,^Lil仅是示意性的说明,而 并非要对本发明进行限制。在实际实现中,也可以存在将跨语言检索请求从源语言转換为多种指定目标语言而从这多种指定目标语言的信息中检索 符合条件的文档的情况。在此情况下,这多种目标语言的种类可以由用户 在提交跨语言检索请求时来选定,也可以是未经用户选择而由跨语言信息 检索系统所默认的语种或该系统能够支持的所有语种。此外,在目标语言 为多个语种的愔况下,对于每一个目标语种来说,其转换过程均与上面单 个目标语种的情况相同,因而在此不再重复描述。返回到闺1,在步骤115,根据在步骤110所得到的目标语言检索请求, 在信息源的用于检索的文档中进行匹配,以检索得到符合条件的文档。在本步稞中,以W言信息检索系统中的检索部分由一个检索模块构成的情况为例进行说明。具体地,在本步艰中,将在步骤110中获得的目 标语言检索请求,即<检索词权值>对形式的目标语言检索式提交给该检 索模块;该检索橫块根据该目标语言检索式的集合在信息源的用于检索的文档中进行匹配,以检索出符合条件的、该目标语言的文档,作为针对该 目标语言检索请求的检索结果,此外,在本实施例中,对于构成该跨语言 信息检索系统中的检索部分的检索模块并没有特别限制,其可使用能够支 持上述目标语言的现在已知或将来可知的任何检索模块(搜索引擎)来实 现。此外,在其他的实施例中,上述检索部分也可以使用分别能够支持某 一种或某几种目标语言的多个不同的检索模块来实现,这尤其适合于该跨 语言信息检索系统能够同时支持多种目标语言的情况。在此情况下,在步骤110中为跨语言检索请求生成各目标语言的检索式时还需要针对支持不同目标语言的各检索棋块构造不同表达方式的目标语言检索式。此外,在 跨语言信息检索系统使用多个检索模块作为检索部分的情况下,该#言 信息检索系统还应包括对这多个检索模块的检索结果进行组合的功能。但 是,由于这并不是本发明的特征所在,所以本发明对此没有特别的限定。接着,在步骤120,向用户呈现根据上述目标语言检索请求检索得到 的检索结果.以上,就是对本实施例的跨语言信息检索方法的描述.从以上描述可 知,本实施例裉据融合了多个机器翻译系统所生成的^言检索请求的多 个目标语言译文而得到的目标语言检索请求来检索符合条件的目标语言信 息,使得跨语言信息检索的精度得到了提高,从而所得到的检索结果也更 加准确。此外,需要说明的是,图1的跨语言信息检索方法及图2的W言检 索请求的转换方法可与任何现在已知或将来可知的跨语言信息检索系统相 结合来使用。在同一发明构思下,图3是示出根据本发明实施例的^"言信息检索 系统的方框围.如图3所示,本实施例的跨语言信息检索系统30包括用户模块31、 跨语言检索请求的转换装置32及检索模块33。其中,用户棋块31用于从检索用户处获得源语言的跨语言检索请求以提交给跨语言检索请求的转换装置32,并向检索用户呈现检索模块33所 得到的检索结果.在本实施例中,用户输入a言检索请求所使用的源语 言可以是该跨语言信息检索系统30所能够支持的任何语言。此外,在本实 施例中,用户模块31还允许检索用户在提交上i^^语言检索请求时选定目 标语种,在用户jMt择的情况下则使用该跨语言信息检索系统所默认的目 标语种或其所能够支持的所有语种。跨语言检索请求的转换装置32用于对从上述用户模块31处获得的跨 语言检索请求进行从源语言到目标语言的转换,以获得与该跨语言检索请 求对应的目标语言检索请求。以下,结合图4对该跨语言检索请求的转换装置32进行详细描述。图4是示出根据本发明实施例的跨语言检索请求的转换装置的方框 图。如图4所示,该跨语言检索请求的转换装置32包括多个机器翻译模块 321和目标语言检索请求构造模块322。其中,多个机器翻译模块321用于分别对从上述用户模块31处获得的 上il^语言检索请求进行从源语言到指定目标语言的翻译,以得到该i^ 言检索请求的多个目标语言译文。在本实施例中,对于这多个机器翻译模 块并没有特别的限制,只要能够实现跨语言检索请求的从源语言到指定目 标语言的翻译,本发明可使用任何现在已知或将来可知的机器翻译系统来 实现。目标语言检索请求构造模块322用于以上述多个机器翻译模块321所 得到的上^语言检索请求的多个目标语言译文为基础,构造与该跨语言 检索请求对应的目标语言检索请求。具体地,如困4所示,该目标语言检索请求构it模块322进一步包括 译文质量评测模块3221、译文可信度计算模块3222、翻译可信度计算模块 3223、检索词列表形成模块3224、权值计算模块3225和检索式生成模块 3226。其中,译文质量评测模块3221用于对上述多个机器翻译模块321的每 一个进*文质量的评测,以得到该机器翻译模块321的译文质量得分。译文可倌度计算樣夹3222用于利用一个语言模型为上述多个机器翻 译模块321的每一个所生成的上述目标语言译文计算可信度。翻译可倌度计算模块3223用于为上述多个机器翻译模块321所得到的 上述多个目标语言译文计算翻译可信度。具体地,该翻译可信度计算模块 3223对于上述多个机器翻译模块321所得到的上述跨语言检索请求的多个 目标语言译文中的每一个,将由译文质量评测模块3221为生成该目标语言译文的机器翻译模块321所评测的译文质量得分与由译文可信度计算模块 3222为该目标语言译文所计算的可信度相乘,以得到该目标语言译文的翻 译可信度。检索词列表形成模块3224用于合并上述多个机器翻译模块321所得到 的上igj^语言检索请求的多个目标语言译文,以形成检索词列表。具体地, 在本实施例中,检索词列表形成模块3224识别出上述各目标语言译文中的 对于检索来说有用的检索词,而删除各目标语言译文中的功能词,从而将 这些对于检索来说有用的检索词组合在一起构成检索词列表,其中在该检 索词列表中对于各检索词记录有关于该检索词出现在哪一目标语言译文中 的信息。权值计算模块3225用于为上述检索词列表形成模块3224所获得的检 索词列表中的备检索词计算权值。具体地,在本实施例中,该权值计算模 块3225利用上述翻译可信度计算模块3223为上述多个目标语言译文中的 每一个计算的翻译可信度,根据上面结合困2所描述的TF-IDF算法来为 上述检索词列表中的各检索词计算权值。检索式生成棋块3226根据上述检索词列表形成模块3224所形成的检 索词列表及其中各检索词的由上述淑值计算模块3225所计算的权值,得到 与各检索词对应的<检索词权值>对,从而将所有检索词的<检索词权 值>对组合在"^构成了目标语言检索式,并作为目标语言检索请求被提交 给检索模块33,以作为检索的依据。以上,就是对本实施例的跨语言检索请求的转换装置的描述。从以上 描述可知,本实施例的跨语言检索请求的转换装置首先利用多个机器翻译模块对用户所输入的跨语言检索请求进行从源语言到目标语言的翻译以得 到该跨语言检索请求的多个目标语言译文,并为这多个目标语言译文中的每一个计算翻译可信度;然后融合这所有目标语言译文以获得一个带有翻 译可信度信息的检索词列表;最后,根据该检索词列表中各检索词的基于 翻译可信度的权值来构造与上述跨语言检索请求对应的目标语言检索式。因而,本实施例的跨语言检索请求的转换装置,由于融合多个机器翻 译模块所生成的跨语言检索请求的目标语言译文,所以可以构造出与* 言检索请求更加相关的检索式.接着,返回到图3,检索模块33用于根据上i^语言检索请求的转换 装置32所生成的、与从用户模块31处获得的跨语言检索请求对应的目标 语言检索请求,从信息源检索满足条件的目标语言文档,以作为针对该跨 语言检索请求的检索结果,从而通过用户模块31呈现给检索用户。以上,就是对本实施例的跨语言信息检索系统的描述。从以上描述可 知,本实施例的跨语言信息检索系统根据融合了多个机器翻译模块所生成 的跨语言检索请求的多个目标语言译文而得到的目标语言检索请求来检索 符合条件的目标语言信息,其检索的精度得到了提高,从而所得到的检索 结果也更加准确。此外,需要说明的是,上面结合图4描述的跨语言检索请求的转换装 置还可与任何现在已知或将来可知的跨语言信息检索系统相结合来4吏用。本实施例的ii^浩言信息检索系统及其各个组成,可以由专用的电路或 芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且, 本实施例的*言信息检索系统,操作上可以实现前面结合图l说明的实 施例的跨语言信息检索方法.以上虽然通过一些示例性的实施例对本发明的跨语言检索请求的转换方法和装置以;s^"言信息检索方法和系统进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内 实现各种变化和修改.因此,本发明并不限于这些实施例,本发明的范围 仅以所附权利要求为准,
权利要求
1. 一种跨语言检索请求的转换方法,包括利用多个不同的机器翻译系统分别对上述跨语言检索请求进行从源语言到目标语言的翻译,以得到该跨语言检索请求的多个目标语言译文;以及以上述跨语言检索请求的上述多个目标语言译文为基础,构造与该跨语言检索请求对应的目标语言检索请求。
2. 如权利要求1所述的跨语言检索请求的转换方法,其中上述构造目 标语言检索请求的步骤进一步包括合并上il^语言检索请求的上述多个目标语言译文,以形成检索词列表;为上述检索词列表中的各检索词计算权值;以及 根据上述检索词列表及其中各检索词的权值构造与上^浯言检索请 求对应的目标语言检索请求。
3. 如权利要求2所述的跨语言检索请求的转换方法,其中为上述检索词列表中的各检索词计算权值的步骤进一步包括为上i^语言检索请求的上述多个目标语言译文中的每一个计算翻译 可信度;将上iii^言检索请求的上述多个目标语言译文中的每一个的翻译可 信度用于计算上述检索词列表中的各检索词的权值。
4. 如权利要求3所述的跨语言检索请求的转换方法,其中上述计算翻 译可信度的步壤进一步包括获得上述多个机器翻译系统的每一个的译文质量得分;利用 一个语言棋型为上M语言检索请求的上述多个目标语言译文中的每一个计算可信度;以及对于上一浩言检索请求的上述多个目标语言译文中的每一个,将生成该目标语言译文的机器翻译系统的译文质量得分与该目标语言译文的可信度相结合,以得到该目标语言译文的翻译可信度。
5. 如权利要求4所述的跨语言检索请求的转换方法,其中将生成该目 标语言译文的机器翻译系统的译文质量得分与该目标语言译文的可信度相结合的步跺进一步包括将生成该目标语言译文的机器翻译系统的译文质量得分与该目标语言 译文的可信度相乘.
6. 如权利要求4所述的跨语言检索请求的转换方法,其中上述多个机 器翻译系统的每一个的译文质量得分是预先针对该机器翻译系统进W文 质量的评测而得到的。
7. 如权利要求3-6中任意一项所述的跨语言检索请求的转换方法,其 中将上il^言检索请求的上述多个目标语言译文中的每一个的翻译可信 度用于计算上迷检索词列表中的各检索词的权值的步骤进一步包括将上述跨语言检索请求的上述多个目标语言译文中的每一个的翻译可 信度用于计算上述检索词列表中的各检索词的加权词频。
8. 如权利要求3-6中任意一项所述的跨语言检索请求的转换方法,其 中将上i^if言检索请求的上述多个目标语言译文中的每一个的翻译可信 度用于计算上述检索词列表中的各检索词的权值的步骤进一步包括利用上述!Ht言检索请求的上述多个目标语言译文中的每一个的翻译 可信度、根据下述算法计算上述检索词列表中的各检索词的权值<formula>formula see original document page 3</formula>其中 <formula>formula see original document page 3</formula>其中,『,,为1*#言检索请求《中的检索词/的权值;TF,.,为检索词/在跨 语言检索请求f中的加权词频;/z巧为检索词/的反向文档频率;Z)为文档 总数;rf,为包含检索词z'的文档数;如《,,为检索词/在跨语言检索请求《 的目标语言译文r中出现的次数;rc,为跨语言检索请求《的目标语言译文 《的翻译可信度,
9. 如权利要求1所述的跨语言检索请求的转换方法,其中上述目标语言检索请求是与上i!J^语言检索请求中的各检索词对应的检索词-权值对 的集合。
10. 如权利要求9所述的跨语言检索请求的转换方法,其中上述检索 词-权值对是<^索词权值>形式的。
11. 一种跨语言信息检索方法,包括 从检索用户处获得跨语言检索请求;利用权利要求1-10中任意一项所述的跨语言检索请求的转换方法对上 述跨语言检索请求进行从源语言到目标语言的转换,以生成与该跨语言检 索请求对应的鼷标语言检索请求;以及根据上述目标语言检索请求从信息源检索满足条件的目标语言文档。
12. 根据权利要求ll所述的跨语言信息检索方法,还包括 向检索用户呈现上述满足条件的目标语言文档。
13. —种跨语言检索请求的转换装置,包括 多个机器翻译模块,其分别对上i^J^言检索请求进行从源语言到目标语言的翻译,以得到该跨语言检索请求的多个目标语言译文;以及目标语言搶索请求构造模块,其以上i^语言检索请求的上述多个目 标语言译文为基础,构造与该跨语言检索请求对应的目标语言检索请求。
14. 如权利要求13所述的跨语言检索请求的转换装置,其中上述目标 语言检索请求构造模块进一步包括检索词列表形成模块,其合并上*洽言检索请求的上述多个目标语言译文,以形成检索词列表;权值计算模块,其为上述检索词列表中的各检索词计算权值;以及 检索式生成棋块,其根据上述检索词列表形成模块所形成的检索词列表及其中由上迷权值计算模块计算出的各检索词的权值,生成与上述^i吾言检索请求对应的目标语言检索式。
15. 如权利要求13或14所述的跨语言检索请求的转换装置,其中上 述目标语言检索请求构造模块进一步包括翻译可信度计算棋块,其为上述多个机器翻译模块的每一个所生成的上述跨语言检索请求的目标语言译文计算翻译可信度;其中,上述权值计算模块将上述翻译可信度计算模块计算的上述多个 目标语言译文中的每一个的翻译可信度用于计算上述检索词列表中的各检 索词的权值。
16. 如权利要求15所述的跨语言检索请求的转换装置,其中上述翻译 可信度计算模块进一步包括译文质重评测模块,其对上述多个机器翻i^模块的每一个进^i^t 量的评测,以获得该机器翻译模块的译文质量得分;译文可信度计算模块,其利用一个语言模型计算上述多个机器翻译模 块的每一个所生成的上述跨语言检索请求的目标语言译文的可信度;其中,上述翻译可信度计算模块对于上ii^语言检索请求的上述多个 目标语言译文中的每一个,将由上述译文质量评测模块为生成该目标语言 译文的机器翻译模块所评测的译文质量得分与由上述译文可信度计算模块 为该目标语言译文所计算的可信度相乘,以得到该目标语言译文的翻译可 信度。
17. 如权利要求15或16所述的跨语言检索请求的转换装置,其中上 述权值计算模块根据下述算法计算上述检索词列表中的各检索词的权值其中 <formula>formula see original document page 5</formula> 其中,K,为跨语言检索请求《中的检索词/的权值;T^,为检索词,'在跨 语言检索请求《中的加权词频;/z巧为检索词/的反向文档频率;D为文档 总数;4为包含检索词/的文档数;/^,,为检索词/在跨语言检索请求《 的目标语言译文f中出现的次数;rc,为跨语言检索请求《的目标语言译文 f的翻译可信度。
18. —种跨语言信息检索系统,包括用户模块,其*索用户处获得冷浯言检索请求,并向检索用户呈现 该跨语言信息检索系统的检索结果;权利要求13-17中任意一项所述的跨语言检索请求的转换装置,其对 上^语言检索请求进行从源语言到目标语言的转换,以生成与该跨语言 检索请求对应的目标语言检索请求;以及检索模块,其根据上述目标语言检索请求从信息源检索满足条件的目 标语言文档。
全文摘要
本发明提供一种跨语言检索请求的转换方法和装置以及跨语言信息检索方法和系统。该跨语言检索请求的转换方法包括利用多个不同的机器翻译系统分别对上述跨语言检索请求进行从源语言到目标语言的翻译,以得到该跨语言检索请求的多个目标语言译文;以及以上述跨语言检索请求的上述多个目标语言译文为基础,构造与该跨语言检索请求对应的目标语言检索请求。本发明通过融合多个机器翻译系统所生成的跨语言检索请求的译文来构造目标语言检索请求,从而提高跨语言信息检索系统的检索性能。
文档编号G06F17/28GK101271461SQ20071008911
公开日2008年9月24日 申请日期2007年3月19日 优先权日2007年3月19日
发明者江 朱, 王海峰 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1