词对齐方法和词对齐设备的制造方法

文档序号:9687419阅读:590来源:国知局
词对齐方法和词对齐设备的制造方法
【技术领域】
[0001]本发明一般地涉及自然语言处理领域。具体而言,本发明涉及一种用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐的词对齐方法和词对齐设备。
【背景技术】
[0002]近年来,自然语言处理,尤其是机器翻译技术得到了迅猛的发展。机器翻译技术从最初的基于规则的翻译方法,逐步发展到基于大规模平行语料的统计机器翻译方法。
[0003]统计机器翻译方法的一个基本并且重要的步骤是词对齐。词对齐是指将双语句对中的源语言词语和目标语言词语对应。例如,双语句对为“我在教室玩游戏”、“I play gamein the classroom".词对齐技术能够将“我”、“在”、“教室”、“玩”、“游戏”分别与“I”、“in”、“ClaSSr00m”、“play”、“game”对应起来。这样,可以基于词对齐获得的双语词对进行各种处理。例如,建立翻译规则表、建立翻译词汇表、抽取短语、层次短语、句法分析等。
[0004]可见,词对齐技术是机器翻译技术,尤其是统计机器翻译技术中的一个基础和重要的技术。词对齐的结果的正确性直接影响后续训练和翻译的正确性。
[0005]人们迫切需要能够进行较高质量的词对齐的词对齐技术。
[0006]另一方面,词对齐技术处理的对象是双语语料。双语语料的质量和数量都相对不足。双语语料的不足也影响词对齐技术的提高。同时,存在大量的高质量单语语料,难以在词对齐技术上利用。
[0007]综上所述,难以在高质量双语语料不足的情况下利用大量高质量单语语料有效地提闻词对齐的质量。
[0008]因此,期望一种能够利用少量双语语料和大量单语语料有效地提高词对齐质量的词对齐方法和词对齐设备。

【发明内容】

[0009]在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0010]本发明的目的是针对现有技术的上述问题,提出了一种能够充分利用大量的高质量单语语料、对高质量的双语语料的数量要求少、有效地提高词对齐质量的词对齐技术。
[0011]为了实现上述目的,根据本发明的一个方面,提供了一种词对齐方法,用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,包括:将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;利用映射模型,确定与所述源语言词向量对应的参考目标语言词向量;计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及将所计算的相似度作为特征,利用基于特征函数的词对齐模型,对齐所述源语言词语和所述目标语言词语。
[0012]相应地,根据本发明的再一方面,提供了一种机器翻译方法,其中,利用如上所述的词对齐方法进行词对齐。
[0013]根据本发明的另一个方面,提供了一种词对齐设备,用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,包括:转换模型,用于将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;映射模型,用于确定与所述源语言词向量对应的参考目标语言词向量;相似度计算装置,被配置为计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及基于特征函数的词对齐模型,用于将所计算的相似度作为特征,对齐所述源语言词语和所述目标语言词语。
[0014]相应地,根据本发明的再一方面,提供了一种机器翻译设备,该机器翻译设备包括:如上所述的词对齐设备,用于进行词对齐。
[0015]另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
[0016]此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
【附图说明】
[0017]参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
[0018]图1示出了根据本发明的实施例的词对齐方法的流程图;
[0019]图2示出了根据本发明的实施例的映射模型训练方法的流程图;
[0020]图3示出了根据本发明实施例的词对齐设备的结构方框图;以及
[0021]图4示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
【具体实施方式】
[0022]在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0023]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
[0024]下面将参照图1描述根据本发明的实施例的词对齐方法的流程。
[0025]图1示出了根据本发明的实施例的词对齐方法的流程图。如图1所示,根据本发明的词对齐方法用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,该词对齐方法包括如下步骤:将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量(步骤S1);利用映射模型,确定与所述源语言词向量对应的参考目标语言词向量(步骤S2);计算所述参考目标语言词向量与所述目标语言词向量之间的相似度(步骤S3);以及将所计算的相似度作为特征,利用基于特征函数的词对齐模型,对齐所述源语言词语和所述目标语言词语(步骤S4)。
[0026]在步骤S1中,将源语言词语和目标语言词语转换为源语言词向量和目标语言词向量。
[0027]词对齐的对象是双语语料。根据翻译的需求,将其中一种语言定义为源语言,将另一种语言定义为目标语言。
[0028]双语语料一般为句子、段落、文档等。以句子为例,一个源语言的句子由多个源语言的词语组成,可以通过分词等手段将一个源语言句子划分为多个源语言词语。类似地,可以将一个目标语言句子划分为多个目标语言词语。词对齐就是将源语言句子中的源语言词语与目标语言句子中的目标语言词语对应起来的过程。
[0029]根据本发明的思想,将源语言词语和目标语言词语向量化,即将词语抽象地、分布式地表示。然后基于词语的向量表示抽取可用于词对齐的特征,通过增加特征来提高词对齐的质量。
[0030]因此,在步骤S1中
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1