短句切分装置、机器翻译系统及对应切分方法和翻译方法

文档序号:6512518阅读:298来源:国知局
短句切分装置、机器翻译系统及对应切分方法和翻译方法
【专利摘要】本申请提供一种短句切分的装置和包括该装置的机器翻译系统,该装置包括顺序相连的短句粗切分单元、短句句对齐单元、最小对齐块合并单元和短句切分训练单元;短句粗切分单元,用于将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;短句句对齐单元,用于将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;最小对齐块合并单元,用于将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;短句切分训练单元,用于利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
【专利说明】短句切分装置、机器翻译系统及对应切分方法和翻译方法
【技术领域】
[0001]本发明涉及自然语言处理技术,更具体地,涉及一种短句切分方法及装置、机器翻译的方法和系统。
【背景技术】
[0002]随着科技的进步,国际交流的日益繁杂和信息量急剧增加,不同语言之间的障碍所导致的信息问题越来越影响沟通的效率,通过计算机来处理不同语言文本的互译,突破语言障碍,是机器翻译研究的重要课题。目前的机器翻译以统计方法为主,而词对齐是现有统计方法的基础,词对齐的好坏决定了翻译质量的好坏。
[0003]另外,在自然语言处理的机器翻译过程中,一般把自然语言句子作为基本分析单位,现有方法的处理的时空复杂度一般都和句子长度高度相关。在处理长句子的时候,会导致指数级的时空消耗,很多复杂的模型将无法高效使用。因此,为保证时间、空间可行性,经常会降低到较为简单的模型上,从而带来质量性能的下降。
[0004]为了减少句长带来的处理难度,有的现有方法将标点作为切分点,对句子进行统一切分,但是经常会在不应该断句的地方将句子切断,导致后续的处理步骤性能下降。
[0005]目前公开可用的对齐工具仍然是GIZA++,但是对于句子比较长的情况,其规划路径太多,复杂度会非常高,处理时间会大大增加。所以,有必要对于句子进行优化的切分,并且对齐在一个可靠的较小范围内进行搜索和匹配,才能保证一定精度情况下缩短处理时间,或者才能保证整个翻译的精度,进而提高翻译效率。

【发明内容】

[0006]为克服现有的在处理长句时时间空间消耗严重、性能不够高的缺陷,本发明提出一种短句切分方法及装置以及机器翻译的方法和系统。
[0007]根据本发明的一个方面,提出了一种短句切分的装置,包括顺序相连的短句粗切分单元、短句句对齐单元、最小对齐块合并单元和短句切分训练单元;其中,短句粗切分单元,用于将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;其中,短句句对齐单元,用于将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;其中,最小对齐块合并单元,用于将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;其中,短句切分训练单元,用于利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
[0008]根据本发明的另一方面,提出了一种机器翻译系统,包括短句切分模块、翻译模块、译文合并模块、模型生成模块和短句切分模型训练模块;其中,短句切分模块,用于基于短句切分模型训练模块得到的短句切分模型,对待翻译文本句子进行短句切分,生成短句序列;其中,模型生成模块,用于基于短句切分模型训练模块得到的双语平行短句对齐语料来训练生成翻译模型;其中,短语翻译模块,用于利用模型生成模块生成的翻译模型对待翻译文本进行翻译;译文合并模块,用于将短语翻译模块获得的对应一个整句的短句序列的译文进行合并,以形成完整译文;其中,短句切分模型训练模块,用于训练短句切分模型,供短句切分模块使用。
[0009]根据本发明的又一方面,提供一种短句切分方法,包括:步骤1,将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;步骤2,将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;步骤3,将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;步骤4,利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
[0010]根据本发明的又一方面,提供一种机器翻译方法,包括:步骤1,训练短句切分模型,对待翻译文本句子进行短句切分,生成短句序列;步骤2,基于双语平行短句对齐语料来训练生成翻译模型;步骤3,利用翻译模型对待翻译文本进行翻译;步骤4,将翻译获得的对应一个整句的短句序列的译文进行合并,以形成完整译文。
[0011]本发明通过采用短句切分装置对待翻译文本进行短句切分,可以减少句长带来的处理难度,有效提高翻译的精度。同时,利用一对一短句句对齐语料训练短句切分模型,可以智能识别句子该切断的标点,有效提高后续的处理步骤的性能,进而通过翻译系统提高翻译效率,增加翻译的精确性。
【专利附图】

【附图说明】
[0012]图1为根据本发明的机器翻译系统的结构示意框图;
[0013]图2为根据本发明的最小对齐块合并方法的示例图;
[0014]图3为根据本发明的短句切分方法的流程图;
[0015]图4为根据本发明的双语短句平行语料生成方法的流程图;
[0016]图5为根据本发明的机器翻译方法的第一实施例的流程图;
[0017]图6为根据本发明的机器翻译方法的第二实施例的流程图。
[0018]如图所示,为了能明确实现本发明的实施例的结构,在图中标注了特定的结构和器件,但这仅为示意需要,并非意图将本发明限定在该特定结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。
【具体实施方式】
[0019]下面结合附图和具体实施例对本发明提供的一种短句切分方法及装置、双语短句平行语料生成的方法和系统、机器翻译的方法和系统进行详细描述。
[0020]在以下的描述中,将描述本发明的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本发明。在其他情况下,为了不混淆本发明,对于一些众所周知的特征将不再进行详细阐述。
[0021]本发明提供了一种短句切分的装置,如图1所示,在图1的示例中,该短句切分装置可以是所示的短句切分模型训练模块105,该短句切分装置包括顺序相连的短句粗切分单元1051、短句句对齐单元1052、最小对齐块合并单元1053和短句切分训练单元1054。
[0022]其中,短句粗切分单元1051,用于将双语语料中的每个句子单独按照以标点为潜在切分点,结合人工规则排查进行切分,形成一个短句序列。双语语料中的两种语言句子做单独处理。所述人工规则包括长度限制法以及惯用习语排查法两种策略。
[0023]在本实施例中,长度限制法是指,如果某一短句的结尾标点是句中标点(SP:逗号等)而且长度低于η (η优选为4),则不在此处切分。所述惯用习语排查法主要基于惯用习语表,如果所要切分出的短句在惯用习语表中,则不作为短句在此处切分。所述惯用习语表是利用短句语料库进行高频短句统计所获得的最高频m(m优选为100)个短句组成。
[0024]其中,短句句对齐单元1052,用于将从短句粗切分单元1051获得的互相对应的一对一双语短句序列进行句对齐,形成多对多的短句对齐语料。
[0025]例如,下面的一对双语短句序列:
[0026]示例中文短句序列I = C1C2C3.....Cn
[0027]示例英文短句序列2: G1G2G3.....em
[0028]其中,C1至cn、θι至em分别为短句序列I和短句序列2中的各个短句。短句句对齐单元1052的输出是短句之间的对齐关系,比如(C1, ei) ; (c2c3, e2) ;...(cn, em)。短句之间的对齐关系可以是多对多形式。
[0029]在本实施例中,可采用综合长度和词典的方法进行短句句对齐。由于该方法属于现有技术,在此不再做具体介绍。除此之外,本发明并不限定具体的句对齐方法,采用其他的句对齐方法并不影响本发明的实施。
[0030]其中,最小对齐块合并单元1053,用于将短句句对齐单元1052处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料。所述最小对齐块合并单元所采用的最小对齐块合并方法是:第一语言短句块和其所对齐的第二语言短句块都被包含,反过来依然,且两者都包含最少的短句。
[0031]其中,在合并过程中,只保留有对齐关系的短句。为使得合并获得的对齐语料粒度尽量小,采用最小对齐块合并方法。所述最小对齐块合并方法指在将相互对齐的双语短句子序列合并时,在保证满足对齐关系的情况下,两端短句子序列包含的短句数均最少,公式表达如下:
【权利要求】
1.一种短句切分的装置,包括顺序相连的短句粗切分单元、短句句对齐单元、最小对齐块合并单元和短句切分训练单元; 其中,短句粗切分单元,用于将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列; 其中,短句句对齐单元,用于将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料; 其中,最小对齐块合并单元,用于将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料; 其中,短句切分训练单元,用于利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
2.根据权利要求1所述的装置,其中,所述最小对齐块合并单元处理过的、具有最小对齐块的对齐语料中,第一语言短句块和其所对齐的第二语言短句块都被包含,反之亦然,且两者都包含最少的短句。
3.根据权利要求 2所述的装置,其中,所述最小对齐块合并单元在合并过程中只保留有对齐关系的短句;所述最小对齐块合并单元将相互对齐的双语短句子序列合并时,在保证满足对齐关系的情况下两端短句子序列包含的短句数均最少。
4.根据权利要求2所述的装置,其中,所述最小对齐块合并单元还用于将相邻的短句对齐句对进行组合扩展,以形成粒度更大的句对齐语料。
5.—种机器翻译系统,包括短句切分模块、翻译模块、译文合并模块、模型生成模块和短句切分模型训练模块; 其中,短句切分模块,用于基于短句切分模型训练模块得到的短句切分模型,对待翻译文本句子进行短句切分,生成短句序列; 其中,模型生成模块,用于基于短句切分模型训练模块得到的双语平行短句对齐语料来训练生成翻译模型; 其中,翻译模块,用于利用模型生成模块生成的翻译模型对待翻译文本进行翻译;译文合并模块,用于将翻译模块获得的对应一个整句的短句序列的译文进行合并,以形成完整译文; 其中,短句切分模型训练模块,用于训练短句切分模型,供短句切分模块使用。
6.根据权利要求5所述的系统,其中,短句切分模型训练模块包括顺序相连的短句粗切分单元、短句句对齐单元、最小对齐块合并单元和短句切分训练单元; 其中,短句粗切分单元,用于将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列; 其中,短句句对齐单元,用于将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料; 其中,最小对齐块合并单元,用于将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料; 其中,短句切分训练单元,用于利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
7.根据权利要求6所述的系统,其中,所述最小对齐块合并单元在合并过程中只保留有对齐关系的短句;所述最小对齐块合并单元将相互对齐的双语短句子序列合并时,在保证满足对齐关系的情况下两端短句子序列包含的短句数均最少。
8.根据权利要求5所述的系统,其中,短句切分模块还用于将输入的短句切分结果进行组合扩展,以构成多种待翻译句子的短句切分结果。
9.根据权利要求6所述的系统,其中,所述翻译模型由通过最小对齐块合并单元获取平行语料的方式所获取的训练语料训练得到。
10.一种短句切分方法,包括: 步骤1,将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列; 步骤2,将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料; 步骤3,将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料; 步骤4,利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
11.根据权利要求10所述的方法,其中,在步骤I中,将双语语料中的每个句子按照以标点为潜在切分点,结合长度限制法和惯用习语排查法进行切分,形成一个短句序列。
12.根据权利要求10的方法,其中,在步骤3中,对于步骤2输出的多对多形式的短句句对齐语料,对一对多、多对一和多对多的情况进行合并,同时删除未与任何句子对齐的句子,将结果合并形成具有一对一形式的对齐语料库。
13.根据权利要求12的方`法,其中,步骤3进一步包括,对于相互对齐的双语短句序列,在保证满足对齐关系的情况下,两端短句子序列包含的短句数均最少。
14.根据权利要求10的方法,其中,在步骤4中,基于短句切分模型对输入的整句进行切分,通过对输入整句中的每个词进行二元标注,根据标注结果来确定短句切分边界。
15.—种机器翻译方法,包括: 步骤1,训练短句切分模型,对待翻译文本句子进行短句切分,生成短句序列; 步骤2,基于双语平行短句对齐语料来训练生成翻译模型; 步骤3,利用翻译模型对待翻译文本进行翻译; 步骤4,将翻译获得的对应一个整句的短句序列的译文进行合并,以形成完整译文。
16.根据权利要求15所述的方法,其中,步骤I包括: 步骤11,将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列; 步骤12,短句句对齐单元,用于将一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料; 步骤13,将短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料; 步骤14,利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
17.根据权利要求16所述的方法,其中,步骤13还包括: 在合并过程中只保留有对齐关系的短句;将相互对齐的双语短句子序列合并时,在保证满足对齐关系的情况下两端短句子序列包含的短句数均最少。
18.根据权利要求15所述的方法,其中,步骤11还包括将输入的短句切分结果进行组合扩展,以构成多种待翻译句子的短句切分结果。
19.根据权利要求15所述的方法,其中,步骤2中,所述翻译模型通过获取平行语料的方式所输出的训练语料训练得到。
20.根据权利 要求18所述的方法,其中,步骤4还包括对不同组合扩展获得的译文进行译文后选择,确定最终译文。
【文档编号】G06F17/27GK103530284SQ201310432908
【公开日】2014年1月22日 申请日期:2013年9月22日 优先权日:2013年9月22日
【发明者】任智军, 张威, 蒋宏飞, 熊文, 姜涛, 张凯 申请人:中国专利信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1