源语言改写处理方法和设备及机器翻译系统的制作方法

文档序号:6435199阅读:186来源:国知局
专利名称:源语言改写处理方法和设备及机器翻译系统的制作方法
源语言改写处理方法和设备及机器翻译系统技术领域
本发明总体上涉及自然语言处理领域,具体来说涉及一种可用于辅助机器翻译的 源语言改写处理方法和设备,以及一种包括该设备的机器翻译系统。
背景技术
机器翻译是利用计算设备把一种自然语言(即,源语言)转换为另一种自然语言 (即,目标语言)的过程,是自然语言处理(Natural Language Processing)的一个分支。 机器翻译通常利用词典和训练语料来学习获得源语言和目标语言的词汇、语法及其对应特 征。一般来说,在源语言和目标语言之间在词汇和语序等方面往往存在一些差异,使得对于 存在此类差异的语句的翻译成为机器翻译过程中的难点,由此导致机器翻译的精度较低。 如何更好地提高机器翻译的精度一直是迫切要解决的问题。改写是一种服务于提高机器翻 译精度的方法,可以通过词典、源语言和目标语的对应关系、语料库等多种资源和手段将源 语言改变为易于机器反应系统理解和处理的形式。
发明人发现,根据源语言自身的语法特点进行改写可以在不依赖外部资源支持的 情况下,化繁为简,变难为易,将源语言改写为一种机器翻译系统易于理解和处理的形式, 显著提高机器翻译系统的速度和精度。如果在机器翻译前预先对源语言的文字符号序列进 行处理,将源语言语句中复杂的语句(多个谓词嵌套的复合句)拆分重构为简单的单谓词 非嵌套子句的句子,使其成为易于翻译的文字符号序列,将能够大幅度地降低机器翻译的 难度,提高翻译的精度和质量。基于这个认识,发明人做出了本发明。发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本 理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种源语言改写处理方法和 设备,其能够在进行传统的机器翻译之前对要翻译的源语言语句进行改写处理,将复杂的 难翻译的语句转换为简单的易于翻译的语句,从而能够部分解决传统的机器翻译过程中存 在的翻译精度低的问题。
本发明的另一个目的是提供包括上述源语言改写处理设备的机器翻译系统,以及 相应的计算机可读存储介质和程序产品。
根据本发明的一个实施例,提供了一种源语言改写处理方法,该源语言改写处理 方法包括对源语言语句中的待处理语句进行语法分析;根据语法分析结果确定待处理语 句中的包含子句嵌套结构的语句;基于语法分析结果对所确定的包含子句嵌套结构的语句 进行重构,以获得至少一个包含非嵌套子句的语句;以及用所获得的至少一个包含非嵌套 子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。
根据本发明的另一个实施例,提供了一种源语言改写处理设备,该源语言改写处 理设备包括语法分析单元,被配置用于对源语言语句中的待处理语句进行语法分析,并根 据语法分析结果确定待处理语句中的包含子句嵌套结构的语句;以及语句重构单元,被配 置用于基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个 包含非嵌套子句的语句,并用上述至少一个包含非嵌套子句的语句中的含有最多非嵌套子 句的语句来替换上述包含子句嵌套结构的语句。
根据本发明的又一个实施例,提供了一种机器翻译系统,该机器翻译系统包含上 述的源语言改写处理设备。
通过将根据本发明实施例的上述处理方法和设备应用到传统的机器翻译过程中, 能够实现以下益处通过在传统的机器翻译之前对源语言的语句进行处理,将源语言语句 中的包含子句嵌套结构的复杂语句转换成不包含子句嵌套结构的简单语句,使得处理后的 源语言语句在后续进行的机器翻译过程中的翻译难度降低,从而能够提高机器翻译过程的 翻译精度和翻译效率。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优 点将变得更加明显。


本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所 有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的 详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本 发明的优选实施例和解释本发明的原理和优点。在附图中
图1是根据本发明实施例的源语言改写处理方法的流程图2是根据本发明实施例的图1中的步骤S140的具体处理过程的流程图3是示出根据本发明实施例的源语言改写处理方法的示例性处理流程的示意 图4A是以语法分析树形式表示的拆分前语句的语法分析结果;
图4B-4D分别为以语法分析树形式表示的第一、第二和第三候选语句的语法分析结果;
图5是根据本发明实施例的处理方法的另一种具体实现方式中包括的语义搭配 异常处理过程的流程图6是示出语句“他总是吃父母”的语义角色自动标注的分析树的示意图7是示意性地示出根据本发明实施例的处理设备的结构的框图8是示出如图7中示出的语句重构单元的一个具体例子的结构的示意图;以及
图9是示出了在其中可以实现根据本发明实施例的方法和/或设备的通用个人计 算机的示例性结构的框图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的, 而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以 便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施 例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符 合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有 所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开 内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中 仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明 关系不大的其他细节。
图1是根据本发明实施例的源语言改写处理方法的流程图。
如图1所示,根据本发明实施例的源语言改写处理方法100开始于步骤S110,然后 在步骤S120中对待处理语句进行语法分析。
在此所提及的待处理语句可以是要进行机器翻译的源语言语句本身,也可以是对 上述源语言语句进行初步筛选后得到的语句,例如可以是从上述源语言语句中筛选出的满 足一定条件的语句。其中,上述“满足一定条件的语句”例如可以是其中所包含的谓词总数 和总词数均分别高于预设值的语句。这里,所说的“谓词”包括动词和形容词。
具体地,在本发明实施例的方法的一个具体示例中,可以通过下述方式确定将要 利用本发明实施例的处理方法进行处理的待处理语句对等待进行机器翻译的源语言语句 进行分词和词性标注处理,然后根据分词和词性标注处理的结果,从上述源语言语句中筛 选得到满足以下两个条件的语句语句中包含的谓词总数高于第一预设阈值;且语句中包 含的总词数高于第二预设阈值。
这样筛选出的语句是存在较高的翻译难度的一类长的、复杂的句子,由此能够进 一步缩小处理对象的范围,进而可以提高处理速度和处理效率。此外,在如上的筛选过程中 被滤除的是包含的谓词总数少或包含的总词数少的简单句子,这样的简单句子中的大部分 通常不包含嵌套结构,而且即使是包含嵌套结构的小部分此类句子,它们通常在机器翻译 过程中具有较低的翻译难度,所以可以不经过根据本发明实施例的方法处理而直接进行机 器翻译。
在步骤S120中对待处理语句所进行的语法分析可以是短语结构语法分析或依存 关系语法分析中的任一种,也可以是现有的其他任意一种语法分析。
然后,在步骤S130中,根据语法分析的结果确定待处理语句中的、包含子句嵌套 结构的语句。
在通过对待处理语句进行语法分析而得到的语法分析结果中,除包含语句的文字 符号序列外还包含其他更多的语法知识(包括词性信息、非嵌套子句的句法结构等语法信 息),因此能够根据语法分析结果确定待处理语句中的哪些语句是包含子句嵌套结构的语 句。并且这些语法知识是之后进行重组工作的重要依据和参考信息。
在此所提及的“包含子句嵌套结构的语句”是指其中嵌套有子句的语句,这类语句 通常至少包含两套主谓关系。其中,这里所说的“子句”可以是嵌套子句,也可以是非嵌套 子句,且“子句”至少包含一套主谓关系。嵌套子句是包含子句嵌套结构的子句,并且,嵌套子句也可进一步包含有嵌套子句。非嵌套子句则不包含任何子句嵌套结构。
接下来,在步骤S140中,基于语法分析结果对步骤S130中确定的包含子句嵌套结 构的语句进行重构,以获得至少一个包含非嵌套子句的语句。为了简单起见,以下将重构后 的包含非嵌套子句的语句称为语句候选。下面将结合图2对根据本发明实施例的步骤S140 的具体处理过程进行详细描述。
在步骤S150中,从步骤S140中获得的上述至少一个包含非嵌套子句的语句(即, 语句候选)中选取一个适当的语句来替换步骤S130中确定的包含子句嵌套结构的语句。为 了简单起见,以下将步骤S130中确定的包含子句嵌套结构的语句简称为待替换语句。
在根据本发明实施例的方法中,可以从语句候选中选择包含最多数目的非嵌套子 句的语句作为所述适当的语句,来替换步骤S130中确定的包含子句嵌套结构的语句。然 而,在语句候选中包含最多数目的非嵌套子句的语句可能不只一个。在这种情况下,可以通 过诸如N元语法等的语言模型对每个含有最多非嵌套子句的语句进行评分,并选择其中得 分最高的语句作为所述适当的语句。
然后,方法100在步骤S160结束。
图2示出了根据本发明实施例的、图1中的步骤S140的具体处理过程的流程图。
如图2所示,在步骤S210中,基于所述语法分析结果,将步骤S130中确定的、包含 子句嵌套结构的语句(即,待替换语句)拆分为非嵌套子句和剩余的多个句子成分,其中句 子成分可以是词,也可以是由至少两个词构成的、包含语法关系的短语。
具体地,由于根据所述语法分析结果可以确定待替换语句中包含的非嵌套子句, 因此可以通过破坏待替换语句中的、除非嵌套子句之外的语法关系,以及保留非嵌套子句 的语法关系,而得到非嵌套子句和剩余的多个句子成分及其词性信息,此时,各个句子成分 均是单独的词语。
此外,也可以在保留待替换语句中的非嵌套子句的语法关系之外,并保留待替换 语句中除非嵌套子句之外的、由至少两个词构成的短语所对应的语法关系,而破坏待替换 语句中的、除上述非嵌套子句和短语之外的语法关系,从而得到非嵌套子句和剩余的多个 句子成分,此时,上述多个句子成分中包括词和短语。
然后,在步骤S220中,对步骤S210中拆分后得到的非嵌套子句以及其他句子成分 进行多次调序,再一次进行自动语法分析。在进行调序时,可以将拆分后得到的非嵌套子句 作为整体在整个语句中逐次向右调序,或者可以对拆分后的除非嵌套子句之外的其他句子 成分在整个语句中逐次向左调序,从而得出所有可能的调序结果。
在步骤S230中,作为多次调序、自动语法分析的结果,获得至少一个包含非嵌套 子句的语句。在此,所得到的包含非嵌套子句的语句中应当包含对应的原始语句(即,待替 换语句)中所包括的所有字符串。
下面结合图3以及图4A至图4D来描述根据本发明实施例的源语言改写处理方法 的一个具体应用示例。
图3是示出根据本发明实施例的源语言改写处理方法300的示例性处理流程的示 意图。如图3所示,处理方法300在步骤S310开始,然后进行到步骤S320。
在步骤S320中,在需要进行处理的一段源语言语句中筛选得到满足下述条件的 多个待处理语句语句中包含的谓词总数大于N,且包含的总词数大于M,其中N和M为自然数。例如,N和M的取值可以为N = 2,M= 10。
然后,在步骤S330中,对筛选得到的多个待处理语句进行语法分析,例如短语结构语法分析。
在步骤S340中,根据上述语法分析的结果,确定在上述多个待处理语句中的包含子句嵌套结构的语句。例如,假设确定出的包含子句嵌套结构的语句为“他躲在一个你看得见他他看不见你的地方”。为描述方便起见,在下文中,将该语句“他躲在一个你看得见他他看不见你的地方”称作“拆分前语句”。
图4A是以语法分析树形式表示的上述拆分前语句的语法分析结果。其中,在图4A 以及以下将要进行描述的图4B-4D中的语法分析树中可能出现的标记及其含义描述可以参见下面的表1:
表I
权利要求
1.一种源语言改写处理方法,包括 对源语言语句中的待处理语句进行语法分析; 根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句; 基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句;以及 用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。
2.根据权利要求1所述的源语言改写处理方法,在进行语法分析的步骤之前还包括步骤从源语言语句中筛选满足下列条件的语句作为所述待处理语句 语句中的谓词总数高于第一预设阈值;以及 语句中的总词数高于第二预设阈值。
3.根据权利要求1所述的源语言改写处理方法,其中,对所述包含子句嵌套结构的语句进行重构的步骤进一步包括 基于所述语法分析结果,将所述包含子句嵌套结构的语句拆分为非嵌套子句和剩余的多个句子成分;以及 对所述非嵌套子句和所述多个句子成分进行调序,作为调序的结果,获得至少一个包含非嵌套子句的语句。
4.根据权利要求3所述的源语言改写处理方法,其中,所述调序步骤进一步包括 将拆分后得到的非嵌套子句作为整体在整个语句中逐次向右调序,或者将拆分后的除非嵌套子句之外的其他句子成分在整个语句中逐次向左调序。
5.根据权利要求1所述的源语言改写处理方法,其中,所述用含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句的步骤进一步包括 在所述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句的个数大于I的情况下,利用预定语言模型对每个所述含有最多非嵌套子句的语句进行评分,并选择其中得分最高的语句来替换所述包含子句嵌套结构的语句。
6.根据权利要求1-5中任意一项所述的源语言改写处理方法,还包括以下步骤 对要进行语义搭配异常处理的语句进行语义角色自动标注,以确定语句中的语义搭配出现异常的词语对; 把语义搭配异常的词语对中的具有较多词义项数的一个词语确定为导致语义搭配异常的主要元素词语;以及 从预先存储的语料库中获得与所述词语对中的另一个词语搭配频率高于预设阈值的多个词语,并用所述多个词语中的与所述词语对相关度最高的一个词语来替换所述词语对中的主要元素词语。
7.根据权利要求1-6中任意一项所述的源语言改写处理方法,还包括 确定要进行多义词歧义消除处理的语句中的多义词; 根据语境含义确定每个多义词在语句中的唯一义项;以及 用预先存储的字典中的与所确定的义项对应的一个词语替换与该义项有关的多义词。
8.根据权利要求1-7中任意一项所述的源语言改写处理方法,其中,所述源语言语句是要进行机器翻译的语句。
9.一种源语言改写处理设备,包括 语法分析单元,被配置用于对源语言语句中的待处理语句进行语法分析,并根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句;以及 语句重构单元,被配置用于基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句,并用所述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。
10.一种机器翻译系统,包含根据权利要求9所述的源语言改写处理设备。
全文摘要
本发明提供了一种源语言改写处理方法和设备及机器翻译系统。该改写处理方法包括对源语言语句中的待处理语句进行语法分析;根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句;基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句;以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。该处理装置被配置实现上述处理方法中包括的功能。应用本发明的处理方法、设备或系统,能够将一些复合长句降解并重组为若干非复合的子句,降低机器翻译过程中的翻译难度,提高翻译精度和翻译效率。本发明适用于自然语言处理领域。
文档编号G06F17/28GK103020040SQ201110305010
公开日2013年4月3日 申请日期2011年9月27日 优先权日2011年9月27日
发明者张洁, 葛乃晟, 郑仲光, 孟遥, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1