源语言改写处理方法和设备及机器翻译系统的制作方法

文档序号：6435199阅读：186来源：国知局

专利名称：源语言改写处理方法和设备及机器翻译系统的制作方法
源语言改写处理方法和设备及机器翻译系统技术领域
本发明总体上涉及自然语言处理领域，具体来说涉及一种可用于辅助机器翻译的源语言改写处理方法和设备，以及一种包括该设备的机器翻译系统。
背景技术：
机器翻译是利用计算设备把一种自然语言(即，源语言)转换为另一种自然语言 (即，目标语言)的过程，是自然语言处理(Natural Language Processing)的一个分支。机器翻译通常利用词典和训练语料来学习获得源语言和目标语言的词汇、语法及其对应特征。一般来说，在源语言和目标语言之间在词汇和语序等方面往往存在一些差异，使得对于存在此类差异的语句的翻译成为机器翻译过程中的难点，由此导致机器翻译的精度较低。如何更好地提高机器翻译的精度一直是迫切要解决的问题。改写是一种服务于提高机器翻译精度的方法，可以通过词典、源语言和目标语的对应关系、语料库等多种资源和手段将源语言改变为易于机器反应系统理解和处理的形式。
发明人发现，根据源语言自身的语法特点进行改写可以在不依赖外部资源支持的情况下，化繁为简，变难为易，将源语言改写为一种机器翻译系统易于理解和处理的形式，显著提高机器翻译系统的速度和精度。如果在机器翻译前预先对源语言的文字符号序列进行处理，将源语言语句中复杂的语句(多个谓词嵌套的复合句)拆分重构为简单的单谓词非嵌套子句的句子，使其成为易于翻译的文字符号序列，将能够大幅度地降低机器翻译的难度，提高翻译的精度和质量。基于这个认识，发明人做出了本发明。发明内容
在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷，本发明的目的之一是提供一种源语言改写处理方法和设备，其能够在进行传统的机器翻译之前对要翻译的源语言语句进行改写处理，将复杂的难翻译的语句转换为简单的易于翻译的语句，从而能够部分解决传统的机器翻译过程中存在的翻译精度低的问题。
本发明的另一个目的是提供包括上述源语言改写处理设备的机器翻译系统，以及相应的计算机可读存储介质和程序产品。
根据本发明的一个实施例，提供了一种源语言改写处理方法，该源语言改写处理方法包括对源语言语句中的待处理语句进行语法分析；根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句；基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句；以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。
根据本发明的另一个实施例，提供了一种源语言改写处理设备，该源语言改写处理设备包括语法分析单元，被配置用于对源语言语句中的待处理语句进行语法分析，并根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句；以及语句重构单元，被配置用于基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句，并用上述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。
根据本发明的又一个实施例，提供了一种机器翻译系统，该机器翻译系统包含上述的源语言改写处理设备。
通过将根据本发明实施例的上述处理方法和设备应用到传统的机器翻译过程中，能够实现以下益处通过在传统的机器翻译之前对源语言的语句进行处理，将源语言语句中的包含子句嵌套结构的复杂语句转换成不包含子句嵌套结构的简单语句，使得处理后的源语言语句在后续进行的机器翻译过程中的翻译难度降低，从而能够提高机器翻译过程的翻译精度和翻译效率。
通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将变得更加明显。

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中
图1是根据本发明实施例的源语言改写处理方法的流程图2是根据本发明实施例的图1中的步骤S140的具体处理过程的流程图3是示出根据本发明实施例的源语言改写处理方法的示例性处理流程的示意图4A是以语法分析树形式表示的拆分前语句的语法分析结果；
图4B-4D分别为以语法分析树形式表示的第一、第二和第三候选语句的语法分析结果;
图5是根据本发明实施例的处理方法的另一种具体实现方式中包括的语义搭配异常处理过程的流程图6是示出语句“他总是吃父母”的语义角色自动标注的分析树的示意图7是示意性地示出根据本发明实施例的处理设备的结构的框图8是示出如图7中示出的语句重构单元的一个具体例子的结构的示意图；以及
图9是示出了在其中可以实现根据本发明实施例的方法和/或设备的通用个人计算机的示例性结构的框图。
本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。
在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤，而省略了与本发明关系不大的其他细节。
图1是根据本发明实施例的源语言改写处理方法的流程图。
如图1所示，根据本发明实施例的源语言改写处理方法100开始于步骤S110，然后在步骤S120中对待处理语句进行语法分析。
在此所提及的待处理语句可以是要进行机器翻译的源语言语句本身，也可以是对上述源语言语句进行初步筛选后得到的语句，例如可以是从上述源语言语句中筛选出的满足一定条件的语句。其中，上述“满足一定条件的语句”例如可以是其中所包含的谓词总数和总词数均分别高于预设值的语句。这里，所说的“谓词”包括动词和形容词。
具体地，在本发明实施例的方法的一个具体示例中，可以通过下述方式确定将要利用本发明实施例的处理方法进行处理的待处理语句对等待进行机器翻译的源语言语句进行分词和词性标注处理，然后根据分词和词性标注处理的结果，从上述源语言语句中筛选得到满足以下两个条件的语句语句中包含的谓词总数高于第一预设阈值；且语句中包含的总词数高于第二预设阈值。
这样筛选出的语句是存在较高的翻译难度的一类长的、复杂的句子，由此能够进一步缩小处理对象的范围，进而可以提高处理速度和处理效率。此外，在如上的筛选过程中被滤除的是包含的谓词总数少或包含的总词数少的简单句子，这样的简单句子中的大部分通常不包含嵌套结构，而且即使是包含嵌套结构的小部分此类句子，它们通常在机器翻译过程中具有较低的翻译难度，所以可以不经过根据本发明实施例的方法处理而直接进行机器翻译。
在步骤S120中对待处理语句所进行的语法分析可以是短语结构语法分析或依存关系语法分析中的任一种，也可以是现有的其他任意一种语法分析。
然后，在步骤S130中，根据语法分析的结果确定待处理语句中的、包含子句嵌套结构的语句。
在通过对待处理语句进行语法分析而得到的语法分析结果中，除包含语句的文字符号序列外还包含其他更多的语法知识(包括词性信息、非嵌套子句的句法结构等语法信息)，因此能够根据语法分析结果确定待处理语句中的哪些语句是包含子句嵌套结构的语句。并且这些语法知识是之后进行重组工作的重要依据和参考信息。
在此所提及的“包含子句嵌套结构的语句”是指其中嵌套有子句的语句，这类语句通常至少包含两套主谓关系。其中，这里所说的“子句”可以是嵌套子句，也可以是非嵌套子句，且“子句”至少包含一套主谓关系。嵌套子句是包含子句嵌套结构的子句，并且，嵌套子句也可进一步包含有嵌套子句。非嵌套子句则不包含任何子句嵌套结构。
接下来，在步骤S140中，基于语法分析结果对步骤S130中确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句。为了简单起见，以下将重构后的包含非嵌套子句的语句称为语句候选。下面将结合图2对根据本发明实施例的步骤S140 的具体处理过程进行详细描述。
在步骤S150中，从步骤S140中获得的上述至少一个包含非嵌套子句的语句(即，语句候选)中选取一个适当的语句来替换步骤S130中确定的包含子句嵌套结构的语句。为了简单起见，以下将步骤S130中确定的包含子句嵌套结构的语句简称为待替换语句。
在根据本发明实施例的方法中，可以从语句候选中选择包含最多数目的非嵌套子句的语句作为所述适当的语句，来替换步骤S130中确定的包含子句嵌套结构的语句。然而，在语句候选中包含最多数目的非嵌套子句的语句可能不只一个。在这种情况下，可以通过诸如N元语法等的语言模型对每个含有最多非嵌套子句的语句进行评分，并选择其中得分最高的语句作为所述适当的语句。
然后，方法100在步骤S160结束。
图2示出了根据本发明实施例的、图1中的步骤S140的具体处理过程的流程图。
如图2所示，在步骤S210中，基于所述语法分析结果，将步骤S130中确定的、包含子句嵌套结构的语句(即，待替换语句)拆分为非嵌套子句和剩余的多个句子成分，其中句子成分可以是词，也可以是由至少两个词构成的、包含语法关系的短语。
具体地，由于根据所述语法分析结果可以确定待替换语句中包含的非嵌套子句，因此可以通过破坏待替换语句中的、除非嵌套子句之外的语法关系，以及保留非嵌套子句的语法关系，而得到非嵌套子句和剩余的多个句子成分及其词性信息，此时，各个句子成分均是单独的词语。
此外，也可以在保留待替换语句中的非嵌套子句的语法关系之外，并保留待替换语句中除非嵌套子句之外的、由至少两个词构成的短语所对应的语法关系，而破坏待替换语句中的、除上述非嵌套子句和短语之外的语法关系，从而得到非嵌套子句和剩余的多个句子成分，此时，上述多个句子成分中包括词和短语。
然后，在步骤S220中，对步骤S210中拆分后得到的非嵌套子句以及其他句子成分进行多次调序，再一次进行自动语法分析。在进行调序时，可以将拆分后得到的非嵌套子句作为整体在整个语句中逐次向右调序，或者可以对拆分后的除非嵌套子句之外的其他句子成分在整个语句中逐次向左调序，从而得出所有可能的调序结果。
在步骤S230中，作为多次调序、自动语法分析的结果，获得至少一个包含非嵌套子句的语句。在此，所得到的包含非嵌套子句的语句中应当包含对应的原始语句(即，待替换语句)中所包括的所有字符串。
下面结合图3以及图4A至图4D来描述根据本发明实施例的源语言改写处理方法的一个具体应用示例。
图3是示出根据本发明实施例的源语言改写处理方法300的示例性处理流程的示意图。如图3所示，处理方法300在步骤S310开始，然后进行到步骤S320。
在步骤S320中，在需要进行处理的一段源语言语句中筛选得到满足下述条件的多个待处理语句语句中包含的谓词总数大于N，且包含的总词数大于M，其中N和M为自然数。例如，N和M的取值可以为N = 2，M= 10。
然后，在步骤S330中，对筛选得到的多个待处理语句进行语法分析，例如短语结构语法分析。
在步骤S340中，根据上述语法分析的结果，确定在上述多个待处理语句中的包含子句嵌套结构的语句。例如，假设确定出的包含子句嵌套结构的语句为“他躲在一个你看得见他他看不见你的地方”。为描述方便起见，在下文中，将该语句“他躲在一个你看得见他他看不见你的地方”称作“拆分前语句”。
图4A是以语法分析树形式表示的上述拆分前语句的语法分析结果。其中，在图4A 以及以下将要进行描述的图4B-4D中的语法分析树中可能出现的标记及其含义描述可以参见下面的表1:
表I
权利要求
1.一种源语言改写处理方法，包括对源语言语句中的待处理语句进行语法分析；根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句；基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句；以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。
2.根据权利要求1所述的源语言改写处理方法，在进行语法分析的步骤之前还包括步骤从源语言语句中筛选满足下列条件的语句作为所述待处理语句语句中的谓词总数高于第一预设阈值；以及语句中的总词数高于第二预设阈值。
3.根据权利要求1所述的源语言改写处理方法，其中，对所述包含子句嵌套结构的语句进行重构的步骤进一步包括基于所述语法分析结果，将所述包含子句嵌套结构的语句拆分为非嵌套子句和剩余的多个句子成分；以及对所述非嵌套子句和所述多个句子成分进行调序，作为调序的结果，获得至少一个包含非嵌套子句的语句。
4.根据权利要求3所述的源语言改写处理方法，其中，所述调序步骤进一步包括将拆分后得到的非嵌套子句作为整体在整个语句中逐次向右调序，或者将拆分后的除非嵌套子句之外的其他句子成分在整个语句中逐次向左调序。
5.根据权利要求1所述的源语言改写处理方法，其中，所述用含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句的步骤进一步包括在所述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句的个数大于I的情况下，利用预定语言模型对每个所述含有最多非嵌套子句的语句进行评分，并选择其中得分最高的语句来替换所述包含子句嵌套结构的语句。
6.根据权利要求1-5中任意一项所述的源语言改写处理方法，还包括以下步骤对要进行语义搭配异常处理的语句进行语义角色自动标注，以确定语句中的语义搭配出现异常的词语对；把语义搭配异常的词语对中的具有较多词义项数的一个词语确定为导致语义搭配异常的主要元素词语；以及从预先存储的语料库中获得与所述词语对中的另一个词语搭配频率高于预设阈值的多个词语，并用所述多个词语中的与所述词语对相关度最高的一个词语来替换所述词语对中的主要元素词语。
7.根据权利要求1-6中任意一项所述的源语言改写处理方法，还包括确定要进行多义词歧义消除处理的语句中的多义词；根据语境含义确定每个多义词在语句中的唯一义项；以及用预先存储的字典中的与所确定的义项对应的一个词语替换与该义项有关的多义词。
8.根据权利要求1-7中任意一项所述的源语言改写处理方法，其中，所述源语言语句是要进行机器翻译的语句。
9.一种源语言改写处理设备，包括语法分析单元，被配置用于对源语言语句中的待处理语句进行语法分析，并根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句；以及语句重构单元，被配置用于基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句，并用所述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。
10.一种机器翻译系统，包含根据权利要求9所述的源语言改写处理设备。
全文摘要
本发明提供了一种源语言改写处理方法和设备及机器翻译系统。该改写处理方法包括对源语言语句中的待处理语句进行语法分析；根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句；基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句；以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。该处理装置被配置实现上述处理方法中包括的功能。应用本发明的处理方法、设备或系统，能够将一些复合长句降解并重组为若干非复合的子句，降低机器翻译过程中的翻译难度，提高翻译精度和翻译效率。本发明适用于自然语言处理领域。
文档编号G06F17/28GK103020040SQ201110305010
公开日2013年4月3日申请日期2011年9月27日优先权日2011年9月27日
发明者张洁, 葛乃晟, 郑仲光, 孟遥, 于浩申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张洁;葛乃晟;郑仲光;孟遥;于浩
技术所有人：富士通株式会社
我是此专利的发明人

上一篇：一种业务数据库查询统计方法
上一篇：一种基于卫星遥感数据特征的分布式并行处理方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。