机器翻译方法及系统的制作方法

文档序号:6626663阅读:206来源:国知局
机器翻译方法及系统的制作方法
【专利摘要】本发明公开了一种机器翻译方法及系统,属于自然语言处理研究领域。所述方法包括:训练过程和翻译过程,通过抽取源语言句子的谓词论元结构,结合目标语言的词法分析结果的词串,形成树到串双语对齐语料,再利用谓词论元结构信息指导树到串机器翻译规则的抽取和解码过程,从而直接将谓词论元结构建模到树到串机器翻译中。本发明通过将谓词论元结构建模到树到串机器翻译中,解决了现有技术中被抽取的统计翻译规则的冗余规则数量非常大的问题,达到了降低冗余规则数量,改善语义结构和语义相关性,提高长距离调序性能,提高翻译质量的效果。
【专利说明】机器翻译方法及系统

【技术领域】
[0001] 本发明涉及自然语言处理研究领域,特别涉及一种机器翻译方法及系统。

【背景技术】
[0002] 当前,机器翻译的主流方法大致可以分为基于规则和基于语料库两种方法,基于 语料库的方法又可以细分为基于实例的方法和基于统计的方法。基于统计的机器翻译方法 能够以双语平行语料库为学习数据,通过训练自动获取翻译规则,同时,结合语言模型对测 试语句进行翻译。随着统计机器翻译模型的不断改良,先后出现了基于词的、基于短语和基 于句法结构的统计模型,译文质量得到不断改善。
[0003] 但是,传统的统计机器翻译模型,更多地利用句子的层次结构片段和属性进行建 模,要提高统计机器翻译系统的性能,则要求在建模的过程中增加更多的句法结构和语义 信息。
[0004] 既有的统计机器翻译模型,在源语言和目标语言之间的句法结构存在较大的差异 性时,调序显得极其重要却又相当困难。既有统计模型在建模时,充分考虑了解决局部调 序的对策。但是,这些传统技术,在解决诸如日语句法的主宾谓(SOV,Subject-Object-verb) 结构和汉语的主谓宾 (SVO, Subject-Verb-Object) 结构之间的差异性问题时,遭 遇困难。很多研究人员,采用前处理和后处理的方式,对句法机构进行调整,以降低语言结 构上的差异性。此类方法并没有从统计建模的角度,对句法结构的全局调序给予合理的解 决方案。因此,融合更多的句法结构和语义信息,对统计建模进行改良是一种良好的解决方 案。该方案可以有效地推动统计机器翻译理论的发展,实现真正意义上的统计和规则相融 合的机器翻译方法,达到降低获取的冗余规则数量,改善语义结构和语义相关性,提高长距 尚调序性能,提商翻译质量。
[0005] 谓词论元结构(PAS,Predicate Argument Structure)是一种浅层语义结构,用来 表示谓词和句子成分的论元之间的谓词逻辑关系,通过使用施事、受事及谓词等表现句子 成分的浅层语义关系,它从某种程度上就表示出句子的主体框架结构及其语义属性。另一 方面,句法结构包含主谓宾等成分。谓词论元结构和句法结构,可以结合句子的中心谓词的 句型特点进行融合,在句法结构的词位和语义结构的义位基本一致的前提下,可以把施事 和受事作为主语或宾语等句法结构成份的特征属性,来实现句法结构和语义结构的融合。 如使用格语法中的格框架和依存结构分析树,是一个很好地融合句法结构和语义结构的方 案。
[0006] 谓词论元结构是构式语法理论的基础,构式语法理论是对转换生成语法理论的批 判、继承和发展的结果。构式语法(Construction Grammar),也称为"构件语法"、"框架语 法"、"构块式语法"、"架构语法"等。
[0007] 构式语法继承了费尔默提出的框架语义学的理论。框架语义学注重研究如何有效 解决话语整体的语义理解和描写问题,通过词汇意义与语法模式之间的联系,实现对概念 结构和语义-句法映射关系的描写。因此,框架语义学是格语法理论的系统化、具体化,是 格语法发展的第三个阶段。
[0008] 通常,框架语义学以谓词为中心,通过使用谓词的框架及其框架元素(即在谓 词-论元结构中的论元)之间的语义关系实现框架语义描述。在其描述过程中,动词与具 体的框架角色相联,通过构式实现各个论元的角色功能(例如施事、受事、目标),各个论元 则具有相应的语法功能项,如主语(Sub),直接宾语(Ob j)或者间接宾语(Ob j2)等。
[0009] 因此,利用谓词论元结构和句法结构信息作为全局调序的关键有效特征进行统计 机器翻译建模,可有助于实现真正意义上的基于语义的统计机器翻译模型,推动统计机器 翻译理论的发展,提高翻译质量。
[0010] 一种基于谓词论元结构的层次机器翻译方法:将句子中所有的谓词论元结构有机 的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架结构,从而直 接将谓词论元结构建模到层次短语机器翻译中。直接在谓词语义结构上对翻译过程进行建 模,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由此得到的译文 可以有效地解决长距离调序问题,提高机器翻译的译文质量。
[0011] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:在进行层次机 器翻译方法的建模过程中,并行抽取层次短语翻译规则和谓词语义结构规则,由于没有有 效地使用句法结构或谓词语义结构规则指导层次短语翻译规则的抽取,使得被抽取的层次 短语翻译规则的冗余规则数量非常大,从而致使机器翻译性能非常差。


【发明内容】

[0012] 为了解决现有技术中被抽取的层次短语翻译规则的冗余规则数量非常大,从而致 使机器翻译性能非常差的问题,本发明实施例提供了一种机器翻译方法及系统。所述技术 方案如下:
[0013] 第一方面,提供了一种机器翻译方法,所述方法包括翻译步骤,
[0014] 所述翻译步骤包括:
[0015] 获取输入的源语言测试句子;
[0016] 对所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结 果;
[0017] 对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试 句子的句法分析结果;
[0018] 利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元 结构;
[0019] 利用所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对所述源语 言测试句子进行翻译解码处理,输出语言为所述目标语言的翻译结果。
[0020] 可选的,所述方法还包括训练步骤,
[0021] 所述训练步骤包括:
[0022] 获取输入的双语平行语料的源语言训练句子和目标语言训练句子;
[0023] 分别对所述源语言训练句子和所述目标语言训练句子进行词法分析,得到所述源 语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果;
[0024] 利用所述源语言训练句子的词法分析结果,对所述源语言训练句子进行句法结构 分析,得到所述源语言训练句子的句法分析结果;
[0025] 利用所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析 结果进行词对齐处理,得到词对齐处理结果;
[0026] 利用所述源语言训练句子的句法分析结果和所述词对齐处理结果,进行树到串对 齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库;
[0027] 利用所述源语言训练句子的句法分析结果,抽取所述源语言训练句子的谓词论元 结构;
[0028] 利用所述源语言训练句子的谓词论元结构以及所述树到串对齐双语语料库,抽取 翻译规则,将所述翻译规则放入所述翻译规则库中。
[0029] 可选的,所述对所述源语言测试句子的词法分析结果进行句法结构分析,得到所 述源语言测试句子的句法分析结果,包括:
[0030] 采用依存结构分析或短语结构分析的方法,对所述源语言测试句子的词法分析结 果进行句法结构分析,得到所述句法分析结果;
[0031] 或,
[0032] 采用依存结构树和短语结构树相互转化的方法,对所述源语言测试句子的词法分 析结果进行句法结构分析,得到所述句法分析结果。
[0033] 可选的,所述利用所述源语言训练句子的句法分析结果和所述词对齐处理结果, 进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库,包括:
[0034] 根据依存树到串或短语结构树到串对齐的方法,对所述源语言句法分析结果和所 述词对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到所述树到串对齐 双语语料库。
[0035] 可选的,在所述抽取所述源语言训练句子的谓词论元结构之后,还包括:
[0036] 对所述源语言训练句子的谓词论元结构中的构成元素分别进行泛化扩展;
[0037] 在所述抽取翻译规则之后,还包括:
[0038] 对抽取的所述翻译规则进行泛化扩展,利用泛化扩展后的所述翻译规则生成所述 翻译规则库。
[0039] 可选的,所述利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句 子的谓词论元结构,包括:
[0040] 采用谓词格框架,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训 练句子的谓词论元结构;
[0041] 或,
[0042] 采用格语法或依存文法,从所述句法分析结果中抽取谓词论元结构,得到所述源 语言训练句子的谓词论元结构;
[0043] 或,
[0044] 采用所述源语言训练句子的依存树或短语结构树,从所述句法分析结果中抽取谓 词论元结构,得到所述源语言训练句子的谓词论元结构。
[0045] 第二方面,提供了一种机器翻译系统,所述系统包括翻译子系统,
[0046] 所述翻译子系统包括:
[0047] 第一获取模块,用于获取输入的源语言测试句子;
[0048] 第一词法分析模块,用于对所述第一获取模块获取到的所述源语言测试句子进行 词法分析,得到所述源语言测试句子的词法分析结果;
[0049] 第一句法分析模块,用于对所述第一词法分析模块分析得到的所述源语言测试句 子的词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果;
[0050] 第一抽取模块,用于利用所述第一句法分析模块分析得到的所述源语言测试句子 的句法分析结果,抽取所述源语言测试句子的谓词论元结构;
[0051] 翻译模块,用于利用所述第一抽取模块抽取的所述谓语论元结构以及翻译规则库 中预先训练得到的翻译规则,对所述源语言测试句子进行翻译解码处理,输出语言为所述 目标语言的翻译结果。
[0052] 可选的,所述系统还包括训练子系统,
[0053] 所述训练子系统包括:
[0054] 第二获取模块,用于获取输入的双语平行语料的源语言训练句子和目标语言训练 句子;
[0055] 第二词法分析模块,用于分别对所述第二获取模块获取到的所述源语言训练句子 和所述目标语言训练句子进行词法分析,得到所述源语言训练句子的词法分析结果和所述 目标语言训练句子的词法分析结果;
[0056] 第二句法分析模块,用于利用所述第二词法分析模块分析得到的所述源语言训练 句子的词法分析结果,对所述源语言训练句子进行句法结构分析,得到所述源语言训练句 子的句法分析结果;
[0057] 第一对齐模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子 的词法分析结果和所述目标语言训练句子的词法分析结果进行词对齐处理,得到词对齐处 理结果;
[0058] 第二对齐模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子 的句法分析结果和所述第一对齐模块对齐得到的所述词对齐处理结果,进行树到串对齐处 理,生成树到串对齐双语语料,得到树到串对齐双语语料库;
[0059] 第二抽取模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子 的句法分析结果,抽取所述源语言训练句子的谓词论元结构;
[0060] 第三抽取模块,用于利用所述第二抽取模块抽取得到的所述源语言训练句子的谓 词论元结构以及所述第二对齐模块对齐得到的所述树到串对齐双语语料库,抽取翻译规 贝1J,将所述翻译规则放入所述翻译规则库中。
[0061] 可选的,所述第一句法分析模块,包括:
[0062] 第一句法分析单元,用于采用依存结构分析或短语结构分析的方法,对所述第一 词法分析模块分析得到的所述源语言测试句子的词法分析结果进行句法结构分析,得到所 述句法分析结果;
[0063] 或,
[0064] 第二句法分析单元,用于采用依存结构树和短语结构树相互转化的方法,对对所 述第一词法分析模块分析得到的所述源语言测试句子的词法分析结果进行句法结构分析, 得到所述句法分析结果。
[0065] 可选的,所述第二对齐模块,还用于:
[0066] 根据依存树到串或短语结构树到串对齐的方法,对所述源语言句法分析结果和所 述词对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到所述树到串对齐 双语语料库。
[0067] 可选的,所述训练子系统还包括:
[0068] 第一泛化扩展模块,用于对所述源语言训练句子的谓词论元结构中的构成元素分 别进行泛化扩展;
[0069] 第二泛化扩展模块,用于对所述第三抽取模块抽取的所述翻译规则进行泛化扩 展,利用泛化扩展后的所述翻译规则生成所述翻译规则库。
[0070] 可选的,所述第一抽取模块,包括:
[0071] 第一抽取单元,用于采用谓词格框架,从所述第一句法分析模块分析得到的所述 句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
[0072] 或,
[0073] 第二抽取单元,用于采用格语法或依存文法,从所述第一句法分析模块分析得到 的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
[0074] 或,
[0075] 第三抽取单元,用于采用所述源语言训练句子的依存树或短语结构树,从所述第 一句法分析模块分析得到的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练 句子的谓词论元结构。
[0076] 本发明实施例提供的技术方案带来的有益效果是:
[0077] 通过利用源语言端的句法结构信息及其谓词论元结构中所携带的语义信息、以及 目标语言端句子的分词层面的词串信息,实现对句子在框架层面的全局调序进行建模;解 决了现有技术中被抽取的-统计机器翻译规则的冗余规则数量非常大,从而致使机器翻译 性能非常差的问题,达到了提高统计机器翻译系统的性能的效果。

【专利附图】

【附图说明】
[0078] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0079] 图1是本发明一个实施例中提供的机器翻译方法的方法流程图;
[0080] 图2是本发明另一个实施例中提供的机器翻译方法的方法流程图;
[0081] 图3是本发明一个实施例中提供的日语依存句法分析结果的示意图;
[0082] 图4是本发明另一个实施例中提供的日语依存句法分析结果的示意图;
[0083] 图5是本发明一个实施例中提供的日汉树到串对齐实例的示意图;
[0084] 图6是本发明一个实施例中提供的日英树到串对齐实例的示意图;
[0085] 图7是本发明一个实施例中提供的日语动词格框架抽取结果的示意图;
[0086] 图8是本发明另一个实施例中提供的日语动词格框架抽取结果的示意图;
[0087] 图9是本发明一个实施例中提供的抽取LTR规则的示意图;
[0088] 图10是本发明另一个实施例中提供的抽取LTR规则的示意图;
[0089] 图11是本发明一个实施例中提供的解码处理的示意图;
[0090] 图12是本发明一个实施例中提供的机器翻译系统的结构示意图;
[0091] 图13是本发明另一个实施例中提供的机器翻译系统的结构示意图;

【具体实施方式】
[0092] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0093] 图1是本发明一个实施例中提供的机器翻译方法的方法流程图,该机器翻译系统 可以通过软件、硬件或者两者的结合实现成为用于计算机的部分或者全部。该机器翻译方 法包括翻译步骤,该翻译步骤包括:
[0094] 步骤101 :获取输入的源语言测试句子;
[0095] 步骤102 :对源语言测试句子进行词法分析,得到源语言测试句子的词法分析结 果;
[0096] 步骤103 :对源语言测试句子的词法分析结果进行句法结构分析,得到源语言测 试句子的句法分析结果;
[0097] 步骤104 :利用源语言测试句子的句法分析结果,抽取源语言测试句子的谓词论 元结构;
[0098] 步骤105 :利用谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对源 语言测试句子进行翻译解码处理,输出语言为目标语言的翻译结果。
[0099] 综上所述,本发明实施例中提供的机器翻译方法,通过有效利用句子结构信息和 谓词论元结构的语义信息,仅使用源语言端的句法分析结果,实现基于谓词论元结构的树 到串统计翻译模型,通过使用谓词论元结构抽取调序规则,有效改善句子结构的全局调序 问题,本发明综合利用句子结构信息和谓词论元结构信息进行统计机器翻译的建模和解 码,对发展和实现基于语义的统计机器翻译理论起到较大的促进作用。
[0100] 图2是本发明另一个实施例中提供的机器翻译方法的方法流程图,该机器翻译系 统可以通过软件、硬件或者两者的结合实现成为用于计算机的部分或者全部。该机器翻译 方法可以包括训练步骤和翻译步骤。
[0101] 该训练步骤可以包括:
[0102] 步骤201 :获取输入的双语平行语料的源语言训练句子和目标语言训练句子;
[0103] 步骤202 :分别对源语言训练句子和目标语言训练句子进行词法分析,得到源语 言训练句子的词法分析结果和目标语言训练句子的词法分析结果;
[0104] 步骤203 :利用源语言训练句子的词法分析结果,对源语言训练句子进行句法结 构分析,得到源语言训练句子的句法分析结果;
[0105] 步骤204 :利用源语言训练句子的词法分析结果和目标语言训练句子的词法分析 结果进行词对齐处理,得到词对齐处理结果;
[0106] 步骤205 :利用源语言训练句子的句法分析结果和词对齐处理结果,进行树到串 对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库;
[0107] 步骤206 :利用源语言训练句子的句法分析结果,抽取源语言训练句子的谓词论 元结构;
[0108] 步骤207 :利用源语言训练句子的谓词论元结构以及树到串对齐双语语料库,抽 取翻译规则,将翻译规则放入翻译规则库中;
[0109] 该翻译步骤可以包括:
[0110] 步骤208 :获取输入的源语言测试句子;
[0111] 步骤209 :对源语言测试句子进行词法分析,得到源语言测试句子的词法分析结 果;
[0112] 步骤210 :对源语言测试句子的词法分析结果进行句法结构分析,得到源语言测 试句子的句法分析结果;
[0113] 步骤211 :利用源语言测试句子的句法分析结果,抽取源语言测试句子的谓词论 元结构;
[0114] 步骤212 :利用谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对源 语言测试句子进行翻译解码处理,输出语言为目标语言的翻译结果。
[0115] 需要说明的是,上述步骤中步骤201至步骤207可以单独实施成为机器翻译方法 中的训练过程的实施例,上述步骤中步骤208至步骤212可以单独实施成为机器翻译方法 中的翻译过程的实施例。
[0116] 为了便于对图2所示实施例的理解,以下对图2所示实施例涉及的训练步骤和翻 译步骤进行详细说明,具体如下:
[0117] 在步骤201中,获取输入的双语平行语料的源语言训练句子和目标语言训练句 子。
[0118] 这里可以以文件的形式、键盘输入的形式或其他形式对双语平行语料进行输入, 并存储在计算机的存储介质中,该计算机为用于实现训练翻译模型的设备。本实施例对双 语平行语料的输入方式不作具体限定。
[0119] 双语平行语料中的源语言句子是指需要被翻译的句子,双语平行语料中的目标语 言句子是指根据源语言句子翻译后得到的句子。首先,双语平行语料中源语言句子和目标 语言句子通常是一一对应的,比如数量对应、语义语法对应等;其次,对应于源语言句子的 目标语言句子可以是针对源语言句子人为翻译得到的样本。
[0120] 为了将训练过程与翻译过程区分开,步骤201以及后续步骤中将训练过程中所用 的源语言句子称为源语言训练句子,将训练过程中目标语言句子称为目标语言训练句子, 类似的,在翻译过程中,将需要被翻译的源语言句子称为源语言测试句子。
[0121] 在步骤202中,分别对源语言训练句子和目标语言训练句子进行词法分析,得到 源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果。
[0122] 根据源语言的类型对源语言训练句子进行词法分析,根据目标语言的类型对目标 语言训练句子进行词法分析。
[0123] 以源语言为日语、目标语言为汉语为例,日语的词法分析可以使用日语分分词器 Mecab、Chasen或者JUMAN等进行分词处理;汉语句子的词法分析工具可使用ICTCLAS或者 斯坦福大学的分词器等。
[0124] 以源语言为日语、目标语言为英语为例,日语的词法分析可以使用Mecab、Chasen、 或者JUMAN等日语形态素解析工具进行分词处理;英语句子可不作词法分析,也可以根据 具体情况适用斯坦福大学的分词器对英语句子进行形态分析。
[0125] 很显然,还可以通过其他日语分分词器对日语句子进行词法分析,也可以通过其 他词法分析工具对汉语句子或英语句子进行词法分析,针对其他不同语言的源语言句子或 目标语言句子,还可以通过其他词法分析工具对源语言训练句子或目标语言训练句子进行 分析,本实施例对词法分析工具不作具体限定。
[0126] 在步骤203中,利用源语言训练句子的词法分析结果,对源语言训练句子进行句 法结构分析,得到源语言训练句子的句法分析结果。
[0127] 源语言训练句子的句法分析结果可以通过句法分析树来表示。
[0128] 在得到源语言训练句子的源语言训练句子的词法分析结果之后,需要对源语言训 练句子进行句法分析。在本实施例中,当源语言为日语时,可使用句法分析器KNP(由京都 大学开发的日语句法分析系统)或者句法分析器Cabocha进行句法分析。
[0129] 图3是本发明一个实施例中提供的日语依存句法分析结果的示意图,图3中显示 的日语句子为:" A々t Q杉母? b 7卜7 > ?'美味0料理f食乂 3 (你的母亲在 餐馆吃美味的便当)"的依存句法分析结果的依存结构树。也即,图3中所示的是对上述源 语言训练句子" A々t Q杉母? b 7卜7 > ?'美味0料理f食乂 3,,进行句法结构 分析后得到的句法分析结果,该句法分析结果是通过句法分析树来表示的。
[0130] 图4是本发明另一个实施例中提供的日语依存句法分析结果的示意图,图4中显 示的日语句子为:"CPU # c C T設定処理&行々)(CPU在这种情况进行设定处理)"的依 存句法分析结果的依存结构树。
[0131] 很显然,当源语言为日语时,还可以通过其他句法分析器对源语言为日语的源语 言训练句子进行句法分析;而当源语言为其他语言时,也可以通过其他句法分析器对源语 言训练句子进行句法分析,本实施例对句法分析器的类型不作具体限定。
[0132] 可选的,对源语言测试句子的词法分析结果进行句法结构分析,得到源语言测试 句子的句法分析结果时,可以包括如下两种方式:
[0133] 第一种方式,采用依存结构分析或短语结构分析的方法,对源语言测试句子的词 法分析结果进行句法结构分析,得到句法分析结果;
[0134] 第二种方式,采用依存结构树和短语结构树相互转化的方法,对源语言测试句子 的词法分析结果进行句法结构分析,得到句法分析结果。
[0135] 在步骤204中,利用源语言训练句子的词法分析结果和目标语言训练句子的词法 分析结果进行词对齐处理,得到词对齐处理结果。
[0136] 在得到源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果之 后,需要对源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果进行双语 的词对齐处理。
[0137] 在本实施例中,仍旧以源语言为日语、目标语言为汉语为例,可使用GIZA++工具 进行日-汉句子对自动词对齐处理,得到日-汉对齐处理结果。
[0138] 很显然,针对源语言和目标语言的语言类型,还可以通过其他对应于源语言和目 标语言的语言类型的对齐处理工具进行双语的词对齐处理,本实施例对词对齐处理时所使 用的对齐处理工具不作具体限定。
[0139] 在步骤205中,利用源语言训练句子的句法分析结果和词对齐处理结果,进行树 到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库。
[0140] 在利用源语言训练句子的句法分析结果和词对齐处理结果,进行树到串对齐处 理,生成树到串对齐双语语料,得到树到串对齐双语语料库时,可以根据依存树到串或短语 结构树到串对齐的方法,对源语言句法分析结果和词对齐处理结果进行树到串对齐处理, 生成树到串对齐双语语料,得到树到串对齐双语语料库。
[0141] 图5是本发明一个实施例中提供的日汉树到串对齐实例的示意图。如图5所示, 在得到源语言训练句子的句法分析结果(可用句法分析树进行表示)和词对齐处理结果 (即树到串对齐双语语料库)之后,需要进行源语言树到目标语言的词串的对齐处理,生成 树到串双语平行语料库。在树到串对齐处理中,对源语言的句法分析树的分割方式可多种 多样,比如,以谓词及其与谓词具有依存关系的子节点之间构成的语块,或者与某一个子节 点具有依存关系的节点间构成的语块,或者通过各种形式的定义、通过诸如基于CYK模式 的算法,遍历源语言训练句子的句法分析结果所对应的句法分析树以抽取其中的子树等形 成语块等。然后计算语块的各个构成要素及双语词对齐的概率,得到树到串对齐双语语料, 将各个对齐双语语料添加至双语平行语料库中。
[0142] 图6是本发明一个实施例中提供的日英树到串对齐实例的示意图。图6中所示的 实现方法可与上述日汉树到串对齐处理方法相同。对应的,根据日英树到串对齐双语语料 得到树到串日英双语平行语料库。
[0143] 在步骤206中,利用源语言训练句子的句法分析结果,抽取源语言训练句子的谓 词论元结构。
[0144] 在得到源语言端的源语言训练句子的句法分析结果之后,需要对源语言训练句子 进行谓词论元结构抽取处理,获取输入源语言训练句子的谓词论元结构。
[0145] 谓词论元结构的自动抽取,需要对源语言训练句子的句法结构和谓词论元结构进 行适当的定义,以整合句法结构和语义结构信息。
[0146] 可选的,在利用源语言测试句子的句法分析结果,抽取源语言测试句子的谓词论 元结构时,可以包括如下两种方式:
[0147] 第一种方式,采用谓词格框架,从句法分析结果中抽取谓词论元结构,得到源语言 训练句子的谓词论元结构。
[0148] 第二种方式,采用格语法或依存文法,从句法分析结果中抽取谓词论元结构,得到 源语言训练句子的谓词论元结构。
[0149] 第三种方式,采用源语言训练句子的依存树或短语结构树,从句法分析结果中抽 取谓词论元结构,得到源语言训练句子的谓词论元结构。
[0150] 可选的,在抽取谓词论元结构之后,还可以对抽取的谓词论元结构进行泛化扩展。 请参见图7所示。
[0151] 图7是本发明一个实施例中提供的日语动词格框架抽取结果的示意图。在图7中, 句子中心词为动词"食X 3 ",其表层格框架由动词以及三个名词短语组成,施事格母? 心#,,,场所格" > 7卜5 Τ "以及对象格"便当&,,。其深层格框架如图4所示的格助词 附加每个格所属的语义信息形成语义约束关系,如格助词"〃(力')"附带的词母? & (母亲),,的语义信息可以是"人,,," f ( r ),,附带的词" > 7卜7 > (餐馆),,的语义信 息可以是"场所","&( 7 )"作为对象格的附带词"便当(料理)"的语义信息可以是"食 物",则以动词"食X 3 "为中心词,"人"、"场所"和"食物"形成日语动词"食X 3 "的具有 语义约束关系的深层语义格框架。
[0152] 类似的,请参见图8所示,图8是本发明另一个实施例中提供的日语动词格框架抽 取结果的示意图。
[0153] 需要说明的是,格语法是一种着重探讨句法结构与语义之间关系的语法理论和语 义学理论。格语法包括基本规则、词汇和转换等三个组成部分,格框架文法认为命题中需用 的格包括:施事格、工具格、受事格、使成格、方位格、客体格等6种,在语言分析时又加了受 益格、源点格、终点格及伴随格等。格语法理论强调句子结构由一个核心动词以及许多名词 短语组成,每个短语与核心动词均存在某种特定的格关系。即格框架文法中的格框架描述 了自然语言句子的深层结构和语义信息,在自然语言处理中起到十分重要的作用。
[0154] 在本实施例中,以日语为源语言,采用日语格语法的谓词格框架实现日语的句法 结构和语义结构的整合。日语属于黏着语系,属于典型的格语法语言,其谓词格框架具有典 型的谓词论元结构特征。日语的谓词论元结构的中的每个论元的语法及语义功能可以作为 日语格框架中的每个格的语义属性加以标注进行整合。可以使用前述分词工具JUMAN和句 法分析器KNP得到包含谓词论元结构信息的日语依存句法分析结果。本实施例中,日语的 谓词论元结构和日语的句法结构,可通过分析日语句子中谓词的日语格框架来实施。
[0155] 本实施例中,为了说明日语格框架的抽取过程,对日语格框架的形式化描述如 下:
[0156] 使用三元组< V,C,R >定义日语格框架文法。
[0157] 其中:V表示日语谓词原型的集合,以区别于谓词的活用形;C表示日语谓词的活 用形集合,活用形描述谓词在句子中的时态、意愿、假设、祈使、能动、被动等变化形式;R表 示日语格助词集合,日语格助词中的表层格包括:力'格、^格、=格、力5格、?格、卜格、 3 U格、7于''格、于''格等,其代表性的格助词分别包括:H (二、力、6Dττ 日等。除此以外,日语副助词ii"和"Ui"等也具有格助词的特性。
[0158] 对于任意一个日语句子的中心谓词,包括动词、形容词或形容动词,其格框架(CF) 可由三元组< 么?, p >定义。其中:
[0159] h e V为句子的中心谓词的原型或词干。
[0160] t e C为句子的中心谓词在句中的活用形。
[0161] P e #表示句子的中心谓词的格框架的各个格助词,每一个格助词的顺序按照其 在句子中的先后顺序进行排序并进行标号,其中R*表示集合R中所有元素形成的闭包集 合,即R中的所有元素的排列组合形成的字符串集合。
[0162] 自动获取日语格框架的方法如下:
[0163] 对于一个完成了日语依存句法分析的句子,其中心谓词可从依存句法分析树(即 表示第一源语言句法分析结果所对应的句法分析树)的根节点的语块中获取。该中心谓词 的格框架,可以由以下两种方法得到:
[0164] 第一种方法,从第一源语言句法分析结果所对应的句法分析树中自动抽取谓词格 框架。
[0165] 具体的,可以通过分析与句子中心谓词所在节点有直接依存关系的日语格助词与 集合R中的元素进行模式匹配,得到该中心谓词的格框架。
[0166] 如图3所示的日语依存树,与动词词干"食X 有依存关系的格助词分别为 " ii "和" f '',对应的表层格关系为"力格" r格"以及" 7格"。
[0167] 第二种方法,利用格框架库,与第一源语言句法分析结果所对应的句法分析树进 行模式匹配,获取格框架。
[0168] 当格框架库为日语格框架库时,该方法的优点可有效弥补日语句子当中被省略的 日语格助词,使获取的日语格框架成份具有完整性。该方法中使用的日语格框架库为已有 的格框架库。
[0169] 格框架库中,动词"食X 的部分词汇化格框架,与句子中的中心词和与之有依 存关系的格助词、及格助词所依存的词干进行模式匹配,可以获取动词"食X 3 "的格框架。
[0170] 当使用第二种方法抽取特定中心谓词的格框架时,存在复数格框架选择的可能 性。在此情况下,可结合第一种方法获取的格框架,计算格框架的相似度,选取与第一种方 法相似度最高的候选结果作为该中心谓词的格框架。
[0171] 依据上述格框架的定义< >,图3所表述的句子中,动词"食"的格框架 表述形式为:h:食乂 t :基本形弘xl:力格x2: r格x3: ^格
[0172] 其格框架表现形式为:<食乂 3,基本形,:xl:力格x2: r格x3: ?格>
[0173] 依据此方法,可以获得日语输入句子的谓词的整体或者局部的句法结构和谓词论 元结构,通过日语格框架整合了日语的句法结构和语义结构信息。
[0174] 在步骤207中,利用源语言训练句子的谓词论元结构以及树到串对齐双语语料 库,抽取翻译规则,将翻译规则放入翻译规则库中。
[0175] 在得到源语言训练句子的谓词论元结构之后,还需要结合双语树到串对齐处理生 成的树到串对齐双语语料库,进行翻译规则抽取处理,抽取得到翻译规则形成翻译规则库。
[0176] 可选的,在抽取出翻译规则后,还可以对这些翻译规则进行泛化扩展;在形成翻译 规则库时,则可以利用泛化扩展后的翻译规则形成翻译规则库。
[0177] 本实施例以基于语块的依存树到串模型加以说明本实施例公开的日汉机器翻译 方法。
[0178] 首先,定义三元组< T,S,A >来描述日汉双语句对,其中,T为源端依存句法分析 树,每个节点由一个组块构成,S为目标端字符串序列,A为双语词对齐关系。图5为该三元 组的一个实例。
[0179] 定义的依存树到串模型中,翻译规则包含两部分:
[0180] (1)词汇化翻译规则(LTR规则)。LTR规则的作用在于,将源端语块或短语,转化 为目标端对应的翻译结果。
[0181] (2)格框架调序规则(CFR规则)。通过使用CFR规则,将源端依存树结构转化为 目标端序列。
[0182] 翻译模型中,CFR规则的形式化定义为< A,t,外《 > ,是对格框架 =< >的延伸。其中,ω e R#记录该框架在目标端句子中的对应顺序。
[0183] 翻译模型的规则抽取包含如下三个步骤:1)依存句法分析树标记;2) CFR规则抽 取子树判定;3)规则抽取。
[0184] 其中,针对依存句法分析树标记,定义依存树T中的每个节点均包含两个属性:1) 对齐跨度,2)子树对齐跨度。
[0185] 定义1 :任意依存树T中的节点n,该节点的对齐跨度hsp (η)为目标端中与节点η 存在词对关系的目标端词集合。
[0186] 如图5所示,由于目标端词"在"与"餐馆"与节点" b 7卜7 中的词存在对 应关系,因此 hsp( b 7 卜 7 ) = {2,3}。
[0187] 定义2 :任意依存树T中的节点η,若hsp (η)满足如下条件,贝U认为hsp (η)是独立 的。
[0188]

【权利要求】
1. 一种机器翻译方法,其特征在于,所述方法包括翻译步骤, 所述翻译步骤包括: 获取输入的源语言测试句子; 对所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结果; 对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子 的句法分析结果; 利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结 构; 利用所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对所述源语言测 试句子进行翻译解码处理,输出语言为所述目标语言的翻译结果。
2. 根据权利要求1所述的方法,其特征在于,所述方法还包括训练步骤, 所述训练步骤包括: 获取输入的双语平行语料的源语言训练句子和目标语言训练句子; 分别对所述源语言训练句子和所述目标语言训练句子进行词法分析,得到所述源语言 训练句子的词法分析结果和所述目标语言训练句子的词法分析结果; 利用所述源语言训练句子的词法分析结果,对所述源语言训练句子进行句法结构分 析,得到所述源语言训练句子的句法分析结果; 利用所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果 进行词对齐处理,得到词对齐处理结果; 利用所述源语言训练句子的句法分析结果和所述词对齐处理结果,进行树到串对齐处 理,生成树到串对齐双语语料,得到树到串对齐双语语料库; 利用所述源语言训练句子的句法分析结果,抽取所述源语言训练句子的谓词论元结 构; 利用所述源语言训练句子的谓词论元结构以及所述树到串对齐双语语料库,抽取翻译 规则,将所述翻译规则放入所述翻译规则库中。
3. 根据权利要求1所述的方法,其特征在于,所述对所述源语言测试句子的词法分析 结果进行句法结构分析,得到所述源语言测试句子的句法分析结果,包括: 采用依存结构分析或短语结构分析的方法,对所述源语言测试句子的词法分析结果进 行句法结构分析,得到所述句法分析结果; 或, 采用依存结构树和短语结构树相互转化的方法,对所述源语言测试句子的词法分析结 果进行句法结构分析,得到所述句法分析结果。
4. 根据权利要求2所述的方法,其特征在于,所述利用所述源语言训练句子的句法分 析结果和所述词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到 串对齐双语语料库,包括: 根据依存树到串或短语结构树到串对齐的方法,对所述源语言句法分析结果和所述词 对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到所述树到串对齐双语 语料库。
5. 根据权利要求2所述的方法,其特征在于,在所述抽取所述源语言训练句子的谓词 论元结构之后,还包括: 对所述源语言训练句子的谓词论元结构中的构成元素分别进行泛化扩展; 在所述抽取翻译规则之后,还包括: 对抽取的所述翻译规则进行泛化扩展,利用泛化扩展后的所述翻译规则生成所述翻译 规则库。
6. 根据权利要求1至5中任一所述的方法,其特征在于,所述利用所述源语言测试句子 的句法分析结果,抽取所述源语言测试句子的谓词论元结构,包括: 采用谓词格框架,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句 子的谓词论元结构; 或, 采用格语法或依存文法,从所述句法分析结果中抽取谓词论元结构,得到所述源语言 训练句子的谓词论元结构; 或, 采用所述源语言训练句子的依存树或短语结构树,从所述句法分析结果中抽取谓词论 元结构,得到所述源语言训练句子的谓词论元结构。
7. -种机器翻译系统,其特征在于,所述系统包括翻译子系统, 所述翻译子系统包括: 第一获取模块,用于获取输入的源语言测试句子; 第一词法分析模块,用于对所述第一获取模块获取到的所述源语言测试句子进行词法 分析,得到所述源语言测试句子的词法分析结果; 第一句法分析模块,用于对所述第一词法分析模块分析得到的所述源语言测试句子的 词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果; 第一抽取模块,用于利用所述第一句法分析模块分析得到的所述源语言测试句子的句 法分析结果,抽取所述源语言测试句子的谓词论元结构; 翻译模块,用于利用所述第一抽取模块抽取的所述谓语论元结构以及翻译规则库中预 先训练得到的翻译规则,对所述源语言测试句子进行翻译解码处理,输出语言为所述目标 语言的翻译结果。
8. 根据权利要求7所述的系统,其特征在于,所述系统还包括训练子系统, 所述训练子系统包括: 第二获取模块,用于获取输入的双语平行语料的源语言训练句子和目标语言训练句 子; 第二词法分析模块,用于分别对所述第二获取模块获取到的所述源语言训练句子和所 述目标语言训练句子进行词法分析,得到所述源语言训练句子的词法分析结果和所述目标 语言训练句子的词法分析结果; 第二句法分析模块,用于利用所述第二词法分析模块分析得到的所述源语言训练句子 的词法分析结果,对所述源语言训练句子进行句法结构分析,得到所述源语言训练句子的 句法分析结果; 第一对齐模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子的词 法分析结果和所述目标语言训练句子的词法分析结果进行词对齐处理,得到词对齐处理结 果; 第二对齐模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子的句 法分析结果和所述第一对齐模块对齐得到的所述词对齐处理结果,进行树到串对齐处理, 生成树到串对齐双语语料,得到树到串对齐双语语料库; 第二抽取模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子的句 法分析结果,抽取所述源语言训练句子的谓词论元结构; 第三抽取模块,用于利用所述第二抽取模块抽取得到的所述源语言训练句子的谓词论 元结构以及所述第二对齐模块对齐得到的所述树到串对齐双语语料库,抽取翻译规则,将 所述翻译规则放入所述翻译规则库中。
9. 根据权利要求7所述的系统,其特征在于,所述第一句法分析模块,包括: 第一句法分析单元,用于采用依存结构分析或短语结构分析的方法,对所述第一词法 分析模块分析得到的所述源语言测试句子的词法分析结果进行句法结构分析,得到所述句 法分析结果; 或, 第二句法分析单元,用于采用依存结构树和短语结构树相互转化的方法,对所述第一 词法分析模块分析得到的所述源语言测试句子的词法分析结果进行句法结构分析,得到所 述句法分析结果。
10. 根据权利要求8所述的系统,其特征在于,所述第二对齐模块,还用于: 根据依存树到串或短语结构树到串对齐的方法,对所述源语言句法分析结果和所述词 对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到所述树到串对齐双语 语料库。
11. 根据权利要求8所述的系统,其特征在于,所述训练子系统还包括: 第一泛化扩展模块,用于对所述第二抽取模块抽取得到的所述源语言训练句子的谓词 论元结构中的构成元素分别进行泛化扩展; 第二泛化扩展模块,用于对所述第三抽取模块抽取的所述翻译规则进行泛化扩展,利 用泛化扩展后的所述翻译规则生成所述翻译规则库。
12. 根据权利要求7至11中任一所述的系统,其特征在于,所述第一抽取模块,包括: 第一抽取单元,用于采用谓词格框架,从所述第一句法分析模块分析得到的所述句法 分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构; 或, 第二抽取单元,用于采用格语法或依存文法,从所述第一句法分析模块分析得到的所 述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构; 或, 第三抽取单元,用于采用所述源语言训练句子的依存树或短语结构树,从所述第一句 法分析模块分析得到的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子 的谓词论元结构。
【文档编号】G06F17/27GK104268133SQ201410461334
【公开日】2015年1月7日 申请日期:2014年9月11日 优先权日:2014年9月11日
【发明者】徐金安, 吴培昊 申请人:北京交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1