用于形成机器翻译的语义单元及其表示库的方法及其系统的制作方法

文档序号:6614937阅读:175来源:国知局
专利名称:用于形成机器翻译的语义单元及其表示库的方法及其系统的制作方法
技术领域
本发明涉及机器翻译,更具体的,涉及基于语义的机器翻译的语义单 元及其表示库的形成方法和系统。
背景技术
随着世界交流的剧增,利用计算机技术在不同自然语言之间进行自动 翻译成为非常重要的问题。但是由于自然语言的多样性及多语种之间存在 复杂的对应关系,现有的机器翻译的准确率较低、通顺度较差,经常存在 语无伦次、正错混杂的情况,使数以万计人工翻译公司无法使用。
而机器翻译中的语义单元及其表示库的质量直接关系到机器翻译的译 文的质量。现有的方法提取出的语义单元及其表示库存在不必要的臃肿及 歧义的语义单元及其表示的问题,致使机器翻译的译文也出现语无伦次的 质量问题。

发明内容
针对现有技术存在的问题,本发明提供了 一种用于形成基于语义语言 的自然语言机器翻译的语义单元及其表示库的方法和系统。
根据本发明的一个方面,提供了 一种形成用于基于语义语言的自然语
言机器翻译的语义单元及其表示库的方法,包括提取指定受限领域的语 义单元及其双语或者多语语义单元及其表示;创建所述指定受限领域的语 义单元及其表示子库;以及将所述多个指定受限领域的语义单元及其表示 子库合并到原来的语义单元及其表示库,从而形成新的无重复、无可弃、 无非正常歧义的语义单元及其表示库。
根据本发明的另一方面,提供了一种用于形成基于语义语言的自然语
4言机器翻译的语义单元及其表示库的系统,包括用于提取指定受限领域 的语义单元及其双语或者多语语义单元及其表示的装置;用于创建所述指 定受限领域的语义单元及其表示子库的装置;以及用于将所述多个指定受 限领域的语义单元及其表示子库合并到原来的语义单元及其表示库,以形 成新的语义单元及其表示库的装置。


通过参考附图对本方面的实施例进行详细描述,本发明的优点和特点 将显而易见,其中
图1为根据本发明的实施例的用于形成基于语义的机器翻译的语义单 元及其表示库的方法的流程图2A和2B为根据本发明的实施例的指定受P艮领域的语义单元及其表 示库中记载语义单元及其表示的数据表的示例,其中图2A为提取的经过 加注处理的语义单元及其表示库中记载语义单元及其表示的示例,而图2B 为还经过去可弃化和去重复处理的记载语义单元及其表示的示例;
图3为根据本发明的实施例的形成新的语义单元及其表示库的步骤的 流程图;以及
图4为根据本发明的实施例的用于形成基于语义的机器翻译的语义单 元及其表示库的系统的示意图。
具体实施例方式
下面结合附图,来对本发明的实施例进行详细描述。
为了清楚的描述本发明的概念,首先对本发明涉及的术语和概念进行
语义单元在自然语言中,表达一个意思的单元称为语义单元,如"工 程师"。
语义单元及其表示在任何一种具体的自然语言中的表达一个意思的 单元(语义单元)称为该语义单元在该具体自然语言中的语义单元及其表示。例如工程师的汉语表示为"工程师,,,英语表示为"engineer"。
句义具体的自然语言的一个句子的意义,称为句义。例如"我是学
生,,。句义由语义单元组成,例如,"我是学生"由"我,,、"学生"、 "是职称(〈N[人〉,〈N[职称〉)"这几个语义单元组成。而〈N[人〉、〈N[职
称> 分别是有关人的名词和有关职称的名词,它们是两个参数,需要被替
换为与该参数类型相同的语义单元。
句义表达式句义可以用将参数全部替换的复合语义单元来表达,即
是职称(<我>, <学生>),其中<我>, <学生>分别是语义单元及其表示"我"
和"学生"对应的语义单元。
语义语言由全部的语义单元组成, 一个具体的自然语言可以看作语义
语言的一个表示。
可弃语义单元可以由其它语义单元通过代入形成的语义单元,例如 上面的是职称(<我>, <学生>)。与其相对的非可弃语义单元为基本语义单 元。
歧义指不同语义单元在某个自然语言上具有相同的语义单元及其表 示。歧义包括真歧义和非正常歧义,非正常歧义指本来不是真歧义,而是 加上场所、领域、情景或者类型标注后就变为非歧义。因此,对于非正常 歧义必须加上领域标注以使其为非歧义。
图1为根据本发明的实施例的用于形成基于语义的机器翻译的语义单 元及其表示库的方法的流程图。如图1所示,首先在步骤S100,对指定受 限领域的双语或者多语的句子或者术语进行提取,得到多个语义单元及其 双语或者多语语义单元及其表示。在该步骤中,要基于指定的受限场所、 领域、情景或者类型,提取完备的确定内容的语义单元及其双语或者多语 表示,具体可以操作如下
*在指定的受限场所、领域、情景或者类型中,逐句处理双语或者多 语句子。
*提取该句尽量多的语义单元及其双语或者多语表示。 *验证该句所提取的语义单元及其表示是否完备。
6*如果不完备继续提取该句的语义单元及其表示。
在进行语义单元及其表示库的形成过程中,可以采取各种本领域熟知 的方法将双语或多语的句子或者术语输入到计算机中,为简单起见,这里 不对输入过程做详细描述。
下面结合图2A和2B来对语义单元及其表示库的形成过程进行详细描 述。首先指定受限领域(例如走遍美国中的一个情景),并以句子为单位 进行提取处理。例如,如图2A所示,对"This notebook is Tom's.(这笔 记本是汤姆的。)"进行处理,根据语义单元及其表示库,对该句进行语 义分析,提取出尽可能多的语义单元及其表示,在此是4个语义单元及其 表示,即"1 (〈N〉[物],<]\>[人所有),,、"2(<]\>[物),,、"3"(其对应 英语语义单元及其表示"notebook")和"4"(其对应英语语义单元及其 表示"Tom's"),并对其进行加注受限领域处理,通常情况下这些受限 领域不出现在语义单元及其表示库中,仅仅当发生非正常歧义时,才作为 区分标志出现在语义单元及其表示库中。在表示库中的所有的语义单元及 其表示都是有类型的,例如,"notebook"的类型是"〈N〉[物"、"Tom's" 的类型是"<1\>[人所有"。
还可以对"That book is Peter's.(那书是彼得的。)"、"This book is not mine.(这书不是我的。),,、"Tom is a doctor.(汤姆是医生。)" 和"This mine is a gold mine.(这矿是金矿。)"均按照上述原理进行提 取语义单元及其表示并进行加注处理,得到如图2A所示的20个语义单元。
然后验证该句是否将语义单元及其表示提取完备,如果没有提取完, 则继续进行提取处理,直到该句中全部语义单元及其表示都提取完毕;如 果已经提取完,则接下来对该句产生的语义单元及其表示进行处理,消去 该句全部可弃语义单元及其表示,这样就只留下了基本语义单元及其表示。 在该过程中,验证该句所提取的语义单元及其表示是否完备是通过一个反 向的过程来实现,即将这些语义单元的表示代入来检验是否可以形成该句 子,如果是,则说明提取的语义单元及其表示是完备的。
在本发明的实施例中,还可以进行非正常处理。例如,当出现不同语义单元对某个自然语言具有相同的语义单元及其表示时,可以采用对该语 义单元进行加注场所、领域、情境或类型的区分标志,从而消除非正常歧 义的可能性,因此可以得到更完善的语义单元及其表示库。
当全部句子和术语处理完成后,在步骤S110,可以创建指定受限领域
的语义单元及其表示子库。在该形成子库的步骤中,需要对得到的子库进 行消去全部可弃的语义单元及其表示和消去全部重复的语义单元及其表示
的处理,具体可以如下操作
*逐句消去句中全部重复的语义单元及其表示。
*逐句消去句中全部可弃的语义单元及其表示。
*通过排序然后消去子库中全部重复的语义单元及其表示和全部可 弃语义单元及其表示。
这样可以获得指定受限领域的完备的、无重复的、无可弃的语义单元 及其表示子库。本领域技术人员可以理解,该完备是相对而言,指定受限 领域的语义单元及其表示子库的语义单元及其表示越提取得完备,则就会 更好的消除歧义等语无伦次、正错交杂的情况。
如图2B所示,对图2A所示的数据进行上述处理,即经过去重复处理 去掉2个语义单元 "1 (<1\>[物,<]\>[人所有)"中的一个、去掉3个语 义单元"2(<N>," 中的两个、去掉2个语义单元"3"(即"book") 中的一个。然后,再对非正常歧义的语义单元进行处理(即加进行注场所、 领域、情境或类型的区分标志的操作),例如对于"mine",其受限领 域分别为"日常生活"和"矿",类型分别为'、NH人所有]"和"<]\>[物]")。 处理后的16个语义单元如图2B所示。
应该理解,创建的语义单元及其表示子库为记录语义单元知识的数据 库,其可以具有多种变化,而不限于图2A和2B所示的形式。
经过与上述类似的操作,可以创建多个不同的指定受限领域的语义单 元及其表示的完备的、无重复的、无可弃子库。
下面返回图l所示的用于形成基于语义的机器翻译的语义单元及其表 示库的方法的流程图。接下来,在步骤S120,将得到的多个指定的受限领
8域的完备的、无重复、无可弃的语义单元及其表示子库合并到原来的语义 单元及其表示库中,以形成新的语义单元及其表示库。
在该步骤中,要对合并了多个受限领域的语义单元及其表示子库的新 的语义单元及其表示库,进行与上述去重复、去可弃、和去非正常歧义处 理类似的处理,得到一个完备的、无重复、无可弃、无非正常歧义的语义
单元及其表示库。同样,这里的"完备"AA相对而言的,其可以经过足 够多的提取过程而近似达到。这样,可以逐步形成增加场所、领域和情境 以及确定内容范围的双语或者多语的语义单元及其表示库,下面将详细描 述。
图3为根据本发明的实施例的形成新的语义单元及其表示库的步骤的 流程图。如图3所示,在步骤S310,原来的语义单元及其表示库对受限领 域的语义单元及其表示子库进行合并,并且进行去重复处理。
在步骤S320,对该库中的语义单元及其表示进行去去可弃处理,从而 得到基本语义单元及其表示。
在步骤S330,检测是否需要进行非正常歧义处理,如果是,则对语义 单元及其表示加注场所、领域或情境等区分标志,将非正常歧义正确化。
在步骤S340,判断受限领域语义单元及其表示子库是否为空,如果是, 则形成新的完备的、无可弃的、无重复的、无非正常歧义的语义单元及其 表示库,如果否,则继续进行合并,直到形成包括全部指定的受限领域的 语义单元及其表示子库的新的语义单元及其表示库。
可以根据该新的语义单元及其表示库,对原文进行语义分析和语 开,并且输出译文。该过程在与本发明为同一申请人的授权公告日为2005 年11月9日的中国专利ZL.01131689.6中有详细描述,现将其内容结合在 此作为参考,这里不再赘述。
在本发明的实施例中,通过使用具有受P艮领域的语义单元及其表示库, 可以克服译文中可能存在的歧义甚至错误的情况,提高了翻译的准确率。
在同一个发明构思下,图4示出了才艮据本发明的另外的实施例的用于 形成基于语义的机器翻译的语义单元及其表示库的系统的示意图。如图4所示,语义单元及其表示库形成系统40包括输入装置401、提取装置402、 子库创建装置403、合并装置404以及存储装置405,其中提取装置402 用于对从输入装置401输入的指定受限领域的双语或多语句子或术语进行 提取,以获得语义单元及其表示,可选择的,提取装置402也可以对存储 在系统中的指定受限领域的双语或多语句子或术语进行提取;子库创建装 置403根据提取装置402的结果来创建指定受限领域的语义单元及其表示 子库;合并装置404用于将多个指定受P艮领域的语义单元及其表示子库合 并到原来的语义单元及其表示库,以形成新的语义单元及其表示库并将其 存储在存储装置405中。
在本发明的实施例中,提取装置402被配置来逐句提取指定场所或者 领域或者情景的指定受限领域的确定内容的语义单元及其双语或者多语表 示,并可以将其存储在存储装置405中。
提取装置402进一步包括用于控制来逐句注释句子的装置和用于提取 该句语义单元及其双语或者多语表示的装置。
在本发明的实施例中,子库创建装置403 4皮配置来对提取的语义单元 及其表示进行去重复和去可弃处理,以形成双语或者多语语义单元及其表 示子库,并可以将该子库存储在存储装置405中。
子库创建装置403进一步包括用于逐句消去句中可弃的语义单元及
其表示的装置;用于逐句消去句中重复的语义单元及其表示的装置;以及
用于消去所述子库中可弃的语义单元及其表示和重复的语义单元及其表示 的装置。
合并装置404被配置来对多个受限领域的语义单元及其表示子库进行 合并以形成新的语义单元及其表示库,其还被配置来进行去重复、去可弃、 和去非正常歧义处理。
本实施例的语义单元及其表示库形成系统40在操作上实现图1所示的 实施例的用于形成基于语义的机器翻译的语义单元及其表示库的方法。
本领域技术人员可以理解,上述语义单元及其表示库形成系统及其组 件可以由诸如超大M^莫集成电路或门阵列、诸如逻辑芯片、晶体管等的半
10导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备 的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以 由上述硬件电路和软件的结合实现。
虽然以上结合具体实施方式
对本发明的形成用于基于语义语言的自然 语言机器翻译的语义单元及其表示库的方法及其系统进行了详细描述,但 本发明并不限于此,在不脱离本发明的范围的情况下,可以对本发明进行 多种变换、替换和修改。
权利要求
1. 一种用于形成基于语义语言的自然语言机器翻译的语义单元及其表示库的方法,包括提取指定受限领域的语义单元及其双语或者多语语义单元及其表示;创建所述指定受限领域的语义单元及其表示子库;以及将所述多个指定受限领域的语义单元及其表示子库合并到原来的语义单元及其表示库,从而形成新的语义单元及其表示库。
2. 根据权利要求l的形成语义单元及其表示库的方法,其中 所述的提取语义单元及其双语或者多语语义单元及其表示包括提取指定场所或者领域或者情景的指定受限领域确定内容的语义单元及其双语或 者多语表示;所述的创建语义单元及其表示子库包括对所述语义单元及其表示进行 去重复和去可弃处理,以形成双语或者多语语义单元及其表示子库。
3. 根据权利要求2的形成语义单元及其表示库的方法,其中所述的提 取指定受限领域的确定内容的语义单元及其双语或者多语表示步骤进一步 包括控制逐句来注释句子;以及提取该句语义单元及其双语或者多语表示。
4. 根据权利要求2的形成语义单元及其表示库的方法,其中所述的对 语义单元及其表示进行去重复和去可弃处理的步骤进一步包括逐句消去句中重复的语义单元及其表示; 逐句消去句中可弃的语义单元及其表示;以及 消去所述子库中重复的语义单元及其表示和可弃语义单元及其表示。
5. 根据权利要求l的形成语义单元及其表示库的方法,其中还包括 对所述合并了多个受限领域的语义单元及其表示子库的新的语义单元及其表示库,进行去重复、去可弃、和去非正常歧义处理。
6. —种用于形成基于语义语言的自然语言机器翻译的语义单元及其表示库的系统,包括用于提取指定受P艮领域的语义单元及其双语或者多语语义单元及其表 示的装置;用于创建所述指定受限领域的语义单元及其表示子库的装置;以及 用于将所述多个指定受P艮领域的语义单元及其表示子库合并到原来的 语义单元及其表示库,以形成新的语义单元及其表示库的装置。
7. 根据权利要求6所述的系统,其中所述用于提取语义单元及其双语或者多语语义单元及其表示的装置被 配置来提取指定场所或者领域或者情景的指定受限领域的确定内容的语义 单元及其双语或者多语表示;以及所述用于创建语义单元及其表示子库的装置被配置来对所述语义单元 及其表示进^f亍去重复和去可弃处理,以形成双语或者多语语义单元及其表 示子库。
8. 根据权利要求6所述的系统,其中所述用于提取指定受限领域的确 定内容的语义单元及其双语或者多语表示的装置进一步包括用于控制来逐句注释句子的装置;以及用于提取该句语义单元及其双语或者多语表示的装置。
9. 根据权利要求7的系统,其中所述用于创建语义单元及其表示子库 的装置进一步包括用于逐句消去句中重复的语义单元及其表示的装置; 用于逐句消去句中可弃的语义单元及其表示的装置;以及 用于消去所述子库中重复的语义单元及其表示和可弃的语义单元及其 表示的装置。
10. 根据权利要求6的系统,其中用于合并多个受限领域的语义单元 及其表示子库以形成新的语义单元及其表示库的装置被配置来进行去重 复、去可弃、和去非正常歧义处理。
全文摘要
本发明涉及一种用于形成基于语义语言的自然语言机器翻译的语义单元及其表示库的方法和系统。所述方法包括提取指定受限领域的语义单元及其双语或者多语语义单元及其表示;创建所述指定受限领域的语义单元及其表示子库;以及将所述多个指定受限领域的语义单元及其表示子库合并到原来的语义单元及其表示库,从而形成新的语义单元及其表示库。通过基于指定的受限领域的语义单元及其表示库来进行机器翻译,可以消除歧义,改善译文的语无伦次、正错交杂状况,从而提高译文的可接受程度。
文档编号G06F17/28GK101452447SQ200710197070
公开日2009年6月10日 申请日期2007年12月6日 优先权日2007年12月6日
发明者玥 胡, 高小宇, 高庆狮 申请人:北京科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1