一种机器翻译方法及系统的制作方法

文档序号:6576187阅读:246来源:国知局

专利名称::一种机器翻译方法及系统的制作方法
技术领域
:本发明涉及一种机器翻译方法及系统。
背景技术
:语言是人类相互交流中使用最广泛的工具,然而,不同民族、不同国家之间常常使用着不同的语言,这阻碍了人们直接进行意思交换,而需要借助于翻译来达成不同语言之间的相互意思传递。随着世界各国人民之间的交流的日益频繁,单纯依靠人力翻译显然无法满足人们相互交流的需要,机器翻译应运而生。机器翻译一直被认为是突破语言障碍的主要途径,然而,现今的机器翻译尚无法成为一种可信的信息交流工具。在相当多的情况下,机器翻译系统的译文不知所云,令人无法得知对方真实表达的意思。机器翻译的质量亟待提高。
发明内容有鉴于上述背景,本发明的目的是提供一种机器翻译方法和系统,能够得到高质量的译文,从而使机器翻译真正成为一种可信的语言交流工具。为了解决上述技术问题,本发明采用了如下技术方案一种机器翻译方法,包括获取待翻译的第一语种的语句;识别所述第一语种的语句的主语词组、谓语词组和宾语词组;翻译所述第一语种的语句的主语词组、谓语词组和宾语词组为第二语种的主语词组、谓语词组和宾语词组;按照所述第二语种的语言表达方式排布所述第二语种的主语词组、谓语词组和宾语词组,形成为第二语种的语句。所述的方法,还包括识别所述第一语种的语句中是否包含连接词,以及翻译该连接词为第二语种的连接词。所述的方法,识别所述第一语种的语句的主语词组、谓语词组和宾语词组的方式是识别所述语句的主语词组、谓语词组和宾语词组是否标记有词组标记符。所述的方法,还包括识别所述第一语种的语句的主语词组是否包括主语修饰语,识别所述第一语种的语句的谓语词组是否包括谓语修饰语,识别所述第一语种的语句的宾语词组是否包括宾语修饰语。所述的方法,识别所述主语修饰语、谓语修饰语或宾语修饰语的方式是识别主语词组、谓语词组或宾语词组中是否标记有修饰语标记符。所述的方法,还包括识别所述第一语种的语句是否包含问句。所述的方法,识别所述第一语种的语句是否包含问句的方式是识别主语词组、谓语词组或宾语词组后面是否有提问标记符。所述的方法,识别后的所述第一语种的语句按如下格式顺序排列主语、主语的提问标识符、主语修饰语、谓语、谓语的提问标记符、谓语修饰语、宾语、宾语的提问标识符、宾语修饰语;当所述主语、主语的提问标识符、主语修饰语、谓语、谓语的提问标记符、谓语修饰语、宾语、宾语的提问标识符、宾语修饰语中的一种或多种缺失时,在排列时相应置空。所述的方法,所述主语修饰语、谓语修饰语、宾语修饰语在排列时,分别位于一括号内。所述的方法,在获取待翻译的第一语种的语句之前,还可以包括接收从输入接口输入的第一语种的自然语句;识别第一语种的每一个自然语句是否包含主语词组、谓语词组和宾语词组,如果不是,则将该语句补充成包括主语词组、谓语词组和宾语词组的完整结构,形成为待翻译的第一语种的语句。也可以包括下述标记过程的一种或多种为第一语种的主语词组、谓语词组和宾语词组标记上词组标记符;为第一语种的主语词组中的主语修饰语、谓语词组中的谓语修饰语之间、宾语词组中的宾语修饰语标记上修饰语标记符;对包含问句的第一语种的语句,为被提问的主语词组、谓语词组或宾语词组标记上提问标记符。本发明还公开了一种机器翻译系统,包括获取单元,用于获取待翻译的第一语种的语句;识别单元,用于识别所述第一语种的语句的主语词组、谓语词组和宾语词组;翻译单元,用于翻译所述第一语种的语句的主语词组、谓语词组和宾语词组为第二语种的主语词组、谓语词组和宾语词组;成形单元,用于按照所述第二语种的语言表达方式排布所述第二语种的主语词组、谓语词组和宾语词组,形成为第二语种的语句。所述的系统,所述识别单元还用于识别所述第一语种的语句中的连接词,所述翻译单元还用于翻译所述第一语种的语句中的连接词。所述的系统,识别单元识别所述第一语种的语句的主语词组、谓语词组和宾语词组的方式是识别所述语句的主语词组、谓语词组和宾语词组是否标记有词组标记符。所述的系统,识别单元还用于识别所述第一语种的语句的主语词组是否包括主语修饰语,识别所述第一语种的语句的谓语词组是否包括谓语修饰语,识别所述第一语种的语句的宾语词组是否包括宾语修饰语。所述的系统,识别单元识别所述主语修饰语、谓语修饰语或宾语修饰语的方式是识别主语词组中是否标记有修饰语标记符、识别谓语词组中是否标记有修饰语标记符、识别宾语词组中是否标记有修饰语标记符。所述的系统,识别单元还用于识别所述第一语种的语句是否包含问句。所述的系统,识别单元识别所述第一语种的语句是否包含问句的方式是识别主语词组、谓语词组或宾语词组后面是否有提问标记符。所述的系统,还包括排列单元,用于将识别后的所述第一语种的语句按如下格式顺序排列主语、主语的提问标识符、主语修饰语、谓语、谓语的提问标记符、谓语修饰语、宾语、宾语的提问标识符、宾语修饰语;当所述主语、主语的提问标识符、主语修饰语、谓语、谓语的提问标记符、谓语修饰语、宾语、宾语的提问标识符、宾语修饰语中的一种或多种缺失时,在排列时相应置空。所述的系统,所述排列单元还用于将所述主语修饰语、谓语修饰语、宾语修饰语分别放置于一括号内。所述的系统,还包括预处理单元,用于接收从输入接口输入的第一语种的自然语句;以及识别第一语种的每一个自然语句是否包含主语词组、谓语词组和宾语词组,如果不是,则将该语句补充成包括主语词组、谓语词组和宾语词组的完整结构,形成为待翻译的第一语种的语句。排列单元还可以用来进行如下标记操作的一种或多种为第一语种的主语词组、谓语词组和宾语词组分别标记上词组标记符;为第一语种的主语词组中的主语修饰语、谓语词组中的谓语修饰语之间、宾语词组中的宾语修饰语标记上修饰语标记符;对包含问句的第一语种的语句,为被提问的主语词组、谓语词组或宾语词组标记上提问标记符。本发明的方法和系统,通过识别第一语种格式语句中的主语词组、谓语词组和宾语词组,再相应的将其翻译成第二语种的主语词组、谓语词组和宾语词组并按第二语种的语言表达方式进行排布,使得翻译能够符合语义逻辑,从而得到高质量的译文,真正使机器翻译方法和系统成为一种可信的实用翻译工具。图1描述了自然语言的差异性和共通性;图2描述了本发明的基本发明原理;_图3描述了本发明示例中的语义逻辑表达式分别如何对应于符号学观点和语言学观点;图4描述了本发明示例中的由自然语言到符号语言句型的转换过程;图5描述了本发明示例中从一个语种到另一语种的转换流程;图6描述了本发明示例中一个语种到另一语种的转换实例;图7描述了本发明具体实施方式的机器翻译方法的流程。具体实施例方式下面对照附图并结合具体实施方式对本发明进行进一步详细说明。1.发明原理21世纪的人类已经进入到信息社会,信息社会的基本特征是网络互联、语言互通、资源共享和协同工作。语言互通(人与人互通、人与机互通)是资源共享、协同工作的基础,对信息社会的发展和完善起着关键的作用。审视机器翻译的目标,应当看到,由于语言之间的差别涉及到语言文化、社会背景上的差异,这使得自然语言具有极大的不规则性,在这种现实的情况下,建立穷尽一切自然语言不规则性的逻辑模型从而达到机器的全自动翻译是不现实的。因此,将机器翻译关注的重点放在某些受限领域是一个更现实的目标。从目前来看,对翻译最迫切的需求来自于互联网的即时通讯,例如国际聊天、电子邮件、翻译摘要、外语写作草稿生成、商务信息服务等等。这些即时通讯着重的是语义的逻辑性,即在这些领域中,更关注于信息的内容,而对信息的表达形式,例如用词精美、结构严谨等等方面并非关注重点。把握"语言的本质是逻辑语义的表达"这一核心,本发明借助于符号语言学的观点,透视语言的本质特征,抽取语言的共性,从而构建出一个人机共识的中间语言模型,作为语义通讯的协议,这一协议在本发明中被称为语际通讯协议或互联语(InterlanguageProtocol,简称ILP)。以ILP为中间语言模型的翻译,称为ILP格式化翻译。如图1所示,从符合语言学的观点看,信息交流时表达的对象具有客观性,这些对象的结构、功能,无论是使用何种语言的人们来看,都是相同的。由此,客观对象在人脑中反映的概念(客观对象的主观印象)具有共通性。自然语言间的真正差异在于采用何种符号来对这些概念进行表达,也即用符号表达一个共通的概念具有任意性,这种任意性的符号最终导致的不同自然语言表达同一客观对象上的不规则性。例如,数字"1",从发音的角度,在英语中是[wAn],在汉语中则是[yi]。从文字的角度,在英语中是"one",在汉语中则是"一"。然而,不管其符号表达形式如何变化,其表达的概念都是相同的,代表着数量只有一个。如图2所示,从概念的共通性出发,可以看到,这种共通性的核心在于语义的逻辑——各语素之语义的关系。通过构建统一的语义表达式来表达共同的概念,可使自然语言之间具有共通的语法。由此,通过规范化的IL符号语言,使得对同一对象具有规则性的表达。从表1中可以看到如何由自然语言通过统一的语义逻辑表达式而表达同一事物。表l<table>tableseeoriginaldocumentpage9</column></row><table>如图3所示,从语言学观点看,语言一般由语义、语法、语素组成,最终形成语句或文字;而从符号学观点,语言一般由符号语言的图标、编码或文字组成,形成最终表达的合逻辑的信息。两者之间可以通过语义逻辑表达式相联系。语义逻辑表达式的功能是表达一组合逻辑的信息一语义,而不顾及自然语句所附带的语言艺术或个性特色。这样,人类语言有了共同的语法,使各种自然语言的语义能够互相传递并在逻辑上昜于互相理解。作为通用语法,应能描述任意的逻辑过程。如图4所示,从最底层的应用来说,自然语言的句型是无限的、不可穷举的,而在抽取语义逻辑之后,逻辑语言句型就成为有限类的,最终,通过设计,可以由逻辑语言句型设计出唯一的符号语言句型(IL)。借助人工智能有关知识表示的原理(每个语句都是描写一个"微型场景"的剧本),参考计算机语言的基本逻辑功能,可以得出下列的句型范式。它像一个二维表格,逻辑功能上包含了计算机语言的4种基本的语句,所以也像计算机语言那样能表达任何逻辑思维。将二维表格线性化,便得出句型的结构范式。这就是体系中的统一的、唯一的句式,也是本发明的语义通讯协议(ILP)的语法框架。在IL体系中,唯一的句型范式是:连结词基本句其中,连接词主要用于连接多个基本句,例如中文中的"因为……所以……"等。基本句的框架是主语词组谓语词组宾语词组其中,主语词组、谓语词组和宾语词组的构成分别为主语词组的构成为主语([]提问;修饰)谓语词组的构成为谓语({}提问;修饰)宾语词组的构成为宾语((?)提问;修饰/补语)最终的句型范式是连结词主语([廣问;修饰)谓语({}提问;修饰)宾语((?)提问;修饰)其中,主语词组、谓语词组和宾语词组一般的词性如下,另对于这三种词组,其可能也包括修饰语,也即主语词组包括主语和主语修饰语;谓语词组包括谓语和谓语修饰语;宾语词组包括宾语和宾语修饰语。,对于问句,包括了对主语词组、谓语词组或宾语词组的提问,具体格式如表2。主语词组冠词*单形容词*主语([]提问;修饰短语)谓语词组助动词*单副词*动词({}提问;修饰短语)宾语词组冠词'单形容词*宾语((?)提问;修饰短语)上述的基本句型具有计算机语言基本逻辑功能,可表达4种逻辑语句*叙述句甲=A;乙〕B;*祈使句使丙二C;丁+Ae(进入)F;庚J(作用于)f(X);*疑问句比是什么({});X是((?))Y;M作用于((?l如何)N*判断句如果事件X是真,则做事F(X);否则转做事G(y).表2连接词Conjunction主语Subject谓语Predicate宾语Object基本句m对主语提问;[]Inquirytosubject;{}对谓语提问;{}Inquirytopredicate;()对宾语提问;()Inquirytoobject;Basicsentenc对主语修饰Decoratestosubject对谓语修饰Decoratestopredicate对宾语修饰/补语Decorates/10Complementtotheobject连接词Conjunction主语Subject谓语Predicate宾语Object基本句[]对主语提问;[]Inquirytosubject;{}对谓语提问;{}hupiirytopredicate;()对宾语提问;15()Inquirytoobject;Basicsentenc6对主语修饰Decoratestosubject对谓语修饰Decoratestopredicate对宾语修饰/补语Decorates/Complementtolheobj经O下面我们首先给出本文中的一些名词与其简称的对照K一互联语("语际语,,)Interlanguage亂一自然语言NaturalLanguageILP_语际协议InterLanguageProtocol(语义通讯协议)NIL—IL格式化的自然语言ENIL—IL格式化的英语如图5所示,在进行互联语通讯时,首先通过计算机的辅助将A语转换成IL格式的A语,然后,通过IL语的语际协议,可以将IL格式的A语转换为IL格式的B语,最后由IL格式的B语可以变换到B语。如图6所示,实现自然语言间的自动翻译之最大障碍是语法和句法的自动识别和转换,采用人机共识的中间语言可以避开这个障碍。我们通过计算机辅助(IL格式化辅助软件)不难实现完整化一将自然语言中省略/或缺的部分补齐。规格化一IL句型符合多数语言的语法规则和句型。人机互动,容易将输入句子IL格式化;将复合句分拆成独立句子。标签化一按照通用语法的要求,系统对所有句子成分加盖语法标签。结构化一所有句子成分在上述的IL句型范式中定位、定格。2.发明实现如图7,由以上原理,本发明具体实施方式的机器翻译方法,包括1)获取待翻译的第一语种的语句;2)如果该第一语种的语句不是基本句,识别所述第一语种的语句是否有连接词;3)识别所述第一语种的语句的主语词组、谓语词组和宾语词组;4)翻译所述第一语种的语句的主语词组、谓语词组和宾语词组为第二语种的主语词组、谓语词组和宾语词组;5)按照所述第二语种的语言表达方式排布所述第二语种的主语词组、谓语词组和宾语词组,形成为第二语种的语句。该方法主要是通过识别出一个语句中的主语词组、谓语词组和宾语词组,从而能够在翻译时按照语义逻辑进行翻译。识别时的一种便利的识别方式是通过语句中的各种标记符进行识别。例如,通过主语词组、谓语词组和宾语词组的词组标记符而识别出主语词组、谓语词组和宾语词组。如前文所述,三种词组可能都包含修饰语,同样的,对于主语和主语修饰语,谓语和谓语修饰语,宾语和宾语修饰语,可以通过修饰语标记符来进行识别。另外,对于问句,可以通过提问标记符来进行识别。上述的几种标记符可以采用各种符号,例如,词组标记符可以采用下划线,修饰语标记符可以采用括号,问句标记符可以采用问号。当然,以上几种标记符也同样可以采用其他的符号来进行标记。相应的,本发明具体实施方式的翻译系统,包括-获取单元,用于获取待翻译的第一语种的语句;识别单元,用于识别第一语种的语句是否有连接词,以及识别所述第一语种的语句的主语词组、谓语词组和宾语词组;翻译单元,用丁翻译第一语种的语句的主语词组、谓语词组和宾语词组为第二语种的主语词组、谓语词组和宾语词组;成形单元,用于按照第二语种的语言表达方式排布所述第二语种的主语词组、谓语词组和宾语词组,形成为第二语种的语句。在获取单元获取待翻译的第一语种的语句之前,也可以通过预处理单元进行一些预处理。在从输入接口接收到输入的第一语种的自然语句后,对其进行预处理,预处理主要包括识别该自然语句是否包含主语词组、谓语词组和宾语词组,如果不是,则将该语句补充成包括主语词组、谓语词组和宾语词组的完整结构;为第一语种的主语词组、谓语词组和宾语词组标记上词组标记符;为第一语种的主语词组中的主语修饰语、谓语词组中的谓语修饰语、宾语词组中的宾语修饰语标记上修饰语标记符;对包含问句的第一语种的语句,为被提问的主语词组、谓语词组或宾语词组标记上提问标记符。例如,如图6所示,该图中,第一语种为中文,第二语种为英文。现在,需要将一句中文的自然语句"昨天在会上发言的是你吗?"翻译成英文。首先,可以通过计算机的辅助输入系统(预处理单元)进行预处理,形成为"咋天在会t发言的(那个人)是(「])迩",可以看到,首先,该句为基本句,没有连接词;其次,主语词组中只有修饰语,而没有主语,经过处理后,被补充完成,即"那个人",整个语句中,"昨天在会上发言的那个人"是主语词组,"是"是谓语词组,"你"是宾语词组,谓语词组和宾语词组都没有修饰语,其中,由于是对谓语提问,因此,在谓语词组后还标记有提问标记符。而在主语词组中,包括几个主语修饰语,分别是"昨天"、"在会上"、"发言的",识别后的第一语种的语句,按照前述的IL范式语句排布"那个人(昨天,在会上,发言}是{<>}你",在这个句式中,按主语、主语的提问标识符(此例缺)、主语的修饰语、谓语、谓语的提问标识符、谓语的修饰语(此例缺)、宾语、宾语的提问标识符(此例缺)、宾语的修饰语(此例缺)顺序排布,位于修饰语标记符"{}"中的主语修饰语"昨天,在会上,发言"放在主语"那个人"之后,谓语的提问标记符"?"放在被提问的谓语"是"之后。根据这个范式句型,第一语种(中文)的语句被翻译为第二语种(英文)的语句"That{gavespeechinmeeting,yesterday}were{<>}you",最后,按照英文的语言表达方式对其进行排布,得到"Werethatyouwhogavespeechinthemeetingyesterday',从翻译后的语句可以看到,整个语句的语义逻辑表达是非常清晰的。3.效果对比以上是对发明原理和具体实现的描述,下面,我们通过几个示例来对比现有技术和本发明的效果。从这些示例中,可以清楚的看到利用本发明的翻译方法和系统,尽管在语法上仍然可能有一些错误,但在语义表达上,是符合语义逻辑的,用户从翻译后的语句中可以得到原始语句想表达的逻辑含义。表3<table>tableseeoriginaldocumentpage14</column></row><table><table>tableseeoriginaldocumentpage15</column></row><table><table>tableseeoriginaldocumentpage16</column></row><table>以上两表,表3是Google翻译效果(2008年9月30日),10例中只有3例正确;而表4则是本发明(2008年9月30日)的翻译效果,可以看到其逻辑没有错误,只是一些单词的错误。下面我们以一段文字的翻译来比较Google翻译与本发明翻译的效果。其中,对译错之处,进行了涂黑标记。待翻译文字-语言障碍是世界级的难题。演进了几千年的人类文明还未能让任何国际人群可直接交换意向。ILC为解决语言互通问题,创建了全新的语言互通体系IL,提出以语言互通协议ILP为核心、以人/机共识的互联语言(Inter-language)为基础的全球通译网络系统。该系统为突破双重语言障碍提供了最为简易有效的方法和工具。该系统能使不同国度、不同民族的人群直接(不经第三者翻译)借助于计算机与手机等工具,用本土文字直接沟通国际信息,进行全球化协同工作。语言互通是信息内容自动处理的前提和基础,其突破性进展将促成社会信息化的新跃进,并引发新一轮的信息技术革命。Google翻译引擎〖译错处涂上灰色3(2008年9月30日)C>E中/英Thelanguagebarrierisaworld-classproblem.Forthousandsofyearstheevolutionofhumancivilizationhasnotallowedanyinternationalgroupscanbedirectlyexchangedintention.IIXtoresolvetheissueofinteroperabilitylanguage,thelanguageofcreationofanewexchangesystemILlanguageinteroperabilityagreementtoILPatthecore,thepeople/consensusontheInternetlanguage(Inter-language)-basedglobalnetwork-translationsystem.Thesystemforthedoublelanguagebarrierbreakthroughprovidethemostsimpleandeffectivemethodsandtools.Thesystemenablesdifferentcountry,differentethnicgroupsdirectly(notthroughathirdpartytranslation)throughtheuseofcomputersandmobilephonesandothertoolstocommunicatedirectlywiththelocallanguageofinternationalinformationforglobalizationtoworktogether.Languageexchangeinformationautomaticallywiththeprerequisiteandbasisforitsbreakthroughinthedevelopmentoftheinformationsocietywillleadtoanewleapforward,andtriggeranewroundoftheinformationtechnologyrevolution-E〉C英/中:语言障碍,是一个世界级的问题。千百年来的演变是人类文明^3Si^任何国际团体,可直接交换意向。国际法来解决问题,互通语言,语言创造了新的汇率制度党总书记,语言互通协议,以进为核心的人/共识,对网络语言(跨语言)-基于全球网络翻译制度。该系统为双语言障碍的突破提供了最简单和有效的方法和工具。该系统使不同国家,不同族群的直接(不通过第三方翻译),通过使用电脑和手机等工具直接沟通,与当地语言的国际信息全球化一道工作。语言自动交换信息与前提和基础,它的突破,在信息社会的发展将导致新的飞跃,并引发新一轮的信息技术革命。本发明的翻译(2008年9月30日)语言障碍是世界级的难题。人类文明(演进了几千年)还未能做到任何国际人群能够交换(直接地)意向。ILC创建了(为语言的通信)全新的IL体系(语言互相通讯),提出系统(全球翻译网络);这系统的核心是语言互相通讯的协议ILP、这系统的基础是互联网语言Inter-language(人/机共识)。该系统提供了(为突破双重的语言障碍)最简易/有效的方法/工具。该系统能做到不同民族的人群用本土文字,借助工具(计算机与手机等),直接进行(不用第三者的翻译)国际通讯,进行全球的协同工作。语言的互相通讯是前提和基础(自动地处理信息的内容),其突破性的进展将促成新跃进(社会信息化的),并,引发新的信息技术革命。该系统能做到:不同民族的人群用本国文字,借助工具(计算机与手机等),直接进行(不用第三者的翻译)国际通讯,进行全球的协同工作。C>E(中翻英)Thelanguagebarrieristheworld-classdifficultproblem.Thehumanculture(evolutionseveralmillenniums)havenotbeenabletoachieve:Anyinternationalcrowdcanexchange(directly)theintention.IIXfounded(forlanguagecorrespondence)thebrand-newsystem(languagemutuallycommunication),proposesthesystem(globaltranslationnetwork);ThissystemcoreislanguagecommunicationagreementILP,thissystemfoundationismutuallyInternetlanguageInter—language(human/machinemutualrecognition).Thissystemhasprovided(forbreakthroughduallanguagebarrier)thesimplest/effectivemethod/tool.Thissystemcanachieve:Thedifferentnationality'scrowdwithourcountrywriting,withtheaidofthetool(computerandhandsetandsoon),carriesondirectly(doesnotusethirdparty'stranslation)theinternationalcommunication,carriesonglobalthejointoperation.Thelanguagethecommunicationismutuallythepremiseandthefoundation(automaticallyprocessinformationcontent),itsunprecedentedprogresswillfacilitateleapsforwardnewly(socialinformationization),and,willinitiatetherecentinformationtechnologyrevolution.E>C(英翻中)语言MM是国际水平的困难的问题。人类文化(演变几个千年)未能达到所有国际人群能交换(直接地)意图。ILC建立了(为语言书信)全新的IL系统(相互语言通信),提出系统(全球性翻译网络);这个系统核心是语言通信协议ILP,这个系统基础i!S^互联网语言中间语言(人或机器互相承认)。这个系统提供了(为突破双重语言障隘)最简单或有效的方法或工具。这个系统可能达到另外国籍的人群以我们的国家文字,在工具的帮助下(计算机和手机等等),直接地1M(不使用第三方翻译)国际通信,继续全球性联合作战。相互通信(在语言之间)是前提和基础(自动地处理信息内容),它史无前例的进展将促进社会informationization最近今后飞跃,并且,将创始最近信息技术革命。由以上对比可以看到,利用本发明的翻译方法和系统,翻译后的语句更符合语义逻辑,大大提高了译文的质量。下面我们也提供本发明翻译系统在多种语言之间的多方转译的效果。可以看到本发明能在各种语言之间基本正确传递语义,其翻译效果已达到现有的机译系统未能达到的境界。中文原稿c语言的互相通讯是前提和基础(自动地处理信息的内容),其突破性的进展将促成新跃进(社会信息化的),并且,引发新的信息技术革命。IL系统能做到:不同民族的人群用本国文字,借助工具(计算机与手机等),直接进行(不用第三者的翻译)国际通讯,进行全球的协同工作。1.C—E(中文/英文)Thelanguagemutualcommunicationisthepremiseandthefoundation(automaticallyprocessinformationcontent),itsunprecedentedprogresswillfacilitateleapsforwardnewly(socialinformationization),and,'initiatestherecentinformationtechnologyrevolution.Thesystemcanachieve:Thedifferentnationality'scrowdwithourcountrywriting,withtheaidofthetool(computerandhandsetandsoon),carriesondirectly(doesnotusethirdparty'stranslation)theinternationalcommunication,carriesonglobalthejointoperation,2.E_F(英文/法文)Lacommunicationmutuelledelangueestleslieuxetlabase(automatiquementcontenude1,informationdeprocessus),sonprogrfessanspr6c6dentfaciliteradessautsenavantnouvellement(informationizationsocial),et,desinitioslarevolutionr6cervtedetechnologiede1,information.systfemede1,peutr6aliser:LafouledeIelnationalit6diff6renteavecnotre6crituredepays,dil,aidedel,outil(ordinateuretcombin6etainsidesuite),continuedirectement(n,emploiepaslatraductiondutiers)lacommunicationinternationale,continueglobal1,operationcommune-3.F—E(法文/英文)Themutualcommunicationoflanguageistheplacesandthebase(automaticallycontainedinformationofprocess),itsprogresswithoutprecedentwillfacilitatejumpsaheadlately(informationizationsocial),and,initiatestherecentrevolutionoftechnologyinformation.ThesystemofITcanrealize:Thecrowdofnationalitydifferentwithourwritingfromcountry,usingthetool(computerandcombinedandsoon),directlycontinues(thetranslationofthethirddoesnotemploy)theinternationalcommunication,continuestotalthecommonoperation.4.C一S(中文/西班牙文)Lacomunicaci6nmutuadelalenguaeslapremisaylafundaci6n(automciticainentecontenidodeinformaci6ndeproceso),suprogresosinprecedentefacilitardsaltosadelantenuevamente(informationizationsocial),y,losiniciadoslarevoluci6nrecientedelatecnologiadelainformaci6n,Elsistemadepuedealcanzar:Lamuchedumbredeladiversanacionalidadconnuestraescrituradelpais,conlaayudadelaherramienta(computadoraymicrotel6fonoyasisucesivamente),continiiadirectamente(noutilizalatraducci6ndelosterceros)lacomunicaci6ninternacional,continilagloballaoperaci6ncomiin.5.S—E(西班牙文/英文)Themutualcommunicationofthelanguageisthepremiseandthefoundation(automaticallycontainedofprocessinformation),itsprogresswithoutprecedentwillfacilitatejumpsaheadagain(informationizationsocial),and,theinitiatestherecentrevolutionofthetechnologyoftheinformation*TheILsystemcanreach:Thecrowdofthediversenationalitywithourwritingofthecountry,withtheaidofthetool(computerandmicrotelephoneandsoon),directlycontinues(itdoesnotusethetranslationofthethirdparties)theinternationalcommunication,continuesglobalthecommonoperation-c中文原稿语言的互相通讯是前提和基础(自动地处理信息的内容),其突破性的进展将促成新跃进(社会信息化的),并且,引发新的信息技术革命。IL系统能做到:不同民族的人群用本国文字,借助工具(计算机与手机等),直接进行(不用第三者的翻译)国际通讯,进行全球的协同工作。6.C—S(中文/西班牙文)Lacomunicaci6nmutuadelalenguaeslapremisaylafimdaci6n(autonwiticamenteconteriidodeinformacicindeproceso),suprogresosinprecedentefacilitardsaltosadelantenuevamente(informationizationsocial),y,losiniciadoslarevoluci6nrecientedelatecnologiadelainformaci6n,Elsistemadepuedealcanzar:Lamuchedumbredeladiversanacionalidadconnuestraescrituradelpais,conlaayudadelaherramienta(computadoraymicrotel6fonoyasisucesivamente),contimiadirectamente(noutilizalatraducci6ndelosterceros)lacomunicaci6ninternacional,continiiagloballaoperaci6ncomiin.7.S^E(西班牙文/英文)Themutualcommunicationofthelanguageisthepremiseandthefoundation(automaticallycontainedofprocessinformation),itsprogresswithoutprecedentwillfacilitatejumpsaheadagain(inforaationizationsocial),and,theinitiatestherecentrevolutionofthetechnologyoftheinformation-TheILsystemcanreach:Thecrowdofthediversenationalitywithourwritingofthecountry,withtheaidofthetool(computerandmicrotel印honeandsoon),directlycontinues(itdoesnotusethetranslationofthethirdparties)theinternationalcommunication,continuesglobalthecommonoperation*8.E~C(英文/中文)语言的相互通信是前提,并且基础(自动地包含处理信息),它的没有先例的进展向前将促进跃迁再(informationization社交),禾B,发起信息的技术的最近革命。工L系统可能到达不同的国籍的人群与我们的国家的文字的,在工具的帮助下(计算机和microtel印hone等等),直接地继续(它不使用第三方的翻译)国际通信,继续全球性共同的操作。9.E-A(英文/阿拉伯文)—_^cJ〕"(j<、、、加(J^_c3_'一'ija_^(4_j^LjLu2j"—tj_I3ijSl_^SIl_^j;《Cil_。j_^产l_kill(j_。i~<J~jl:cA;i_ud^^_;1一、人《'_JiaJlyU:i_3_^LiSJl'_ub&j(j_3jjj^,_^Jlji^jj>■ijj*^J1一U'^j2_^1^_^UJi'10.A—E(阿拉伯文/英文)Mutuallanguageofcommunicationisthepremiseandthebasis(thecontentoftheinformationautomatically),andtheunprecedentedprogressandfacilitatetheachievementofthenewlyleaps(SocialInformatics),andinitiatedtherecentrevolutionininformationtechnology.ThesystemcanachieveII:differentnationalities'sthecrowdwithourwriting,withtheassistanceofatool(computer,telephone,etc.),andcarriesondirectly(doesnotusethird-partytranslation(internationalcommunication,andaglobalco-operation-11.C一E-A--E~C(中文/英文/阿拉伯文/英文/中文)语言的相互沟通是前提和基础(信息内容自动),以及前所未有的进展,并促进实现新跨越(社会信息),并发起了近年来信息技术革命。该系统可实现一不同国籍的观众与我们的写作的协助下,一个工具(电脑,电话等),并进行直接(不使用第三方翻译)国际交流,并有一个全球性合作。以下是以四种文字(IL符号语言、中文、英文、法文)表达的利用本发明翻译系统进行的交易过程,从中可以看到,利用本发明的翻译系统,交易双方都能明了对方的逻辑表达,从而使得交易可以正常的进行。其中,第一种文字为符号语言。&:[HL符号语言2工0100.MP3(ILC-102,BC-24516272829).KChines3我要100台MP3(ILC-102,条纹码-24516272829).〖English〗Iwant100MP3(ILC-102,barcode-24516272829)。〖French〗Jeveux100MP3(ILC-102,barrecode-24516272829.)〖IL符号语言〗I<3>Jc^({}).〖Chines2你能提供({}).KEnglish2Youcanprovide({*})(§):〖IL符号语言〗工〕100.MP3(IT-234).I0({}).〖Chines〗我有100.MP3(IL-234)。你要({}).〖English〗Ihave100MP3.(IT-234).Youwan"{})〖French〗J'ai100MP3(IT-234).Vousvoulez({})〖IL符号语言〗I,*/二〇.〖Chines3其价格是甚么((?)).KEnglish〗what([*])isit,priceKFrench〗cequi([7])estsonprix.<g):〖IL符号语言〗=$30usd〖ChinesU价格是30美元。〖English〗Thepriceis30U.S.dollars.〖French〗Leprixestde30dollars.A:〖IL符号语言〗L多/「({})80%.〖Chines〗把价格可否({})降到80%.〖French〗Vouspouvezfournir({})〖English〗Thepricecan({})droppedto80%.〖French〗Leprixpeutle({})achirt6d80%.§:90%,LI".〖Chines390%吧,请你考虑。〖English〗90%ofit,youmayconsider,〖French〗90%delui,Vousp加tconsidSrer.〖IL符号语言〗JEJc^({}T)..〖Chines3你交({})何时)货.[[English!!Youhandover({*})when)'goods,〖French〗Vousremettez({7}quand)mardmndises.想nL符号语言H2007.06.29,士Uc^Shenzhen.〖Chines22007年06月29日。交付地点是深圳。〖English2June29,2007,DeliverylocationsisShenzhen,〖French〗29juin200—7.EmplacementsdelivraisonestShenzhen.IHL符号语言2<S>ZZHongKong工0.〖Chines2,交付地点是香港,观,我要;丽,我不要。〖English2#theplacef/朋Iwill仍力ery/se,IdonotofdeliveryisHongKong:take;wanttotake.〖French〗lelieudelivraisonestdeHongKong:Warsjevaisprendre;5"j."o",jeneveuxpasprendre.通过以上的实例说明,我们可以明显的看出,本发明的翻译方法及系统,由于从语义逻辑出发,借助于语义逻辑表达式的构建,从而能够生成高质量的译文,从而使机器翻译真正成为一种可信的实用翻译工具。以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,但这只是为便于理解而举的实例,不应认为本发明的具体实施只局限于这些说明。对于本发明所属
技术领域
的普通技术人员来说,在不脱离本发明构思的前提下,可以做出各种可能的等同改变或替换,这些改变或替换都应属于本发明的保护范围。权利要求1.一种机器翻译方法,其特征在于,包括获取待翻译的第一语种的语句;识别所述第一语种的语句的主语词组、谓语词组和宾语词组;翻译所述第一语种的语句的主语词组、谓语词组和宾语词组为第二语种的主语词组、谓语词组和宾语词组;按照所述第二语种的语言表达方式排布所述第二语种的主语词组、谓语词组和宾语词组,形成为第二语种的语句。2.如权利要求1所述的方法,其特征在于还包括识别所述第一语种的语句中是否包含连接词,以及翻译该连接词为第二语种的连接词。3.如权利要求1所述的方法,其特征在于,识别所述第一语种的语句的主语词组、谓语词组和宾语词组的方式是识别所述语句的主语词组、谓语词组和宾语词组是否标记有词组标记符。4.如权利要求1或2或3所述的方法,其特征在于还包括识别所述第一语种的语句的主语词组是否包括主语修饰语,识别所述第一语种的语句的谓语词组是否包括谓语修饰语,识别所述第一语种的语句的宾语词组是否包括宾语修饰语;识别所述主语修饰语、谓语修饰语或宾语修饰语的方式是识别主语词组、谓语词组或宾语词组中是否标记有修饰语标记符。5.如权利要求4所述的方法,其特征在于还包括识别所述第一语种的语句是否包含问句;识别所述第一语种的语句是否包含问句的方式是识别主语词组、谓语词组或宾语词组后面是否有提问标记符。6.如权利要求5所述的方法,其特征在于,识别后的所述第一语种的语句按如下格式顺序排列主语、主语的提问标识符、主语修饰语、谓语、谓语的提问标记符、谓语修饰语、宾语、宾语的提问标识符、宾语修饰语;当所述主语、主语的提问标识符、主语修饰语、谓语、谓语的提问标记符、谓语修饰语、宾语、宾语的提问标识符、宾语修饰语中的一种或多种缺失时,在排列时相应置空。7.如权利要求6所述的方法,其特征在于在获取待翻译的第一语种的语句之前,还包括接收从输入接口输入的第一语种的自然语句;识别第一语种的每一个自然语句是否包含主语词组、谓语词组和宾语词组,如果不是,则将该语句补充成包括主语词组、谓语词组和宾语词组的完整结构,形成为待翻译的第一语种的语句;为第一语种的主语词组、谓语词组和宾语词组标记上词组标记符;为第一语种的主语词组中的主语修饰语、谓语词组中的谓语修饰语之间、宾语词组中的宾语修饰语标记上修饰语标记符;对包含问句的第一语种的语句,为被提问的主语词组、谓语词组或宾语词组标记上提问标记符。8.—种机器翻译系统,其特征在于,包括获取单元,用于获取待翻译的第一语种的语句;识别单元,用于识别所述第一语种的语句的主语词组、谓语词组和宾语词组;以及识别所述第一语种的语句中的连接词;翻译单元,用于翻译所述第一语种的语句的主语词组、谓语词组和宾语词组为第二语种的主语词组、谓语词组和宾语词组;以及翻译所述第一语种的语句中的连接词;成形单元,用于按照所述第二语种的语言表达方式排布所述第二语种的主语词组、谓语词组和宾语词组,形成为第二语种的语句。9.如权利要求8所述的系统,其特征在于,识别单元识别所述第一语种的语句的主语词组、谓语词组和宾语词组的方式是识别所述语句的主语词组、谓语词组和宾语词组是否标记有词组标记符。10.如权利要求8或9所述的系统,其特征在于识别单元还用于识别所述第一语种的语句的主语词组是否包括主语修饰语,识别所述第一语种的语句的谓语词组是否包括谓语修饰语,识别所述第一语种的语句的宾语词组是否包括宾语修饰语;识别单元识别所述主语修饰语、谓语修饰语或宾语修饰语的方式是识别主语词组中是否标记有修饰语标记符、识别谓语词组中是否标记有修饰语标记符、识别宾语词组中是否标记有修饰语标记符;以及用于识别所述第一语种的语句是否包含问句;识别单元识别所述第一语种的语句是否包含问句的方式是识别主语词组、谓语词组或宾语词组后面是否有提问标记符。11.如权利要求10所述的系统,其特征在于,还包括排列单元,用于将识别后的所述第一语种的语句按如下格式顺序排列主语、主语的提问标识符、主语修饰语、谓语、谓语的提问标记符、谓语修饰语、宾语、宾语的提问标识符、宾语修饰语;当所述主语、主语的提问标识符、主语修饰语、谓语、谓语的提问标记符、谓语修饰语、宾语、宾语的提问标识符、宾语修饰语中的一种或多种缺失时,在排列时相应置空。12.如权利要求11所述的系统,其特征在于还包括预处理单元,用于接收从输入接口输入的第一语种的自然语句;以及识别第一语种的每一个自然语句是否包含主语词组、谓语词组和宾语词组,如果不是,则将该语句补充成包括主语词组、谓语词组和宾语词组的完整结构,形成为待翻译的第一语种的语句;以及为第一语种的主语词组、谓语词组和宾语词组分别标记上词组标记符;以及为第一语种的主语词组中的主语修饰语、谓语词组中的谓语修饰语之间、宾语词组中的宾语修饰语标记上修饰语标记符;以及对包含问句的第一语种的语句,为被提问的主语词组、谓语词组或宾语词组标记上提问标记符。全文摘要本发明公开了一种机器翻译方法及系统,包括获取待翻译的第一语种的语句;识别所述第一语种的语句的主语词组、谓语词组和宾语词组;翻译所述第一语种的语句的主语词组、谓语词组和宾语词组为第二语种的主语词组、谓语词组和宾语词组;按照所述第二语种的语言表达方式排布所述第二语种的主语词组、谓语词组和宾语词组,形成为第二语种的语句。本发明的方法和系统,通过识别第一语种格式语句中的主语词组、谓语词组和宾语词组,再相应的将其翻译成第二语种的主语词组、谓语词组和宾语词组并按第二语种的语言表达方式进行排布,使得翻译能够符合语义逻辑,从而得到高质量的译文,真正使机器翻译方法和系统成为一种可信的实用翻译工具。文档编号G06F17/28GK101593174SQ20091010596公开日2009年12月2日申请日期2009年3月11日优先权日2009年3月11日发明者林勋准申请人:林勋准
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1