一种机器翻译方法及其系统的制作方法

文档序号:9564577阅读:313来源:国知局
一种机器翻译方法及其系统的制作方法
【技术领域】
[0001]本发明关于一种机器翻译方法及其系统,尤其关于基于语法分析和语料匹配交替使用的英中互译机器翻译方法和系统。
技术背景
[0002]语言机器翻译大致经历过三个阶段。
[0003]最初人们试图分析语言的语法,基于语言语法建立规则,从而实现机器翻译。由于语言的语法规则最多能覆盖60%左右的语言现象,相当多的语言现象无法包括在语法规则内。所以基于语法分析的翻译质量,很快被基于语料比对翻译的质量所超过。行业内,普遍以为整体语法分析的道路行不通,转而在一些小的语言单位(又称语言颗粒)上总结规律,制定规则,借此改进翻译质量。但在细枝末节上下功夫,不能根本上解决翻译问题。且,不同文体的语言材料,规律大不相同,换一种文体,又要改变或新制定规则。再者,这种以最小语言颗粒为核心,逐渐粘裹其他语言颗粒,而形成的较大语言单位,都是在语言末梢形成的局部译文,语言整体结构的混乱,常常会将它们接搭错位,从而造成误解。
[0004]第二个阶段是在语法分析不成功的情况下,彻底扬弃了语法分析,而走了一条将以前翻译过的语料存储起来,在翻译新语言材料时,将新语料,以事先存储的语料比对,匹配上的即将原存储的语料调出使用的道路。这样可以避免就相同的语料重复翻译。只要原来存储的语料译文是准确的,重复利用的译文的准确性是可以保证的。市面上的达多思翻译软件就属这种。为了保证翻译的准确性,达多思翻译软件采用以整句为一个翻译单位。这种翻译方式的缺点是,如果没有事先翻译过并存储于计算机数据库中的语言材料,就不能翻译。整句作为一个翻译单位,准确度大致可以保证,但语言单位过大,匹配率较低。以英文为例,英文的单词有几百万个,韦氏大辞典收录的就60多万条,新英汉词典收录的有词条有14万多条;英文中专业文章句子较长,以专利文件为例,据统计,专利文件中,整句的平均词量(依不同公司的专利文件统计),从20几个到40几个不等。就以20个词放在少说15万个词(英文中几百万词汇,主要是技术词汇,专利文件中所面对的英文词汇是任何其他英文文件所不能比拟的)中去排列组合,是一个无法算清的超天文数字。在这样大的范围内,寻找到一种特定的排列组合,是很难匹配上的。所以一个语言单位中单词量越多,其排列组合越多,从而匹配的概率也就越小。所以达多思不是一个彻底的机器翻译软件,而是一个翻译工具软件,匹配不上或不能完全匹配上时,还需要人工翻译。另外,一个翻译者或一个翻译单位建设数据库的能力是有限的,面对几乎是无限的词汇组合形成的不同的句子,自建能覆盖所有情况的数据库几乎是不可能的。况且,逐步建设和积累数据库需要时间。在数据库积累尚不足够的情况下,达多思软件也不好使用。
[0005]第三个阶段,针对第二阶段匹配翻译数据库不足的缺陷,产生了基于网络大数据的匹配翻译方式。谷歌翻译是大数据翻译代表。这种翻译方式,在网络海量数据的支持下,使语言材料的匹配率大幅上升,一定程度上克服了达多思语料数据库不足的缺点。但随意从网络上抓取的翻译材料,其精准度依然存在问题。另外,虽然网络信息量超大,但对于一些长句子、某些专业的、小众化的语言材料也无能为力,例如专利文件翻译。这也是为什么在专利申请翻译中,大多还是使用达多思翻译软件。

【发明内容】

[0006]本发明的目的之一是提供了一种基于语法规则和语料匹配的翻译方法及其系统。
[0007]本发明的目的之二是提供了一种语料匹配一语法分析一语言单位分断一语料匹配交替循环处理的翻译及其系统。
[0008]本发明的目的之三是提供了一种多种语法和语料数据库的翻译方法及其系统。
[0009]本发明的目的之四是提供了一种以英语为中心可以相对多种语言进行英语到目标语言的翻译的方法及其系统。
[0010]本发明的目的之五是提供了一种多种语言翻译成英语目标语言的翻译的方法及其系统。
[0011]本发明的目的之六是提供了一种以英语为标准,可以多种语言之间通过标准英语相互转译的方法及其系统。
[0012]本发明是以某种语言为标准语言,或称中心语言。对该中心语言进行语法分析并建立语言单位分断规则。为此设置不同语法属性和语言结构属性的语法数据库。相应于上述中心语言的语法数据库,在环绕语言中建立相对应的语义数据库。由于该环绕语言的语义数据库与中心语言数据库有对应的关系,中心语言数据库的语法属性也某种程度映射到环绕语言上。这样,在逆向翻译时,很容易通过环绕语言语言单位的语法、语言结构和语义与中心语言的对应关系,找到中心语言语言单位的语法属性、语言结构属性和语义。
[0013]由于中心语言数据库具有与其他环绕语言数据库的对应关系,各环绕语言之间语言单位数据库,通过中心语言,也就具有了对应关系,从而两个不同的环绕语言之间的转译可以实现。
[0014]中心语言可以是任何语言,但以符号性强的语言作为中心语言较好。本发明示例性地以英文为中心语言。环绕语言可以是任何语言,本发明示例性地,以中文为环绕语言。
[0015]本发明基于语法分析和预存语料进行翻译。每次预存语料匹配翻译(以下简称“匹配翻译”)失败时,进行一次语法分析。语法分析是指基于对英语语法的分析,弄清句子中各个语言单位的语法属性、语言结构属性和判断出各个语言单位的起点和终点,从而将某个或某些语言单位同其他语言单位分断出来。然后对相关语言单位,用相关语料数据库进行匹配翻译。上述分断和匹配逐级进行,循环往复,直至分到最小语言单位,单词,为止,或成功完成匹配翻译为止。
[0016]本发明从语法属性、词性属性将语言分成,但不限于,如下语言单位:文章章节、自然段、整句、简单句、句子、动词现在分词短句、动词过去分词短句、动词不定式短句、从句引导词成分、副词成分、状语成分、定语成分、介词成分、介词词组部分、名词成分、谓语动词成分、形容词成分、状语部分、定语部分、主语部分、宾语部分、谓语动词部分、名词部分、介词词组部分、副词部分、形容词部分、从句引导词部分、连词部分、标点符号部分等。
[0017]上述语言单位之间有交集或完全重叠,是因为所述角度不同,从语言单位在句子中所起的语法作用讲,称作某某成分,从语言单位的中心语言成分+其他修饰语构成的一个语言单位时,称作某某部分。
[0018]当然也可以将词类或语类分得更多更细,如数词、代词、冠词、除谓语动词之外的动词、动名词等,但就本发明而言,上述分类已足够。冠词、数词、所有格代词、指示代词、作形容词的动词分词可以归在形容词类中,主格代词和宾格代词可以归在名词中;动名词规则动词现在分词中。
[0019]本发明将标点符号也看作语言单位,即看作一个独立的单词,虽然它不一定有相对应的语义,但大多数情况下,它有语法含义。
[0020]上述文章章节是指以文章小标题为表示的文章部分。
[0021 ] 上述自然段是指文章作者的分段。
[0022]上述整句是指以句号或问号为截止符号的一个完整的句子。整句有两种情况,一种是整句中只要有一套主谓宾结构,该整句相当于简单句;整句的另一种情况是整句中有多套主谓宾结构,该整句为复合句。
[0023]上述句子为泛指,其包括整句、简单句、动词现在分词短句、动词不定式短句、动词过去分词短句、缩略句等等。
[0024]上述谓语动词部分是指简单句谓语动词部分、动词现在分词短句的谓语动词部分、动词过去分词的谓语动词部分、动词不定式的谓语动词部分。谓语动词部分可能由一个动词构成,也可能在由实意动词与助动词一起构成,还可以,依据本发明,由实意动词词组或实意动词句型构成,以及夹在其中的状语部分一起构成。
[0025]上述名词部分、副词部分、形容词部分、引导词部分、介词部分、都可能是由一个词构成或由词组或句型构成。
[0026]上述状语成分包括,但不限于,状语从句、作状语的介词词组、副词/副词词组、状语从句的缩略句、作状语的动词现在分词短句、作状语的动词不定式短句等。
[0027]上述的主语成分包括,但不限于,主语从句、名词/名词词组、本发明定义的作名词的动词现在分词、动词现在分词短句、起名词作用的动词不定式、起名词作用的动词不定式短句、形式主语it、there等。
[0028]上述宾语成分包括,但不限于,宾语从句、名词/名词词组、本发明定义的作名词的动词现在分词、动词现在分词短句、、起名词作用的动词、起名词作用的动词不定式短句、形式宾语it等。
[0029]上述介词部分包括两部分,一是介词部分,二是介词后的名词部分,语法上称为介词宾语的部分。介词宾语成分包括,名词/名词词组、作名词的动词现在分词(动名词)、动词现在分词短句(动名词短句)、等。
[0030]上述形容词成分包括:处于名词前修饰该名词的形容词,以及修饰该形容词的副词,作形容词的动词现在分词和动词过去分词,作形容词旳名词、数词和冠词等。
[0031]上述定语成分是指,处于名词后修饰该名词的后置定语成分,后置定语成分包括,定语从句、动词现在分词短句、动词过去分词短句、动词不定式、动词不定式短句、处于名词后修饰该名词的形容词、形容词+介词词组、介词词组等。
[0032]本发明对上述语言单位设置了相应的语法数据库和语义数据库。
[0033]本发明从大到小将文章的语言单位逐次分断,本发明需分断文章章节、自然段、整句、疑问句、简单句、状语部分、定语部分、主语部分、宾语部分、谓语动词部分、名词部分、形容词部分等。
[0034]为分断上述文章章节本发明设置了小标题语法数据库。
[0035]为分断上述自然段本发明设置了自然段语法数据库,该数据库由“句号或问号+硬回车”构成。
[0036]为分断上述整句本发明设置了整句语法数据库,该数据库由“句号或问号+空格”构成。
[0037]
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1