英语和桥语之间的翻译系统的制作方法

文档序号:6408122阅读:310来源:国知局
专利名称:英语和桥语之间的翻译系统的制作方法
技术领域
本发明涉及一种用于语言翻译的系统,尤其是使用数据库文件将英语译为桥语或将桥语译为英语的翻译系统。
将一种语言翻译为另一种语言的翻译方法和翻译系统已有不少得到应用。
CN85101759A公开了一种翻译方法,适用于将第一种语言文本翻译为第二种语言文本,在翻译单元置换期间允许系统按照各种规则表示相应关系的信息被储存在第二种语言文本中。
CN GK86108582公开了一种速记翻译系统,它按预定敲键方法把速记敲键的输入翻译成语言格式。
CN1008779B公开了一种日文和中文之间的翻译系统,它通过使用数据库文件,把一度翻译过的日文或中文再次加以利用,以获得进行日文和中文之间高速翻译的翻译系统。
CN1059414A公开了一种把中文字符句子翻译成另一种预定的非中文的目标语言的方法。
然而,由于已有的英汉翻译系统的翻译准确率不能达到100%,因此无法保证翻译无误。
本发明的目的旨在提供一种英语与桥语之间的互译系统,它使用英语→桥语词典将英语译成桥语;使用桥语→英语词典将桥语译成英语。
所谓“桥语”是“英—汉桥语”一词的简称,是其语法采用英语语法,其词汇采用“桥语词”的人工语言。这里所说的“桥语词”其含义是,某一“桥语词”是由某一英语词的汉译或汉译加前、后缀构成,此桥语词的词义被定义为全等于该被译英语词的全部含义。
例1 Rome was not built in a day. (英语)罗马~曾是 不 既建造 在内 a 天a. (桥语)(汉语罗马不是一天造成的。)例2 He said that hewasbusy. (英语)他^既说那他曾是 忙及的 (桥语)(汉语他说他很忙。)例3(The child was so lovely that we could not help Kissing这 ^小孩 曾是 如此 可爱Z那 我们 曾能 不 助免La 吻ingit.)(英语)它 (桥语)(汉语这个小孩如此可爱,我们都忍不住吻它一下。)“桥语词”或称“准汉词”,简祢“桥词”,是人工词汇。某一桥词是由某一英语词的汉译或汉译加前后缀构成的,它的词义被定义为全等于该被译英语词的全部含义,此桥词被祢为该被译英词的桥译词。每一英词只有一个桥译词,每一桥词也只有一个被译英词。桥词中的汉字读汉字原读音,英文字母一般读英文字母的原读音,例如paper=纸(桥词),桥词“纸”的含义全等于英词paper的含义,即含有汉词“纸”、“论文”、“用纸包”等含义。又如Help=助免la(桥语),“la”为后缀。桥词“助免la”的含义全等于英词Help的含义,即含有汉词动词“帮助”、“避免”,名词“帮助”、“帮手”等含义。
本发明包括英→桥翻译系统和桥→英翻译系统。英→桥翻译系统包括桥文处理终端和信息处理系统,其中桥文处理终端由键盘、显示器、打印机组成,信息处理系统由英→桥词典数据库文件、英→桥翻译手段、词法文件组成。键盘的英文原文输出接信息处理系统的英→桥翻译手段,英→桥翻译手段分别与英→桥词典数据库文件、词法文件连接,英→桥翻译手段的桥文译文输出分别与显示器、打印机连接。
桥→英翻译系统包括英文处理终端和信息处理系统,其中英文处理终端由键盘、显示器、打印机组成,信息处理系统由桥→英词典数据库文件桥→英翻译手段、词法文件组成。键盘的桥文原文输出接信息处理系统的桥→英翻译手段,桥→英翻译手段分别与桥→英词典数据库文件、词法文件连接,桥→英翻译手段的英文译文输出分别与显示器、打印机连接。
本发明基于桥语这一新人工语言的提出,由于桥语采用“准汉词”,它是一种已掌握汉语的中国人用比学英语少得多的时间就能掌握的语言。又由于本英—桥互译系统的互译准确率达100%,且其翻译速度很快,因此对于精通桥语的中国人,阅读英文的桥译文就能准确无误地理解英文原文的含意,写作地道的桥文,就可在本系统的帮助下快速地将其译成地道的英文。


图1为本发明的英→桥翻译系统框图。
图2为本发明的桥→英翻译系统框图。
图3为本发明的英→桥翻译主流程图。
图4为本发明的桥→英翻译主流程图。
以下实施例将结合附图对本发明做进一步的说明。
如图1,英→桥翻译系统包括桥文处理终端(1)和信息处理系统(2)。其中桥文处理终端由键盘(11)、显示器(12)、打印机(13)组成,信息处理系统(2)由英→桥词典数据库文件(21)、英→桥翻译手段(22)、词法文件(23)组成。
键盘(11)用以输入英文,输入的英文原文送至信息处理系统(2)的英→桥翻译手段(22),依据信息处理系统的英→桥词典数据库文件(21)和词法文件(23)所得到的桥文译文送至桥文处理终端(1)的显示器(12)和打字机(13),以显示和输出打印信息处理系统(2)译出的桥文译文。
表1给出存放于英→桥词典数据库文件内的英→桥词典部分实例。
表1英文桥文 前后缀注解bulit 既建造—既-表示该词为动词的过去式和过去分词busy忙及的—-及表示该词为及物动词,-的表示该词为形容词child小孩could曾能day 天a—-a表示该词兼有可数名词单数和不可数名词he他help助免La—-La表示该词是及物动词,不及物动词,可数名词单数,不可数名词in 在内it 它kiss吻Li—-Li表示该词为及物动词,不及物动词,可数名词单词Kissing 吻Ling—-Ling表示该词为现在分词lovely 可爱Z—-Z表示该词可作名词,也可作形容词not 不Rome罗马~—-~表示该桥词的英译词为第一个字母大写的专有名词said既说so 如此that 那the 这was 曾是we 我们例如用键盘打入英文原文1、Rome was not built in a day.
2、He said that he was busy.
3、The child was so lovely that we could not help Kissingit.那末,用本系统即可迅速翻译打印出桥文译文如下1、罗马~ 曾是不 既建造 在内 a 天a.
2、他 ^既说 那 他 曾是 忙及的 (注带符号“^”的桥词表示该词的英译词为第一字母大写的英词)3、这 ^小孩 曾是 如此 可爱Z 那 我们 曾能 不 助免La吻Ling 它。
如图2,桥→英翻译系统包括英文处理终端(3)和信息处理系统(4)。其中英文处理终端(3)由键盘(31)、显示器(32)、打印机(33)组成,信息处理系统(4)由桥→英词典数据库文件(41)、桥→英翻译手段(42)、词法文件(43)组成。
键盘(31)用以输入桥文,输入的桥文原文送至信息处理系统(4)的桥→英翻译手段(42),依据信息处理系统(4)的桥→英词典数据库文件(41)和词法文件(43)所得到的英文译文送至英文处理终端(3)的显示器(32)和打字机(33),以显示和输出打印信息处理系统(4)译出的英文译文。
在桥—英翻译系统中采用专用桥文输入键盘,以便避免桥文输入时中英文之间频繁切换,本发明更改计算机101/102标准键盘的小键盘,原小键盘上0~9的输入键分别成为中文状态下输入桥词后缀o、i、a、e、s、u、d、n、l、ng的键。这样,用户使用本键盘进行桥文输入时,就可在中文状态下同时输入汉字和上述常用后缀的英文字母,减少英文与中文状态之间切换的次数,提高桥文输入速度。
表2给出存放于桥→英词典数据库文件内的桥→英词典的部分实例。
表2桥文英文桥文 英文桥文英文不 not 如此 so 小孩child既建造 built 他 he 曾能could既说said它 it 曾是was可爱Z lovely 天aday 在内in罗马~ Rome吻Li Kiss这 the忙及的 busy吻Ling Kissing 助免La help那 that我们 we例如用键盘打入桥文原文1、罗马~ 曾是 不 既建造 在内 a 天a。
2、他 ^既说 那 他 曾是 忙及的。
3、这 ^小孩 曾是 如此 可爱Z 那 我们 曾能 不 助免La吻Ling 它。那末,用本系统即可迅速翻译打印出英文译文如下1、Rome was not built in a day.
2、He said that he was busy.
3、The child was so lovely that we could not help kissingit.
显然,词典是整个翻译系统的基础,良好的词典构造是进行成功对译的前提,在英—桥互译系统中可采用链表+索引的技术。
从桥语的基本定义可知,桥语是介于英语和汉语之间的中间语言,因此在翻译的过程中需要以英词作为索引词的英→桥词典以及以桥词作为索引词的桥→英词典。英—桥机器翻译系统词典的构造说明如下
1、链表(即词典主文件)(1)文件头英→桥词典为E.-B.L.Dictionary,桥→英词典为B.L.-E.Dictionary。
(2)密钥为防止非法用户使用该词典,授权用户可对词典进行加密,加密的口令以系统提供的循环移位加密算法进行加密,该算法的特点是存放于文件中的密钥与用户输入的口令有关,当其他用户试图使用该词典时,他必须在系统提示下输入口令,输入的口令经过同样算法的计算,得到的密钥方与文件中的密钥相比较,经过该算法过滤,系统被非法用户侵入的可能性仅为1/248。
(3)索引区索引区的大小为4×256个字节,它的内容是指向以ASCII字符0--255作为头一字母的索引字(在英→桥词典中即为英语单词,在桥→英词典为桥语单词)首字的偏移量,该偏移量以长字(LONG)写入,占4个字节,偏移量为O意味着不存在以该字母作为单词首字母的索引字。
(4)词典内容从索引区之后一直到词典文件结束是词典的内容,其中存放着索引字(在英→桥词典中为英语单词,在桥→英词典中为桥语单词)、对应的翻译词(在英→桥词典中为桥语单词,在桥→英词典中为英语单词)以及下一索引单词的长字偏移。
2、索引(即词典索引文件)(1)文件头英→桥词典索引文件为,E.-B.L.Dictionary Index,桥→英词典索引文件为B.L.-E.Di ctionary Index。
(2)索引文件内容为进一步提高词典查找的速度,我们在词典主文件的基础上提出了索引文件,该索引文件的构造方法是对词典主文件进行全文搜索,得到以ASCII字符0-255为词典索引字首字母的256个索引表,每个索引表仍以链表的形式出现,词典主文件中每隔固定个数(SPLIT_COUNT)索引单词即在链表中填入该索引单词在词典主文件中的偏移量。链表的最后一个单词是以该ASCII字符作为索引单词首字母的词典文件的最后一个单词。
3、性能分析索引文件中SPLIT_COUNT的大小决定着整个词典的查找速度,假设以字母X开头的索引单词在词典中有N个,则(1)如果不采用索引方法查找的查找次数为最佳情况需查找之索引单词为在词典中以X为首字母单词的第一个单词,此时查找次数为1次。
最坏情况需查找之索引单词为在词典中以X为首字母单词的最后一个单词,此时查找次数为N次。
一般情况查找次数为(N+1)/2次。
(2)采用索引方法查找的查找次数为最佳情况需查找之索引单词为在词典中以X为首字母单词的第一个单词,此时查找次数为1次(即在索引文件中定位1次)。
最坏情况需查找之索引单词为在词典中以X为首字母单词的倒数第二个单词,且N为SPLI_COUNT的整数倍。此时的查找次数为N/SPLIT_COUNT(在索引文件中的定位次数)+SPLIT_COUNT-1(在词典主文件中的定位次数)次。
一般情况查找次数为(1+N/SPLIT_COUNT+SPLIT_COUNT-1)/2次。
即(N/SPLIT_COUNT+SPLIT_COUNT)/2。
从以上分析不难看出,索引文件提高系统查找速度的前提是(N/SPLIT_COUNT+SPLIT_COUNT)/2<=(N+1)/2……………(1)若取SPLIT_COUNT2=N,则上式变为SPLIT_COUNT+SPLIT_COUNT<=SPLIT_COUNT2+1………… (2)由此得到(SPLIT_COUNT-1)2)=0 ……………………………………… (3)显然式3成立,因此我们得到的结论是索引文件的建立可以加快词典的查找速度,从理论上说,当取SPLIT_COUNT=N1/2时,可取得最高查找速度,此时对应于不用索引文件情况下的查找速度提高比为(N1/2)/2。以实际的例子来说,当N为900时,取SPLIT_COUNT=30,能够提高速度15倍。在实际作英—桥互译时提高速度200%—500%。
4、词典采用链表结构所带来的好处词典采用链表结构带来的好处有二(1)便于词典的维护词典的添加、删除、修改十分方便。我们为每个词条分配了一个指针,该指针为一个4字节长的整数,指向每个词条的下一个词条在文件中的偏移位置。以添加词条为例,要添加某一词条,首先将该词条直接写在词典文件的最后,定位词条在词典中的前后字,令添加词条的词典指针指向后字在词典文件中的位置,令添加词条的前字指针指向添加词条在词典文件中的位置就可以了。
(2)不占用多余的存储空间由于采用指针定位的方法,所有词典中的单词及其释义均可变长。也给系统带来了更大的灵活性。
桥词的提出给软件设计人员减轻了极大的工作量,以往任何一个翻译软件的提出均必须对原文的前后文、原文所属的领域进行分析,以决定其语法、语气等等。这样的翻译软件以现状而言远远不能达到100%对译的目的,在翻译速度上也同样不尽人意,长句翻译个把钟头也不是什么新鲜事,在这种情况下,桥语填补了该领域的空白。
英—桥互译由于英语与桥语的词序相同,英词与桥词一一对应的关系,轻易的就可作到互译准确率100%,翻译的速度则完全是词典查找的速度。
1、英→桥翻译的主流程如图3所示,所谓“词法机译”,指的是词典中无对应单词时由机器根据词法文件而作出的翻译。
2、桥→英翻译的主流程如图4所示。作为一个实例,本发明的硬件要求建议采用286以上微机,DOS3.3以上操作系统,10MB以上硬盘。由于大量磁盘文件的读写,因此最好在软件配置中增加磁盘CACHE,以DOS5.0提供的SMARTDRV.SYS来说,可提高速度70%~200%。
权利要求
1.英语和桥语之间的翻译系统,其特征在于包括英→桥翻译系统和桥→英翻译系统,(1).所说的英→桥翻译系统包括桥文处理终端和信息处理系统,其中桥文处理终端由键盘、显示器、打印机组成,信息处理系统由英→桥词典数据库文件、英→桥翻译手段、词法文件组成,键盘的英文原文输出接信息处理系统的英→桥翻译手段,英→桥翻译手段分别与英→桥词典数据库文件、词法文件连接,英→桥翻译手段的桥文译文输出分别与显示器、打印机连接;(2).所说的桥→英翻译系统包括英文处理终端和信息处理系统,其中英文处理终端由键盘、显示器、打印机组成,信息处理系统由桥→英词典数据库文件、桥→英翻译手段、词法文件组成,键盘的桥文原文输出接信息处理系统的桥→英翻译手段,桥→英翻译手段分别与桥→英词典数据库文件、词法文件连接,桥→英翻译手段与英文译文输出分别与显示器、打印机连接。
全文摘要
本发明涉及一种使用数据库文件的英-桥语翻译系统,包括英→桥翻译系统和桥→英翻译系统,即包括相应的键盘手段,词典数据库文件手段,词法文件,英-桥互译手段,以及把逐词依序翻译而成的桥(英)文显示并输出的手段。由于该系统的互译准确率达100%,且其翻译速度很快,因此对于精通桥语的中国人,阅读英文的桥译文就能准确无误地理解英文原文的含意,写作地道的桥文,就可在本系统帮助下将其快速地译成地道的英文。
文档编号G06F17/28GK1122481SQ9411663
公开日1996年5月15日 申请日期1994年10月14日 优先权日1994年10月14日
发明者陈金泉 申请人:陈金泉
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1