汉字/拼音/英文翻译方法

文档序号:6398390阅读:832来源:国知局
专利名称:汉字/拼音/英文翻译方法
技术领域
本发明涉及一种用于在简体中文字、繁体中文字、拼音和英文之间翻译的方法。
背景技术
诸如汉语的基于汉藏语系的语言与诸如英语的基于拉丁语系的语言有很大不同。中文不包括字母表。相反,中文包括超过6万个独立汉字。6万个汉字的每个具有不同的含义。认识大约1200个汉字就足够阅读中文报纸。中文学院毕业生认识大约3000个汉字。
中文在字的概念上也与基于拉丁语系的语言不同。在中文中,汉字串不包括空格,一个字结束和另一个开始的理解完全基于上下文。汉字在含义、发音和在它们被书写的方式上非常准确。如果一个汉字在串中向其插入汉字,则增强了第一个汉字的含义,但是通常它不被改变。
汉字总是发单个音节。没有两音节的汉字。每个汉字具有5个基音之一。这5个基音为中文带来了歌唱的质量,因为一些汉字以高音调发音,一些以低音调发音,一些以升调或降调发音。音调对语言是重要的,没有音调,中文将不容易被理解。例如,汉字“ma”根据音调可以或者表示“妈”或“马”或“吗”。在中国有许多方言。从一种方言到另一种方言,口语基本上不可理解。但是,仅仅有一种中文文字。中文文字被所有的方言理解。其它汉藏语系语言,诸如日文、韩语和越南语与中文一样使用多个字符。但是,这些语言没有共同的书写或口语含义,这类似于英语、西班牙语和法语使用公共的字母表但是不可互换的方式。
在1949年中国共产革命之后,共产党对中文作出了几个改变。首先,传统的“从上向下”和“从右向左”的书写中文的方法被屏弃。中华人民共和国(PRC或中国大陆)现在按照西文,“从左向右”然后“从上向下”被书写。其次,选择了单一的方言普通话,它现在在所有的学校中作为基本中文被教授。第三,PRC改变了大约四分之一的汉字以将它们减少到大约几行或几划。这种形式的中文被称为“简体中文”。在PRC,简体中文现在被广泛使用,但是台湾和香港仍然使用称为“繁体中文”的更费事形式的中文。PRC也采用由多数西方国家使用的阿拉伯数字系统,并且因特网的出现正在使得英语出现在许多中文语句中。
PRC也引入了“拼音”,中文的语音版本来帮助孩子学习这种语言。拼音使用英文的26个字母外加在一些元音上的4个音调来指示如何发音汉字。当学生被教授使用汉字时通常从大约4岁到大约7岁使用拼音。拼音对于从外语常用语手册来说汉语的旅游者和商人也是很有益的。另外,拼音对于计算机用户是普及的,因为它是从键盘输入汉字的最简单方式。
在计算机中,所有的汉藏语系语言被16比特的字符表示,而英语和拉丁语系语言被8比特的字符表示。传统上,从每种语言产生独立的编码。英语和其它拉丁语系语言使用ASCII编码。简体中文使用GB2312编码。繁体中文使用Big 5编码,等等。换句话说,使用Big 5编码的计算机不能读取GB2312或ASCII编码的计算机代码。这种编码的多样性是混乱的,并且在不同的编码之间没有标准化。Unicode协会已经开发了一种单一的编码,它并入了世界上所有的主要语言。存在使用Unicode和替代在计算机应用中的所有其它编码的强大动向。Unicode对于在计算机内的每个字符使用16个比特。Unicode具有65,000个不同的字符,并且每种主要语言被映射为这个Unicode范围的不同部分。因此,Unicode可以用作所有的世界语言的单一编码方案。
但是,Unicode的问题之一是可以使用在Unicode内不同的方案来表示独立的字符、字母或符号。两种最常见的编码方案是UTF-8和UCS-2。UTF-8是二进制(基于2)Unicode编码方案,它将每个字符、字母或符号表示为一个、两个或三个字节,每个字节为8个比特。相反,UCS-2是16进制(基于16)的Unicode编码方案,它将每个字符、字母或符号表示为8个16进制数字。一个16进制数字等同于4个比特,1个字节可以由两个16进制数字表达。下面的表1显示在UTF-8和UCS-2之间的差别。

表1用户可以根据用户期望的需要来选择使用USC-2方案或UTF-8方案来编码。例如,当从一个位置向另一个发送数据时,由于在可变字节流长度(即,1-3字节,如表1所示)中固有的发送效率,UTF-8是优选的编码方案。但是,当在数据库中存储同一信息时,UCS-2是优选的编码方案,因为均匀的数据长度使得可以进行较快的搜索和比较操作(即8个16进制数字,如表1所示)。在UCS-2和UTF-8之间的转换功能是可以获得的,这由在此通过引用而被并入的、题目为“在数据库引擎中的表级Unicode处理”的美国专利申请公布2003/0078921来证明。
在开发Unicode之前,在简体中文和繁体中文之间的计算机化的文字翻译器是不可能的,因为GB2312代码不能明白Big 5代码,反之亦然。需要从简体中文向繁体中文的翻译或从繁体中文向简体中文的翻译的用户被迫查找在印刷的字典中的翻译。如果用户期望计算机实现的翻译,则用户被迫使用拼音、英文或一些其它的语言来作为在简体中文和繁体中文之间的中介。
类似地,现有技术的翻译程序还不能使用正确的音调来显示拼音。带有音调的元音指示适当的音调,是正确地发音元音所必须的。在计算机中,传统上使用ASCII来编码拼音。但是,现有技术的翻译程序不能显示带有音调的拼音,因为ASCII不与Big 5或GB2312兼容。相反,现有技术程序利用由Big 5和GB2312支持的数字和英文元音来产生拼音的混合版本。例如,现有技术已经采用了数字来说明四种类型的音调和无音调。表2显示了现有技术在拼音中使用数字来表示音调。
因此,现有技术将字guó显示为guo2,将mā显示为ma1,等等。拼音的现有技术混合版本对于开始的读者难于明白,因为读者必须作出在数字和音调的正确类型和位置之间的认知跳跃。因此需要一种在简体中文、繁体中文、拼音和英文之间翻译的自动方法。这个需要延伸到用于以正确的音调标记来显示拼音的方法。

发明内容
本发明是用于在简体中文字、繁体中文字、拼音字和英文字之间翻译的方法。本发明的软件实施例是可以在万维网网页上工作的计算机程序或作为在独立计算机上的程序的计算机程序。本发明的软件实施例包括翻译机程序(TP)。TP接受Big 5、GB2312、ASCII或任何Unicode编码方案的字符或字,并且将所述字符或字翻译为Unicode。TP然后确定是否用户输入是繁体中文字、简体中文字、拼音或英文字。TP按照需要将用户输入翻译为繁体中文字、简体中文字、带有音调的拼音字和英文字。TP使用简体中文/繁体中文转换表来在简体中文字和繁体中文字之间翻译。TP也使用繁体中文/拼音/英文字典来在繁体中文字、拼音和英文之间翻译。TP然后显示简体中文字、繁体中文字、带有音调的拼音字和英文字。如果被输入的字符是繁体中文字并且没有相应简体中文字,则TP显示一个消息来指示繁体中文字没有简体中文字的等同物。


在所附的权利要求中给出了相信具有新颖性的特征。但是,通过下面结合附图详细描述说明性的实施例,本发明本身以及优选使用方式、另外的目的及其优点将最佳地被理解。
图1是用于实现本发明的计算机网络的图示;图2是用于实现本发明的存储器的图示;图3是本发明的翻译器程序(TP)的逻辑的图示;图4是本发明的图形用户界面(GUI)的图示。
具体实施例方式
在此使用的术语“带有音调的拼音”指的是中文的拼音语音版本,其中在适当的罗马字母上带有合适的音调。
在此使用的术语“ASCII”是用于信息交换的美国标准代码的缩写,指的是用于在QWERY键盘上提供的罗马字母、阿拉伯数字、控制字符、各种符号的编码语言。
在此使用的术语“Big 5”指的是用于繁体中文字集的编码语言。
在此使用的术语“计算机”指的是能够与用户或其它计算机交互的、包括处理器、存储器和操作系统的机器,应当包括但不限于台式计算机、笔记本计算机、个人数字助理(PDA)、服务器、手持计算机和类似的器件。
在此使用的术语“GB2312”指的是用于简体中文字集的编码语言。
在此使用的术语“混合拼音”指的是中文的拼音语音版本,其中在适当的罗马字母上没有合适的音调,但是相反在字中或尾部带有数字来表示语调标记。
在此使用的术语“没有音调的拼音”指的是中文的拼音语音版本,其中在适当的罗马字母上没有合适的音调。
在此使用的“Unicode”指的是由Unicode协会开发的编码语言,包括世界上多数语言,其中包括简体中文字集和繁体中文字集。
图1是与本发明相关联的计算机网络90。计算机网络90包括与网络96电子连接的本地机器95。本地机器95经由网络96电子连接到远程机器94和远程机器93。本地机器95也经由网络96电子连接到服务器91和数据库92。网络96可以是诸如局域网(LAN)这样的简化网络连接,或者可以是诸如广域网(WAN)或因特网这样的较大网络。而且,图1中所述的计算机网络90意欲作为可以包括本发明的可能操作网络的表示,不意欲作为结构的限定。
包括处理器、存储器和输入/输出器件的连接和定位的计算机的内部配置是本领域内公知的。本发明是可以在计算机程序中实现的方法。参见图2,本发明的方法通过翻译器程序(TP)200以软件实现。在此所述的TP 200可以被存储在图1中所述的任何计算机的存储器中。或者,TP 200可以被存储在外部存储器,诸如可拆卸盘或CD-ROM。存储器100指的是在图1的计算机之一内的存储器。存储器100也包括Unicode翻译器程序102、简体中文/繁体中文转换表104和繁体中文/拼音/英文字典108。本发明可以通过存储器100连接到Unicode翻译器程序102、简体中文/繁体中文转换表104和繁体中文/拼音/英文字典108。作为本发明的一部分,存储器100可以配置TP 200。处理器106可以执行在TP 200内包括的指令。
在替代的实施例中,TP 200可以被存储在其它计算机的存储器中。在其它计算机的存储器中存储TP 200使得处理器工作负荷被分布在多个处理器上而不是单个处理器上。TP 200在各种存储器上的进一步配置是本领域内的技术人员公知的。
在所述优选实施例中,本发明是可以从因特网访问的网页。本发明的TP200的逻辑的流程图被图解在图3中。TP 200是用于在简体中文字、繁体中文字、拼音和英文之间翻译的程序。当用户访问万维网网页时,TP 200开始(202)。用户然后输入用户的输入,包括汉字、拼音或英文字(204)。在步骤204输入的用户输入可以是繁体中文字、简体中文字、带有音调的拼音字、没有音调的拼音字、混合拼音字或英文字。而且,在步骤204的输入可以是以GB2312、Big 5或任何Unicode格式。TP 200接受GB2312、Big 5或Unicode编码(即UTF-8),因为TP 200将字符数据翻译为UCS-2数据(206)。TP 200可以利用图2中的Unicode翻译程序102来将输入的字符翻译为USC-2数据。在混合拼音或无音调的拼音和繁体中文或简体中文之间的翻译程序是本领域内的普通技术人员所公知的。虽然GB2312和Big 5彼此不兼容,但是GB2312和Big 5都与Unicode兼容。换句话说,以GB2312编码的万维网网页不识别Big 5字符,以Big 5编码的万维网网页不识别GB2312字符。但是,以Unicode编码的万维网网页识别GB2312字符和Big 5字符,因为Unicode包括GB2312字符和Big 5字符。
TP 200然后确定用户的输入是否是简体中文字(212)。如果用户的输入不是简体中文字,则TP 200进行到步骤216。如果用户的输入是简体中文字,则TP 200使用简体中文/繁体中文转换表208来确定简体中文字的相应繁体中文字(214)。简体中文/繁体中文转换表208是以Unicode编码的JAVATM散列表,它包括在所有的简体中文字和它们的等同繁体中文字之间的交叉引用。简体中文/繁体中文转换表208可以是类似于图2中的简体中文/繁体中文转换表104。在散列表中的数据是以UCS-2 Unicode格式的。因为存在大约1,250个简体中文字,散列表包括大约2500项-每个用于每个简体中文字和相应繁体中文字。
在步骤214,TP 200也使用繁体中文/拼音/英文字典210来确定繁体中文字的带有音调的拼音和英文翻译。繁体中文/拼音/英文字典210是以Unicode编码的字典,包括用于具有带有音调的拼音和英文翻译的所有繁体中文字的项目。当给定的用户输入具有多个含义时,繁体中文/拼音/英文字典210给出所述用户输入的最常用的字。繁体中文/拼音/英文字典210可以是类似于图2的繁体中文/拼音/英文字典108。TP 200然后进行到步骤230。
返回步骤216,TP 200然后进行确定是否用户输入是繁体中文字(216)。如果用户输入不是繁体中文字,则TP 200进行到步骤220。如果用户输入是繁体中文字,则TP 200使用简体中文/繁体中文转换表208来确定等同于繁体中文字的简体中文字(218)。在步骤218,TP 200也使用繁体中文/拼音/英文字典210来确定繁体中文字的带有音调的拼音和英文翻译。TP 200然后进行到步骤230。如果所输入的字符是繁体中文字并且没有相应简体中文字,则TP 200显示一个消息来指示繁体中文字没有相应简体中文字。
返回步骤220,TP 200确定是否用户输入是拼音字(220)。如果用户输入不是拼音字,则TP 200进行到步骤224。如果用户输入是拼音字,则TP 200使用繁体中文/拼音/英文字典210以确定拼音字的繁体中文字和英文翻译(222)。在步骤222,TP 200也使用简体中文/繁体中文转换表208来确定拼音字的繁体中文字的相应简体中文字。TP 200然后进行到步骤230。
返回步骤224,TP 200然后进行确定是否用户输入是英文字(224)。如果用户输入不是英文字,则TP 200进行到步骤228。如果用户输入是英文字,则TP 200使用繁体中文/拼音/英文字典210来确定所述英文字的繁体中文字和带有音调的拼音翻译(226)。在步骤226,TP 200也使用简体中文/繁体中文转换表208来确定所述英文字的繁体中文字的相应简体中文字。TP 200然后进行到步骤230。
在步骤228,TP 200显示一个差错消息所输入的字符不是可识别的简体中文字、繁体中文字、拼音字或英文字(228),并且结束(232)。
在步骤230,TP 200显示简体中文字、繁体中文字、拼音字或英文字(230)。TP 200可以选用地首先显示用户输入,然后在用户输入后面显示被翻译的字符和字。TP 200然后结束(232)。
转向图4,其中图解了本发明的图形用户界面(GUI)300的实施例。GUI300是本发明的万维网页面实施例的内容的示例。GUI 300也是在单个计算机上可运行的、本发明的独立计算机程序实施例的显示的示例。GUI 300包括用户输入字段302。用户可以利用计算机的复制和粘贴操作来向用户输入区302中输入字符。在复制和粘贴操作中,用户加亮所期望的字符,从菜单选择“复制”,将光标放置到用户输入区302中,并且从菜单选择“粘贴”。被加亮的字符然后显示在用户输入字段302中。本领域内的普通技术人员知道用于在计算机上实现复制和粘贴操作的方法。用户也可以通过本领域内普通技术人员所知道的方法来向用户输入区302中输入字符。
作为本发明的一部分,当用户使用复制和粘贴操作来向用户输入区302中输入字符时,TP 200将识别所输入的字符而不论在被加亮的“复制”文本中使用的编码格式如何。例如,用户可能正在观看以繁体中文所写的另一个万维网页面,并且遇到用户不认识的一个字。用户可以随后加亮不认识的字,复制所述字,在用户输入区302中粘贴所述字,单击提交按键304来确定与所述繁体字相当的简体字。本发明接受在其他万维网页面中使用的Big 5编码,因为Big 5与Unicode兼容。在另一个示例中,用户可能正在观看以简体中文所写的另一个万维网页面,并且遇到用户不认识的一个字。用户可以随后加亮不认识的字,复制所述字,在用户输入区302中粘贴所述字,单击提交按键304来确定与所述简体字相当的繁体字。本发明接受在其他万维网页面中使用的GB2312编码,因为GB2312与Unicode兼容。如果使用Big 5或GB2312编码来实现本发明,则本发明将依赖于编码语言而被限于简体中文或繁体中文。用户也可以使用复制和粘贴功能来输入ASCII或Unicode格式的英文字、带有语调的拼音、混合拼音或不带有语调的拼音。
在用户已经在用户输入区302中插入了字符或字后,用户可以单击提交按键304。提交按键304指令TP 200分析在用户输入区302中的字符。如图4中所示,用户已经输入了简化中文字符guó,它表示国。TP 200在用户输入区域302下显示简体中文字306、相应繁体中文字308、适当加有音调的拼音310和英文翻译312。用户可以输入所期望的多个字符,并且随意继续利用本发明。
参照上述说明,应当明白,包括大小、材料、形状、形式、功能和操作方式的本发明的部分的最佳空间关系被认为是对于本领域内的技术人员显然和明显的,并且本发明意欲包括附图中所述的内容和说明书中所述的内容的所有等同关系。通过记录或删除在本说明书中包括的一些步骤,本发明的新颖精神仍然可以得到体现。本发明的精神不意欲被以除了由所附的权利要求的适当结构之外的任何方式限定。
权利要求
1.一种方法,包括使用Unicode来确定简体中文字的相应繁体中文字;使用Unicode来将简体中文字翻译为带有音调的拼音字和英文字。
2.按照权利要求1的方法,还包括将简体中文字接受为用户输入,其中以GB2312或Unicode来编码所述简体中文字。
3.按照权利要求1的方法,还包括将简体中文字从GB2312翻译为Unicode。
4.按照权利要求1的方法,还包括访问转换表以确定繁体中文字。
5.按照权利要求4的方法,其中所述转换表是JAVA散列表。
6.按照权利要求1的方法,还包括访问一个字典以确定带有音调的拼音字和英文字。
7.按照权利要求1的方法,其中不使用中间语言来确定繁体中文字。
8.按照权利要求1的方法,还包括显示简体中文字、繁体中文字、带有音调的拼音字、英文字。
9.一种方法,包括使用Unicode来确定繁体中文字的相应简体中文字;使用Unicode来将繁体中文字翻译为带有音调的拼音字和英文字。
10.按照权利要求9的方法,还包括将繁体中文字接受为用户输入,其中以Big 5或Unicode来编码所述简体中文字。
11.按照权利要求9的方法,还包括将繁体中文字从Big 5翻译为Unicode。
12.按照权利要求9的方法,还包括访问转换表以确定简体中文字。
13.按照权利要求12的方法,其中所述转换表是JAVA散列表。
14.按照权利要求9的方法,还包括访问一个字典以确定带有音调的拼音字和英文字。
15.按照权利要求9的方法,其中不使用中间语言来确定简体中文字。
16.按照权利要求9的方法,还包括显示繁体中文字、简体中文字、带有音调的拼音字、英文字。
17.一种方法,包括使用Unicode来将拼音字翻译为繁体中文字、简体中文字和英文字。
18.按照权利要求17的方法,其中拼音字是未加音调的拼音字到混合拼音字。
19.按照权利要求17的方法,还包括访问字典以确定繁体中文字和英文字。
20.按照权利要求17的方法,还包括访问转换表以确定简体中文字。
21.按照权利要求20的方法,其中所述转换表是JAVA散列表。
22.按照权利要求17的方法,其中不使用中间语言来确定简体中文字。
23.按照权利要求17的方法,还包括显示繁体中文字、简体中文字、带有音调的拼音字、英文字。
24.一种方法,包括使用Unicode来将英文字翻译为繁体中文字、简体中文字和带有音调的拼音字。
25.按照权利要求24的方法,还包括访问字典以确定繁体中文字和带有音调的拼音字。
26.按照权利要求24的方法,还包括访问转换表以确定简体中文字。
27.按照权利要求26的方法,其中所述转换表是JAVA散列表。
28.按照权利要求24的方法,其中不使用中间语言来确定简体中文字。
29.按照权利要求24的方法,还包括显示英文字、繁体中文字、简体中文字、带有音调的拼音字。
30.一种在计算机上可操作的程序产品,所述程序产品包括一种计算机可用介质;其中所述计算机可用介质包括下述指令用于使用Unicode来确定简体中文字的相应繁体中文字的指令;用于使用Unicode来将简体中文字翻译为带有音调的拼音字和英文字的指令。
31.按照权利要求30的程序产品,还包括用于将简体中文字接受为用户输入的指令,其中以GB2312或Unicode来编码所述简体中文字。
32.按照权利要求30的程序产品,还包括用于将简体中文字从GB2312翻译为Unicode的指令。
33.按照权利要求30的程序产品,还包括用于访问转换表以确定繁体中文字的指令。
34.按照权利要求33的程序产品,其中所述转换表是JAVA散列表。
35.按照权利要求30的程序产品,还包括用于访问一个字典以确定带有音调的拼音字和英文字的指令。
36.按照权利要求30的程序产品,其中不使用中间语言来确定繁体中文字。
37.按照权利要求30的程序产品,还包括用于显示简体中文字、繁体中文字、带有音调的拼音字、英文字的指令。
38.一种在计算机上可操作的程序产品,所述程序产品包括一种计算机可用介质;其中所述计算机可用介质包括下述指令用于使用Unicode来确定繁体中文字的相应简体中文字的指令;用于使用Unicode来将繁体中文字翻译为带有音调的拼音字和英文字的指令。
39.按照权利要求38的程序产品,还包括用于将繁体中文字接受为用户输入的指令,其中以Big 5或Unicode来编码所述简体中文字。
40.按照权利要求38的程序产品,还包括用于将繁体中文字从Big 5翻译为Unicode的指令。
41.按照权利要求38的程序产品,还包括用于访问转换表以确定简体中文字的指令。
42.按照权利要求38的程序产品,其中所述转换表是JAVA散列表。
43.按照权利要求38的程序产品,还包括用于访问一个字典以确定带有音调的拼音字和英文字的指令。
44.按照权利要求38的程序产品,其中不使用中间语言来确定简体中文字。
45.按照权利要求38的程序产品,还包括用于显示繁体中文字、简体中文字、带有音调的拼音字、英文字的指令。
46.一种在计算机上可操作的程序产品,所述程序产品包括一种计算机可用介质;其中所述计算机可用介质包括下述指令有使用Unicode来将拼音字翻译为繁体中文字、简体中文字和英文字的指令。
47.按照权利要求46的程序产品,其中拼音字是未加音调的拼音字到混合拼音字。
48.按照权利要求46的程序产品,还包括用于访问字典以确定繁体中文字和英文字的指令。
49.按照权利要求46的程序产品,还包括用于访问转换表以确定简体中文字的指令。
50.按照权利要求49的程序产品,其中所述转换表是JAVA散列表。
51.按照权利要求46的程序产品,其中不使用中间语言来确定简体中文字。
52.按照权利要求46的程序产品,还包括用于显示繁体中文字、简体中文字、带有音调的拼音字、英文字的指令。
53.一种在计算机上可操作的程序产品,所述程序产品包括一种计算机可用介质;其中所述计算机可用介质包括下述指令用于使用Unicode来将英文字翻译为繁体中文字、简体中文字和带有音调的拼音字的指令。
54.按照权利要求53的程序产品,还包括用于访问字典以确定繁体中文字和带有音调的拼音字的指令。
55.按照权利要求53的程序产品,还包括用于访问转换表以确定简体中文字的指令。
56.按照权利要求55的程序产品,其中所述转换表是JAVA散列表。
57.按照权利要求53的程序产品,其中不使用中间语言来确定简体中文字。
58.按照权利要求53的程序产品,还包括用于显示英文字、繁体中文字、简体中文字、带有音调的拼音字的指令。
全文摘要
公开一种在简体中文字、繁体中文字、拼音字和英文字之间翻译的方法。本发明包括翻译器程序(TP)。TP接受以Big 5、GB2312、ASCII或任何Unicode编码方案的字符或字,并且将所述字符或字翻译为Unicode。TP按照要求将用户输入翻译为繁体中文字、简体中文字、带有音调的拼音字、英文字。TP然后显示繁体中文字、简体中文字、带有音调的拼音字、英文字。如果输入的字符是繁体中文字并且没有相应简体中文字,则TP显示一个消息来指示繁体中文字没有相应简体中文字。
文档编号G06F17/28GK1558341SQ200410034358
公开日2004年12月29日 申请日期2004年4月12日 优先权日2003年7月10日
发明者陈彦甫, 约翰·W·邓斯莫伊尔, W 邓斯莫伊尔 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1