表意符号的拼写及编码方法

文档序号:6331750阅读:391来源:国知局
专利名称:表意符号的拼写及编码方法
技术领域
本发明涉及一种用于拼写各种表意符号的拼写方法。特别地,本发明涉及一种能够将各种表意符号拼写为字母数字符的方法和用于对由表意符号表示的信息进行管理的方法。另外地或可替换地,本发明涉及一种能够唯一单独地确定表意符号的拼写方式。而且,本发明涉及一种对表意符号的各种字母数字表示进行编码的方法。
背景技术
为了表示诸如中文、日文或韩文字符以及希腊字母、数学符号等等此类的特殊表意符号,有几个方法已经尝试使用了各种拼写体系或索引体系。例如,拼音体系已经被汉语使用者使用了超过50年,而四角号码索引体系已经被汉语使用者使用了超过70年。拼音体系是一种表音调的拼写体系,它既用于拼写发音,而且还标示每个汉字的音调。拼音体系能够标明每个汉字的发音。另一方面,四角号码索引体系被用于索引汉字,它根据汉字的字形,给汉字的四个角的每一个角指定一个阿拉伯数字,来索引汉字。为四个角的每个角指定一个阿拉伯数字的规则可以在很多汉语字典中找到。在这些字典中还可以找到一种简单的助记忆的歌诀,以帮助使用者记忆这些规则。
在英语中每个拼写与其对应单词的英语字之间存在着唯一单独的关系,而和英语不同的是,非拼写的表意符号并不总是与唯一单独的拼写方式相互对应,如果存在这样一种拼写方式的话。例如,在汉语中,拼音拼写方式与相互对应的汉字之间就不存在唯一单独的关系。这一问题被称为同音同调问题,即使确定了发音和声调之后,许多汉字还是具有完全相同的拼音拼写方式。例如,汉字“易”(意为“容易”,英文“easy”)的拼音拼写方式是“yi4”,其中“yi”代表发音,而“4”表示第四声。在一组13000个常用汉字中,还有其它123个不同汉字具有不同的含义而恰恰也都拼音为“yi4”。在拼音体系下,大约98.7%的汉字有同音同调问题。类似地,四角号码索引体系也具有无法唯一单独确定每个汉字的问题。例如,在这常用的13000个汉字中,有73个不同的汉字具有相同的四角号码索引“4422”。在四角号码索引体系下,大约91.4%的汉字有非唯一性的索引问题。在计算机或电子邮件中使用汉字时,如下面所述,这种不唯一关系会引发许多严重的问题。
在使用拼音拼写方法向计算机输入汉字的时候,用户可能会遇到下列问题(1)在输入98.7%的汉字时必须停下来,(2)从头到尾滚读并很费力地注视显示器屏幕上的许多同音同调字的若干列表,并且(3)选择想要的特定字符以将一个汉字输入到计算机中。在最坏的情况下,为了输入拼音为“yi4”的汉字,在用户能够继续试着键入下一个字之前,用户不得不盯着显示在屏幕上的124个同音同调字的每一个看,以选取用户想要的特定汉字。该用户必须非常辛苦地盯着这些同音同调字的列表看,以检出所需的字,因为许多汉字是非常复杂的,在屏幕上一个很小的空间里塞满了大量的(例如,超过50个)笔划。对计算机汉字信息输入来讲,这明显是一个非常慢而且痛苦的方法。
这种非常痛苦和缓慢的问题导致强烈的需求比较好的汉字输入法和导致巨大的新汉字输入法市场。
许多软件公司已研发和销售超过60种不同的方法和技术用于提高汉字输入法的速度。然而使用这些专用的且需要特别技巧的方法时的汉字输入速度是与记忆许多不合逻辑的规则所付出的努力和所进行的专门训练的努力成比例的。显然,学习和记忆这些专用且需要特别技巧的方法对一班用户来说是沉重的负担。
而且,无论拼音拼写还是四角号码索引都不能在计算机应用中满足表示单独汉字的要求,因为计算机处理要求编码与所代表的词或字符之间存在唯一关系。这一缺陷迫使现有的汉语计算机系统对成千上万的(例如13000)汉字直接编内码。如此直接编内码系统导致计算机中的汉语信息管理十分困难,因为这些成千上万的汉字没有任何逻辑顺序。因此现有的汉字信息的管理例如索引、排序、列表、编组、查找和检索,不论是在计算机应用中还是在计算机应用之外,一直以来都是很困难且低效的。例如,如果用户基于目前的国标内码对中国省份名称进行排序,排序结果将无法给出省份名称的逻辑顺序。
例如,超过90%的汉语书籍没有帮助读者迅速找到书中信息的索引。大多数汉语字典提供使用的检字系统,要使用人先决定一个字的汉字部首(即,组成字块或字根)然后再决定这个字的除部首外的笔划,才可以找到要找的字。然而,汉字字典中有217个汉字部首笔。对于用户来说,记住这217个部首的逻辑顺序几乎是不可能的,因此,在实际应用中,这种检字系统是非常麻烦且低效的。此外,对于许多具有10划以上的复杂汉字来讲,每个字中笔划是不易数清的。因此,对于用户来讲,计算出这样的复杂汉字中的正确笔划是很麻烦的。汉语使用者已经和现有的低效的检字系统斗争了很多年了。
英语计算机界面系统使用26个英文字母,这些字母通过7-比特ASCII(美国信息交换标准码)码进行编码。7-比特ASCII码中的128种可能组合能够适应全部26个大写和26个小写英文字母、10个阿拉伯数字、常用标点符号和必要控制符的编码。在英语计算机编码系统中,给7-比特ASCII编码的英语信息内容加上了一个附加比特,以形成8-比特字节。该8-比特字节的首个比特被设置为“0”值,用以通知计算机该8-比特字节的后7-比特代表英语字母数字符。
相反的,7-比特ASCII码的128个可能组合不够容下成千上万(例如13000个)的汉字的编码空间。因此,现有的中文计算机编码系统使用2字节16-比特(或4字节32-比特)编码系统,以提供充分的编码空间,来对所有的汉字进行直接编码。每一个2字节对的第一个字节的首个比特被设置为“1”值,用以告诉计算机每一对这样的两个连续8-比特字节代表一个单个汉字。从而,每对中的第二个8-比特字节的首个比特就不再是附加比特了,而是带着汉字信息的有效-比特了。然而英语和汉语之间不同的编码系统会导致如下面所述的多种问题。
大多数电子邮件系统起初都是为1字节编码的英语设计的,并且很多电子邮件系统(不是全部)在它们的各种电子邮件处理功能中通常会1剔除这8-比特字节的首个附加比特。剔除首个附加比特对英语电子邮件来说是可以接受的,因为真正的信息内容是包含在剩下的7-比特中的。然而,在汉语电子邮件中剔除每一8-比特字节中的首个比特,将会导致对这样的邮件中的汉语信息内容的下述两种程度上的致命破坏(1)代表单个汉字的每一对8-比特字节被分成了两半,并且电子邮件系统将每一半都误判为一个英文字母,和(2)每一对中第二字节的携带着汉语信息的首个比特被剔除掉了并且被电子邮件系统丢弃掉了。在计算机屏幕上,这样的电子邮件系统为汉语电子邮件收件人将每个遭到破坏的汉字显示为一个问号。从而,对于收件人来说,整篇汉语电子邮件就变得无法辨认了(例如,所有汉字都由问号代替了)。收件人无法恢复或再现原汉语电子邮件的信息内容,因为这两种程度的破坏是毁灭性的。
尽管进行了将各种计算机和英特网处理器升级为采用16-比特2字节编码方式的新的国际统一双字节字符编码标准的努力,2字节16-比特编码被破坏的问题依然存在。理论上讲,这只是一个简单的升级操作。但是在实践中,这种升级并不容易完成,因为正在使用的计算机、服务器和处理器的数量非常巨大。而且分散在世界各地。许多因为正在使用的计算机、服务器和处理器在中国国外处理的大部分是英语信息,这些主要处理英语信息的计算机,服务器和处理器并不急着要升级到16-比特2字节系统操作,软件工程师必须在起初开发出来用于1字节英语操作的大型且复杂的软件系统中进行彻底查找,来找出所有1字节操作。在具有许多不同功能和分支程序的大型且复杂的电子邮件系统中,2字节对1字节的问题可能会被隐藏在许许多多不同的地方,因此找出并升级所有1字节操作不是一个轻易就能解决的问题。因此,即使在某些据信已经升级成功了的电子邮件系统中,汉语电子邮件还是会出现乱码并被破坏。例如,虽然汉语电子邮件在收件状态下可能会满意地显示,但是一旦收件人点击“答复”或“转发”按钮,收到的汉语电子邮件就可能又会变得无法辨认。这是因为某些1字节操作仍然隐藏在这个庞大且复杂的软件系统中,并且通过点击“答复”或“转发”按钮而激活了。即使目前已经建立并使用了多年2字节国际统一双字节字符编码标准,这种汉语信息的破坏问题今天依然继续存在着。此外,虽然认为更新的4字节32-比特编码系统能够包括所有主要语言,但是许多服务器和计算机中的所有英特网处理器和电子邮件系统还是将不得不经历另一轮从世界范围内还未完成的2字节系统到更新的4字节系统的很长的过渡期。
另外目前,正在使用多种不同且不兼容的汉字编码系统。如果收件人的计算机中的汉语编码系统与发件人的计算机中的编码系统不同,那么所接收到的计算机文件中的汉字通常会变成空白的方框,或者怪异的符号(例如希腊字母)或错误的汉字,它们表面上看起来是正常的,但是真正的汉语信息内容却无法理解。虽然这样的不兼容问题不会毁坏汉语信息,但是对于用户来说,它们是很烦人的,并且它们将大大降低用户的效率。而且,要想恢复汉语信息,需要高水平的汉语计算机处理和专用方法的知识和技巧。例如,为了找出与发件人所使用的编码组相匹配的正确设置,用户必须在计算机中从头到尾地更改并轮换许多不同组的汉字编码系统。此外,专用方法取决于所使用的应用程序而各不相同,例如不同的电子邮件系统(例如,微软Outlook、AOL、Yahoo等等)、网页浏览器、微软Word、PowerPoint、Excel等等。要学会用于处理各种不同专用方法以找出编码系统的正确匹配的所有必要技巧几乎是不可能的。
在英语操作系统中处理汉语电子邮件或计算机文件还存在其它一些问题。例如,如果计算机文件名含有2字节编码的汉字,那么英语操作系统将无法处理这一文件,因为英语操作系统无法识别这个汉字文件名,从而无法找到这一文件。需要专用的方法来从该文件名中消除这些汉字,英语操作系统才能够对这一文件进行正确处理。
而且,在英语操作系统中,很多打印机驱动程序是设计用来仅仅处理1字节编码英语信息的。这样的打印机无法处理2字节编码的汉字,而只能将汉字们打印为空白块。必须在英语操作系统上使用汉语软件平台,在打印机才能正确打印汉字。此外,如果汉语计算机文件含有表格或图形,所打印出来的汉字可能不会正确地整齐排列,而是以混乱的方式出现,即使此时使用了汉语软件平台。
而且,某些电子邮件系统可能会不正确地转换汉语电子邮件文本,并显示许多页的计算机内码串,这些内码串看起来就象“wis”这样。要将这些计算机内码转换成有意义的汉语文本,需要具有高水平的知识和专用方法。
此外,如果英语操作系统没有安装汉语支持软件包,那么用户就必须通过专用方法从相关网站或适当的CD上下载该汉语支持软件包。否则,该用户将无法使用英语操作系统处理汉语电子邮件或文件或者访问汉语网站。
上述的这些问题所带来的不便之处已经困扰了汉语用户许多年了。有专家们已经做了大量的工作以试图解决这些问题,但是仍然没有令人满意的易于使用的解决方案被找到、或者可被多数汉语用户采用并且接受。
本发明能够克服上述的那些问题。本发明提供一种用于各种表意符号的CSC(Chinese Spelling Code)拼写系统。而且,本发明提供一种拼写系统能够提供各种表意符号的唯一单独拼写,以及提供一种对由表意符号表示的信息进行高效管理的方法。此外,本发明提供一种能够唯一地确定表意符号的拼写系统。再有,本发明提供一种用于对各种表意符号拼写的字母数字进行编码的系统。

发明内容
本发明总体上涉及一种拼写各种表意符号的拼写方法。该拼写方法能够提供分别代表第一族和第二族表意符号的第一个和第二个要素。该第一族和第二族可以包括一个或多个共有的表意符号,这些共有的表意符号可以通过由第一个和第二个要素形成的拼写体系进行确定。根据本发明的一个方面,该拼写方法能够提供表意符号的字母数字拼写表示。根据本发明的另一个方面,该拼写方法能够提供用于确定表意符号的唯一的字母数字拼写表示。该拼写方法能够使表意符号按照逻辑顺序的排序和/或索引成为可能,例如按照字母数字的顺序。
本发明还涉及一种能够表示表意符号的拼写方式。该拼写方式可以包括用于分别确定第一和第二族表意符号的第一个和第二个要素。该第一和第二族可以包括至少一个共有的表意符号,该共有的表意符号是由第一个和第二个要素确定的。根据本发明的一个方面,当第一和第二族包括超过一个共有表意符号时,可以提供第三个要素以用于区分多个共有的表意符号并且唯一地确定每个共有的表意符号。根据本发明的一个方面,该拼写方式可以包括一个或多个字母数字符,以提供相应的表意符号的字母数字拼写表示。
本发明此外还涉及一种对表意符号拼写的各种字母数字表示进行编内码的编码方法。目前一般使用的各种表意符号的编码方法将各种表意符号编码为16-比特字符串内码,本发明的编码方法能够将拼写各种表意符号的字母数字表示编码为1字节8-比特内码,以进行计算机处理,例如文件保存和电子邮件传送。因此,可以对含有各种表意符号的信息进行与英语相似的处理。
具体实施例方式
根据本发明的一个方面,可以提供一种用于对表意符号进行拼写的拼写方法。典型的表意符号是非英语的语言中用图形表示的词语、字符、字母或其它元素,例如汉语、日语或韩语文字、日本片假名、中国注音符号、希腊字母、罗马数字、非英语标点符号、数学符号、图标以及其它类似的表意符号。
本拼写方法能够提供用于分别表示第一和第二族表意符号的第一个和第二个要素。在一个示范性的实施例中,至少一个要素可以借助它们的不同特征代表相应族的表意符号。在一个示范性实施例中,第一个要素可以借助拼音体系确定一族表意符号。例如,第一要素可以是汉字的拼音或注音拼写。在另一个示范性实施例中,可以提供第一要素来表示一种类型的特殊表意符号,例如罗马数字、希腊符号、注音符号、数学符号等等。在另一个示范性实施例中,第二个要素可以根据基于字形的索引体系来确定一族表意符号。例如,第二要素可以是汉字的四角索引码。应当意识到,第一和第二要素的其它实施例仍然处于本发明的范围之内。
根据本发明的另一个方面,拼写方法能够提供拼写表意符号的字母数字表示法。例如,该拼写方法可以确定一个或多个共有的表意符号,这些表意符号是由第一个和第二个要素拼写表示的。在一个示范性实施例中,第一个和第二个要素分别可以包括一系列字母数字符,如下面将要详细讨论的。术语“字母数字符”在这里是指26个英文字母(即,a,b,c,d,…,x,y,z),不管是大写还是小写格式,以及10个阿拉伯数字(即,0,1,2,3,…,7,8,9)。
根据本发明的另一个方面,该拼写方法可以提供第三个要素,用于区分第一和第二族共有的多个表意符号,并且唯一确定每个共有的表意符号。在一个示范性实施例中,该第三个要素可以是一个或多个字母数字符,其对应于由第一个和第二个要素确定的一个或多个共有的表意符号。在一个示范性实施例中,该第三个要素可以是单个字母数字符。我们将会意识到,该拼写方法的其它具体实施方式
也处于本发明的范围之中。
本发明还提供一种能够确定表意符号的拼写方式。在一个示范性实施例中,该拼写方式可以包括分别表示第一和第二族表意符号的第一个和第二个要素,其中第一和第二族可以包括一个或多个共有的表意符号。这些共有的表意符号可以通过第一个和第二个要素进行确定,第一个和第二个要素可以以各种不同的形式形成拼写方式,如下面将进行的详细介绍所述。
第一个和第二个要素各个都可以以各种不同的方式确定它们各自的族。在一个示范性实施例中,第一个要素可以是表意符号的表音拼写方式。例如,第一个要素可以是汉字的拼音或注音拼写方式。在一个示范性实施例中,该第一个要素可以包括汉字的读音部分和声调部分,例如汉字的拼音拼写方式中的读音和声调。在另一个示范性实施例中,可以分别将拼音体系中的四个声调和轻声表示为1、2、3、4和5。在另一个示范性实施例中,第二个要素可以包括基于字形的要素,用于代表表意符号。例如,可以使用各种现有的基于字形的拼写方法来形成该第二个要素。在一个示范性实施例中,其中表意符号是汉字,第二个要素可以是按照现有的四角号码索引体系或五笔索引体系构成的索引码。
在一个可用于替换的示范性实施例中,第一个要素可以根据表意符号的各种性质来确定第一族表意符号。例如,第一个要素可以指明各种不同类型的表意符号。在一个示范性实施例中,可以将第一个要素构成得用于确定一族无法发音的特殊汉字字符,例如罗马数字或希腊字母。在下面的示范性实施例中,将对示范性的第一个要素进行介绍。在另一个示范性实施例中,可以将第二个要素形成得用于在已由第一个要素确定出来的每一族中唯一地确定无法发音的特殊汉字字符。在另一个示范性实施例中,该第二个要素可以是按照国标(GB)或大五码(Big5)编码体系构成的索引码,用于确定一个表意符号。将在下面的示范性实施例中对示范性的第二个要素进行介绍。
附加地或可用于替换地,第一个和第二个要素各个都可以具有各种不同的形式。在一个示范性实施例中,该第一个和第二个要素每个都可以包括一个或多个字母数字符。例如,这些要素每个都可以包括一系列的字母数字符。在一个示范性实施例中,第一个要素可以包括26个英文字母中的一个或多个字母。在另一个示范性实施例中,该第一个要素可以包括26个英语字母中的一个或多个以及10个阿拉伯数字中的一个或多个。在另外一个示范性实施例中,第二个要素可以包括10个阿拉伯数字中的一个或多个。我们将会意识到,第一个和第二个要素的其它具体实施方式
也包含在本发明的范围之内。
在另一个示范性实施例中,拼写体系可以包括一个第三要素。该第三个要素用于区分第一和第二族中共有的多个表意符号,并且唯一确定每个共有的表意符号。该第三个要素可以具有各种不同的形式。例如,该第三个要素可以包括一个或多个字母数字符。在一个示范性实施例中,该第三个要素可以采用26个英语字母中的一个或多个和/或任何阿拉伯数字。在另一个示范性实施例中,该第三个要素可以包括单个字母数字符。在另外一个示范性实施例中,该第三个要素可以是前四个英语字母a、b、c、d中的一个。大家将会意识到,第三个要素的其它具体实施方式
也包含在本发明的范围之内。
拼写方式可以以各种不同的用于确定表意符号的形式组成。在一个示范性实施例中,该拼写方式可以通过组合第一个和第二个要素的字母数字符来组成。例如,该拼写方式可以包括由第一个和第二个要素的字母数字符按照第一个和第二个要素的顺序组成的一连串字母数字符。在另一个示范性实施例中,该拼写方式可以通过按照第一个、第二个和第三个要素的顺序将第一个、第二个和第三个要素的字母数字符组合起来而组成。各种不同的拼写方式可以具有可变的长度,这类似于英语单词的拼写方式。例如,取决于每个要素采用的类型或者第三个要素的存在与否,该单词的拼写方式可以具有不同数量的字母数字符。大家应当意识到,拼写体系的其它具体实施方式
也包含在本发明的范围之内。
本发明能够消除从传统计算机键盘上输入表意符号时的麻烦。一个原因是,本发明的拼写方式能够唯一地确定每个表意符号。例如,用户可以在键盘上仅仅持续键入表意符号的拼写来进行快速输入,而不必停下来从一大堆同音同调字中选择想要的汉字。附加地或可替换地,因为该拼写是通过使用标准英语字母和阿拉伯数字形成的,因此标准英语计算机键盘可以用来输入表意符号。因此,无需在键盘上附加专门的和不熟悉的新字符。在一个示范性实施例中,用户可以通过任何现有的商用汉语字处理器使用本发明拼写方式,例如NJ Star、RichWin、Jiao等等。
附加地或可替换地,本发明可以对含有表意符号的信息进行高效且简单的管理。例如,本发明能够通过诸如索引、排序、列表、编组、查找、检索等来实现高效信息管理。在一个示范性实施例中,可以通过一连串的字母数字符来组成各种表意符号的拼写方式。这种表意符号的字母数字表示可以具有36个字母数字的简单的逻辑顺序,例如26个字母和10个数字顺序。在一个示范性实施例中,表意符号的字母数字表示可以先按照数字顺序排序,随后按照英语字母顺序排序(即,0,1,2,3,…,7,8,9,a,b,c,d,…,x,y,和z)。因此,这些表意符号可以通过它们的字母数字表示按照逻辑字母数字顺序进行排序,这36个简单的逻辑顺序可以被用户轻易地记住。在一个示范性实施例中,该拼写方式能够允许对非英语书籍、名片、电话薄和地图中的信息产生索引及高效应用,同时也能够允许对图书馆中的大量非英语书籍、俱乐部会员名单等产生索引及高效应用。
本发明可以不论是对关于计算机应用还是非计算机应用,都可以执行表意符号信息的高效管理。在一个示范性实施例中,当一本书是通过使用本拼写方式的字处理器完成的时,就可以根据本拼写方式的字母数字顺序产生索引。在另一个示范性实施例中,当使用电子制表软件进行各种形式的分析时,本发明允许进行信息的排序。例如,在对含有诸如中国省份(包括直辖市和自治区)名称、人口、面积和GDP等的电子数据表进行分析时,用户可以对每一栏进行排序。如果想要得到人均GDP,用户可以通过将GDP除以人口产生一个新的栏,并对该新栏进行排序。
根据本发明的另一个方面,可以提供一种编码方法,用于对各种不同的表意符号的各种字母数字表示进行编码,以便于含有表意符号的信息的各种计算机处理。在一个实施例中,该编码方法可以将拼写方式的字母数字编内码为7-比特ASCII标准码,类似于英文单词的编码方法。这样的拼写方式以及字母数字编内码方式能够使含有表意符号的信息通过各种不同种类的旧的和新的电子邮件系统和处理器的因特网或电子邮件网络进行顺利安全发送,类似于英语信息的发送。因此,本发明编码方法能够消除由2字节16-比特(或4字节32-比特)编码的表意符号导致的各种问题。这是因为本发明系统只用一字节8-比特的内码。
根据本发明的另外一个方面,能够提供各种不同的转换装置,以便于本拼写系统和相应的表意符号之间的转换。例如,可以提供一种用于说明本拼写系统和相应的表意符号之间的相关性的转换装置。在一个示范性实施例中,该转换装置可以包括一个在本拼写系统和唯一相关的表意符号之间建立转换关系的表。该转换表可以按照各种不同的格式构成。在一个示范性实施例中,可以提供一个两栏的表,用于对13000个汉字进行转换,其中一栏可以包括13000个拼写,而另一栏是相应的汉字。下面将与示范性实施例一起介绍示范性的转换表。
该转换表可以很容易地编辑。在一个示范性实施例中,可以对该转换表进行排序,例如按照字母数字顺序。在另一个示范性实施例中,转换表是可扩展的,以致可以加入一个或多个拼写方式,以用于加入额外的、新的表意符号。可以对这样的新转换表进行同样的排序,例如按照字母数字顺序。我们应当意识到,转换表和/或转换装置的其它具体实施方式
也包含在本发明的范围之内。
附加地或可用于替换地,可以将拼写方式和表意符号之间的相关性显示在计算机显示器上或打印在打印纸上。在一个示范性实施例中,可以为计算机用户配备一个转换表的纸印件,例如为了在将表意符号输入到计算机中时使用。
本发明可以应用于个人计算机、移动电话、个人数字助理(PDA)、大型计算机、英特网服务器、自动柜员机(ATM)以及其它信息技术装置和系统。例如,可以提供各种不同的计算机可读介质,以指导或命令计算机执行各种不同的指令。在一个示范性实施例中,可以提供各种不同的计算机可读介质,以便于输入各种不同的表意符号。在一个示范性实施例中,可以提供一种转换软件,以使计算机能够将拼写转换为它们唯一相关的表意符号。在另一个示范性实施例中,该转换软件使计算机能够接收拼写、取出与该拼写唯一相关的表意符号,并输出该表意符号。该转换软件可以构造为各种形式。例如,在用户输入相应的拼写之后,该转换软件能够指导计算机在显示器上显示所确定的相应表意符号。这样的转换软件可以是非常初级的,或者也可以是相当复杂的,在需要时,带有在输入拼写的过程中为用户提供的各种不同类型的计算机智慧辅助工具,例如词发声、拼写检查、修正拼写错误,在需要时,为用户提供正确拼写的选择和建议,等等。
在另一个示范性实施例中,可以提供各种不同的计算机可读介质,以适应现有的输入表意符号的方法。在一个示范性实施例中,可以提供用于将中文计算机编码系统中使用的现有编码转换为相应的本发明的拼写方式的计算机可读介质。例如,计算机可读介质可以包括一个转换表。在一个示范性实施例中,可以提供用于将现有的国标编码转换为本发明的拼写方式,以及进行相反的将本发明的拼写方式转换为国标编码。在另一个示范性实施例中,可以提供用于将现有的大五码转换到本发明的拼写方式,以及进行相反的转换。因此,那些习惯于各种现有输入方法(例如基于拼音的方法、基于注音的方法、基于字形或字根的方法、基于四角号码索引的方法等等)的用户,还可以继续使用这些方法输入表意符号。我们将会意识到,转换表的其它具体实施方式
也包含在本发明的范围之内。
因此,本发明能够将表意符号拼写成一连串的字母数字符。表意符号的这样的字母数字表示可以实现下列一个或多个方面(1)使用户容易记忆用于组成表意符号的拼写体系的一小组字母数字符;(2)提供各种表意符号的逻辑顺序,以实现含有表意符号的信息的有效管理;(3)本发明编码系统能适应于7-比特ASCII编码的空间内,例如7-比特编码的128种可能性,为必要的控制码留有足够空间;和(4)使计算机编码系统能够对拼写方式的36个字母数字进行编码,而不是对成千上万的表意字符(例如,超过13000个汉字)进行直接编码。
附加地或可用于替换地,本发明能够实现下列一个或多个方面(1)提供一种用于把各种不同的表意符号输入计算机的逻辑方法,例如通过传统的英语键盘;(2)提供一种对基于表意符号的信息进行有效且简单的管理方法,包括索引、排序、列表、分组、查找、检索;(3)提供一种有效的且对用户友好的用于各种不同表意符号的数据处理和文字处理的方法;和(4)允许用户通过英特网或电子邮件网络以可靠的方式发送基于表意符号的信息,类似于英语文本的发送,免于被破坏。
下面将很详细地对具体实现本发明的原理的拼写体系和编码系统的各种具体实施方式
进行介绍。
在一个示范性实施例中,可以提供用于确定各种汉字字符的拼写体系。例如,第一个要素可以是汉字的发音拼写要素。各种不同的发音拼写方法可以用来构成该发音拼写要素。在一个示范性实施例中,该第一个要素可以包括按照现有的汉语拼音国家标准构成的汉语拼音拼写体系。例如,该第一要素可以包括由一个或多个拼音符号组成的读音部分和标明汉字声调的声调部分。在一个示范性实施例中,拼音符号可以由英语字母表示。在另一个示范性实施例中,汉字的四声加中间声调(即轻声)可以分别由五个阿拉伯数字表示。例如,汉字的四声加中间声调可以分别由诸如1、2、3、4、5这五个阿拉伯数字表示。在一个可用于替换的示范性实施例中,第一个要素可以包括按照现有的汉语注音标准构成的汉语注音拼写体系。例如,第一个要素可以包括36个注音符号中的一个或多个。我们将意识到,第一个要素的其它具体实施方式
也包含在本发明的范围之内。
在另一个示范性实施例中,第二个要素可以是汉字的基于字形的要素。可以使用各种不同的基于字形的拼写方法来组成第二个要素。在一个示范性实施例中,可以通过四角号码索引体系组成第二个要素。我们将会意识到,第二个要素的其它具体实施方式
也包含在本发明的范围之内。
当将拼音标准和四角号码索引体系组合起来以“拼写”汉字时,根据对13000个常用汉字的分析,出现具有相同的拼写方式的多个汉字的概率从98.7%急剧降到了7.7%。但是,在每个仍然出现相同拼写方式的情况下,根据对这13000个汉字的分析,具有相同拼音和四角号码索引的不同汉字的数量只可能是两个、三个或最多四个。此外,在全部13000个汉字中,四个不同的汉字具有相同的拼音和四角号码索引的情况只出现一次。换句话说,四个或更多不同的汉字正好具有相同的读音、相同的声调、相同的字形(即,在全部四个角上相同的四角号码索引)是非常少见的。
对于汉语使用者的学习和使用来讲,上面所介绍的示范性的拼写体系是很容易的,因为拼音或注音标准以及四角号码索引体系已经使用了多年了。此处使用的术语“汉语使用者”不仅可以包括中国人,而且还包括许多学习过汉语读写的外国人。
在一个示范性实施例中,可以提供用于进一步区分具有相同的拼音和四角号码索引的多个不同汉字的第三个要素。在一个示范性实施例中,该第三个要素可以包括一个单个的字母数字符。例如,该单个字母数字符可以采用26个英文字母a、b、c、…、x、y及z或10个阿拉伯数字0、1、2、3、…、7、8及9中的任何一个。因为在采用了拼音和四角号码索引的组合拼写方式之后,92.3%的汉字拼写是单独,剩下7.7%只可能两个,三个或四个不同的汉字,对于辨识这剩下的两个、三个或四个汉字来讲,这一单个字母数字的第三个要素就已经足够了。因为这一单个字母数字可以有36个可能变化。因此,通过使用这第三个要素,该拼写体系能够唯一单独地确定所有的汉字。我们将会意识到,第三个要素的其它具体实施方式
也包含在本发明的范围之内。
类似于英文单词,用于汉字的该拼写体系可以具有可变的长度。例如,当第一个要素使用拼音拼写时,该第一个要素可能会具有从一个到六个英文字母的可变长度。附加地或可用于替换地,可以使用不同数量的要素来组成用于汉字的拼写体系。例如,在一组常用的13000个汉字中,只有7.7%需要使用该拼写系统的这三个要素来实现唯一单独确定。剩下的92.3%的汉字可以仅使用第一个和第二个要素实现唯一拼写。而且,58%的汉字可以仅通过拼音要素加四角号码索引的头2位(或更少)实现唯一拼写。在一个示范性实施例中,例如下面所示的,汉字“白”可以仅通过第一个要素(即,发音和调要素,例如拼音拼写)而实现唯一确定拼写,虽然第二个要素仍然可以在该拼写体系中使用。
表1表示一个示范性拼写体系,它可以被用于对各种不同的汉字进行拼写。在一个示范性实施例中,该拼写体系可以包括下述部分和元素(a)发音部分,诸如拼音标注的发音部分,(b)声调部分,例如拼音声调,(c)基于字形的要素,例如四角号码索引,和(d)辨别要素,例如单个字母数字符。
表1-拼写体系的各要素

表2表示为七个汉字做的七个拼写范例的各不同要素。如上面所讨论的,该拼写体系可以对具有(1)同音但不同字形结构或不同意的汉字进行唯一地拼写、(2)同音同意但不同字形结构的汉字进行唯一地拼写或(3)相同字形结构但不同音或不同意的汉字进行唯一地拼写。
表2-汉字的拼写范例

在一个示范性实施例中,例如象表2所示的那样,前两个汉字“仿”和“彷”具有相同的拼音标注和四角号码字形结构。在一个示范性实施例中,可以提供第三个要素作为辨识要素,从而分别形成这两个汉字每字的唯一拼写。在一个示范性实施例中,可以将第三个要素分别指定为“a”和“b”,以区分这两个汉字。
在另一个范例实施例中,例如象表2所示的那样,第三个汉字“白”仅需要第一个要素就可以实现唯一拼写。换句话说,虽然在该拼写系统中第二个要素仍然可以使用,但是对“白”的唯一拼写既不需要第二个也不需要第三个要素就能实现。
在另一个范例性实施例中,例如象表2所示的那样,第四个和第五个汉字“华”和“華”是具有相同含意(意为“华丽”)的同一个汉字的简体和繁体写法。这两个字的拼写的表音部分都可以具有相同的拼音“hua2”。但是这两个字具有不同的形状,因为其简体形式减少了笔划数。由于字形不同,这两个字具有不同的基于字形的要素。在一个示范性实施例中,这两个字分别具有不同的四角号码索引-“2440”和“4450”,如表2中所示的那样。本发明能够为这两个字提供两个不同的拼写,即使它们含义相同、发音相同且声调相同。
有些汉字,它们每一个都具有两个或更多的读音并且对应着不同的意思。在一个示范性实施例中,例如表2中所示的那样,第六个和第七个汉字“行”可以具有不同的读音(例如在拼音体系中的“xing2”和“hang2”)并且具有不同的意思(例如分别为“行走”和“行列”)。在一个示范性实施例中,每个这样的字可以具有不同的拼写,依照不同的含义,这些拼写包含不同的拼音,即使汉字是相同的。例如,不同读音的同一汉字“行”的拼写是不同的,例如表2和3中所示的那样。
通过除去表2中的说明提示,下面的表3中示出了这七个范例汉字的拼写。
表3-七个范例汉字的拼写方式

虽然上面的实施例是基于汉字进行介绍的,但是本发明同样可以应用于其它表意文字或符号,包括日文和韩文。例如,可以使用日语发音要素代替拼音或注音拼写,以提供日文的拼写。
在另一个实施例中,可以提供用于记录和/或显示拼写和相应的表意符号之间的相关性的转换装置。例如,该转换装置可以是各种不同格式的表的形式。在一个示范性实施例中,转换表可以包括拼写的第一列表和表意符号的第二列表并且表示出这两个列表之间的相关性。在一个示范性实施例中,可以按照字母数字顺序对拼写进行排序,以致相对应的表意符号可同样可以按照字母数字顺序排序。在一个示范性实施例中,例如表4中所示的那样,转换表可以包括八十五(85)个范例拼写与它们的相应转换的汉字和相应的大五码。
表4-拼写方式、汉字、大五码的示范转换表



此外地或可替换地,可以提供用于记录和/或表示现有的汉字编码系统的编码和本发明中它们相应的拼写方式之间的相关性的转换装置。在一个示范性实施例中,例如表5中所示的那样,转换表可包括三十六(36)个大五码并且将它们与本发明中代表相同汉字的拼写一一对应。
表5-同字符的大五码和拼写方式的示范转换表


在一个可用于替换的示范性实施例中,可以将第一个要素形成得用于代表表意符号的类型。例如,可以将该第一个要素形成得用于代表无发音的特殊汉字字符。在一个示范性实施例中,可以将该第一个要素形成得用于代表一种类型的无发音的特殊汉字字符,例如在现有的国标、大五码或CJK(即,中文、日文和韩文编码)标准中的特殊符号。示范性的第一个要素可以包括下列内容,但并不局限于下列内容ZZGB用于代表国标内码中定义的所有特殊符号。在一个示范性实施例中,第二个要素可以是国标内码中符号的十六进制(HexadecimalCode)表示。例如,罗马数字VIII在国标码中具有A2F8的十六进制表示。对于罗马数字VIII的本发明拼写方式是ZZGBA2F8。
ZZBI用于代表大五码内码中定义的所有特殊符号。在一个示范性实施例中,第二个要素可以是大五码内码中符号的十六进制表示。例如,罗马数字VIII在大五码中具有A2C0的十六进制表示。对于罗马数字VIII的本发明拼写方式是ZZBIA2C0。
ZZCJK用于代表中文、日文和韩文码中的所有特殊符号或字符。在一个示范性实施例中,第二个要素可以是中文、日文和韩文码中的符号的十六进制表示。
在另外的示范性实施例中,可以将第二个要素形成得用于在由第一个要素确定的一类特定符号中逻辑地确定这些表意符号。在第一个示范性实施例中,此时第一个要素代表所有的罗马数字,第二个要素可以是1和大于1的阿拉伯数字。在优选实施例中,第二个要素可以例如被相应的阿拉伯数字指定以对应于罗马数字。例如,对于罗马数字I、II、…和X,可以将第二个要素分别指定为1、2、…9和10。所得到的拼写方式可以分别是ZZRM1、ZZRM2、…和ZZRM10。类似地,可以得出用于代表罗马数字L的拼写方式ZZRM50、用于代表罗马数字C的拼写方式ZZRM100、用于代表罗马数字M的拼写方式ZZRM1000等等。本发明的拼写方式可以以逻辑方式形成并且因此较之相应的罗马数字更加容易记忆。
在另一个示范性实施例中,可以将第一个要素形成得用于代表所有的希腊字母。例如,第一个要素可以是ZZGK。在一个示范性实施例中,第二个要素可以是英语字母a、b、c、…等,用于分别代表阿尔法、贝它、伽马等。
在另一个示范性实施例中,可以将第一个要素形成得代表所有的数学符号。例如,该第一个要素可以是ZZMA。在一个示范性实施例中,第二个要素可以是LT、LE、EQ、NQ、GT、GE等,用于分别代表数学符号“小于”、“小于等于”、“等于”、“不等于”、“大于”、“大于等于”等数学符号。在一个可用于替换的示范性实施例中,可以将第二个要素指定为用于代表加、减、乘、除以及其它数学符号。
在另一个示范性实施例中,可以将第一个要素形成得用于代表各种不同的注音符号。例如,第一个要素可以是ZZZY。在一个示范性实施例中,第二个要素可以是bo、po、mo、fo等,用于代表相应的注音符号。
应当注意到,这里所介绍的各种不同的特征可以单独使用,也可以以它们的任意组合形式使用。因此,本发明并不仅局限于这里所具体介绍的实施例。虽然前面的说明和图表代表了本发明的一个优选实施例,但是应当明白,可以在其中进行各种增加、修改、缩减,而不会超出本发明的主题。特别是,对本领域技术人员来说,应当清楚,本发明也可以按照其它具体形式、结构、排列、比例进行具体实施,并且可以使用其它原则、材料和要素进行具体实施,而并不会超出其主题或基本特性。本领域的技术人员将会意识到,本发明可以通过在本发明的实践中所使用的结构、排列、比例、材料和要素以及其它方面的许多修改进行应用,其尤其适于特殊的环境以及操作需求,而不会超出本发明的原理。因此认为目前所公开的实施例在所有方面都是示意性的,而不是限制性的。
权利要求
1.一种拼写表意符号的方法,包括提供用于确定第一族表意符号的第一个要素;和提供用于确定第二族表意符号的第二个要素;其中该第一和第二族包括由该第一和第二要素所确定的至少一个共有表意符号,其中该第一和第二要素确定该共有表意符号。
2.根据权利要求1所述的方法,其中共有表意符号是由一连串字母数字符表示的。
3.根据权利要求1所述的方法,还包括当该第一和第二族包括超过一个共有表意符号时,提供第三个要素,以区分并唯一地确定拼写每个共有表意符号。
4.一种对表意符号进行拼写和编码的方法,包括提供用于唯一地确定表意符号的一连串字母数字符;和按照7-比特ASCII码,对这一连串拼写的字母数字符编内码。
5.根据权利要求4所述的方法,其中这一连串字母数字符是根据权利要求2所述的那样形成的。
6.一种拼写表意符号的方法,包括提供分别用于确定第一和第二族表意符号的第一个和第二个要素,其中第一和第二族包括至少一个共有的表意符号;且通过将第一个和第二个要素组合起来形成一个拼写,以确定该共有表意符号。
7.根据权利要求6所述的拼写方法,其中该拼写是由一个或多个字母数字符组成的。
8.根据权利要求6所述的拼写方法,其中第二个要素跟在第一个要素后面。
9.根据权利要求6所述的拼写方法,其中第一个要素包括一个或多个英语字母。
10.根据权利要求6所述的拼写方法,其中第一个要素包括一个或多个英语字母和一个阿拉伯数字。
11.根据权利要求6所述的拼写方法,其中第一个要素是第一族表意符号的表音和调的拼写。
12.根据权利要求6所述的拼写方法,其中表意符号是汉字。
13.根据权利要求12所述的拼写方法,其中第一个要素是第一族表意符号的拼音拼写。
14.根据权利要求12所述的拼写方法,其中该拼音拼写包括一个读音部分和一个声调部分。
15.根据权利要求12所述的拼写方法,其中第一个要素是第一族表意符号的注音拼写。
16.根据权利要求6所述的拼写方法,其中第二个要素是第二族表意符号的基于字形的要素。
17.根据权利要求16所述的拼写方法,其中第二个要素是第二族表意符号的四角号码索引。
18.根据权利要求6所述的拼写方法,还包括第三个要素,当第一和第二族包括超过一个共有表意符号时,该第三要素用于区分多个共有表意符号,以唯一地确定拼写每个共有表意符号。
19.根据权利要求18所述的拼写方法,其中该第三个要素是一个单个的字母数字符。
20.根据权利要求18所述的拼写方法,其中该拼写是一连串字母数字符。
21.一种根据权利要求6形成的拼写。
22.根据权利要求21所述的拼写,包括一连串字母数字符。
23.一种用于记录如权利要求21中所述的拼写和相应的表意符号之间的相关性的转换介质。
24.根据权利要求23所述的转换介质,包括一个两栏转换表。
25.根据权利要求23所述的转换介质,包括计算机可读介质,用于在将拼写输入到计算机中之后,指示计算机输出相应的表意符号。
26.根据权利要求23所述的转换介质,还记录着同一表意符号的国标码和相应拼写之间的相关性。
27.根据权利要求23所述的转换介质,还记录着同一表意符号的大五码和相应的拼写之间的相关性。
28.一种用于将按ASCII编码的拼写转换为相应的唯一表意符号的转换装置,其中该拼写是如权利要求21中所述的那样并且是按照7-比特ASCII码来编码。
29.根据权利要求28所述的转换装置,包括计算机可读介质,用于在计算机接收到经编码的拼写之后,指示计算机输出相应的表意符号。
30.一种用于对含有一个或多个表意符号的信息进行处理的计算机设备,包括中央处理单元装置;存储器装置;输入装置;和输出装置;其中该输出装置在接收到如权利要求21中所述的相应拼写时输出表意符号。
31.一种用于唯一地确定表意符号的拼写方法,包括提供一个或多个第一个要素,它们每个都代表多种类型的表意符号中的一种,每种类型包括一个或多个表意符号;和提供一组或多组第二个要素,每组都与一个第一个要素相对应并且包括一个或多个第二个要素;其中每组第二个要素与由相应的第一要素确定的表意符号唯一地相关。
32.根据权利要求31所述的拼写方法,其中第一个要素代表在大五码标准下定义的所有特殊表意符号并且其中相应组的第二个要素是在大五码编码体系下的内码。
33.根据权利要求31所述的拼写方法,其中第一个要素代表在国标标准下定义的所有特殊表意符号并且其中相应组的第二个要素是在国标编码体系下的内码。
34.根据权利要求31所述的拼写方法,其中第一个要素代表在CJK标准下定义的所有特殊表意符号并且其中相应组的第二个要素是在CJK编码体系下的内码。
35.根据权利要求31所述的拼写方法,其中第一个要素之一代表所有的罗马数字并且其中相应组的第二个要素是对应于这些罗马数字的大五码内码。
36.根据权利要求31所述的拼写方法,其中第一个要素之一代表所有的罗马数字并且其中相应组的第二个要素是对应于这些罗马数字的阿拉伯数字。
全文摘要
本发明涉及一种诸如汉字这样的表意符号的拼写和编码方法。该拼写方法可以提供用于确定第一和第二族表意符号的第一个和第二个要素,其中这两个族可能具有与这两个要素相互关联的至少一个共有的表意符号。例如,这两个要素可以分别是汉语拼音拼写和四角号码索引,它们可以各自确定一族汉字,并且它们经过组合可以确定一个或多个汉字。该拼写方法此外还可以提供第三个要素,用于区分这两个族共有的多个表意符号,以唯一地确定每个共有的符号。在一个实施例中,可以提供用于唯一确定每个表意符号的字母数字拼写方式。本发明的编码方法用7-比特ASCII标准码对拼写表意符号的各种字母数字进行编码。
文档编号G06F17/22GK1601451SQ200410039250
公开日2005年3月30日 申请日期2004年2月9日 优先权日2003年9月26日
发明者柴大定, 林星雄, 宋安华 申请人:柴大定, 林星雄, 宋安华
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1