可作为输入码和内码的电脑汉字编码文字的编码方法

文档序号:6441708阅读:297来源:国知局
专利名称:可作为输入码和内码的电脑汉字编码文字的编码方法
可作为输入码和内码的电脑汉字编码文字的编码方法
技术领域
本发明涉及电脑汉字的编码方法,特别是涉及一种可作为输入码和内码的电脑汉 字编码文字的编码方法。
背景技术
目前,随着电脑的普及,电脑的操作和应用已成为人们生活中的一部分,而在电脑 操作和应用中,必须通过汉字输入法输入汉字。为此,人们开发出多种汉字输入法,而汉字 输入法则是以汉字编码方法为基础。汉字编码包括输入码和内码,其中内码为置于电脑内 存中的国标码,即GB 2312 (简体中文字符集中国国家标准),输入码则为汉字输入编码,各 种输入法的输入码不同。研究各种汉字输入法可见,一个普遍存在的问题是,它们都无法解决重码问 题。以“五笔字型”汉字输入法为例,假如我们要输入汉字“祖”,其区位码是5570,国标 码是5766H(字母H表示是16进制数),五笔字型输入法规定该字的输入码是PYEG,这意 味着须按PYEG的顺序击键4次,特定的输入程序根据输入码PYEG查出“祖”的机内码是 5766H+8080H = D7E6(16进制数,D是13,E是14)。然后在电脑屏幕上显示“祖”字。为什 么不直接将输入码PYEG送入内存代表汉字“祖”呢? PYEG占4个字节,比内码所占位置多 一倍,这是原因之一。但主要的原因却是目前在中国应用的几百种汉字编码,都不可避免地 有重码。如五笔字型规定“赢,羸,赢,羸”的输入码都是YNKY。当需输入其中之一时,输入 程序就将这几个字全部显示出来,要求选字,即用鼠标点击或击键输入一个数字来确定一 个字,然后则根据选择将不同的机内码(分别是D3AE、D9F8、D9F9、D9FA)送入内存。否则, 在译码时读出YNKY,就无法确定输出“赢,羸,赢,羸”中的哪一个。所以,五笔字型输入法将 输入码变换成GBK码,是因无法做到无重码,不得己而采取了一种牺牲效率的方法。其他输 入法也大都如此。世界上充分发展的语言都是由词构成的,汉语也不例外。为了便于人或计算机对 语言文字的分析理解,文字应该以词为单位表示。也就是说一个词中的各个音节连写在一 起,而词与词之间由空格或标点符号分隔,这即为分词连写。要使汉语内码的分词连写并非 易事,这是因为有效率的汉字编码都是不等长的。不等长的编码连写在一起常会引起音节 之间界限的混淆。例如安一an,西一xi,先一xian三个汉字的编码并无重码,但将源文件“xian”译码成汉字时,它可以译成“西安”, 也可译成“先”,即发生了音节界限的混淆。又如安一 an, ^^ gan, guan, guang四个汉字的编码也无重码,但将源文件“guangan”译码成汉字时,它可以译成“广 安”,也可译成“观感”,即发生了音节界限的混淆,因而没有唯一可译性。现行的《汉语拼音方案》没有解决这个问题。它提出必要时加单引号做隔音符号。 上世纪七十年代以后推出的各种汉字编码也都没有解决这个问题。它们或者采用等长码
3(这时肯定没有音节界限混淆),或者在每个汉字编码后面加一个空格,因而显著地损失了 编码效率。对大量的英汉互译资料统计表明,一个汉字翻译成英文约花费3. 7个字母。因此 我们可以认为,表示汉语的字母式文字如果其实用性、易读性与英文相当,平均码长小于 3. 7,则其效率超过英语。在计算机中表示汉语的文字效率超过英文,十分有利于我们追赶 世界科技文化先进水平。然而,要做到平均码长小于3. 7相当困难。据统计,汉语拼音方案 的平均码长已有3. 1。为了给每一个音节标调又不采用在字母上面划记号的办法,假定是用 后缀1、2、3、4标调,则平均码长增加到4. 1。这时尚未区分同音字。新华字典中的有些音节 的同音同调的汉字就有几十个。为了区分同音字又需要增加一到两位数字。这时平均码长 就达5. 1以上。上面这些数据足以说明使平均码长小于3. 7并非易事。此外,在电子邮件通信业务中,由多字节2进制数内码(简称内码)的变换过程也 可见现有汉字编码方法的缺陷。如果信件是汉字,发件者人工输入输入码,输入程序将其变换成内码。内码的特点 是占两个或三个字节(1字节等于8个2进位),每个字节的最高位是1。因为这些高位是 1的数据在网络传输时不能通过某些只允许字符通过的网关,所以在发送前要进行base64 变换,变换后长度增加1/3倍,形成传输码,才可发送至网络。接收方从网络中收到邮件数 据后,先要进行反base64变换,将传输码变成内码,再由操作系统中汉字转换程序将内码 变换成汉字输出。该过程示意如下汉字一输入码一内码一传输码一网络一传输码一内码一汉字。而英语电子邮件传输过程为英语一网络一英语由此可见,汉字内码传输环节很多,因此损失了效率。更由于通信双方所使用的内 码可能还不一样,导致还要进行内码到内码的变换,使汉语电子邮件通信的效率无法与英 语相比。再有,汉字没有易读性。不标声调的《汉语拼音方案》也没有易读性,因为在汉语 发音中,声调是十分重要的语音信息。汉字总体字无定数,任何具体实现的源字符集都是一 个子集。现有的许多编码,当源字符集字数限制在4000或5000时,可以做到无重码,但当 源字符集字数括充到八千、上万时,就无法做到无重码,因此都是有限的编码空间。如上所述,我国现有的汉字编码方法存在着输入码与内码不一致,均存在重码,编 码效率低等问题,其导致我国的汉字编码的各行其是及混乱无序的状态。

发明内容本发明旨在解决上述问题,而提供一种既可作输入码,又可作内码,容易输入计算 机且无重码,可避免不同内码的相互转换以及传输电子邮件时出现乱码,源字符集的汉字 个数可无限扩充,具有精密、易读、高效表示汉语等特点的可作为输入码和内码的电脑汉字 编码文字的编码方法。为实现上述目的,本发明提供一种可作为输入码和内码的电脑汉字编码文字的编 码方法,该编码方法是将汉字表示的词编码成由拼音表意码、后轻码及外名码组成的英文 字母符号串,每个汉字所对应的拼音表意码包括1 4个英文字母,其中,第一个字母表示声,第二个字母表示韵,第三个字母表示调和义,第四个字母为数字;具有轻读音的部分汉 字所对应的后轻码用一个或两个字母表示;外名码由国际通用的拉丁字母拼写;电脑汉字 编码文字的符号串可直接通过电脑键盘的英文键输入电脑,电脑输出时则通过译码还原为 汉字输出。拼音表意码包括源字符和目的字符串,所述源字符为汉字,目的字符串包括1 4 个英文字母,通用汉字的拼音表意码形成拼音表意码数据库,数据库按目的字符串的字母 顺序排序,拼音表意码数据库中的汉字由其GBK码表示。在拼音表意码的第一个字母中,表示声的“知、蚩、诗”分别以v、w、y表示,表示调 和义的第三个字母中,以a、b、c、d、e、f六个字母表示第1声,以g、h、i、j、k、l六个字母表 示第2声,m、n、o、p、q、r等六个字母表示第3声,以s、t、u、v、w、x、y、z八个字母表示第4 声。表示调和义的第三个字母也可能是数字,这时0,1,5表示第1声,2,6表示第2声,3,7 表示第3声,4,8,9表示第4声。具有轻读音的部分汉字所对应的后轻码与拼音表意码的目的字符串组成后轻码 数据库。外名码包括源字符和外名的国际通用的拉丁字母,所述源字符为外名的汉语译 名,通用的外名的汉语译名和与之对应的国际通用的拉丁字母形成外名数据库。电脑汉字编码文字的译码方法包括a、以所要译码的汉语编码文字为源文件,译码得到的汉字或汉字序列为目的文 件;b、从源文件中读出由电脑键盘输入的汉字编码文字的英文字母符号串,先搜索外 名数据库,看是否有完全符合的目的字符串,如果有,就输出与汉字编码文字相匹配的汉 字,如果没有,则在后轻码数据库中查找该英文字母符号串是否是后轻词;c、如果是后轻词,则输出与汉字编码文字相匹配的汉字,对于在外名数据库和后 轻码数据库中都查不到的汉语编码文字的词,则依次每次读出一个音节,到拼音表意码数 据库中查出对应的汉字并输出,完成了一个电脑汉字编码文字的译码;d、重复步骤a c,直至源文件全部译码为止。本发明的贡献在于,它有效解决了现有的汉字编码方法存在的输入码与内码不一 致,各种输入法均存在重码,编码效率低等问题。与现有技术相比,本发明具有如下特点
一、输入码与内码一致,使内码能拼音阅读本发明实现了中国技术界自有计算机以来一直向往而没有达到的目标。目前输入 码虽然很多,但都做不到无重码,只能变换成不能阅读、不便处理的内码。本发明的汉语编 码文字既是输入码,又是内码,可以拼音阅读,实现了人们多年的愿望。二、实用性由于本发明的汉字编码文字由ASCII字符组成,凡是英语可以通过的网关它都可 以通过,因此不必要转化为传输码。已经和英语电子邮件的传输同样的简单有效了。三、精确性本发明的汉字编码文字比其他任何编码都更精确。它不仅能区分汉字中的同 音异形字,还能区分同形异音字,如“长(chang2) — wgj”,“长(zhang 3) — vgn”,“行 (hang2) — hgk”,“行(xi ng2) — xyh”等,说明其表述汉语比汉字更为精确。由于它能够区分多音节词的最后一个音节是重读还是轻读,也说明它比汉字精确。此外,简体字与繁体 字都能表示,如觉一jcj,覺一jcj9,也是其精确性高的表现。四、可扩充性本发明的汉语编码文字具有无限的编码空间,其可以无限的扩充汉字源字符集。 目前汉字源字符数量已达13550余字。五、分词连写本发明的汉语编码文字的字与字中间可连写,翻译成汉字时不会发生错误。由于 本发明的汉语编码文字是不等长码,码长有些为1或2,绝大部分码长是3和4。但编码文 字有很独特的结构,使码长为3或4的编码连写在一起时有很分明的界限,不会产生界限混 淆。码长为1或2的编码(轻读的码)通常就是词尾,后接空格或标点符号。极少数轻读 音节不在词尾,这时后面加下划线。这就是说,汉语编码文字用非常有效的办法解决了不等 长码中的音节界限混淆的问题。六、平均码长小于3本发明的汉语编码文字在保证文字的实用性、精确性、可读性的情况下采用多种 办法减少平均码长。例如用一个字母表示‘声’,用一个字母表示‘韵’,用一个字母表示‘调’ 和'义',有时用附加数字的办法区分同音字,用1至2个字母表示轻读音节,建立‘轻声 词’概念并发明轻声词的简约拼法与解码方法,等等。多项创新措施的综合效果就是将平均 码长减少至2. 8。也就是说,编码文字的效率比英语文字要高24%。七、解决汉语明盲文字互通问题汉语明盲文字互通问题是一个举世公认的难题。如果在盲人特种教育中将汉语编 码文字作为汉语盲文,则能够有效解决这个难题。
具体实施方式下列实施例是对本发明的进一步解释和说明,对本发明不构成任何限制。本发明的可作为输入码和内码的电脑汉字编码文字的编码方法是将汉字表示的 词编码成由拼音表意码、后轻码及外名码组成的英文字母符号串,这种英文字母符号串可 直接通过电脑键盘的英文键输入电脑,并可作为电脑汉字编码的内码。所述拼音表意码包括源字符和目的字符串,其中,源字符为汉字,目的字符串包括 1 4个英文字母,通用汉字的拼音表意码形成拼音表意码数据库,数据库按目的字符串的 字母顺序排序,拼音表意码数据库中的汉字由其GBK码表示。在1 4个英文字母所表示 的目的字符串中,第一个字母表示声,第二个字母表示韵,第三个字母表示调和义,第四个 字母为数字。更具体地说,在拼音表意码的第一个字母中,表示声的“知、蚩、诗”分别以V、 w、y表示,表示调和义的第三个字母中,以a、b、c、d、e、f六个字母表示第1声,以g、h、i、 j、k、1六个字母表示第2声,m、n、o、p、q、r等六个字母表示第3声,以s、t、u、v、w、x、y、 z八个字母表示第4声。为进一步说明拼音表意码的构成,本实施例中,拼音表意码可以一个变换式来表 示,每一个汉字对应一个变换式,如祖一zim国一goi的一d文一ung字一zis,其中,箭头左边的汉字为源字符,箭 头右边为目的字符串。有些汉字可能还有第四个字符,只能是数字,不影响发音。13550多个汉字的变换式收集在拼音表意码数据库中,按目的字符串的字母顺序 表1示出了部分拼音表意码的变换式。 表1
编码

汉啊呵吖阿啊腌啊嗄啊啊肮骯昂卬盎抑欸锿叆靉砹薆娱唉哎
aa
aaO aa5
aae
aaf
aai
aak
aao
aas
agf
agf9
agh
agi
agt
agx
aiO
ail
ai4
ai49
ai8
ai9
aia
aib
aic
如表i,拼音表意码数据库有两个字段,一个是源字符汉字(变换式左部),一个是 目的字符串(变换式右部)。所述“汉字”实际上是它的GBK码。在使用本发明的汉语编码 文字的计算机系统中,汉字GBK码只出现在拼音表意码数据库和下述的两种数据库表中, 在其它地方,汉字都被它的目的字符串所替代了。在应用本发明的汉语编码文字的计算机 中,描述汉语的是汉语编码文字。所述后轻码是具有轻读音的部分汉字的编码,其由一个或两个字母表示。汉语中 有相当多的后轻词,它的最后一个音节轻读(没有调),如知识一vicy粮食一lhiy 力量一livlh本发明的汉字编码文字的编码方法中收集了 1541个后轻词,由它们与拼音表意码的目的字符串组成一个后轻码数据库,部分后轻码变换式如表2。表2
后轻码汉字重读编码
aafza腌臜
agfzg肮脏
aisrn爱人
anlwk鹌鹑
ao jmo熬磨
aoxzl懊糟
b8age八哥
babda吧嗒babdaa
babgi吧唧babgib
bac jr巴结
bacvg巴掌
bacla巴拉
baf la疤瘌
baolm把揽
baoy把式
baoyb把手
bazdl霸道bazdlv
bdchy掰划
bditx白天
bdizy白净
bdpbu摆布
bdpht摆划
bdpvi摆治
bdpye摆设bdpyev
0109]............
0110]所述外名码是用于外国国名、地名、人名的编码,其采用国际通用的拉丁字母拼 写。如下列变换式
0111]加拿大一Canada贝尔格莱德一Belgrade玛丽规一Maria。
0112]其中,箭头左边的汉字(源字符)为通用的外名的汉语译名,箭头右边为外名的国 际通用的拉丁字母。将通用的外名的汉语译名和与之对应的国际通用的拉丁字母形成外名 数据库,部分外名变换式如表3.表3外名汉字名Agana阿加尼亚Alaska 阿拉斯加Albania 阿尔巴尼亚
Alexander 亚历山大Alger阿尔及尔Algeria 阿尔及利亚Alofi阿洛菲Amman安曼Amsterdam 阿姆斯特丹Andorra 安道尔Angola安哥拉Ankara 安卡拉Apia阿皮亚Arabian 阿拉伯Babylon 巴比伦..................电脑汉字编码文字的符号串可直接通过电脑键盘的英文键输入电脑,并形成上述 的三个数据库,它们既是输入码,又是内码,两者完全一致,它们储存在电脑的内存中,电脑 输出时则通过译码还原为汉字输出。由本发明的编码方法所编码的汉语编码文字以英文字母符号串形式储存于电脑 中,用于表示汉语文字,可以很方便地由电脑处理,也可以拼音阅读。所述汉语编码文字能 够由计算机译码还原为汉字输出。电脑汉字编码文字的译码方法包括a、以所要译码的汉语编码文字为源文件,译码得到的汉字或汉字序列为目的文 件;b、从源文件中读出由电脑键盘输入的汉字编码文字的英文字母符号串时,先搜索 外名数据库,看是否有完全符合的目的字符串,如果有,就输出与汉字编码文字相匹配的汉 字,如果没有,则在后轻码数据库中查找该英文字母符号串是否是后轻词;c、如果是后轻词,则输出与汉字编码文字相匹配的汉字,对于在外名数据库和后 轻码数据库中都查不到的汉语编码文字的词,则依次每次读出一个音节,到拼音表意码数 据库中查出对应的汉字并输出,完成了一个电脑汉字编码文字的译码;d、重复步骤a c,直至源文件全部译码为止。原则上,输入本发明的汉语编码文字像输入英语一样不需要任何软件的帮助。但 是在使用的初期,当我们对汉语编码文字还不够熟悉,记不住每一个汉语词的目的字符串 时,汉字提示输入软件则是必要的。该软件在屏幕左边显示一提示窗,提示窗的内容是根据 操作者的击键随时显示出所要输入的汉字的变换式以供参考。例如要输入“祖”字,键入声位字母z后,提示窗内就显示出一串以z为声母的字的变 换式。键入韵位字母u后,提示窗内就显示出所有“祖”字的同音字的变换式。如果操作者 记得“祖”字的的变换式为“祖一zun”,就可以不管提示窗的内容是什么,而直接键入三个 字母,这个字就算输入完毕。如果不记得调、义位的字母是什么,就可以到提示窗内去寻找 “祖”字的变换式,然后根据它键击第三个字母。每输入一个字母,屏幕上就显示这个字母。 每输入完一个汉字的目的字符串,在其下方就显示这个汉字。编码文字与汉字对照显示如下zungoi ustsvx ! vicy jus yis livlh.祖国 万岁! 知识就是力量。送入电脑内存的只是上面一行汉语编码文字。下面的汉字是编码文字译码后的产 物,起验证输入正确性的作用。
权利要求
一种可作为输入码和内码的电脑汉字编码文字的编码方法,其特征在于,该编码方法是将汉字表示的词编码成由拼音表意码、后轻码及外名码组成的英文字母符号串,每个汉字所对应的拼音表意码包括1~4个英文字母,其中,第一个字母表示声,第二个字母表示韵,第三个字母表示调和义,第四个字母为数字;具有轻读音的部分汉字所对应的后轻码用一个或两个字母表示;外名码由国际通用的拉丁字母拼写;电脑汉字编码文字的符号串可直接通过电脑键盘的英文键输入电脑,电脑输出时则通过译码还原为汉字输出。
2.如权利要求1所述的可作为输入码和内码的电脑汉字编码文字的编码方法,其特征 在于,所述拼音表意码包括源字符和目的字符串,所述源字符为汉字,目的字符串包括1 4个英文字母,通用汉字的拼音表意码形成拼音表意码数据库,数据库按目的字符串的字母 顺序排序,拼音表意码数据库中的汉字由其GBK码表示。
3.如权利要求2所述的可作为输入码和内码的电脑汉字编码文字的编码方法,其特征 在于,在拼音表意码的第一个字母中,表示声的“知、蚩、诗”分别以v、w、y表示,表示调和义 的第三个字母中,以a、b、c、d、e、f六个字母表示第1声,以g、h、i、j、k、l六个字母表示第 2声,m、n、o、p、q、r等六个字母表示第3声,以s、t、u、v、w、x、y、z八个字母表示第4声。
4.如权利要求2所述的可作为输入码和内码的电脑汉字编码文字的编码方法,其特征 在于,具有轻读音的部分汉字所对应的后轻码与拼音表意码的目的字符串组成后轻码数据 库。
5.如权利要求1所述的可作为输入码和内码的电脑汉字编码文字的编码方法,其特征 在于,所述外名码包括源字符和外名的国际通用的拉丁字母,所述源字符为外名的汉语译 名,通用的外名的汉语译名和与之对应的国际通用的拉丁字母形成外名数据库。
6.如权利要求1所述的可作为输入码和内码的电脑汉字编码文字的编码方法,其特征 在于,电脑汉字编码文字的译码方法包括a、以所要译码的汉语编码文字为源文件,译码得到的汉字或汉字序列为目的文件;b、从源文件中读出由电脑键盘输入的汉字编码文字的英文字母符号串,先搜索外名数 据库,看是否有完全符合的目的字符串,如果有,就输出与汉字编码文字相匹配的汉字,如 果没有,则在后轻码数据库中查找该英文字母符号串是否是后轻词;c、如果是后轻词,则输出与汉字编码文字相匹配的汉字,对于在外名数据库和后轻码 数据库中都查不到的汉语编码文字的词,则依次每次读出一个音节,到拼音表意码数据库 中查出对应的汉字并输出,完成了一个电脑汉字编码文字的译码;d、重复步骤a c,直至源文件全部译码为止。
全文摘要
一种可作为输入码和内码的电脑汉字编码文字的编码方法,该编码方法是将汉字表示的词编码成由拼音表意码、后轻码及外名码组成的英文字母符号串,每个汉字所对应的拼音表意码包括1~4个英文字母,其中,第一个字母表示声,第二个字母表示韵,第三个字母表示调和义,第四个字母为数字;具有轻读音的部分汉字所对应的后轻码用一个或两个字母表示;外名码由国际通用的拉丁字母拼写;电脑汉字编码文字的符号串可直接通过电脑键盘的英文键输入电脑,电脑输出时则通过译码还原为汉字输出。本发明的汉字编码文字既可作输入码,又可作内码,容易输入计算机且无重码,可避免不同内码的相互转换以及传输电子邮件时出现乱码,源字符集的汉字个数可无限扩充,具有精密、易读、高效表示汉语等特点。
文档编号G06F3/023GK101923399SQ20101019381
公开日2010年12月22日 申请日期2010年6月7日 优先权日2010年6月7日
发明者范显镔 申请人:范显镔
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1