现代汉语信息全息拉丁化汉语语音码表示法的制作方法

文档序号:6337253阅读:260来源:国知局
专利名称:现代汉语信息全息拉丁化汉语语音码表示法的制作方法
技术领域
本发明申请的技术是一种现代汉语信息全息拉丁化汉语语音码表示法,属于汉字汉语信息处理技术领域。它用且仅用26个拉丁字母以词为单位对组成汉语单词音节的声、韵、调进 行全息编码并依次顺序书写、印刷、打印、储存、显示、通讯、传输等。二、 背景技术二十世纪四十年代起,计算机的飞速发展在全球范围内引起了一场以电子计算机为中心 的第三次技术革命,它把人类从繁重的脑力劳动中解放出来,开创了人类智力解放的新纪元。众所周知,计算机主要是通过处理128个ASCII码符号的方法来进行字符信息处理的, 由于26个拉丁字母在ASCII码符集内,因此,使用以英文为代表的,以26个拉丁字母为码 元的拼音文字的国家能够顺利地进行这次新技术革命,从飞跃发展的经济中得到好处。在第 一次世界大战之前世界上只有60个国家用26个拉丁字母来拼写表达本国的语言信息,而第 二次世界大战后使用26个字母来拼写表达本国语言信息的国家已经达到了 120个,其实这也 反映了我们这个星球上的大多数国家在这个问题上的价值取向。由于我国长期来一直未能发明出用且仅用26个字母全息拼写表达汉语信息的技术,因此 与世界极大多数国家不同,我国记录汉语语言信息仍然使用的是方块表意汉字,它不是一种 拼音文字,这就给计算机的汉语和汉字信息处理带来很大的麻烦。尽管1958年中国中央人民 政府颁布了《汉语拼音方案》作为表达汉语信息另一种辅助手段,但是由于受到当时历史条 件的局限,从现代计算机对信息处理技术的要求来f,《汉语拼音方案》本身还存在以下几个 方面的不足第一拼式太长,第二五个声调没有字善化且不在ASCII码的范围内,第三汉语 单词音节的声、韵、调没有便于计算机信息处理的从左到右的一维线性排列,而是上下排列, 第四如果没有非字母化的汉语拼音隔音节符号的隔音节帮助,汉语拼音在以词为单位连写时, 音节和音节之间往往容易发生混淆,产生混音现象。所有这些都不便于计算机对汉语信息的 处理。 一个便于计算机对汉语信息进行处理的汉语音节的语音码的理想状况是第一每一个 汉语音节必须含有声韵调全部信息,第二任意多的音节被连写在一起后,音节与音节之间不 能发生混淆,产生混音现象。第三整个语音码必须采用26个拉丁字母从左到右一维线性排列, 这样一方面能与ASCII码100%兼容,另一方面便于计算机信息处理;第四整个语音码必须 方便地与汉语拼音、汉语语音和以词为单位的汉字的转换;第五该语音码本身不需要被转换 成汉字或汉语拼音或汉语语音就能够方便地直接表达汉语信息,能够非常容易地被人们拼读 成汉语标准语音,从而根据这汉语标准语音理解出它所要表达的汉语信息的意义。为此,众多专家,学者在这方面进行了研究和探索,但是由于汉语是一种有声调的非常 特别的语言,要想用且仅用26个拉丁字母,就能够对包含汉语的22个声母(含一个零声母), 38个韵母,5个声调(包含一个轻声)进行编码,而且为了让任意多的音节被连写在一起后, 音节与音节之间不能发生混淆,产生混音现象,每一个音节里还必须隐含一个字母化的隔音 节符号,这样就使得该技术方案的难度非常大,这也可能是长期以来这个问题一直没有人有 效解决的根本原因,据了解,目前只有历史上的中国的文字改革方案中和目前的微软拼音里
用阿拉伯数字表示汉语音节的声调,表示汉语语音音节时采用"声母全拼+韵母全拼+数字表 示的声调"的方式,这样做是比目前的汉语拼音声调写在韵母上面有进步,解决了上面提到 的《汉语拼音方案》本身还存在以下几个方面的不足中的其中一个不足,即汉语单词音节的 声、韵、调没有便于计算机信息处理的从左到右的一维线性排列,但上面提到的《汉语拼音 方案》本身还存在以下其它几个方面的主要不足还是未能解决,从汉语信息的编码技术角度看,其实质是未能发明出用且仅用26个码元,特别是用且仅用26个拉丁字母作为码元对包含汉语的22个声母(含一个零声母),38个韵母,5个声调(含一个轻声)进行编码的技术,更不要说发明出由于仅用26个拉丁字母作为码元,汉语按词连写后的音节和音节之间的隔音节技术。三、发明内容本发明的目的是为了通过提供一种全新的根据汉语语音特点,用且仅用26个拉丁字母对 组成每一个汉语单词音节的声母、介母、韵母、声调进行科学合理的编码,汉语单词的每一 个音节按照"声码+介码+韵码+调码兼隔音节符号"的顺序,以按词连写的方式进行书写、 印刷、打印、储存、显示、通讯、传输等,从而达到用它来直接表达汉语信息,以克服以上 不足的目的。众所周知汉语是通过语言中最小的有意义的能够自由运用的单位——汉语单词来进行 信息表达和传递的,汉语单词由若干个音节组成(一般一个音节对应一个汉字,因此我们可 以将单独运用的一个汉字看作为一个单音节词,以上以下均同),不管每一个音节有多复杂, 它都是由声、韵、调三个部份组成。本发明釆用世界上通用的26个拉丁字母,按同音同形法 则对《汉语拼音方案》中的全部声母、介母、韵母、声调进行上述编码,并以一定的顺序书 写、印刷、打印、储存、显示、通讯、传输,再按照汉语的组词规律将任意多个音节以词为 单位,音节与音节之间不用空格连续书写、印刷、打印、储存、显示、通讯、传输就完成了 汉语单词的书写、印刷、打印、储存、显示、通讯、传输,以这些书写、印刷、打印、储存、 显示、通讯、传输的汉语单词(包括单音节词汉字)为基础就可以表达汉语信息了。例如我们利用本发明的方法分别表示以下汉语单词我们(w 6 men)wovmno; 会(hu 1 ) huiu;使用(sh T y 6 ng)xrvydu ; 汉语(h d n y Ci )hsuyyv ;拉丁文(1 Q d T ngw ^ n) laadqawnv。将以上单词按照所要表达汉语意思的语序以单词为单位,词与词之间用空格隔开依次书 写、印刷、打印、储存、显示、通讯、传输就可以表达一句汉语句子,该汉语句子可以有以 下三种表达方式1、 直接用本发明方法表达的汉语信息wovmnohuiuxrvydu hsuyyv laadqawnv.2、 用《汉拼》表达的汉语信息w 6 menhulshTy6nghdnyQ 13dT ngw § n。3、 用汉字表达的汉语信息我们 会 使用 汉语 拉丁文。同理我们可以用同样的方法书写、印刷、打印、储存、显示、通讯、传输所有的汉语单 词,以这些单词为基础,我们就可以书写、印刷、打印、储存、显示、通讯、传输任何我们
想要表达的汉语信息。通过以上三种用不同方式表达的汉语同一句子,我们还可以看到由于本发明的编码与《汉语拼音方案》具有一一对应关系(详见下面编码与汉拼对照表), 又由于《汉语拼音方案》可以脱离汉字直接用来表达汉语信息,同理根据本发明的方法书写、 印刷、打印、储存、显示、通讯、传输的汉语单词也可以脱离汉字直接用来表达汉语信息, 又由于《汉语拼音方案》所表达的以词为单位的汉语信息结合前后语义与以词为单位的相对 应汉字基本上具有一一对应关系,根据递推规律用本发明书写、印刷、打印、储存、显示、 通讯、传输的以词为单位的汉语单词与相对应的以词为单位的汉字也具有这种 一 一对应关系, 同时在用本发明方法书写、印刷、打印、储存、显示、通讯、传输的汉语单词码直接表达汉 语信息时,其标点符号的用法和意义采用同英文相一致的方法,这样用本发明方法书写、打 印、显示、通讯、传输的汉语单词码就可以脱离汉字直接以与ASCII码100%兼容的西码状 态(26个拉丁字母状态)表达汉字汉语信息,同时也就决定了它可以仅在需要时转换成相对 应的汉字或汉语拼音或汉语语音。这也就表明了,用本发明方法书写、印刷、打印、储存、 显示、通讯、传输的汉语单词码具有全息可逆的特点。由于与汉字或汉语拼音不同,本发明 方法所采用的语音码与ASCII码100%兼容,因此,所有西文软硬件资源不加改造就能用来 处理用本发明方法表达的汉语信息,这些也就是与当今所有其它各类汉语信息表达方式相比 本发明取得显著技术进步的地方。本发明具有简单易学的特点,能广泛应用于计算机汉语、汉字信息处理,为汉语阅读机、 口授机、外文翻译机的诞生莫定了基础,同时由于采用26个字母进行编码,因此世界上一切 能处理26个字母的信息处理机都能处理利用本发明所表达的汉语信息。通过在实践中的不断 完善和普及,用本发明方法书写、印刷、打印、储存、显示、通讯、传输的汉语单词码,还 可以发展成为一种汉语的拼音文字,可以象用英文处理英语信息一样方便地处理汉语信息。 四具体实施方式
下面结合实施例对本发明的具体实施方式
作进一步的说明。 (一)汉语每一音节声、韵、调的编码方法(注括号内的符号均为汉语拼音符号,不带括号的字母为本发明的汉语每一音节声、 韵、调的编码,以上以下叙述均同。)1、声码的编码 b: (b)p: (p) n: (n) l:(l) q: (ch), (q) z: (z)c: (c)m: (m)f: (f) d: (d)g: (g) k: (k) h: (h) x: (sh), (x) r: (r)s: ( s ) y: (y ) w: ( w)t: (t)j: (zh) (j)声母除汉语拼音的(zh)、 (ch)、 (sh)用j、 q、 x编码外,其它都采用与原来汉语拼音符 号相同的编码。因为在汉语音节中除(i)外,能直接与汉语拼音(j)、 (q)、 (x)相拼的介母、 韵母都不能直接与汉语拼音的(zh)、 (ch)、 (sh)相拼,反之亦然。所以为了缩短拼式,将 (zh)、 (ch)、 (sh)分别采用j、 q、 x进行编码,表达汉语信息时就不会产生混拼和歧义。另 外,若汉语音节无声母时,书写、印刷、打印、储存、显示、通讯、传输时允许省略声码。2、介码的编码i : (i)u: (u)y: ( (J )
同的符号,这样的编码主要是为了方便记忆和将语音码的码元控制在26个字母内,在书写、 印刷、打印、储存、显示、通讯、传输码元时,要注意把有介母的音节将其对应的介码表示 出来。另外,若汉语单词音节无介母,则书写、印刷、打印、储存、显示、通讯、传输时可 省略介码。
3、 韵码的编码a: (a)o: (o)e: (e) i: (i) u: (u)y: ( ii ) k: (ao) c: (ai)s : ( an )x: ( ou )w: ( ei )n: (en) z: (ua) 1: (uo)b: (ang) d: (ong) p: (eng) q: (ing) g: (ng)(无声母韵母)er:(er) r: (i)[只与(zh)、 (ch)、 (sh)相拼)
韵码除单韵母的编码釆用与原汉语拼音单韵母相同符号进行编码外(将(ii )用y进行 编码),其余复合韵母的编码釆用辅音字母,以缩短码元的长度,之所以采用辅音而不釆用元 音进行编码是为了防止汉语单词编码后,汉语单词码产生混拼和歧义。因为韵码位置的元音 本身可作韵母,而辅音字母则相反。为了便于记忆,五个带后鼻音的韵母都采用字形带"o" 圈的字母b、 d、 p、 q、 g进行编码,带有介母的韵母除(ua)、 (uo)、 (ing)采用辅音字母z、 1、 q进行编码外,其它都不另外进行编码,之所以要对(ua)、 (uo)进行辅音字母的编码, 主要是为了在轻音码省略时不引起本发明码的误读,因为(ua)、 (uo)中的(a)、 (o)即可 以代表韵母又可代表声调,举例来说,汉语拼音(guo)(轻声),在(uo)不进行一个辅音字 母编码时(guo)表示成guoo,此时轻音码"o"不能省略,否则guo会被误译成(gu)(轻 声),将(uo)采用辅音字母l进行编码,则(guo)(轻声)的语音码表示为glo,此时可省 略轻音码"o"语音码变成gl (guo)不会产生误拼和歧义,用辅音字母q来对(ing)进行编 码是为了缩短码元的长度。其它有介母的复合韵母不再进行辅音字母的编码是为了符合人们 的拼音习惯和减轻人们的记忆负担。与汉语拼音(zh)、 (ch)、 (sh)相拼的(i)音采用辅音 字母r进行编码,以避免汉语拼音的(j)、 (q)、 (x)与汉语拼音的(i)相拼时相混淆,即本 发明中的jr、 qr、 xr分别代表汉语拼音的(zhi)、 ( chi )、 (shi), ji、 qi、 xi分别代表汉语拼 音的(ji)、 (qi)、 (xi)。这里之所以选用r来进行编码该音,还有一种该音节是翘舌音的暗示, 方便记忆。
4、 调码的编码a:(—)阴平e: (/)阳平v: ( V )上声u: (\)去声 o:(不标)轻声
调码的编码除了上声(V)用一个汉语不用的辅音字母v进行编码外,其余均采用元音 字母a、 e、 u、 o来进行编码,将声调码采用元音来进行编码而不采用辅音来进行编码, 一方 面是为了避免按本发明方法表示的单词码在前一音节轻音"o"省略情况下引起误拼,而辅音 v例外,因为汉语中没有v这个声母,另一方面,调码只有采用元音和一个汉语不用的辅音v 来进行编码,再结合前面声码、介码、韵码字母类型的科学选择和相应的编码按排及每一音 节按"声码+介码+韵码+调码兼隔音节符号"的顺序依次编码,所表示的汉语单词码中的调 码的隔音节作用才能得到最终实现。另外,为了缩短拼式,在不会引起误拼时,允许省略轻 音调码"o",但当一个音节中用,a、 o、 e、 u作韵母时,后面的轻音调码"o" —般不能省略。
(二)利用上述编码的汉语信息全息表示方法是以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼 音方案》中的拼音,依次按"声码+介码+韵码+调码兼隔音节符号"的顺序书写、印刷、打 印、储存、显示、通讯、传输,书写、印刷、打印、储存、显示、通讯、传输时同一个单词 的多个音节不用空格隔开连续书写、印刷、打印、储存、显示、通讯、传输,单词与单词之 间用空格隔开。这里由于将独立运用的汉字看作单音节词,因此,本发明方法的汉字语音码的书写、印 刷、打印、储存、显示、通讯、传输方法和汉语单词的方法相同,我们将由若干个单词组成 的一组词称为词组,本发明的词组的表示方法同汉语句子表示方法相同。 一般整句整篇以词 为单位表示汉语信息时,理解时一般不需要进行同音字词的选择,原则上听起来不会产生歧 义的句子,书写、印刷、打印、储存、显示、通讯、传输后也不会产生歧义。下面例举一些用本发明方法表示的汉语单词码和相对应的以词为单位的汉字及用《汉语 拼音方案》表达的相对应的汉语拼音。(带括号的是《汉拼》不带括号的是用本发明方法表示 的汉语单词码和相应的汉字)。tdaglu通过(t 5 iiggu 6 )(双音节词)yivxbu以上(y T sh d ng)(双音节词)xibexiude详细的(x 1 angx' 1 de)(三音节词)j ieuxku介绍(j i 6 sh d o )(双音节词)daujiaa大家(d 。 ji a)(双音节词)duiu对(du 1 )(单音节词)bnvjusaliu本专利(b § nzhu 5 nl 1 )(三音节词)xnaqqv申请(sh § nq T ng )(双音节词)de的(de)(单音节词)qubuzkuxqu创造性(chu d ngz d ox 1 ng )(三音节词)jieqie及其(j 1ql')(双音节词)teudisv特点("di 3 n )(双音节词)yiedqu一定("'cM ng)(双音节词)yxvle有了(y 5 ule )(双音节词)yiegeu—个(y 1 g 6 )(双音节词)bivjiku比较(bT jido)(双音节词)qysemisude全面的(qu <5 nmi d nde )(三音节词)likvjiev了解(li 3 oji § )(双音节词)将这些单词词与词之间用空格隔开,单词与单词之间依汉语语序连续书写、印刷、打印、 储存、显示、通讯、传输就可以表示一个汉语词组或汉语句子信息,由于词组的表示方式和 汉语句子的表示的方式相同,这里就不再累述,仅以书写、印刷、打印、储存、显示、通讯、传输的一句汉语句子信息为例Tdagluyivxbu xibexiude jieuxku, daujiaa duiut6nggu6 yTshdng xifingxlde jieshdo, d6jiQ du 1通过 以上 详细的 介绍, 大家 对bnvjusaliu xnaqqv deb § nzhu 3 nl ,sh § nq T ng de本专利 申请 的teudisv yiedqu yxvle yiegeut e di 3 n y 1 d 1 ng y 5 ule y i' g e 特点一定 有了qubuzkuxqu jieqiechu d ngz d ox 1 ng j 1 q i'创造性 及其 bivjiku qysemisude likyjiev.__水bTjido qu。nmidnde lifiojie。 比较全面的 了解。 依次类推用上述方法可以对所有的任意多音节的汉语单词信息进行书写、印刷、打印、 储存、显示、通讯、传输,以这些汉语单词为基础就可以表示任何汉语信息,从而方便进行 各种汉字、汉语信息处理。
权利要求
1.一种现代汉语信息全息拉丁化语音码表示法,其特征在于所说的语音码表示法是根据汉语拼音的特点,用且仅用26个拉丁字母对汉语拼音的声母、介母、韵母、声调采取先编码再顺序拼写的方式来表示汉语信息。
2. —种如权利要求书1所述的语音码表示法,其特征在于所用的语音码以单词为单位, 这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音, 依次按"声码+介码+韵码+调码兼隔音节符号"的顺序编码,并通过得到的语音码的编码直 接表达汉语信息,编码时同一个单词的多个音节不用空格连续编码,单词与单词之间要有空 格隔开。
3. —种如权利要求书l或2所述的语音码表示法,其特征在于用于表示汉语信息的语 音码的声母全部用辅音拉丁字母表示。
4. 一种如权利要求书3所述的语音码表示法,其特征在于用于表示汉语信息的语音码 的声母除了 (zh)、 (ch)、 (sh)的声母分别用j、 q、 x三个辅音拉丁字母表示外,其余的声母 用与汉语拼音相同符号的辅音拉丁字母表示。
5. —种如权利要求书1或2所述的语音码表示法,其特征在于汉语拼音的(zhi)、 (chi)、 (shi)分别用语音码的jr、 qr、 xr表示;汉语拼音的(er)用语音码的er来表示。
6. —种如权利要求书1或2所述的语音码表示法,其特征在于用于表示汉语信息的语 音码用26个字母中的一个字母,比如用y来表示原来汉语拼音单韵母和介母中的(ii ),其 余单韵母和介母的编码采用与汉语拼音单韵母和介母相同的符号。
7. —种如权利要求书1或2所述的语音码表示法,其特征在于用于表示汉语信息的语 音码除了部分带有介母的复合韵母外,其余的复合韵母的韵码用辅音字母表示,例如用拉丁 字母k、 c、 s 、 x、 w、 n、 z、 1、 b、 d、 p、 q、 g(无声母韵母)分别表示汉语拼音的(ao)、(ai)、 (an)、 (ou)、 (ei)、 (en)、 (ua)、 (uo)、 (ang)、 (ong)、 (eng)、 (ing)、 (ng)
8. —种如权利要求书1或2所述的语音码表示法,其特征在于用于表示汉语信息的语 音码其调码用四个元音字母和一个汉语不用的字母v表示,比如用拉丁字母a、 e、 v、 u、 0分别表示汉语拼音的阴平(—)、阳平e: (/)、上声v: ( V )、去声u: (\)、轻声o (不标)。
9. 一种如权利要求书1或2所述的语音码表示法,其特征在于当直接用语音码编码来 表示汉语信息时,其标点符号的用法同英文的标点符号的用法相同。
10. —种如权利要求书1或2所述的语音码表示法,其特征在于这里的现代汉语信息 全息拉丁化语音码表示法包含一切与按本法顺序和编写格式相同且与ASCII码100%兼容的 汉语信息的表达方式,这种表达方式可以是但不局限于比如语音码单独或与汉字、汉语拼音 对照书写、印刷、打印、储存、显示、通讯、传输等方式。
全文摘要
本发明是一种现代汉语信息全息拉丁化语音码表示法,属于汉字汉语信息处理技术领域。它用且仅用26个拉丁字母以词为单位对组成汉语单词音节的声、韵、调进行全息编码并依次顺序书写、打印、储存、印刷、显示、通讯、传输,克服了目前所有汉语信息只能用汉字和汉语拼音表示且汉字和汉语拼音与ASCII码不能100%兼容的弊端。本发明能广泛应用于汉字和汉语信息处理、图书出版、汉语汉字教学、农村地区扫盲和对外汉语教学等领域。类似于汉语拼音可以直接表达汉语信息一样,采用本发明,汉语语音码不需要转换成汉字和汉语语音,就可以直接表达汉语信息,特别是为不识或不习惯汉字的人学习、了解、掌握、表达汉语信息和汉语普通话提供了极大的便利。
文档编号G06F3/023GK101118539SQ200610029629
公开日2008年2月6日 申请日期2006年8月1日 优先权日2006年8月1日
发明者苗玉水 申请人:苗玉水
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1