扩展拼音码计算机汉字输入方法

文档序号：6602689阅读：448来源：国知局

专利名称：：扩展拼音码计算机汉字输入方法
技术领域：
：本发明属计算机汉字输入
技术领域：
，是一种以扩展拼音码为基础的计算机汉字输入方法。汉语拼音是目前使用最为广泛的一种计算机汉字输入方法。一个好的汉字输入法应该符合国家文字规范，与文化基础教育相一致，汉字输入编码应该和字典查询码相一致，这是人们对汉字输入编码的普遍期望，汉语拼音符合这些条件。但是，普通的汉语拼音输入存在三大缺点1.不认识的汉字就不知道它的读音，无法用普通拼音方法输入，2.读音不准的汉字(如平舌音、卷舌音、前鼻音、后鼻音分不清)很难用普通拼音方法输入。3.相同读音的汉字在普通拼音中实在太多，因此造成重码多，不能盲打，影响输入速度。本发明的目的在于提供一种对不认识或读音不准的汉字也能输入，而且重码率低、输入速度快的计算机汉字输入方法。本发明提出的计算机汉字输入方法以扩展拼音码为基础。该输入系统的编码方法如下对于单个汉字，按该汉字的声(声母)、韵(韵母)、型(字型)、调(音调)的次序编码输入。其中，声码是必须码，输入时，在计算机键盘上输入相应的声母字母。为了对不认识的汉字也能输入，本输入系统设置了万能声母码“/”，即对应于键盘上的“/”符号键。对于零声母A、E、O开头的汉字，前面加伪声母V。对于卷舌音声母SH、CH、ZH，可以省去H，即SH、CH、ZH可分别用S、C、Z代替，避免发不准对输入带来的困难。对于韵母码，在键盘上输入相应的韵母字母，对于后鼻音韵母中的g可以省略，即ANG、ENG、ING可用AN、EN、IN代替。对于型码，用键盘上的0-9个数字表示汉字的10种字型。本输入系统中，将单个汉字按一分为二的形式折分，可归纳为如下几种形状类型符号数字码说明左右型1即可拆分为左右两个部分，例如组、林、把等。上下型2即可拆分为上下两个部分，例如尖、汞、型等。外内型3即可拆分为内外两个部分，例如，国、周、回等。对角型4即可拆分为对角两个部分，例如，过、这、遇等。独体型5浑然一体没有自然间隙的独体汉字，或虽有间隙，但不宜继续折分的组字部件，如犬、人、又等。附着型6即可拆分为一个字和一个组字部件，例如犬字。交叉型7即该字为独体字，且笔划有交叉，例如大字。粘连型8即该字为独体字，且笔划粘连在一起，例如人字。聚合型9即不能独立成字，有笔划间隙但不应拆分的偏旁部首。上述类型中，附着型、交叉型、粘连型、聚合型4种字型均可作为独体型处理，输入时可用数字码5。另外，数字码0表示任意字型。对于音调码，本系统用键盘上的“—”、“＝”、“＇”、“＼”4个符号键分别表示汉字的4个音调阴平、阳平、上声、去声。为了便于快速输入，本系统的输入编码中，可将韵母码，字型码，音调码分别省去或全部省去，组成简拼。例如，日RI，得DE＝，的D，低DI—。为了进一步减少重码率，本系统提出“组字词组”的概念，即将能够一分为二的汉字分为两个部分，这两个部分可以是独立的汉字，也可以是某一种偏旁。例“种”分为“禾”、“中”两个字，“花”分为“艹”、“化”两个部分。再按先左后右，先上后下，先外后内，先大后小的次序排列在原来汉字的后面，成为一个词组，我们称其“组字词组”。例如，种字的组字词组为“种禾中”，多字组字词组为“多夕夕”。然后将该词组按字序依次编码输入。本系统中“组字词组”中后二个字是用来修饰第一个汉字的。因此，虽然输入了二个或三个汉字的拼音，但是最终转换成一个汉字，不像后面将要提到的输入常用词组时对应的是该词组。对于“组字词组”中三个汉字的扩展拼音编码，通过压缩省略，一般只需三个汉字的声母码即可。例如，码→码石马→MAIMA(MASHM，MASM，MSM)→码；输→输车俞→SUCEYU(SHUCY，SHCHY，SCY)→输。对于不认识的汉字，也可以利用组字词组和万能声母编码输入，例如魑→魑鬼离→/GUILI→魑，骱→骱骨介→/GUJIE→骱。即编码时，第一个字用万能声母码“/”，第二，第三字一般可取声母和韵母即可。要熟练地使用“组字词组”来输入汉字，需要熟悉它们的“组字词”，以及常用偏旁的读音，这些都可以在系统编码表里方便地查到。我们知道，普通拼音对每个汉字一般只能输入声母和韵母二个信息(声调一般不用)。在汉语中，声母和韵母的各种组合不包括声调的话，总共不过四百种左右，而常用的汉字一般有二、三千个，这样，重码自然就多了。而在扩展拼音里，一个汉字可以用它的组字词组来编码，这时输入的信息量就大大增加，自然就不会有重码了，但另一方面，如果输入的信息量太多，编码长度就太长了。因此，我们在用扩展拼音编码时，一方面要利用它的组字词组信息量大的优势，增加输入的信息量；但另一方面又要利用扩展拼音可以省略韵、型、调的规则，来缩短编码长度。一般我们可以按照“声、韵、声、声”的规则来进行编码，即在组字词组里，取第一个字的声母码和韵母码，取第二，第三个字的声母码，甚至是取这个4个码的第一个字母进行编码，这就是本输入系统的一种推存码。我们知道，不同的汉字在使用中出现的频率是很不一样的。一般的汉字输入系统都将最常用的汉字放在提示行的最前面，以提高输入速度。但在实际使用中，某些原先并不常用的汉字有可能在某篇文章中变得常用起来，这就需要临时将这些汉字作为常用字来处理。本系统设置有常用字动态定义功能，常用字的定义是非常方便的，用户只需在第一次输入这个汉字的编码时，不要省略该字的字型编码，则以后该汉字就被定义成常用汉字了。比如，当我们发现《字》应该定义成常用字时，只需在第一次碰到该字时，在编码中包含它的字型信息，即用编码ZI②来输入它，其中②表示该汉字是上下型汉字，以后当你输入《字》这个字时，只要键入ZI，则《字》字就出现在提示行的第一个了。为了提高输入速度，本系统还设置了常用词词库，对于常用词，只要输入前面几个字的少量编码信息即可，例如输入该常用词组前几个字的声码。对于同一篇文章中有重复次数较多的词组输入，而此词组又非系统常用词词库里的词，本系统设置了常用词动态定义功能，即可定义该词组为常用词，并记录在系统的动态词组表里。其方法为，第一次输入时，依该词组字的次序按单个汉字编码的方式一个一个地输入编码。这样就自动地记录在系统的动态词组表里，以后遇到这些词组时，就只要方便地按扩展拼音码中最简短的编码法(即每一个汉字只输入一个声母)来输入他们就行了。由于本系统允许以多字词(包括常用词和“组字词组”)为手段进行汉字编码，其中每一个单字可以按声、韵、型、调的次序顺序输入，也可将“韵”、“型”、“调”分别省略，或者全部省略，因此，本系统编码使用非常灵活。以输入“改”字例，其编码GAI＇(＇为改字的声调)GAI1＇GAI18GAI185G185……(为改字的字型编码)GAIJIFANGAIJIFG＇JIFGAIJIGAIJF…GJF(改字的组字词组“改已文”的编码)。GAIGEGAI＇GGAIGG＇GG＇GE…GG(常用词，改革)以上都是“改”字的合法扩展拼音输入编码，其中GAI是标准的拼音编码，GAI1＇是扩展了字型信息的拼音码，GJF是利用组字词组的简短编码。而GG是利用常用词组来定字。由于‘组字词组’存在于待输入汉字的本身字形之中，所以这是输入不认识的单字或不常用单字的最有用手段。由上可见，本系统中一个汉字的扩展拼音码是很多的，即使将码控制在4键左右，编码数也不少。因此，扩展拼音码输入系统为用户提供了一个以拼音为基础的汉字编码框架，至于每个汉字的具体编码可由用户根据规则自己选定。由于本系统使用了“组字词组”的概念，涉及到对汉字一分二的拆分下面具体介绍拆分，方法，以便能确定少数疑难字的“组字词组”及其前后次序。一、合体字的拆分方法因为在扩展拼音中，汉字的拆分过程仅限于一拆为二，故有可能产生既非独立汉字又非偏旁部首的组字部件，如‘咅’等。对于这些在拆分过程中产生的没有读音的部件组合(以国标二级字库为标准)，一律将其命名为’LENG(俩)，取其意为’还可一拆为俩’。记号为“＝”。比如，培—>培土二(PEITL)，温—>温水二(WENSL)等。为了减少LENG的出现次数，我们把由多个相同字根组成的部件用单个字根来代替。比如婴—>婴贝女，爽—>爽大叉，嚣—>嚣口页，等。那么，由一拆为二而产生的两个偏旁字中，究竟哪一个在前，哪个在后呢？决定前后次序的原则对应于左右，上下，内外，附着这四种结构的合体字分别是’先左后右，先上后下，先外后内，先大后小’。对角型的汉字则一般按上下型处理。更直观些讲就是先写的部分在前，后写的部分在后。在判断汉字的字型结构，以决定两个字根的前后次序时，还可参考偏旁字的名称来决定，在偏旁部首表中，每个偏旁都有一个名称。凡是名称为‘字旁’的一般都是左右型结构，而名称中称为‘字头’或‘字底’的则大多是上下型结构，称为某某框的偏旁一般构成内外型结构。附着型的汉字不多，其中很多又是由‘点’组合而成的，故先大后小的原则是指主干字根在前，依附着的字根在后，下面我们举一些具体的字例来说明这些拆分原则。1.左右型汉字应先左后右左右型的汉字所占比例最大，具体例子如，由—>邮由阝，铀—>铀钅由，扭—>扭扌丑，浓—>浓氵农，输—>输车俞，陪—>陪阝二…等。这儿‘陪’字的‘组字词组’中的‘二’就是因为国际二级字库中没有此字，它也不是偏旁部首的缘故。2.上下型汉字应先上后下上下型的汉字也不少，比如，变—>变亦又，骂—>骂口马，毕—>毕比十，晋—>晋亚日。注意，这儿‘骂’‘的组字词组’中，一个‘口’代替了两个口，这是我们为了减少‘俩’字出现在组字词组中的次数而作的特殊规定，又如，磊—>磊石石。另外，对于那些在结构上是‘三行式’，或‘三列式’的汉字，如‘寨’，‘缈’等，则在一拆为二时就有两种拆法。此时我们应该遵循，‘独立汉字优先’和‘常用汉字优先’的原则。比如，‘寨’字可拆为‘宀+二’，也可拆为‘二+木’。因为第二处拆法的‘木’字是个独立汉字，而不仅仅是一个偏旁部首。因此，根据独立汉字优先的原则，‘寨’字应拆为‘二+木’。3.对角型汉字先上左，后下右。一般也把角型汉字看成是上下型。如果还要细分的话，对角型汉字包括很多种类。如边、疤、彪，石，栽…等。但不论什么情况，只要是组成汉字的二个偏旁字分别占据了方框的二个对角，那么它就是对角型汉字了。对角型汉字的组字词组的前后次序也是很容易确定的。根据对角型汉字的定义，我们知道，组成对角型汉字的二个偏旁字中，一个偏旁字占据了整个汉字方框的三个角，而另一个偏旁字只占据了一个角，显然，占据了三个角的那个偏旁字应在前，占据一个角的那个偏旁字应在后。虽然这个规定是十分自然而又正确的，但它和我们的习惯书写顺序却并不是绝对一致的。如，‘边’的组字词应该是‘边辶力’而不是‘边力辶’。4.内外型汉字应先外后内内外型的汉字如，国—>国口玉，闭—>闭门才，凤—>凤几又，裹—>裹衣果，衍—>衍行氵。归纳为内外形汉字的要点是呈四面包围或三面包围的字型，以及在一个汉字的中间或两个相同的汉字中间夹入某个字根。较特殊的情况是呈二面半包围的部首‘勹’，我们称之为‘包字头’，一般将它们归纳为对角形字的部首。如，匍—>匍勹甫。当然，在‘包’字中它是作为上下形的，因为它只占据了整个字的上半部分的二个角。另外，对于那些如‘班，辩，弼’等，在两个相同字根中夹着一个字根的情况，我们也都将它们归纳为内外形汉字，并将这两个相同的字根用一个来代替。如，辫—>辫辛纟等。5.附着型汉字应先大后小对于那些由一个主干字根再附上点或对称的小部件而组成的汉字，则一律称为附着型汉字。要注意的是，先大后小的原则和书写的先后次序有时并不统一。比如‘斗’字的组字词是‘斗十冫’而不是‘斗冫十’。当然，一般情况下它们是一致的。如，乘—>乘禾北，玉—>玉王＇，犬—>犬大＇。二、独体字的拆分方法对于那些混然一体，不存在自然分割空隙的汉字，我们称之为‘独体字’。扩展拼音码把独体字又分为二类交叉型，粘连型。要注意的是，在我们这个系统里，作为具有‘音，形，义’三个要素的独立汉字，都被认为是可以一拆为二的。当然这是人为的规定，目的是为了方便输入，因此在拆分独体字时应尽量将其拆分为两个能独立成字的汉字或通用字根。1.单笔划汉字‘一’和‘乙’的拆分方法对于‘一’，我们规定它的组字词组为‘一一一’。也即‘一’的输入编码可以是‘YIHH’，值得提起的是，我们规定所有的偏旁部首的组字词组是’..独体’。对于另一个单笔划汉字‘乙’，则规定它是由‘折’和‘钩’粘连而成的。也即在输入‘乙’字时，其输入编码可以是‘YIZG’。2.交叉型独体字的拆分方法交叉型独体字一般按先大后小的原则拆分为‘组字词组’，如，子—>子了一，秉—>秉禾彐，等。3.粘连型独体字的拆分方法粘连型汉字拆分出来的两个偏旁汉字，哪个在前，哪个在后，可参照上面合体字的四个原则，如粘连型独体字，厂—>厂一ノ(上下)，人—>人ノ捺(左右)，日—>日口一(先外后内)，等。这儿必须说明的是，我们所指的独立汉字是以国标二极字库为标准的。有许多一拆为二而得到的字根作为独立汉字，在大字典里是查得到的，但因为没有收入国标二级字库，故当它们出现在‘组字词组’里时只能以LENG来代替了。本发明提出的扩展编码计算机汉字输入方法，编码设计直观合理，方法简便，易学易懂，而且能输入不认识或读音不准的汉字，重码率极低，便于盲打，能够提高汉字输入速度。权利要求1.一种扩展拼音码计算机汉字输入方法，单个汉字按该字的声母、韵母、字型、音调的次序编码输入，其特征在于(1)声母码是必须码，在键盘上输入对应的声母字母，其中——不知读音的汉字用万能声母“/”表示，对应于键盘上的“/”键。——零声母A、E、O开头的汉字，前面加伪声母V。——卷舌音声母sh、ch、zh可省去H。(2)韵母码，在键盘上输入相应的韵母字母，其中后鼻音韵母可省略g。(3)字型码，用键盘上0-9个数字表示，数字与字型的对应关系为</tables>其中，附着型、交叉型、粘连型、聚合型均可作为独体型字用数码5表示。(4)音调码，采用键盘上的“—”、“＝”、“＇”、“＼”4个符号键分别表示汉字的4个声调阴平、阳平、上声、去声。2.根据权利要求1所述的扩展拼音码计算机汉字输入方法，其特征在于将一个汉字分为包括偏旁在内的二个部分，连同该汉字本身组成“组字词组”，其排列顺序为一分为二的两个部分按先左后右，先上后下，先外后内，先大后小的次序排列在原汉字的后面，然后依次编码输入。3.根据权利要求1或2所述的扩展拼音码计算机汉字输入方法，其特征在于上述的韵母码、字型码、声调码省略一种或几种，组成简拼。4.根据权利要求3所述的扩展拼音码计算机汉字输入方法，其特征在于输入系统中设置有常用词词库。5.根据权利要求3所述的扩展拼音码计算机汉字输入方法，其特征在于对于汉字输入系统中非常用词，按单个汉字编码方法逐个输入，即将该非常用词定义为常用词，记录在系统的动态词组表里，以后，输入该词组就只要按一个汉字输入一个声母的最简短的编码法来输入该词组。全文摘要本发明是一种以扩展拼音码为基础的计算机汉字输入方法。其中单个汉字按该字的声、韵、型、调的次序编码输入，声母码是必须码，不认识的汉字可用万能声母码表示。字型码用0-9的数字表示，对应于10种字型，音调码用4个特殊键表示。还可将汉字分成二个部分，连同该字组成“组字词组”，然后对该词组依次编码输入。上述编码可以省略韵、型、调的一种或几种，组成简拼。也可以定义常用词组。本发明编码设计合理，输入方法简便，易学易懂，而且重码率极低，便于盲打，提高汉字输入速度。文档编号G06F3/023GK1153942SQ96116240公开日1997年7月9日申请日期1996年1月30日优先权日1996年1月30日发明者汤南华申请人:汤南华

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汤南华
技术所有人：汤南华
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。