新音素同声近位汉字码输入法的制作方法

文档序号:25036915发布日期:2021-05-11 17:09阅读:124来源:国知局
新音素同声近位汉字码输入法的制作方法

本发明属于计算机汉字编码输入法,它是对本人前一发明t型汉字码输入法的重大改进,采用了历时十年才发明出的同声近位技术,并且形部编码第二码取码时采用了历时二十多年才发明出的最多双层从左到右扫描技术,发明了音素同声近位汉字码输入法,今年国庆中秋节期间,我仍在发明,意外发现部首的选用取舍以及在键盘上的位置是可以定量化计算的,跟做数学一样,在键盘上只有唯一的排列,这是汉字输入法前所未有的创新,是对原有音素同音近位汉字码的重大改进,所以称为新音素同声近位汉字码输入法,当然还涉及了为实现这一输入法的键盘。



背景技术:

键盘输入法是目前汉字输入法中使用最广泛的输入法。键盘输入的特点是必须对输入的汉字进行编码,汉字编码是指用一组代码表示一个汉字,按汉字编码所在键,通常要按1~4键输入一个汉字。键盘输入按编码划分,可分为音码、形码、音形码三类。

音码一般以汉语拼音为基础,利用汉字的读音进行编码。形码利用汉字的字形特征进行编码。音形码则利用汉字的语音特征和汉字的字形特征编码。音形码又可分为只利用声母的音形码和利用汉字的整个音码的音形码两类,完整地利用了汉字的声母和韵母并且在规定音码部分在先,形部编码部分在后的话,这种音形码基本上不会影响思维,思维跟音码差不多,重码率又跟形码差不多,而且能与拼音兼容,越来越显示出其优越性。目前其他人发明音形码往往汉字部件较多或重码率较高,而本人发明的汉字码则在创新编码规则的基础上,仅仅用了28个左右的汉字部件,就能做到既简单又高速地输入汉字。但进一步研究发现:这一发明还存在着缺点,影响了推广。主要是在本发明汉字码中,横竖撇点(捺)折的频率大大高于任何多笔画部件,却排在键盘上击键不大方便的右下角的标点符号键和z键上,影响了击键效率和舒适感,同时不能与本人发明的音素字母相互兼容,同时本人进一步研究发现,将横、竖、撇、点(捺)、折分别用a、o、e、i、u编码的话,还有一个减少字词同码的意外优点,再进一步研究发现,有利于多笔画部件、部首在键盘上的精确排列定位。排列部首时采用拼音首字母,但很多常用部首同音,为此有些部首改按近形排列,即根据形似排列,但很多部首与英文字母难以相似,只能牵强误会地排列。为此本人发明了同音近位排列的方法,把拼音首字母或者说声母相同的部首排列在相近的位置,但排列在相近的位置时却没有定量化的计算方法,只凭经验和感觉。

另外由于用到了五种基本笔画,选用21个部首,这样部首和笔画总共才26个,跟26个英文字母数量接近,也便于显示在手机等小屏幕键上,要比选用28个部首更容易记忆,也更适合显示在手机等小屏幕上。

形部编码第二码的取码也是个头疼问题,将汉字分为左右结构汉字和非左右结构汉字取码的话,虽然简单容易识别是否为左右结构汉字,但编码时要不停区分是否左右结构汉字,也比较累。后来作了改进,按t形区分汉字编码,但编码的方向有时从左到右,有时从上到下,也感觉不大顺当。直到前几天半夜,我有了重大创新:突然梦到形部编码时从汉字的上、下层分别从左到右扫描取码、并且将非左右结构汉字的简码优先于左右结构的汉字取简码后,才彻底解决这个编码规则问题。

但有的部首很常见常用,却因重码较低,只能降低10多对重码,以及只有26个键位,而没有选取。但如果选取这些部件的话,将有利于一些追求打字速度的人。在新的发明中如何解决这一矛盾也是个难题。

另外音素同声近位汉字码输入法跟其他输入法一样,没有对部首进行定量化计算,存在着少数部首的选用取舍不大合理,少数同声近位的部首也没定量化计算,仅凭经验感觉排列,因而在键盘上的位置不大合理,本发明对部首定量化计算后,对少数部首的位置作了调整,使得部首在键盘上的排列有了科学依据和精确定位和客观计算,依据这套计算方法,所得出的部首在键盘上的排列几乎跟做数学题目一样客观。



技术实现要素:

这样,目前的汉字输入法要么汉字部件不规范或选取汉字部件数量不大合理;要么部首即汉字部件不是按拼音常用汉字中的组字频率、实用频率和重码率选取;要么五种基本笔画在键盘中的位置不合理,不能与音素字母兼容、容易造成字词同码;要么码长太长;要么重码过高,影响输入速度;要么只利用汉字的声母或拼音首字母;要么不够直观;要么取码规则不太合理,会影响头脑反应;要么取码时要不停区分是否为左右结构或一会儿横向取码,一会儿纵向取码;要么汉字部件在键盘上的排列规律性不强,甚至有点牵强;要么没有对多笔画部件进行定量化计算,选取舍弃以及在键盘上的排列凭借经验直觉性。都没能很好解决简单的不快速,快速的不简单这一技术难题,输入汉字不甚方便快速。

本发明的目的是提供一种汉字部件选取合理、笔画布局合理、规范直观、简单易学、取码规则合理、输入汉字简便快捷的计算机汉字编码输入方法,那就是新音素同声近位汉字码输入法。

为达到新音素同声近位汉字码输入法的目的,本发明规定新音素同声近位汉字码输入法的编码由音码和形部编码这两个部分组成。

音码部分可以采用中国大陆拼音或中国台湾注音,建议采用本人发明的音素字母声介韵输入法,该输入法类似于中国台湾的注音输入法,但韵母音素化表达,声母基本来自拉丁字母,与国际化接轨。当然音码也可用全拼或其它双拼或注音字母拼音或声介韵拼音或不完整拼音。

形部编码部分最多占二码。一般由两个代码组成,本发明优选了五种基本笔画和21个左右的多笔画部件参与编码,这五种基本笔画和21个左右的多笔画部件被统称为基本部件,多笔画部件全部选自汉字的偏旁部首,既简单常见又直观,并且数量少,并且多笔画部件布局上采用了全新的历时十多年潜心研究才突发灵感想出的方法即同声近位法,在键盘布局合理且容易记忆。由于国家语委将五种基本笔画也称为汉字部件,因此在本发明中称五种基本笔画称为单笔画部件,而其它21个左右的优选的汉字部件由多个笔画组成,称为多笔画部件,这些多笔画部件都是部首,因此叫部首也行。在形部编码时要优先按笔画多的基本部件编码,要优先按多笔画部件编码,否则选取多笔画部件的规定就变得无意义。形部编码的取码规则有三种:

第一种形部编码的取码规则是:独体字,按书写顺序取前二个基本部件的相应代码编码,或者按书写顺序取该汉字的第一个和最末一个基本部件的相应代码编码,当该汉字只有一个基本部件时,就只取这个基本部件的相应代码编码或者接连两次取这个基本部件的相应代码编码;合体字,按整体结构将合体字一分为二,先写部分为首部,后写部分为剩部,按书写顺序分别取首部的第一个基本部件和剩部的第一个基本部件的相应代码编码。

这一编码规则存在着一个弱点:那就是在形部编码时,取完每个汉字的第一个基本部件后必须考虑字型,即必须分清该字是独体字还是合体字,再根据两种不同字型采用两种不同的取码规则编码,这就会影响头脑反应,而且有的汉字很难判断是否为合体字,有时还难以将合体字一分为二,分成两部分。而按左右结构的汉字和非左右结构的汉字编码就容易得多,因为很容易分清一个汉字是否为左右结构,左右结构的汉字左边部分和右边部分有缝隙,很容易根据缝隙一分为二,分为左右两个部分。左中右结构的汉字,一般以第一个缝隙为准,把中间部分划入到右边部分,即左中右结构的汉字左边部分以外的部分算右边部分。

形部编码的第二种取码规则是:左右结构的汉字,分别按书写顺序取左边部分、右边部分的第一个基本部件的相应代码编码;非左右结构的汉字,按书写顺序取该汉字的第一个和最末一个基本部件的相应代码编码,只有一个基本部件就只取这个基本部件的相应代码编码或者接连二次取这个基本部件的代码编码。为防止绕过专利,或者规定:非左右结构的汉字,按书写顺序取取该汉字的第一个和第二个基本部件的相应代码编码,但这样的规定容易增加大量重码。

还要特别指出的是:之所以不规定所有的汉字都取前二个基本部件的代码或都取首末二个基本部件的代码编码,是因为这样规定的话表面上会使形部编码的取码规则显得简单易记,实际上却会造成大量的重码,或付出增加大量多笔画部件的代价。为什么“左右结构的汉字,分别取左边部分、右边部分的按书写顺序第一个基本部件的相应代码编码”能降低重码呢?因为汉字形声字占大多数,往往左边是偏旁部首,右边是声旁,声旁往往是一个表示声音的独体字。如果按一般的输入法那样按书写顺序取第一个和最末一个基本部件的话,会存在部首的第一笔与声旁的第一笔相同的情况,这会带来大量的重码。为降低重码,势必要选较多的部首,造成难以记忆的情况。那为什么“非左右结构的汉字,按书写顺序取该汉字的第一个和最末一个基本部件的相应代码编码。”呢?答案是也是为了减少部首,因为声旁的首笔和末笔往往不同,对于某个相同的声旁,左右结构的汉字,第二码取声旁的首笔,非左右结构的汉字,第二码取声旁的末笔,这样两个第二码的编码就不同,就能较好地避免重码。另外如果非左右结构的汉字按书写顺序取前二个基本部件编码的话,就容易造成较多的重码,因为很多上下、包围结构的汉字前二个基本部件相同,而最末一个汉字基本部件却不同,所以第二码按笔顺取最后一个汉字部件能有效地降低重码。可见这个取码规则能非常有效降低重码,使得本发明与其他人发明的输入法相比,所用到的部首大大减少,并且不要用到什么双笔画或三笔画,是千锤百炼的结果,不仅在常用3775个汉字中重码率很低,在国标6763个汉字中、在新华字典中的重码率也很低。

但是这一编码规则同样在编码时要不断区分是否为左右结构,虽然一个汉字是否为左右结构一目了然,但实际输入长篇文字时要不停区分是否为左右结构,思维仍然麻烦。这样实际取码时,就要用到本人历时二十多年才在前几天梦里突发灵感想出的方法即形部编码取码的第三种规则:形部编码的第一码是:先不管三七二十一,按书写顺序取该汉字的第一个基本部件的代码编码。形部编码的第二码,则采用了我冥思苦想,半醒半睡时突发灵感的取码规则:从该汉字的第一个基本部件的右侧开始,左到右边扫描或者说从左边到右边看一下,如果能用一条竖线在不割断该汉字的笔画的情况下,如果能将该汉字一分为二的,则该汉字为左右结构,竖线的右边的部分为该汉字的右边部分,再按书写顺序取该汉字右边部分的第一个基本部件的代码编码,如果不能用一条竖线在不割断笔画的情况下将该汉字一分为二,就从左到右扫描该汉字的下半层或者说下半部分,顺势找到这个汉字的按书写顺序的最末一个基本部件的代码编码或者取该汉字右下角所在基本部件的相应代码进行编码。之所以规定扫描该汉字的下半层是因为这样容易发现该汉字的最末一个基本部件。之所以规定从左到右扫描该汉字的下半层是因为这样就和左右结构的汉字的扫描方向相同,都是从左到右,并且于汉字的行文方向一致,要比以前像t形汉字码一样从上到下去汉字的右下角找更便于思维,不会发生一会儿从左到右取码,一会儿从上到下取码的情况。从左到右扫描该汉字的下半层或者说下半部分的方法在汉字各种输入法中闻所未闻,是个重大创新。

左右结构的汉字往往具有明显的间隙,很容易分清楚,所以不用竖线去分割也是可以,第二码只要从该汉字的第一个基本部件的右侧开始,从左到右扫描,找到整个汉字的左右部分的间隙,间隙的右边的部分就是该汉字的右边部分,再按书写顺序取该汉字的右边部分的第一个基本部件的代码编码,如果该汉字左右没有间隙,就从左到右扫描或者说看一下该汉字的下半层(或者说下半部分或者说下层部分),顺势找到这个汉字的按书写顺序的最末一个基本部件的代码编码。

简单地说,形部编码的第一码是:按书写顺序取该汉字的第一个基本部件的代码编码。形部编码的第二码取码时先从左到右扫描一下该汉字,如果该汉字为左右结构的,能找得到右边部分的,按书写顺序取该汉字的右边部分的第一个基本部件的代码编码。如果找不到右边部分的,就从左边到右边扫描一下该汉字的下半层,顺势找到该汉字的按书写顺序的最末一个基本部件的代码编码。不必像以前那样直接去汉字的右下角查找,那样思维上容易混乱。

注意遇到某些汉字如部首为“门”或者汉字的下半部分为“心、灬”等部件时视为整体部件,不能用竖线分割。遇到有的汉字中按书写顺序最末一个汉字部件为“甫、犬、戈、弋”等汉字部件时,第二码可以取最后一笔点的代码编码,也可以把最后一笔点去掉后编码,两者都可以,反正几乎不影响重码,这就是本发明的容错码技术的高明之处。

从形部编码的取码规则可以看出非左右结构的汉字相当于左右结构的汉字略显不便,因为左右结构的汉字只要从左到右扫描一次,而非左右结构的汉字要再次从汉字的下半部分从左到右扫描一次。所以本发明又作了创新。那就是非左右结构的汉字优先取简码,即便常用频率大大不如左右结构的汉字,也如此。即遇到非左右结构的汉字的形部编码第一码与左右结构的汉字的形部编码的第一个编码相同时,非左右结构的汉字优先取简码,只要输入该汉字的音码后,再输入形部编码第一码,敲击空格键,就可以输入该左右结构的汉字,当然遇到两个及以上个非左右结构的汉字的形部编码第一码相同时,只能指定其中一个非左右结构的汉字有简码。这一规定有个好处,那就是非左右结构的汉字由于是简码,不必再次从汉字的下半层从左边到右边扫描一次了。

顺便指出按书写顺序取这个汉字的最末一个基本部件的相应代码编码或者取该汉字右下角所在基本部件的相应代码进行编码时,绝大部分汉字的编码相同,但少数汉字的最末一个基本部件并不是在右下角,而是在其他位置,从查找的角度看,还是取右下角所在的基本部件比较方便,但有些汉字的右下角不明显,这时还是按书写顺序取该汉字的最末一个基本部件的相应代码编码比较好,本人处理的办法是给出容错码,即无论是书写顺序取这个汉字的最末一个基本部件编码或者取该汉字右下角所在基本部件的相应代码都可以。这一规定也是为了防止绕过专利。

本人研究还发现,将合体字一分为二后,同音同偏旁部首的合体字除偏旁部首以外的部分的第一笔为同类基本笔画的情况出乎意外的少,只有100多对,也就是说重码率将会很低,这一发现和创造性的取码规则是只选用5种基本笔画和21个左右的基本部件参与编码的原因所在。

在本人原先发明的输入法中选用了28个基本部件,为便于记忆很多基本部件都采用拼音首字母编码,但遇到拼音首字母相同的几个部首,哪一个按声母,哪一个不按声母也没有明确的标准,其中同音的部首主要集中在“s、h、j、r、y、z、c”上,拼音首字母同为s的部首有“氵、扌、山、石”,拼音首字母同为h的部首有“火、禾”,拼音首字母同为j的部首有“钅、纟”,拼音首字母同为r的部首有“亻、日”,拼音首字母同为y的有“月、讠、鱼”,拼音首字母同为z的部首有“竹、足、辶”,拼音首字母同为c的部首或者说多笔画部件有“艹、虫”。当时为便于记忆,原先汉字码输入法中排列多笔画部件时不按笔画数和横、竖、撇、点、折的次序排列,而按拼音或象形排列。对基本部件的拼音首字母排列时,为避免重码。对其余几个拼音首字母或声母相同的基本部件改按象形的方式排列。可汉字的方块笔画部件与西文字母毕竟有所区别,难以做到很相像,有点牵强误会。为了避免同音字,氵按点的读音编码,扌按形似f编码,其他同音的部首也有类似的牵强之处。本人在原先发明的汉字码中就意识到这个问题,但苦无良策,经过近十年的苦苦摸索和突发灵感,终于发明出全新的排列同音部首的方法,那就是键盘上同声近位法。即遇到几个声母或者拼音首字母读音相同的多笔画部件,选其中一个容易记忆的多笔画部件按声母或拼音首字母编码,不妨称这个多笔画部件为队长,其余的多笔画部件,就称为队员好了,根据键盘布局,队员排在队长所在的的键位上的旁边的位置,一般排在该键位的左边或右边的位置。即同声母或同拼音首字母的汉字基本部件一般并列排在键盘上的同一行,呈左右排列,当然遇到笔画或别的多笔画部件时,被笔画或别的多笔画部件所隔开也是应该的,但就在键位的左边或者右边处。这样就牢牢定位住了,显然十分容易查找和记忆,要比形似、笔画、口诀等排列方式更容易记忆,为全球重大首创。但何为队长,何为队员,在键盘上如何排列却没有定量化计算,当时的输入法也没有定量化计算的先例。

原先的发明由于选取的部首有28个,连同五种基本笔画,共有33个汉字基本部件,而键位只有30个,因此有些键位不得不排有二个汉字基本部件。而随着手机触摸屏的普及使用,手机屏幕也普遍使用26个字母了,如果一个键位排有两个键,则很难排在手机字母键上,所以一个字母键位排一个汉字基本部件是比较合理的。这样采用21个多笔画部件和5种基本笔画比较好。最初发明的汉字码是基于国标6763个汉字,在国标6763个汉字中,合体字占了绝大多数,约为95%。同音又同偏旁部首的合体字数量较多,约有五、六百对。其中氵、艹、口、木、扌、钅、亻、女、讠、忄、月、日、虫、土、纟、火、疒、竹、山、石、阝、禾、鱼、贝、鸟、足、辶等28个偏旁部首产生的同音字较多,为降低重码,这些偏旁被选了出来,分别用一个字母或别的符号编码。后来为了便于显示在手机等键盘上,只选用了21个多笔画部件。这将要舍弃7个多笔画部件,当时我意识到本发明要用到拼音,普通人用拼音输入时,一般只掌握3500个或3755个汉字的读音,在日常使用中也是基本上都只使用这么几个汉字。因此根据这3500个或3755个汉字中的偏旁部首频率和重码率编码更合理。而3500个或3755个一级常用汉字中的偏旁部首的组字频率和重码率与国标6763个汉字不尽相同。比如“宀”在6763个汉字组字频率不大高,但在3755个一级常用汉字中组字频率较高,建议入选。疒在国标6763个汉字中频率较高,但在3755个一级常用汉字中的组字频率并不高,在2500个常用汉字中的组字频率更是低,明显低于纟、宀、讠等,也略低于禾、阝、虫、石。“王、山、足”的组字频率在新华字典中很高,在国标6763个汉字中也比较高,但在3500个或3755个汉字中就不大高了,不如禾、讠、阝、虫、石,更不如纟、宀,在音素同声近位汉字码中被舍弃。竹字旁在3755个的组字频率和石字旁差不多。但在2500个常用汉字中组字频率明显不如部首“石”,因此选了“石”,舍弃了“竹”,当然舍弃部首“石”,选“竹”也是可以的。虫的组字频率在6763个汉字非常高,但在3755个汉字中就不大高了,只能勉强列入到21个多笔画部件中。这样优选了氵、艹、口、木、扌、钅、亻、女、忄、月、土、火、辶、日、纟、宀、讠、阝、禾、虫、石。当然把“宀”改为“疒”也可以,把如果把“石”改为“山”或“竹”或“疒”也不是不可以。如果想采用30个键位的话,还可选用组字频率次高的竹、疒(或改为“广”),再在“王、山、足、犭”中选取两个基本部件。从普及的角度看,越简单越好,舍弃“日、纟、宀、讠、虫、石、阝、禾”也可以。这些部件的选取和弃用,以及在键盘上的位置仍然是凭多年编码的经验和直觉。但在最新的发明中本人对这些部件进行了定量化分析,通过数学运算,做到了精准选取舍弃和在键盘键位上的科学定位。

在原先的发明中,横、竖、撇、点(捺)、折等基本笔画在形部编码中出现的频率较高,为降低重码,不宜与基本部件排在同一个键上。这是对的。但原先的发明中横、竖、撇、点这四个基本笔画排到标点符号键上,用标点符号编码,“折”按拼音首字母排列。当时觉得这样有利于降低重码,但后来进一步的研究发现这样的排列很不合理。因为在汉字码中选取的多笔画部件比较少,因此横、竖、撇、点、折的频率大大高于本输入法中其它的多笔画部件的频率,这点与一般的输入法完全不同。即便最常见的多笔画部件“口”也无法与五种基本笔画的编码频率相比。可这么高频的五种基本笔画却排在击键不大方便的标点符号键和z键上,其中z键还排有一个多笔画部件,同编码,这会影响打字的舒适性和击键速度,也会不方便在手机等小屏幕上。后来想过按五种基本笔画的拼音首字母编码,可“撇、折”仍然击键不便,也不好。还想过把五种基本笔画分别排在“d、f、g、l、;”上,但这么一来,要用到标点符号键,还会使得拼音首字母都为s的几个部首没法按同声近位法排列,更重要的是没法和本人发明的音素字母相兼容,因为本人发明的音素字母用五种基本笔画即丿、丶、一、丨、乚分别来表示a、o、e、i、u,其中丿、丶、一、丨、乚分别取自a、o、e、i、u等字母的第一个笔画,十分容易记忆。而英文键盘e、u、i、o都不是用小拇指的,位于键盘上排,还算顺手,a虽然用到小拇指击键,但在键盘中间排,还比较顺手。后来本人进一步研究还意外发现用五种基本笔画即丿、丶、一、丨、乚分别来表示a、o、e、i、u,在本发明中还起到了能减少字词重码的重要作用,并且利于对部首进行定量化分析、取舍和在键上定位。

定量化分析是新音素同声近位汉字码输入法相对于原音素同声近位汉字码输入法的显著进步之处,通过定量化计算,优选了21个汉字多笔画部件,并在键盘上精确定位。下面做具体解说:以新华字典app采用的汉字为标准,氵、艹、口、木、扌、亻(人)、土、钅在字首的组字频率非常高,能组成三百多个汉字,如果按笔画编码将会造成大量重码,所以应当选出来排在键上,分别用一个字母编码。多笔画部件或者说部首“虫、女、月”也能组成250个左右的汉字,“虫”的开头几笔是“口”,为了避免把“虫”当“口”编码,造成大量重码,“虫”应选出来,用某个字母编码。“女”、“月”如果按笔画编码,也会带来四五十对重码,也要选出,分别用别的一个字母编码。部首忄、火、讠、纟、石等组字能力还要略少些,约200来对,如果它们按笔画编码的话,其中多笔画部件忄能带来近40对重码;火能带来近40对重码;讠能带来约36对重码;纟能带来41对重码;“石”能带来35对重码;部首“日”、“辶”、“足”分别能带来40对、47对、36对重码;部首“王”、疒分别能带来近20对。按避免重码能力大小,部首辶、忄、纟、日、火、讠、足、石、王、疒也分别用别的一个字母编码。这样21个部首均已经选出来,分别用一个字母编码。部首“鱼”能带来24对重码,避免重码能力比“王”、“疒”等强,但从同音近位的排列方法看,只能排在;键上,用分号编码,分号靠近p,看勉强算是比较近位。由于部首“鱼”组成的汉字往往以“某鱼”的词组方式出现,比如“鲤鱼”、“鲢鱼”等,所以只选21个部首的话,就略弃了。其它部首如、阝、宀、山、禾、鸟等部首产生重码的数量要少些,的组字个数虽多,有210多对,但为上下结构,能产生14对重码,阝能产生11对重码,宀能产生13对重码,山能产生15对重码,“禾”能产生14对重码,“鸟”能产生13对重码,所以在新音素同声近位汉字码中都舍弃了。即相比于以前申请的音素同声近位汉字码输入法,舍弃了阝、禾、宀,选用了王、疒、足。如果不选用部首“足”的话,容易和部首为“口”的汉字发生重码。

为便于记忆,大多数部首都按拼音首字母排列或者说映射到键上,用拼音首字母编码。王、土、火、钅、口、忄、疒、女、木等多笔画部件都按拼音首字母编码,其余的多笔画部件则按同声近位法排列,下面作具体解说:

按同声近位的方法排列声母相同或者说拼音首字母相同的排列时也同样进行了定量化分析,通过定量化计算,有了客观可靠的依据。所选用的同样是新华字典app里出现的汉字。有些组字能力非常强的部首并不在各个拼音字母开头的音节中均匀分布,在某些拼音首字母开头的拼音音节中,以某个组字能力很强的部首开头的汉字的数量却很少,如果将这些组字能力非常强的拼音首字母相同的部首或者说多笔画部件用某个特定的拼音首字母编码,相应的当形部编码第一个码为这些特定的编码时,搭配上形部编码第二码时,形部编码的两个码与拼音音节发生重叠的概率较少,相应的与拼音音节对应的汉字也较少,这样能有效地避免字词重码。这一原理是同声近位方法的定量化计算的客观依据。比如扌的组字能力非常强,但在拼音首字母为f的汉字中,却只有2个汉字以扌开头。所以用f作为扌的编码能非常有效地避免字词重码。纟、石、扌、氵的拼音首字母都是s,按同声近位方法排列的话,排在s、d、f、g键上,如果都用s编码,按拼音查字法查的话,在拼音音节s中出现的组字个数分别为11、7、18、32个;在拼音音节d中出现的组字个数分别为5、15、11、12个;在拼音音节f中出现的组字个数分别为7、3、2、15个;在拼音音节g中出现的组字个数分别为9、7、12、17个。可见“扌”在拼音首字母或者说声母为f中出现的汉字中的组字能力最弱,只有2个字首为扌的汉字,所以扌用f编码最合理,同时也字形近似。“石”在拼音首字母为s中出现的汉字中的组字能力最弱,只有7个字首为“石”的汉字,所以“石”用s编码比较合理,同时很多输入法中“氵”用s编码,字首为氵的汉字在拼音首字母为s的汉字中出现了32个汉字,数量过多,容易造成字词重码,在原先的音素同声近位汉字码输入法中也是“氵”用s编码,在新音素同声近位汉字码输入法中纠正这一错误。纟和氵在拼音首字母为d的汉字中的组字能力相对于它们在s、d、f、g中都是最低的,纟在拼音首字母为d中的位于字首的组字个数只有5个,氵在拼音首字母为d中的位于字首的组字个数只有12个,粗略一看,纟用d编码比较合理,其实不然,因为这样编码的话,氵要用g编码了,而氵在拼音首字母为g的汉字中、在字首时的个数多达17个,而纟在拼音首字母为g的汉字中,在字首时的个数为9个,也很低,所以综合考虑,从总的汉字的个数较低的角度考虑,还是氵用d编码、纟用g编码比较好。也比较容易记忆。

日和亻(含人)的拼音首字母的r,按同声近位方法排列只能排在q和r键上,其中,“日”在拼音首字母r中出现的在字首的汉字的个数为1个,“日”在拼音首字母q中出现的在字首的汉字的个数为2个,“亻”在拼音首字母r中出现的在字首的汉字的个数为5个,“亻”在拼音首字母q中出现的在字首的汉字的个数为9个,从总的汉字个数较低的角度考虑,“日”用q编码,“亻”用r编码。

月和讠的拼音首字母都是y,按同声近位方法排列只能排在y和p键上,其中,“月”在拼音首字母y中出现的在字首的汉字的个数为8个,“讠”在拼音首字母p中出现的在字首的汉字的个数为3个,“月”在拼音首字母p中出现的在字首的汉字的个数为7个,“讠”在拼音首字母y中出现的在字首的汉字的个数为16个,从总的汉字个数较低的角度考虑,“月”用y编码,“讠”用p编码。

辶和足的拼音首字母都是z,按同声近位法,只能排在l、z键上,其中l、z分别位于键盘第二排的最右边和第三排的最左边,可以认为是近位的。辶只能出现在汉字的字尾,因此只要统计“足”在拼音首字母为l、z的在汉字字首的汉字个数即可,据统计,拼音首字母为z中,字首为“足”的汉字的个数为11个,拼音首字母为l中,字首为“足”的汉字的个数为11个,所以,从总的汉字个数较低角度考虑,足用l编码,辶用z编码。

艹和虫的拼音首字母都是c,按同声近位法,只能排在c、v两个键上,由于v是韵母,所以只要考虑它们在拼音首字母c中在汉字字首时出现的汉字的个数即可,虫出现了3个,艹出现了11个,从总的组字个数较低的角度考虑,虫用c编码,艹用v编码。

有的部首很常见常用,却因重码较低,只能降低10多对重码,以及只有26个键位,而没有选取。但如果选取这些部件的话,将有利于一些追求打字速度的人。在新的发明中对选取的几个部件进行双重编码,即既可以按笔画编码,也可以按部件部首编码,并且不便显示在手机等小屏幕键盘上。这几个部件称为双重部件或虚拟部件,也可称为双重部首或虚拟部首。之所以称虚拟部件是因为并不出现在手机等小屏幕的字母键上,却可以用标点符号键编码。即规定为双重部件既可以用笔画编码,也可以标点符号键编码。“鱼”的组字能力强,并且能避免24对重码,排在“;”键上,用“;”编码。再按偏旁部首的使用频率分,宀、阝、禾分别排在“,”、“。”、“/”键上,分别用“,”、“。”、“/”编码,见附图2。这也是相对于原来的音素字母的一个较大改进,更便于高手高速输入汉字。

通过优选21个左右的多笔画部件和五种基本笔画,创造性地规定形部编码的第二码的取码规则,创造性地采用同音近位法排列多笔画部件和将五种基本笔画用元音字母编码,并创造性地进行定量计算,精确定位,就做到了形部编码既简单易记,又能有效地区分同音字,在3500个常用汉字和国标6763个较为常用的汉字中重码率也很低,输入速度可以与五笔字型等输入法相比。这就解决了其他任何输入法都未能解决的难题,真正做到了简单直观、重码率很低、输入速度高,又能与最普及的拼音输入法或者注音输入法兼容,是一种唯一的理想的完善的能普及到中小学生的汉字输入法。

附图说明

附图1为形部编码键盘排列图之一

附图2为形部编码键盘排列图之二

附图3为音素字母韵母在键盘上的映射关系图之一

附图4为音素字母韵母在键盘上的映射关系图之二

具体实施方式

新音素同声近位汉字码输入法由两部分组成,一部分是音码,即读音,或称拼音码,另一部分是形部编码。这两部分组成编码时可以是音码在先,形部编码在后;也可以是形部编码在先,音码在后。但一经选定,就不能改变。为便于想打,与思维一致,为了与拼音输入法完全兼容、建议拼音在先,形部编码在后,在编码实例中就采用这种方法。拼音可采用全拼或双拼或简拼或不完整拼音,全拼即采用一个汉字的标准拼音,中国台湾的话,还可采用注音输入法,注意要把注音输入法中的表示声调的部分去掉,因为本发明的形部编码比声调区别重码能力高得多。双拼由于韵母多达35个,排列和记忆不便,始终无法普及。因此在新的发明,非专业打字员的话,不赞成用双拼。要么采用中国大陆拼音,要么采用中国台湾注音,中国台湾注音的码长较短,不算声调的话,一般只有二、三码,而中国大陆拼音码长最多的达6码,因此输入速度理论上讲比中国大陆拼音要快一点,可中国台湾注音声母没有拉丁化表示,韵母没有音素化表示。而本人发明的音素字母则做到了声母拉丁化表示,韵母音素化表示,并且书写简单,便于显示在手机等小屏幕上,码长又比拼音短,输入速度比拼音快,音素字母的缺点是如果一键一个音素字母的话,要用到标点符号键或数字键,有几个标点符号键或数字键的击键略微不便。音素字母单个字母的声母和拼音相同,拼音里面的翘舌音,可排在v、u、i键上,由于本发明能有效避免重码,不分翘舌音的话,照样重码很低,在本发明中可以按不做翘舌音看待,即不分翘舌音,即zh用z编码,ch用c编码,sh用s编码。音素字母的韵母也很简单,本音素化韵母可以与汉语拼音方案中的韵母方便地相互转换,只要记住一、丨、丿、丶、フ、r分别来表示《汉语拼音方案》组成韵母的字母e、i、a、o、u、n、ng、r,再按书写顺写即可。或者用∠表示。

英文键盘上各字母标点符号数字键与拼音韵母和音素字母韵母的一种映射关系图,见附图3所示:

a...a...o...o...丶或e...e...一

i...i...丨u...u...v...ü...v

/...ao...人。...ai...亻,...an...;...ang...

6...ou...7...ong...8...ei...9...en...

0...eng...ラ

附图中的“。”就是“.”所在的键,即“>”所在的键。

下面再对形部编码作详细说明。

先介绍一下汉字的分类知识。汉字可分为独体字和合体字二类。合体字是指具有左右、上下、包围、镶嵌结构的汉字。独体字指只有一个单个的形体,这种字大都是一些简单的象形字和指事字,因为这类字是从图画演变而成的,所以每一个字都是一个整体或形成离散的笔画。合体字可以根据整体结构一分为二,也就是说将合体字左部与右部或者上部与下部或者包围部分与被包围部分或者镶嵌部分与被镶嵌部分分开,可以分为首部和剩部。含首个笔画的部分称为首部,即首部含有汉字中按书写顺序的第一个笔画,除首部以外的剩余部分称为剩部。这一划分是很有用的,例如有的包围结构的汉字如“或”、“载”等字,它的包围部分按笔顺要分开书写,由于规定含有第一笔的部分为首部,不含第一笔的部分为剩部,“或”字的首部就为“戈”,余下的部分就为剩部,“载”字的剩部就为“车”,其它部分为首部。对左中右结构或上中下结构的汉字,既可规定将其中间部分划为剩部,也可规定将中间部分划分到首部,一般规定将中间部分划分到剩部。对上中下结构的汉字,既可规定将中间部分划分到首部,当然也可规定将中间部分划分到首部,一般规定将中间部分划分到尾部。

为降低重码,本发明还规定了成字优先的划分原则。当一个汉字为上中下结构或左中右结构时,若两边都能成字的话,要按“两边都成字优先”的原则划分,若一边能成字的话,要按“一边成字优先”划分。如“营”字,是上中下结构,若把艹列为首部,则两边都不能成字,若把“吕”列为剩部的话,一边能成字,因此要把“吕”列为剩部。又如“案”字,若把“宀”列为首部,则两边都不能成字,若

把“木”列为剩部的话,则两边都能成字,所以要将“安”列为首部,“木”列为剩部。当然这类字可采用容错码技术予以解决。容许一个合体汉字按不同的划分进行编码。

合体字的最佳划分方法是根据绝大部分的合体字都为形声字的特点进行划分,将汉字分为形部和声部二个部分,例如这样“案”字,声部“安”列为首部,表义的形部“木”列为剩部。“营”字的话,“吕”列为剩部,别的部分是表音,列为首部。还有的合体字为会意字,也可按会意结构拆分成二个部分。如“休”分为“亻”和“木”二个部分。

又将汉字的各种笔画按国家语委的规定归类为横、竖、撇、点、折五种基本笔画。笔画是书写汉字时,不间断地一次写成的一个线条,在只考虑汉字笔画的运笔方向,而不计其轻重长短时,可将笔画归类为横、竖、撇、点、折五种基本笔画,其中提并入横,竖钩并入竖,捺并入点,其余各种带转折的笔画并入折,在本发明中将横、竖、撇、点、折五种基本笔画称为单笔画部件。也有的输入法将竖称为直,将竖钩称为左竖钩。为降低重码,还优选21个左右的组字频率或实用频率高的由二个或二个以上的笔画组成的汉字部件排到字母键上,参与编码,因为笔画数在二个及以上,在本发明中称为多笔画部件,或称字根,或称部首,以区别于单笔画部件,或称基本笔画。多笔画部件和单笔画部件统称基本部件,有时也简称部件。

第一种形部编码的取码规则是:独体字,按书写顺序取前二个基本部件的相应代码编码:或者规定按书写顺序取第一个或者最末一个基本部件的相应代码编码,当只有一个基本部件时,就只取这个基本部件的相应代码编码;合体字,按整体结构将合体字一分为二,先写部分为首部,后写部分为剩部,按书写顺序分别取首部的第一个基本部件和剩部的第一个基本部件的相应代码编码。

本人在长期的编码研究中早就认识到一个汉字是否为左右结构是一目了然的,左右结构的汉字很容易在空隙处将它一分为二,而上下、包围结构的汉字有时不易一分为二,甚至有时难以分清一个字是独体字还是上下结构或包围结构。根据一个汉字是否为左右结构划分是最简单易学。遇到左中右结构的汉字,中间和右边部分算为右边部分或者说右部。

若将所有的汉字分为左右结构和非左右结构的话也可编码,仍可用附图1、附图3编码,也就是说所选用的拼音、基本部件以及代码仍不变。编码也由拼音和形部编码组成。形部编码的取码规则是:左右结构的汉字,分别取左边部分、右边部分的书写顺序的第一个基本部件的相应代码编码;非左右结构的汉字,按书写顺序取取该汉字的第一个和最末一个基本部件的相应代码编码,只有一个基本部件就只取这个基本部件的相应代码编码或者连取二次这个基本部件的编码。这时非左右结构的汉字,不能按书写顺序取前二个基本部件的相应代码编码,因为会造成重码,而应按书写顺序取该汉字的第一个和最末一个基本部件的相应代码编码。由于一个汉字是否为左右结构是很清楚的,不会产生歧义,除了“顺、川、州、儿”等少数汉字外,左右结构的汉字很容易左右部分产生间隙,只要根据间隙用一条竖线将该汉字一分为二就可。左右结构的汉字有时会遇到个别“川”“顺”“州”之类的汉字,“川”是由离散笔画组成的,作为独体字看待,“顺”的特点是由离散笔画再加一个汉字部件,组成一个汉字,一般建议整个离散笔画算左部,另一个汉字部件算右边部分,比如“顺”字,“川”为左边部分,“页”为右边部分。当然本输入法具有很大的容错性,“顺”字丿作为左边部分,其余部分作为右边部分也行。另外“灬”也不能用竖线去一分为二。

为减少不必要的重码,对于少数重心字,还可规定形部编码的第二码可按重心所在的第一个或最末一个基本部件的代码编码,建议按重心所在的最末一个基本部件的代码编码。所谓的重心字是指表示字义的部首在汉字的中间或尾部的特定形体汉字,如“嬴”“载”“颖”“竟”等字,形部编码的第二码可按重心所在的基本部件“女”的相应代码编码。又如“荧”等字,形部编码的第二码可按重心所在的基本部件“火”的相应代码编码,因为“荧”字中不包括“火”的部分实际上是表音的。左中右结构并且左边部分与右边部分相同的汉字的重心在中间部分,于是形部编码第二码可取中间部分的最末一个基本部件的代码编码。如“辨”字,形部编码二码可取中间部分的最末一个基本部件“撇”编码。左中右结构的“鸟”部的汉字,形部编码或者说辅助码的重心往往在“鸟”部,第二码按重心所在编码。.

由于汉字的最末一个基本部件基本上都在汉字的下层,一般在右下角,除了“甫、戈”等汉字部件按书写顺序规定右上角的点是最末一个部件。所以遇到含有甫、戈等汉字部件的汉字时,作为容错码,右上角的点可以忽略,即甫、戈分别以竖、撇做最末笔。

21个多笔画部件和五种基本笔画在键盘上的优选排列见附图1所示。21个多笔画部件、五种基本笔画与字母、标点符号的影射关系设定为:

a——撇b——疒c——虫d——氵e——横f——扌g——纟h——火i——竖j——钅k——口l——足m——木n——女o——点p——讠q——日r——亻s——石t——土u——折v——艹w——王x——忄y——月z——辶。

根据设定关系将多笔画部件和基本笔画分别用相应的字母编码。

下面作具体解说:为便于记忆,同时考虑组字频率、重码率等因素,本发明已经说明排列拼音首字母相同的多笔画部件的定量化计算方法。为便于记忆,可以把“人、月、石、辶、虫”,视为队长,记忆方法是人在月石中发现了行走(辶)的虫子。其余同声的部首视为队员。

25个多笔画部件和五种基本笔画在键盘上的优选排列见附图2所示。25个多笔画部件、五种基本笔画与字母、标点符号的影射关系设定为:

a——撇b——疒c——虫d——氵e——横f——扌g——纟h——火i——竖j——钅k——口l——足m——木n——女o——点p——讠q——日r——亻s——石t——土u——折v——艹w——王x——忄y——月z——辶;——鱼,——宀。——阝/——禾

有些偏旁会在组词后,形体会略有所变,繁简体的形体也会有所改变,必须视为同类基本部件,用同一字母编码,这类基本部件如亻和人,讠和言,钅和金,氵和水、氺,扌和手,忄和心,纟和糹等,特点是同源。基本部件也可包含个别与它形似的部件,用同一字母编码。如部件“土”可包含“士”,由于这两个部件仅有笔画长短之分,作为同一个部件编码可能更符合头脑反应习惯。纟与幺也十分形似,也可纟包含幺,为同一个部件编码也符合头脑反应习惯,当然也可不这么排列。

由于按第二种形部编码取码时也存在着要不停区分是否为左右结构的汉字的问题。因此按第三种形部编码的取码规则编码较为简单易记,在编码实例中就采用这种取码规则,并采用附图1编码。音码则列出了拼音和音素字母,供选择。

编码实例:如“汉”的编码,声母是h,韵母为an,音码部分就为han,按书写顺序第一个基本部件为多笔画部件氵,就按书写顺序取氵的编码为d,为左右结构,取该汉字右边部分第一个笔画“折”,“折”的编码为u,于是“汉”的编码为“handu”。采用音素字母的话,为“h勹”,对应键盘上的位置为“h,”。于是“汉”的编码就为“h,du”。又如“字”的编码,音码部分为zi,第一个基本部件为基本笔画点,编码为o,该汉字为非左右结构汉字,就再按书写顺序取“字”的最末一个基本部件“横”的代码e,于是“字”的编码为“zioe”,采用的音素字母的话,音码部分仍为“zi”,这样“字”的编码为“zioe”。如“这”字,全拼为zhe,形部编码时,按书写顺序取该汉字的第一个基本部件为“点”,代码为“o”,非左右结构汉字按书写顺序取最末一个基本部件辶的代码“z”,“这”的形部编码就为“oz”,编码就为“zheoz”,由于本发明是否为翘舌音,意义不大,翘舌音南方人也不大读得准,所以翘舌音可以去掉,编码为“zeoz”也可以。又如“木”的编码,双拼为mu,该汉字只有一个基本部件“木”,代码为m,“木”的形部编码就为“m”,于是木的编码就为mum。为了追求码长整齐划一,也可规定只有一个基本部件的汉字也可取第一笔或者最末笔的代码或者重复该基本部件的代码作为形部编码的第二码。本编码实例不作这样的规定。

附图3中用到了数字键,要跨排击键,有点不便,因此,由于w键和y键空置着,p在汉语中的频率非常低,韵母排在p键上几乎不会发生编码时字词重码,n键和r键也如此,因此将ei、en、eng、ou、ong排在w、r、y、n、p键上,这时英文键盘上各字母标点符号数字键与拼音韵母和音素字母韵母的一种映射关系图,见附图4所示:

a...a...o...o...丶或e...e...一

i...i...丨u...u...v...ü...v

/...ao...人。...ai...亻,...an...;...ang...

n...ou...p...ong...w...ei...r...en...

y...eng...

附图4中声母k和r的频率差不多,可将图中的r键替换为k键。

附图4的排列比较有规律性,即按拼音首字母分为a区、o区、e区,每区又按a、o、e、i、u、n、ng的次序排列。a区有ao、ai、an、ang,分别排在四个标点符号键上,o区有ou、ong、排在n或p键上,或者排在k、p键上。e区有ei、en、eng,分别排在w、r、y键上。符合击键规律,击键比较方便。频率比较高的韵母排在方便击键的键上,例如汉语中频率较高的en、ou排在击键比较方便食指所在的r、n键上,其他频率低点的e开头的和o开头的韵母排在其它键上。

对于少数懒得发抖的人,形部编码也可采用纯笔画,即按国家语委的规定,将汉字各种笔画归纳为五个基本笔画“横(提)、竖、撇、点(捺)、折”。输入一个汉字的拼音后,再按书写顺序输入该汉字的五种基本笔画分别对应的代码e、i、a、o、u。这时形部编码的码长可以为2码,也可以为不定码长,即取该汉字的所有笔画编码。

为提高输入速度,对于使用频繁的字,设计了简码。简码就是对常用的汉字只是取其完整编码的前编1个、2个或3个编码,再按1个空格键就能输入该汉字。由于规定音码在先,形部编码在后,许多汉要输入该汉字的简码,所以单字的编码实际上是音码为主,辅以形部编码,形部编码起到了辅助码的作用,一般的常用字只要输入形部编码第一码就够了。

由于汉字的拼音只有四百来个,汉字的二级简码也就只有四百来个,而本发明的编码空间有729个,因此,对于其余三百来个编码空间,还可设立简码词,以进一步提高打字速度。如汉字的拼音无kian的形式,双拼编码也就无ky的形式,而“k”、“y”却分别为“可”、“以”的声母,因此ky可以作为“可以”的编码。由于本输入法设有三百多个简码词,从理论上说词组输入速度要比单字更快,因此这会明显提高汉字的输入速度。在计算机上敲击完某个汉字或词组的简码所在的键后,再敲击空格键,就可输入相应的汉字或词组。

词语输入是提高汉字输入速度的最常用方法,由于规定音码在先,形部编码在后,词语输入就全部利用音码输入,音码在词语输入时,可采用全拼或双拼,以采用汉语拼音为例子,步骤是:

a、二字词语,取每个字的声母、韵母的代码依次输入;如“编码”代码为bianma。

b、三字词语,取每个字的声母或者拼音首字母的代码依次输入,再补空格输入;如“计算机”的代码为“jsj”。当然也可规定取第一字、第二字的前一码即声母的代码,再取第三字的前二码。还可规定再第一字的前二码,再取第二字、第三字的前一码即声母的代码。

c、四字及以上词语,取前三个字及最后一个字的声母的代码依次输入;如“科学技术”为四字词,取每个字的声母的代码为“kxjs”。又如“新疆维吾尔自治区”,编码取前三个字及最后一个字的声母的代码“xjwq”。

利用新音素同声近位汉字码输入法软件,在计算机键盘上敲击某个汉字或词组的相应的编码所在的键,就可完成输入。一般规定无重码且达到规定码长的汉字或词组自动上屏,不足规定码长的要按空格键,有重码的单字或词组根据提示行选择。音码采用双拼的话,码长最多四键,音码采用全拼的话,码长不定,本发明字词兼容。

形部编码也可以独立出来。作为一种输入法使用。这时码长最多为2码。按形部编码输入后再根据同样提示行选择汉字。不独立作为一种输入法时还可以前头加个引导符号比如v等再输入形部编码。再提示行选择汉字。

现在很多人用语音输入或者用拼音输入汉字,由于汉字同音字多,容易发生同音字错误,本输入法软件提供了强大的同音字修改功能,即进入同音修改功能,将光标移动到该错误的同音字前面或者后面,注意要么统一规定将光标移到该汉字的前面,要么统一规定将光标移到该汉字的后面。这时软件自动识别该汉字的读音,不需要再输入本发明的音码部分,只要输入形部编码,就相当于输入了该汉字的完整编码,没有重码的自动顶替原来的汉字,有个别重码的,根据提示行选择一下,所选择的汉字就会自动顶替原来输入错误的汉字。

本发明由于音码在先,与拼音输入法和注音输入法完全兼容,为更普及兼容,本发明还创造性地采用了双色候选字技术,即在候选窗中,输入字母后,会出现字词供选择,没采用形部编码的字词为某种颜色,比如绿色,采用形部编码的汉字即采用汉字码的汉字为另一种颜色,比如黑色,当几次输入黑色后,系统就认为懂汉字码技术,优先按汉字码输入汉字,以提高速度。

为了便于使用,还设置了容错码,对一些编码容易出错的汉字,在错误输入时也能出现所要输入的汉字。

需要指出的是在本说明书、权利要求书和说明书附图中的字母均不分大小写,字母的大小写是等效的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1