一种基于汉字基础部件的汉字象形码计算机输入法的制作方法与工艺

文档序号:12014584阅读:237来源:国知局
本发明涉及计算机输入技术,特别提供了一种基于汉字基础部件的汉字象形码计算机输入法。

背景技术:
自上世纪八十年代初,汉字输入法编码形成新的一大流派,并一直影响至今,这就是字根类编码汉字输入法,该法理论认为,成千上万的汉字都是由笔画组成字根,再由字根构成汉字的,因此,只要把这些汉字的字根分析出来,再印到键上,一个字有哪几个字根就打哪几个键来组字就可以了,因此这种编码方法受到人们的普遍关注,然而,这种编码自从诞生时起也就与难学联系在了一起,形成所谓“好学的不好用,好用的不好学”这一瓶颈问题,为了寻找到既好学又好用的编码方案,各种汉字拆分方法的字根类编码方案纷至沓来,在这里,汉字的拆分工作在不同地区、不同系统中自发进行,导致汉字拆分呈现五花八门、纷纭交错的结果,如一个“羊”字竞有五种不同的拆分方法,这种状况给汉字教学和汉字信息处理工作带来极大的不便,如果不对字根进行规范,语言文字的规范工作必然要受到冲击,汉字信息的传播和接受无论在速度上,还是在准确度上都会受到严重影响,为此国家部门在上世纪末把社会上流传的各种字根类统筹归并成汉字部件,并颁布《信息处理用GB13000.1字符集汉字部件规范》,于1998年5月1日起实施。上述汉字基础部件规范的颁布,意味着字根类编码只能依托汉字部件,其它任何随意拆分汉字编码的行为将不能被国家部门认可,难以得到推广和普及,也不能进入中小学校。那么采用汉字部件能否研制出简单易学的编码方案吗?在GB13000.1字符集汉字部件规范中,总共有560个汉字部件,这是根据字源关系确定的,在这里很多独体字就是字源字,而很多字源字又结构比较大,也就是平均笔画比较多,这里称之为大部件,例如“垂、鬼、黑、黄、鹿、鼠、我、象、熏、庸、重”都是汉字大部件,这些大部件在汉字编码中也是不能再拆分的,而不再拆分这些大部件都只用一个字母编码,那么用哪个字母编码,人们怎样记忆,会产生多少重码,这些都成问题,那怎样解决呢?传统形码编码是这样解决的:虽然每个汉字部件都只对应一个字母,也就是一码,但汉字的码长还是可以调整的,例如对于固定为4键的编码方案,如果是部件字或部件数少于4个的字,为增加码长则用笔画码补充,相反对于部件数超过4个的字则舍弃多余部件,例如目前流行最广的五笔字型输入法就是这种模式。采用这种模式编码方案为方便人们使用,一般都有汉字部件在计算机键盘的分布图,印在纸上甚至镌刻在计算机键盘上,目前这种模式编码方案是汉字形码中的主流输入法。但上述这种模式编码方案并没能解决难学的问题,造成复杂原因有三:一是按字源关系记部件及部件对应的字母键,二是部件的舍弃规则,三是笔画的补充规则。在这里除了用汉字部件属性编码之外,又增加了汉字笔画属性编码,也就增加了学习难度,因此五笔字型输入法经三十多年努力也没能达到普及程度。可以说到目前为止,还没有哪一种形码能够普及,也没能进入中小学校,因此直接采用汉字部件是不能研制出简单易学的编码方案,要突破这一瓶颈还需另辟蹊径。汉字部件是整字拆分的结果,这里首先分析汉字拆分的作用,如果不拆分汉字,每个汉字都作为独立构件都用1个字母表示,那么数千个汉字分布在26个字母键上,虽然每字只按1键,但这种编码几乎是不可能的;如果汉字拆分成2个构件,那么每个汉字就要用2个字母表示,因此从某种意义上说,汉字拆分的直接结果是增加了码长,因为汉字含有相同结构,例如“沙、汉、汝、泽……”可拆分出相同的“氵”等,这时独立构件数会大量减少,重码也减少了,学习也就简单了,因此说码长的增加能够有效减少独立构件数量和减少重码,这使汉字输入方法趋于简单化,当然码长也不能过度增加,如果把汉字都拆分成笔画,那码长过长就适得其反了。既然汉字拆分的结果能够增加码长,如果不拆分汉字,而是采用从整字平面中直接分析出与字母有关联的笔画结构,然后再与字母对应并用字母表示,从而完成了整字的多字母编码,这同样也增加了码长,在这里,如果直接采用整字编码,因为汉字数量大,需要用很多时间来学习,那怎样来缩短学习时间呢?因为汉字的最小组字单位是汉字部件,汉字部件的总数要远远少于整字,因此,只要在部件平面中直接分析出与字母有关联的笔画结构,然后再与字母对应并用字母表示,那么整字所含部件编码的组合,就是整字的多字母编码。

技术实现要素:
本发明特别提供一种基于汉字基础部件的汉字象形码计算机输入法,该输入法不用拆分汉字而是通过对汉字基础部件进行多字母编码实现汉字整字的多字母编码,因此汉字整字或汉字基础部件不是标注在计算机键盘的字母键位上的,而是将英文字母直接标注在汉字整字或汉字基础部件平面结构上,该输入法增加了码长,并且减少了重码,对汉字输入法的学习具有重大的意义。传统汉字编码包括如下步骤:一是把整字拆分成汉字字根,字根种类很多,现在按照国家标准统一改为汉字部件;二是确定汉字部件与计算机字母键的对应关系;三是制定相应编码规则,包括取码规则、补码规则等,另外为了方便人们使用和学习,还要设计计算机键盘,画出每个字母键对应哪些部件和笔画,或者把汉字部件和笔画直接标注在计算机键盘的字母键位上,从某种意义上说这种方法其本质是把汉字标注在计算机字母键上。本发明所述基于汉字基础部件的汉字象形码计算机输入法,采用逆向思维,不用拆分汉字而是将汉字整字通过汉字基础部件直接用多字母编码,即不是将汉字整字或汉字基础部件标注在计算机键盘的字母键位上的,而是把英文字母直接标注在汉字整字或汉字基础部件平面结构上,从某种意义上说这是把计算机的字母键直接标注在汉字平面结构上。本发明所述基于汉字基础部件的汉字象形码计算机输入法,将待输入汉字按照汉字笔顺规则表或汉字形体结构类型表拆分成汉字基础部件;将所述汉字基础部件按照汉字笔顺规则表或汉字形体结构类型表的助记顺序、通过象形码编译成由英文字母组成的字符串;所述象形码编译的方法采用的是ZL01127987.7专利中所述的编译方法。将所述字符串对应的汉字基础部件在汉字平面结构中按照汉字笔顺规则表或汉字形体结构类型表的顺序编译成字符集;所述字符集通过字母键盘输入到计算机中,实现该待输入汉字的计算机输入;本发明所述基于汉字基础部件的汉字象形码计算机输入法,其中,所述汉字基础部件选用“GB13000.1字符集汉字部件”,该部件集含560个汉字基础部件,可组合成20902个汉字;将所述汉字基础部件先在汉字平面结构上按照汉字笔顺规则表或汉字形体结构类型表的助记顺序标记出助记符,并把助记符通过象形码编译置换成对应的英文字母,生成字母汉字基础部件,再将字母汉字基础部件按照助记符表示的顺序编译成由英文字母组成的字符串;将所述字符串对应的汉字基础部件在汉字平面结构中按照汉字笔顺规则表或汉字形体结构类型表的顺序编译成字符集;将所述字符集通过字母键盘输入到计算机中,实现该待输入汉字的计算机输入;所述汉字基础部件上的多个助记符采用不同的颜色表示,便于在汉字平面结构中区分不同助记符,表明助记符顺序,助记符用黑、红、绿、紫4种颜色标定的顺序,与汉字笔顺规则表或汉字形体结构类型表的顺序基本是一致的。本发明所述基于汉字基础部件的汉字象形码计算机输入法,其中,所述汉字基础部件、汉字助记符、字母部件、部件代码和例字的对应关系如表1所示:表1本发明所述基于汉字基础部件的汉字象形码计算机输入法,所述汉字笔顺规则表如表2所示:表2本发明所述基于汉字基础部件的汉字象形码计算机输入法,汉字形体结构类型表(摘自“语言文字规范使用指南/李行健,费锦昌执笔.-上海:上海辞书出版社,2001.7。ISBN7-5326-0762-3”)。现代汉字形体结构的基本类型可以分为11种。除独体字结构外,每一类中又有若干变式。下面举出的只是一些常见的例子。1、独体字结构2、上下结构3、左右结构4.左上右包围结构5.左下右包围结构6.左下包围结构7.上左下包围结构8.上左包围结构9.上右包围结构10.全包围结构11、对称结构(或称框架结构)本发明所述基于汉字基础部件的汉字象形码计算机输入法,由于汉字可拆可合,为了降低学习门槛和缩短学习时间,没有必要对所有汉字都用助记符标识,只要找出汉字的具有代表性的结构就可以了,这样做简单明了,因为汉字的最小组字单位是汉字基础部件,汉字基础部件可以组合成汉字整字,因此采用在汉字基础部件的平面结构中标识出助记符,并把助记符通过象形码编译置换成对应的英文字母,生成字母汉字基础部件,再将字母汉字基础部件按照汉字笔顺规则表或汉字形体结构类型表的顺序编译成由英文字母组成的字符串;然后将字符串对应的汉字基础部件在汉字平面结构中按照汉字笔顺规则表或汉字形体结构类型表的顺序编译成字符集;将字符集通过字母键盘输入到计算机中,实现该待汉字的计算机输入。本发明所述基于汉字基础部件的汉字象形码计算机输入法,表1中第一列为汉字部件的序号;第二列为对应的汉字基础部件;第三列为在汉字基础部件平面结构中标注助记符,并用黑、红、绿、紫四种颜色表示,当汉字基础部件的助记符超过四个时,则重新用这四种颜色标注,这四种颜色也代表了助记符之间顺序关系,这种用不同颜色表示的助记符顺序,是按照汉字笔顺规则表或汉字形体结构类型表确定的;第四列为按照助记符与英文字母的对应关系,把汉字基础部件用助记符标注通过象形码转化成对应的大写英文字母标注,大写字母标注的颜色与转化前助记符标注的颜色相同;第五列为汉字基础部件对应的由英文字母组成的字符串,这是根据字母汉字基础部件的颜色表示的顺序由第四列转换过来的,字符串也可用小写字母表示,也可不用颜色标注,第五列用的大写英文字母和与前一列的字母采用相同的颜色表示,方便初学者查对;第六列为例字,即汉字基础部件在汉字中的位置,这是原汉字基础部件规范的组成部分。本发明所述基于汉字基础部件的汉字象形码计算机输入法,汉字基础部件采用多字母标注,这相当于把计算机字母键位标注在汉字基础部件上,或者说相当于把一个汉字基础部件同时用多个字母键位标注,即一个汉字基础部件对应若干个字母,这无疑增加了汉字基础部件码长,也就是增加了汉字码长,从而达到减少重码、降低学习难度目的,而且这种码长的增加并不是通过补码(用笔画作补码)实现的,因此本发明所述基于汉字基础部件的汉字象形码计算机输入法是传统形码部件的计算机键盘输入法所不能取代的。目前市面上还没有单纯汉字基础部件编码的汉字计算机输入法,也没有保留汉字全部字形信息的汉字计算机输入法。本发明所述基于汉字基础部件的汉字象形码计算机输入法,是全部由汉字基础部件形成的字符串,为全息输入法,具有递推联想和句处理功能,含20902字,词组5~6万余条,无论是单字还是词组,都要按照表1确定汉字基础部件的字符串、表3确定汉字基础部件的组合顺序输入,计算机会根据汉字基础部件的字符串找到对应的汉字,然后组字或组词并输入,因为这种字符串是不等长编码,码长最短为1码,最长为12码,平均为4.4码,这种字符串的码长与汉字笔画的多少有直接关系,所以多数常用汉字为4码以下,而不常用的汉字,笔画偏多,码长也相对长,有利于分散重码,所以这种字符串的重码少,符合人们日常输入习惯。另外,由于该输入法属于象形码,在输入中难免会遇到不会写的汉字,因此该输入法设置了汉语拼音检索系统,在输入中凡遇到写不出的汉字,只要键入R键,就会按汉语拼音检索汉字。本发明所述基于汉字基础部件的汉字象形码计算机输入法,在熟练掌握后就能达到见字识码的程度,因此如果不用汉字基础部件而是直接用整字编码也能达到同样效果,因此尽管目前尚未颁布大字符集汉字基础部件标准,也可用这种方法对汉字整字编码。另外这种编码方法是按照国家标准,因此能把成人汉字输入法与中小学汉字输入法统一起来,所不同的只是中小学输入法所用的字库、汉字基础部件、词库相对要小些而已。特别说明:由于申请专利文件要求图片必须是黑白的,不能用彩色线条,所以在表1中第二栏(助记符)、第三栏(字母汉字基础部件)、表3中第五栏(助记符组合)中,黑、红、绿、紫四种颜色分别用1、2、3、4四种序号标识代替,当部件超过四个颜色时,则用5、6、7、8继续标识。用颜色与用数字序号标识是等价的,但用四种颜色标识更直观些,在用数字序号标识时,每个数字表示相连的若干个笔画结构,当有交叉结构时,为了区分需要把一个相连的笔画结构人为断开处理,断开的两部分用两个相同的数字标识。具体实施方式本实施例所述基于汉字基础部件的汉字象形码计算机输入法,键盘包含26个字母键,汉字基础部件选用“GB13000.1字符集汉字部件”,该汉字基础部件集含560个汉字基础部件,可组合成20902个汉字,所述汉字通过汉字基础部件实现多字母编码,将英文字母直接标注在汉字基础部件的平面结构上;因汉字基础部件笔画数相对来说比汉字整字要少,用于标注的助记符也要少些,先在560个汉字基础部件的平面结构中分析出助记符,为了在汉字基础部件的平面结构中区分不同助记符,表明助记符顺序,助记符可以采用不同的颜色表示;不同的助记符分别采用黑、红、绿、紫四种颜色,代表标记顺序,这种用不同颜色表示的助记符顺序,是按照汉字笔顺规则表或汉字形体结构类型表确定的,当个别助记符超过四个时,仍重复采用这四种颜色按顺序标注,然后把助记符通过象形码编译置换成对应的英文字母,生成字母汉字基础部件,再将字母汉字基础部件按照颜色规定的顺序编译成由英文字母组成的字符串;然后将字符串对应的汉字基础部件在汉字平面结构中按照汉字笔顺规则表或汉字形体结构类型表的顺序编译成字符集;将字符集通过字母键盘输入到计算机中,实现该待输入汉字的计算机输入。本实施例所述基于汉字基础部件的汉字象形码计算机输入法,汉字是由汉字基础部件组成,汉字的字符集由汉字基础部件的字符串组成,参照汉字笔顺规则表,汉字基础部件组字顺序与汉字字符集的组合见表3:表3本实施例所述基于汉字基础部件的汉字象形码计算机输入法,根据表1和表3,560个汉字基础部件可组合成20902个字,例如,想输入“键”字,在表1中能找到第26行的汉字基础部件“钅”,第197行的汉字基础部件“聿”,第283行的汉字基础部件“廴”,这三个汉字基础部件的字符串分别是vf、ei、wl,根据表3,“键”的字符集就是这三个汉字基础部件的字符串的集和vfeiwl;同样,想要输入“盘”字,在表1中可找到第244行的汉字基础部件“舟”,第114行的汉字基础部件“皿”,这二个汉字基础部件的字符串分别是juz、uk,根据表3,“盘”的字符集就是这二个汉字基础部件的字符串集和juzuk;而要输入词组“键盘”,因为本发明专利属于全息编码,所以“键盘”的字符集就是“键”和“盘”这两个字的字符集的集和vfeiwljuzuk,当人们熟练掌握了本发明所述基于汉字基础部件的汉字象形码计算机输入法后,就能在汉字基础部件中识别出哪些笔画结构是助记符,也能在汉字整字中识别出哪些笔画结构是助记符,也完全不需要通过颜色来识别助记符,也不需要刻意去记这560个汉字基础部件的组成,及这些汉字基础部件在汉字平面结构中的位置,只要见到该字就能识别出该字的字符集,这从某种意义上说这种基于汉字基础部件的汉字象形码计算机输入法也就是直接对汉字整字的多字母编码,属见字识码。以上所述仅为本发明的较佳实施方案,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1