二十部件汉字码输入法的制作方法

文档序号:12063132阅读:310来源:国知局
二十部件汉字码输入法的制作方法与工艺

本发明属于计算机汉字编码输入法,它是对本人前一发明t型汉字码输入法的改进,因为多笔画部件缩减为20个,所以称为二十部件汉字码输入法,还涉及了为实现这一输入法的键盘。



背景技术:

键盘输入法是目前汉字输入法中使用最广泛的输入法。键盘输入的特点是必须对输入的汉字进行编码,汉字编码是指用一组代码表示一个汉字,按汉字编码所在键,通常要按1~4键输入一个汉字。键盘输入按编码划分,可分为音码、形码、音形码三类。

音码以汉语拼音为基础,利用汉字的读音进行编码。形码利用汉字的字形特征进行编码。音形码则利用汉字的语音特征和汉字的字形特征编码。音形码又可分为只利用声母的音形码和利用汉字的整个音码的音形码两类。完整地利用了汉字的声母和韵母并且在规定音码部分在先,形部编码部分在后的话,这种音形码基本上不会影响思维,思维跟音码差不多,重码又跟形码差不多,越来越显示出其优越性,其他人发明音形码往往汉字部件较多或重码率较高,而本人发明的汉字码则在创新编码规则的基础上,仅仅用了28个左右的汉字部件,就能做到既简单又高速地输入汉字。为了防止他们绕过专利,本人又推出了20个左右的汉字部件的汉字码输入法。



技术实现要素:

这样,目前的汉字输入法要么汉字部件不规范或选取汉字部件过多;要么码长太长;要么重码过高,影响输入速度;要么只利用汉字的声母或拼音首字母;要么不够直观;要么取码规则不太合理,会影响头脑反应,都没能很好解决简单的不快速,快速的不简单这一技术难题,输入汉字不甚方便。

本发明的目的是提供一种汉字部件规范直观、简单易学、取码规则合理、输入汉字简便快捷的计算机汉字编码输入方法,那就是二十部件汉字码输入法。

为达到二十部件汉字码输入法的目的,本发明规定二十部件汉字码输入法的编码由音码和形部编码这两个部分组成。音码部分建议采用王治阳双拼,占二码。形部编码部分也最多占二码。当然音码也可用全拼或其它双拼或注音字母拼音或或声介韵拼音或不完整拼音。

音码部分很多人喜欢采用全拼,因为全拼根本不必学习,但为提高输入速度,建议采用双拼,也可采用本人发明的音素字母声介韵输入法,该输入法类似于台湾的注音输入法,还可采用台湾注音输入法。

形部编码也由两个代码组成,本发明优选了五种基本笔画和20个左右的多笔画部件参与编码,这五种基本笔画和20个左右的多笔画部件被统称为基本部件,全部选自汉字的偏旁部首,既简单常见又直观,并且数量少,容易记忆。由于国家语委将五种基本笔画也称为汉字部件,因此在本发明中称五种基本笔画称为单笔画部件,而其它20个左右的优选的汉字部件由多个笔画组成,称为多笔画部件。在形部编码时要优先按笔画多的基本部件编码,否则选取多笔画部件就无意义。形部编码的取码规则有二种:

第一种形部编码的取码规则是:独体字,按书写顺序取前二个基本部件的相应代码编码,当只有一个基本部件时,就只取这个基本部件的相应代码编码;合体字,按整体结构将合体字一分为二,先写部分为首部,后写部分为剩部,按书写顺序分别取首部的第一个基本部件和剩部的第一个基本部件的相应代码编码。

这一编码规则存在着一个弱点:那就是在形部编码时,取完每个汉字的第一个基本部件后必须考虑字型,即必须分清该字是独体字还是合体字,再根据两种不同字型采用两种不同的取码规则编码,这就会影响头脑反应,而且有的汉字很难判断是否为合体字,有时还难以将合体字一分为二,分成两部分。

形部编码的第二种取码规则是:左右结构的汉字,分别取左边部分、右边部分的书写顺序的第一个部件的相应代码编码;非左右结构的汉字,按书写顺序取该汉字的第一个和最末一个基本部件的相应代码编码,只有一个基本部件就只取这个基本部件的相应代码编码或者接连二次取这个基本部件的代码编码。由于汉字的最末一个部件基本上都在右下角,除了甫、戈、犬等汉字部件按书写顺序规定右上角的点是最末一个部件。所以遇到含有甫、戈、犬等汉字部件的汉字时,作为容错码,右上角的点可以忽略,即甫、戈、犬分别以竖、撇、捺(点)做最末笔。或者规定:非左右结构的汉字,按书写顺序取取该汉字的第一个基本部件和该汉字的右下角(包围结构时取被包围内的右下角)的一个基本部件编码。这一取码规则同样适用于含有28个汉字部件的汉字码输入法

还要特别指出的是:之所以不规定所有的汉字都取前二个部件的代码或都取首末二个部件的代码编码,是因为这样规定的话表面上会使形部编码的取码规则显得简单易记,实际上却会造成大量的重码,或付出增加大量多笔画部件的代价。

在国标6763个汉字中,合体字占了绝大多数,约为95%。同音又同偏旁部首的合体字数量较多,约有五、六百对。其中氵、艹、口、木、扌、钅、亻、女、讠、忄、月、虫、土、纟、火、疒、、、山、石等偏旁部首产生的同音字较多,为降低重码,这些偏旁被选了出来,分别用一个字母或别的符号编码。而有的偏旁部首如“日”、“王”、“田”、“目”等虽然常用,可产生的同音字只有寥寥数对,就弃而不选,当然要选的话也可选的。本人研究后还发现,将合体字一分为二后,同音同偏旁部首的合体字除偏旁部首以外的部分的第一笔为同类基本笔画的情况出乎意外的少,只有100多对,这一发现是只选用5种基本笔画和二十个基本部件参与编码的原因所在。五种基本笔画则可从减少重码角度出发,可选其中的几个笔画与20多笔画部件合并排列在同一个键上,用同一个字母或其他符号编码。当然这20个多笔画部件不是固定的,只要20左右即可。

为便于记忆,在二十部件汉字码输入法中排列多笔画部件时不按笔画数和横、竖、撇、点、折的次序排列,而按拼音或象形排列,见附图1或附图2所示。附图1以按基本部件的拼音字母排列为主,对少数几个拼音首字母或声母相同的基本部件改按象形的方式排列。这样由于按基本部件的读音编码几乎无需记忆,少数几个改按象形的方式排列的基本部件也能很快记住,记忆量很小,因此极为简单。附图2全按象形排列,可汉字的方块笔画部件与西文字母毕竟有所区别,难以做到十分相像,需要按象形记忆的汉字基本部件就要多上几倍,记忆量也相应多上几倍,因此本发明也不太建议用这种方式排列经过反复优选的基本部件。当然有人可能更喜欢这种排列方式。

横、竖、撇、点等基本笔画在形部编码中出现的频率较高,为降低重码,不宜与基本部件排在同一个键上。将这四个基本笔画排到标点符号键上,用标点符号编码的话比较合理。折因为组字频率低,与某些多笔画部件排在同一个键上,用同一个字母或别的符号编码的话,几乎不会导致重码,因此就按拼音首字母排列。当然硬要将横、竖、撇、点等基本笔画与多笔画部件排在同一个键上,也是可以的。

这样,通过优选20左右的多笔画部件和五种基本笔画,创造性地规定取码规则,就做到了形部编码既简单易记,又能有效地区分同音字,重码率很低,输入速度足以与其他任何输入法相比。这就解决了其他任何输入法都未能解决的难题,真正做到了简单直观、重码率很低、输入速度高,是一种唯一的理想的标准的汉字输入法。这就是称为二十部件汉字码输入法的根本原因。

附图说明

附图1为形部编码键盘排列图之一

附图2为形部编码键盘排列图之二

具体实施方式

二十部件汉字码输入法由两部分组成,一部分是音码,即拼音,或称拼音码,另一部分是形部编码。这两部分组成编码时可以是音码在先,形部编码在后;也可以是形部编码在先,音码在后。但一经选定,就不能改变。为便于想打,与思维一致,又能充分利用标点符号键,建议拼音在先,形部编码在后,在编码实例中就采用这种方法。拼音可采用全拼或双拼或简拼或不完整拼音,不想学习双拼的人可采用全拼,即采用一个汉字的标准拼音。

下面再对形部编码作详细说明。

由于按第一、二种形部编码的取码规则都要用到将合体字一分为二的知识,就先介绍一下汉字的分类知识。汉字可分为独体字和合体字二类。合体字是指具有左右、上下、包围结构的汉字。独体字是指不具有左右、上下、包围结构的汉字。合体字可以根据整体结构一分为二,也就是说将合体字左部与右部或者上部与下部或者包围部分与被包围部分分开,含首个笔画的部分称为首部,即首部含有汉字中按书写顺序的第一个笔画,除首部以外的剩余部分称为剩部。这一划分是很有用的,例如有的包围结构的汉字如“或”、“载”等字,它的包围部分按笔顺要分开书写,由于规定含有第一笔的部分为首部,不含第一笔的部分为剩部,“或”字的首部就为“戈”,余下的部分就为剩部,“载”字的剩部就为“车”,其它部分为首部。对左中右结构或上中下结构的汉字,既可规定将其中间部分划为剩部,也可规定将中间部分划分到首部,一般规定将中间部分划分到首部。对上中下结构的汉字,既可规定将中间部分划分到首部,当然也可规定将中间部分划分到首部,一般规定将中间部分划分到首部。

为降低重码,本发明还规定了成字优先的划分原则。当一个汉字为上中下结构或左中右结构时,若两边都能成字的话,要按“两边都成字优先”的原则划分,若一边能成字的话,要按“一边成字优先”划分。如“营”字,是上中下结构,若把艹列为首部,则两边都不能成字,若把“吕”列为剩部的话,一边能成字,因此要把“吕”列为剩部。又如“案”字,若把“宀”列为首部,则两边都不能成字,若

把“木”列为剩部的话,则两边都能成字,所以要将“安”列为首部,“木”列为剩部。当然这类字可采用容错码技术予以解决。容许一个合体汉字按不同的划分进行编码。

合体字的最佳划分方法是根据绝大部分的合体字都为形声字的特点进行划分,将汉字分为形部和声部二个部分,这样“案”字,必定声部“安”列为首部,表义的形部“木”列为剩部。“营”字的话,“吕”列为剩部,别的部分是表音,列为首部。还有的合体字为会意字,也可按会意结构拆分成二个部分。如“休”分为“亻”和“木”二个部分。

又将汉字的各种笔画按国家语委的规定归类为横、竖、撇、点、折五种基本笔画。笔画是书写汉字时,不间断地一次写成的一个线条,在只考虑汉字笔画的运笔方向,而不计其轻重长短时,可将笔画归类为横、竖、撇、点、折五种基本笔画,其中提并入横,竖钩并入竖,捺并入点,其余各种带转折的笔画并入折,在本发明中将横、竖、撇、点、折五种基本笔画称为单笔画部件。也有的输入法将竖称为直,将竖钩称为左竖钩。为降低重码,还优选20个左右的组字频率或实用频率高的由二个或二个以上的笔画组成的汉字部件排到字母键上,参与编码,因为笔画数在二笔及以上,在本发明中称为多笔画部件,以区别于单笔画部件。多笔画部件和单笔画部件统称基本部件。

第一种形部编码的取码规则是:独体字,按书写顺序取前二个基本部件的相应代码编码,当只有一个基本部件时,就只取这个基本部件的相应代码编码;合体字,按整体结构将合体字一分为二,先写部分为首部,后写部分为剩部,按书写顺序分别取首部的第一个基本部件和剩部的第一个基本部件的相应代码编码。

本人在长期的编码研究中早就认识到一个汉字是否为左右结构是一目了然的,左右结构的汉字很容易在空隙处将它一分为二,而上下、包围结构的汉字有时不易一分为二,甚至有时难以分清一个字是独体字还是上下结构或包围结构。根据一个汉字是否为左右结构划分是最简单易学,但这样不利于降低重码,实际上对于难以划分结构的汉字还可以用容错码的技术加以解决,即容许对同一个汉字根据不同的划分采取不同编码,所以还是划分为独体字和合体字为好,这样也与人们的传统思维一致。需要指出的是将合体字按整体结构一分为二,分成二个部分别进行编码的技术由来已久,其他人在发明中也对此做出了重要贡献。

若将所有的汉字分为左右结构和非左右结构的话也可编码,仍可用附图1、附图2编码,也就是说所选用的拼音、基本部件以及代码仍不变。编码也由拼音和形部编码组成。形部编码的取码规则是:左右结构的汉字,分别取左边部分、右边部分的书写顺序的第一个部件的相应代码编码;非左右结构的汉字,按书写顺序取取该汉字的第一个和最末一个基本部件的相应代码编码,只有一个基本部件就只取这个基本部件的相应代码编码或者连取二次这个基本部件的编码。这时非左右结构的汉字,不能按书写顺序取前二个基本部件的相应代码编码,因为会造成重码,而应按书写顺序取该汉字的第一个和最末一个基本部件的相应代码编码。由于一个汉字是否为左右结构是很清楚的,不会产生歧义,除了顺、川等字外,左右结构的汉字很容易左右部分产生间隙,只要根据间隙一分为二就可,拆分有点难度的“川”和“顺”中的“川”字作为整体进行编码,也就是是“川”作为独体字,“顺”字的左边部分为“川”,右边部分为“页”。有的人可能更喜欢这种编码规则。

为减少不必要的重码,对于少数重心字,还可规定形部编码的第二码可按重心所在的第一个或最末一个基本部件的代码编码,建议按重心所在的最末一个基本部件的代码编码。所谓的重心字是指表示字义的部首在汉字的中间或尾部的特定形体汉字,如“嬴”“载”“颖”“竟”等字,形部编码的第二码可按重心所在的基本部件“女”的相应代码编码。又如“荧”等字,形部编码的第二码可按重心所在的基本部件“火”的相应代码编码,因为“荧”字中不包括“火”的部分实际上是表音的。左中右结构并且左边部分与右边部分相同的汉字的重心在中间部分,于是形部编码第二码可取中间部分的最末一个基本部件的代码编码。如“辨”字,形部编码第二码可取中间部分的最末一个基本部件“撇”编码。

在汉字中,合体字占了绝大多数,约为95%。同音又同偏旁部首的合体字数量较多,约有五、六百对。其中氵、艹、口、木、扌、钅、亻等偏旁部首产生的同音字最多,氵约有六十余对同音字,其它的也有三、四十对同音字,为降低重码,这些偏旁部首必须被选出,分别用一个字母或别的符号编码。女、讠、忄、月、虫、土、纟、火、疒等偏旁部首就只有十来对同音字,为降低重码,这些偏旁部首也要被选出,分别用一个字母或别的符号编码。、、山、石、日、王、阝、鱼、禾等偏旁部首只有五对左右的同音字,为降低重码,这些偏旁部首也可被选了出来,分别用一个字母或别的符号编码,当然个别偏旁也可弃而不选,选了、、山、石等部件。而有的偏旁部首如“田”、“目”、“贝”、“车”、“酉”、“犭”、“饣”等虽然常用,可只有二、三对同音字,甚至没有同音字,因此弃而不选。

横、竖、撇等基本笔画的出现的频率较高,为降低重码,不宜与多笔画部件排在同一个键上,在编码实例中,将它们分别排到三个标点符号“,”、“.”、“/”键上,用三个标点符号“,”、“.”、“/”编码,比较有序合理。点、折等基本笔画的组字频率相对较低,可将它们与多笔画部件合并排列,分别用字母或别的符号编码。当然由于基本笔画点的组字频率与撇相差不大,而且出现在独体字以及合体字的第二部分的首位和末位的频率很高,也可将基本笔画点排在其它一个标点符号键上,用该标点符号编码,比如排在“;”上,用“;”编码,或者排在“’”上,用“’”编码。在编码实例中,点用“;”编码。还可将基本笔画折排到其它一个标点符号键上,用该标点符号编码,在编码实例中基本笔画折按其拼音首字母z编码。

为便于记忆,排列时主要以多笔画部件的读音的拼音首字母或声母为代码。为避免重码,还将若干声母相同的部件取了出来,改按象形或韵母的方式编码。20个多笔画部件和五种基本笔画在键盘上的优选排列见附图1所示。20个多笔画部件、五种基本笔画与字母、标点符号的影射关系设定为:

a——钅 b——疒 c——艹 d——氵

f——扌 h——火 i——虫 j——纟 k——口

m——木 n——女 o——月 r——亻 s——石 t——土 u——山 v—— x——忄

y——讠 z—— 折 ;——点 ,——横 .——竖 /——撇

根据设定关系将部件分别用相应的字母和标点符号编码。

下面作具体解说:a的大写A与钅相似;b是疒的声母;c是艹的声母;d是氵的声母;f似扌;h是火的声母;i因为ch排在其上,而ch是虫的声母;j是纟的声母;k是口的声母;m是木的声母;n是女的声母;o似月亮的外形;r是亻的声母;s是石的拼音的首字母;t是土的声母;u因为sh排在u上,而sh是山的声母;v因为zh排在u上,而zh是的声母;x是忄的声母;Y是讠的声母;z是和折的声母;这些字母就分别作为相应的基本部件的代码。“;”作为点的代码;“,”作为横的代码;“.”作为竖的代码;“/”作为撇的代码。这种排列方式基本上是按表音排列的,往往将基本部件按其拼音首字母或声母排列,对拼音首字母相同的少数多笔画部件,改按象形或韵母排列。需要指出的是,表音排列还注意要与词组兼容,以尽量少发生字词重码。汉语拼音中各个声母的组字频率各不相同,其中y、j、l、x在组字频率很高,为减少字词重码,氵、艹、口、木、扌、钅、亻等组字频率很高的多笔画部件不宜排到y、j、l、x上,而要尽量将这些高频的多笔画部件排到组字频率较低的a、o、e、r键上,实在无法排列的话,也要排到组字频率中等的字母键上,用相应的字母编码。附图1和附图2就充分注意到了这点。

由于逗号和句号的形状较小,也可分别用“<”和“>”代替,作为编码符号。将四个标点符号用作横、竖、撇、点的代号,有两个好处:一是扩大了编码空间,避免这四个基本笔画与多笔画部件排在同一个键上后,与多笔画部件编码相同,发生重码。二是由于拼音在先,形部编码在后,因而不会影响标点符号的输入。

当然也可以按汉字部件与英文的相似程度排列,即根据象形排列。一种优选的排列见附图2。这时20个多笔画部件、五种基本笔画与字母、标点符号的影射关系设定为:

a——亻 d——石 e——山 f——扌 g——足h——艹 i——讠 j——疒 k—— l——忄 m——木n——月 o——口 q——虫 r——女 s——氵t——土 v——钅 w——纟 x——火 z——折 ;——点 ,——横 .——竖 /——撇

根据设定关系将基本部件分别用相应的字母和标点符号编码。

下面作具体解说:大写a似亻;d似石,框在下部;大写e似山;f似扌,特别似反扌;g似足,框在上部;大写h似艹;i似讠;j似疒;k似,似半个;l似忄;m似木,似树林,木的声母也是m;n似月;o似口;大写q似虫,都是框内有出笔;大写r似女;s似氵,似弯曲的水流,氵声母也是s;t似土,土的声母也是t;v似钅字头或字尾;w似纟;x似火;z也与折“乙”的外形相似。为便于记忆,就将横、竖、撇、点按键盘顺序分别排在“,”、“.”、“/”、“;”键上,用相应的标点符号编码。当然也可按别的方式分别排列,如将横排在“;”键上,将竖排在“/”键上,将撇排在“,”上,将点排在“.”键上。将多笔画部件完全按形似排在字母键上,有个好处,那就是不必象按读音排列那样,为避免重码,不得不将有些部件改按象形排列,编码原理具有一致性,有的人可能更喜欢这种方式。

有些偏旁会在组词后,形体会略有所变,但必须视为同类基本部件,用同一字母编码,这类基本部件如和竹,足和,亻和人,讠和言,钅和金,氵含水、氺,扌含手,忄含心,纟含糹等,特点是同源。基本部件也可包含个别与它形似的部件,用同一字母编码。如部件“土”可包含“士”,由于这两个部件仅有笔画长短之分,作为同一个部件编码可能更符合头脑反应习惯。纟与幺也十分形似,也可纟包含幺,为同一个部件编码也符合头脑反应习惯,当然也可不这么排列。

由于按第二种形部编码的取码规则编码较为简单易记,在编码实例中就采用这种取码规则,并采用附图1编码。

编码实例:如“汉”的编码,声母是h,韵母为an,音码部分就为han,按书写顺序第一个基本部件为多笔画部件氵,就按书写顺序取氵的编码为d,笔画“折”的编码为z,于是“汉”的编码为“handz”。又如“字”的编码,音码部分按双拼,为zi,第一个基本部件为基本笔画点,编码为d,该汉字为非左右结构汉字,就再按书写顺序取“字”的最末一个基本部件“横”的代码h,于是“字”的编码为“zidh”。如“这”字,全拼为zhe,形部编码时,按书写顺序取该汉字的第一个基本部件为“点”,代码为“;”,非左右结构汉字按书写顺序取最末一个基本部件点的代码“;”,“这”的形部编码就为“;;”,编码就为“zhe;;”。又如“木”的编码,双拼为mu,该汉字只有一个基本部件“木”,代码为m,“木”的形部编码就为“m”,于是木的编码就为mum。为了追求码长整齐划一,也可规定只有一个基本部件的汉字也可取第一笔或者最末笔的代码或者重复该基本部件的代码作为形部编码的第二码。本编码实例不作这样的规定。

为提高输入速度,对于使用频繁的字,设计了简码。简码就是对常用的汉字只是取其完整编码的前编1个、2个或3个编码,再按1个空格键就能输入该汉字。由于规定音码在先,形部编码在后,许多汉字的形部编码并不需要全部输入,只要输入该汉字的简码,所以单字的编码实际上是音码为主,辅以形部编码,形部编码起到了辅助码的作用。

由于汉字的拼音只有四百来个,汉字的二级简码也就只有四百来个,而本发明的编码空间有729个,因此,对于其余三百来个编码空间,还可设立简码词,以进一步提高打字速度。如汉字的拼音无kian的形式,双拼编码也就无ky的形式,而“k”、“y”却分别为“可”、“以”的声母,因此ky可以作为“可以”的编码。由于本输入法设有三百多个简码词,从理论上说词组输入速度要比单字更快,因此这会明显提高汉字的输入速度。在计算机上敲击完某个汉字或词组的简码所在的键后,再敲击空格键,就可输入相应的汉字或词组。

词语输入是提高汉字输入速度的最常用方法,由于规定音码在先,形部编码在后,词语输入就全部利用音码输入,音码在词语输入时,可采用全拼或双拼,以采用汉语拼音为例子,步骤是:

a、二字词语,取每个字的声母、韵母的代码依次输入;如“编码”代码为bianma。

b、三字词语,取每个字的声母的代码依次输入,再补空格输入;如“计算机”的代码为“jsj”。当然也可规定取第一字、第二字的前一码即声母的代码,再取第三字的前二码。还可规定再第一字的前二码,再取第二字、第三字的前一码即声母的代码。

c、四字及以上词语,取前三个字及最后一个字的声母的代码依次输入;如“科学技术”为四字词,取每个字的声母的代码为“kxjs”。又如“新疆维吾尔自治区”,编码取前三个字及最后一个字“新疆维区”的声母的代码“xjwq”。

利用二十部件汉字码输入法软件,在计算机键盘上敲击某个汉字或词组的相应的编码所在的键,就可完成输入。一般规定无重码且达到规定码长的汉字或词组自动上屏,不足规定码长的要按空格键,有重码的单字或词组根据提示行选择。音码采用双拼的话,码长最多四键,音码采用全拼的话,要按空格键,本发明字词兼容。“~”键可设为万能学习键,当某个汉字的编码不知道时,可用“~”代替,帮助把正确的编码找出来,再利用提示行选择。

为了便于使用,还设置了容错码,对一些编码容易出错的汉字,在错误输入时也能出现所要输入的汉字。

需要指出的是在本说明书、权利要求书和说明书附图中的字母均不分大小写,字母的大小写是等效的。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1