三类五区音形码的制作方法

文档序号:6437524阅读:274来源:国知局
专利名称:三类五区音形码的制作方法
技术领域
本发明属于电脑汉字编码输入方法,也就是中文输入法。它是一种组合三类五区输入法和音码的输入法,因此称为三类五区音形码。
背景技术
键盘输入是目前汉字输入法中使用最广泛的输入法。可分为音码、形码、音形码和序号码四类输入汉字。序号码的编码与汉字之间几乎没什么规律,要花上一二年才能记住, 已几乎无人使用。利用音码输入汉字,因为简单易学,使用最为广泛。可输入速度不快,还有个弱点,那就是不认识的汉字无法输入。形码将汉字部件按象形、拼音和笔画等方式归类编码,经合理搭配汉字部件,能做到重码少,且能输入任何不认识的汉字,而且往往很快。但由于采用大量字根或称部件,因此复杂难记,难学难记,拆分也较困难。为减少汉字部件,目前不少输入法都通过五种基本笔画两两组合的办法,进行编码。这种方法实际上是受五笔字型的影响,同样没有充分考虑到汉字笔画特别是双笔画的组字频率相差悬殊的情况,排列到键盘上后同样表面显得整齐划一,实际上各字母键冷热不均,容易产生重码,另外还存在着不够直观,影响打字速度等问题。本人在研究输入法十多年基础上,又花了近10个月时间发明的三类五区输入法属于形码输入法,该输入法在将汉字的各种笔画归类为五种基本笔画的基础上,又将汉字的字根或称部件分为离散部件和交连部件二类,离散部件按统一按部件的笔画数编码,简单易记,交连部件只用了 60来个基本部件,因而汉字部件的数量较其它输入法有了大幅度地减少,因而简单易记。但由于汉字的固有构造结构,据研究有3000多种结构,因此对于少数汉字难免拆分不便,如果采用音形码的话,则不存在汉字拆分不便问题,另外汉字部件数量还可以在目前60个基本部件的基础上进一步削减,从而更加简易。当然音形码也有缺点,那就是不认识的汉字打不出。

发明内容
这样,目前音码输入法存在输入速度慢,不认识的汉字没法输入等缺点;形码输入法存在要么汉字部件数量过多,要么拆分困难,不够直观、影响思维,连本人发明的最最简单的三类五区输入法也有60来个基本部件,少数汉字还是拆分不便。本发明的目的是提供一种组合三类五区输入法和音码的计算机汉字输入法,即三类五区音形码,它具有汉字部件比较规范、数量少,拆分简便直观的,输入汉字快速等优点。为达到三类五区音形码的目的,本发明规定三类五区音形码由音码和形部编码两部分组成,这两部分可以音码在先而形部编码在后,也可形部编码在先、音码在后,一经选定,不得改变。为便于输入汉字,建议音码在先,形部编码在后,在实施例中就这么规定。音码部分可以用全拼、简拼、双拼,建议采用本人设计的几分钟可以学会的双拼即王治阳双拼。王治阳双拼以标准汉语拼音方案基础,采用26个英文字母和“;”键作代码, 规定单个字母的声母和韵母按标准汉语拼音方案规定的英文字母编码,"U"用ν表示,没有声母只有韵母的要补上韵母的首字母作声母的代码,只有声母没有韵母的要在前面加ο 这样有二个字母的声母ch、sh、zh只能i、u、v表示(“;”键不宜作声母,因为作声母的话, 在输入“;”时就不方便。)将二个字母的声母和i、U、V分别按沈个英文字母的次序即音序排列,再一一对应。接着按双拼规律,“110”被合并到“o”;“ui”被合并到"U" ;〃 Un" 被合并到“un”; “ Ue"被合并到“ue”; “ Uan"被合并到“uan” ;“ iong”被合并到“ong” ; “ ia”被合并到“皿” ;"iang"被合并到“uang” ;由于“er”的声母代码为“e”,所以就排到r 上,用e作零声母的话,这样就能做到韵母“er”的双拼与全拼一致。这些多个字母的韵母合并规则具有一定的规律性,还可用谐音等方法记忆。单个字母的韵母键上除了可排列被合并的多个字母的韵母外不能再排其它多个字母的韵母。接着排列多个字母的韵母,被合并的多个字母的韵母就不再提及,排列时将开口呼a开头的韵母列为一区;0开头的列为一区;e开头的列为一区;齐齿呼i开头的韵母列为一区;合口呼u开头的韵母列为一区。每区又规定二个字母的韵母排在键盘的左边,三个字母的韵母排在二个字母的韵母之右,四个字母的韵母排在最右,每区的韵母的字母数相同的,则按a、o、e、i、U、n、g、r的次序排列, 一般自左至右。当然每区完全按a、ο、e、i、u、η、g、r的次序排列也可以,我最初设计双拼时就是这么考虑,只是估计别人早就想到,才将字母数考虑进去。出于指法规则考虑,将组字频率高的开口呼a区、ο区、e区依次排在中间一行,即排在“s”、“d”、“f”、“g”、“h”、“ j”、 “k”、T、“; ”。之所以ο区在e区之左是因为南方模糊音en与eng有时不分,将eng排在 ";”键上,采用南方模糊音就可以不击“;”键。合并之后的合口呼u区组字频率比齐齿呼 i区略多一些,大约多11%,按指法规则,宜将u区排在“q”所在的一行,将i区排在“ζ”所在的一行。这样排当然可以,可由于"U"用“V”表示,由于i区和u区的组字频率又差别不大,若将所有以"U"开头的撮口呼排在“V”键所在的行,更加直观易记,这样u区只好排在“V”键所在的行,自然,i区就排在“q”键所在的行了,在编码实例采用这一方案。由此可见,王治阳双拼遵循双拼规律,将多个字母的韵母分为a区、ο区、e区、i区、u区,每区又考虑了字母数及中文字母的音序,简单易记,具有很强的规律性。一般人估计几分钟就能学会,且不易忘记,另外还在一定程度上考虑了指法规则,便于操作。(2)各韵母与字母映射关系设定为a-a b-uai c-un iind-aie-e f-an g-ang h-ou i-ij-ong iong k-ei 1-en m-uang iangη-uan iian ο-ο uo ρ-ingq-ie r-in er s-ao t-iaou-u ν-Uui w-iu χ-ue Uey-ian ζ-ua ia ; -eng见附图1所示,这里翘舌音ch、sh、zh按英文音序分别用i、u、v表示,也符合指法规律。本人认为这种双拼键盘排列方式是比较理想的,因此在编码实例中采用这种双拼。形部编码在编码时,将汉字各种笔画按国家语委的规定归类横、竖、撇、点、折后, 又将汉字的各种部件分为单个基本笔画部件、离散部件和交连部件三类,这三类部件统称汉字部件,离散部件要求部件的笔画离散并且对称,分为两个散笔、三个散笔,四个散笔、五个散笔,其中两个散笔、三个散笔,四个散笔、分别用罗马字母II、III、IV表示,五个散笔只有一个“立”,就直接用“立”表示。交连部件从《信息处理用GB13000. 1字符集汉字部件规范》精选了 40来个组字频率高的汉字部件,这些精选的汉字部件还可包含若干个组字频率并不高,但属于同类的汉字部件。将它们按起笔归类到横、竖、撇、点、折五个区中。再根据每个区中基本部件的组字频率的高低来决定每个区包含的键位多少,经科学测算,起笔为横、 点、竖的基本部件组字频率较高、数量也较多,各得六个键位,起笔为撇的汉字频率次之,分得五个键位,折起笔的基本部件频率最低,仅安排三个键位。各个基本部件在字母键上的分布见附图2,该图在标准键盘上以二列为一区,将点区、横区、竖区、撇区、折区从左到右以两列为界依次排列,极具规律性,将汉字分为三类部件,并使得交连部件只有区区40来个,是本人10个月潜心研究的结果,是本发明的最大创造性所在。根据以两列为界的将基本部件按起笔分区排列的方法,点区占两列字母键,得六个字母键;横区占两列字母键,得六个字母键,竖区占两列字母键,得六个字母键,撇区虽占五个字母键,却也只得两列,折区仅占三个字母键,却也得两列,从而达到了点、横、竖、撇、折各区组字频率不同,所占的字母键位数也因而不同,却都占两列的巧妙目的。这比将汉字部件五区五列排列的输入法来,无疑更有规律,是一种巨大进步。当然,由于竖区和撇区汉字部件的组字频率相近,也可规定作竖区占五个字母键位,撇区占六个字母键位。另外还可将点区、横区、竖区在键盘上的位置互换。 这些都是对本发明的变形,还是以本发明所举的实施例为最佳。另外本发明将点、横、竖、 撇、折五种基本笔画分别排在Q、E、T、U、0键上,用相应的字母编码,由于都位于一个区的上排,且仅隔一个字母键,也显得极有规律,简单易学。接着编码,形部编码规则是按书写顺序取该汉字的首尾二个基本部件编码;当某汉字只有一个基本部件时,就只取这个基本部件的代码。在编码实例中就采用这一规定。 当然也可规定当某汉字只有一个基本部件时,就取这个基本部件的代码,在重复取这个基本部件的代码作为第二码,也可规定取这个基本部件的首笔或末笔的代码编码,在编码实例中不这么规定。形部取码规则都要遵循取大优先原则,即要优先按笔画数多的基本部件编码,应保证按书写顺序每次拆分出尽可能笔画数尽可能多的基本部件,不要把笔画多的部件拆分成笔画少的部件。根据这一规则可引申出一条规则,那就是多笔画部件肯定比单笔画部件即五种基本笔画优先编码。另外还要兼顾直观,避免把四边封闭的方框形如“口”、“西”等基本部件按书写顺序拆开编码,这条规则实际上也是取大优先原则引申出来的。利用输入法软件,在键盘上敲击某个汉字相应的编码所在的键就可输入该汉字。 达到四码且无重码的自动上屏,不足四码的必须补上一个空格键或用数字键选择才能上屏。


图1为王治阳双拼键盘排列2为三类五区音形码基本部件键盘排列图
具体实施例方式下面结合优选的实施例和附图作详细说明。音码和形部编码两部分组成,这两部分可以音码在先而形部编码在后,也可形部编码在先、音码在后,一经选定,不得改变。为便于输入汉字,建议音码在先,形部编码在后, 在实施例中就这么规定。音码部分可以用全拼、简拼、双拼,建议采用本人设计的几分钟可以学会的双拼即王治阳双拼,见图1。本发明的形部编码在编码时对汉字笔画的认识完全科学。笔画是构成楷书汉字字形的最小连笔单位,是书写汉字时一次连续写成的一个线条。按国家语委的规定,在只考虑汉字的运笔方向而不计其轻重长短时,即只考虑其笔形时可分为横、竖、撇、点、折五种基本笔画,其中提并入横,竖钩并入竖,捺并入点,各种折笔都作折,也就是说其他各种带转折的笔画都作折。国家语委称五种基本笔画为横、竖、撇、点、折,而本人倾向于称横、竖、撇、捺、 折。因为点的笔画是很短的,不象其它笔画那样具有一定的长度,且有时运笔方向下垂,几乎与撇相同。当然国家语委规定称点可能是因为点成字,而且组字频率高于捺。由于是国家语委的规定,只好遵守,其实国家语委还可规定称捺也允许。将点、横、竖、撇、折五种基本笔画分别排在Q、Ε、T、U、0键上,用相应的字母编码。汉字部件是由几个笔画组成的具有组配汉字功能的构字单位,汉字部件有多笔画部件和单笔画部件之分,单笔画部件在本发明中即五种基本笔画,多笔画部件则分为离散部件和交连部件,单笔画部件和多笔画部件统称基本部件。同样对离散部件做了优化选择,只有大致对称的离散部件才得以入选,并按离散的笔画数分为两、三、四个散笔部件分别排列在点区的A、Z、W键上,用相应的字母编码,由于排列有序,显得十分简单易记。两个散笔的离散部件全部用II表示,包括二、八、儿、ν、 O、U、丨丨、彡、〈〈等为二个散笔,且大致离散对称的笔画。三个散笔的离散部件用III表示,包括三、小、、川,、乡、川、〈〈〈,等为三个散笔,且大致离散对称的笔画,而?也属于三个散笔,但因为十分常见,就单独列出,它和其它几个为三个散笔的部件也是用同一个字母编码的。四个散笔的离散部件用IV表示,包括”、,、、、(火)汉字的交连部件更多,本发明只选用了近40多个交连部件,做到了既简单又高效。汉字部件的定义与国家语委的规定相同,它是由几个笔画构成的相对不变的笔画结构,组合后可构成汉字。汉字部件按《信息处理用GB13000. 1字符集汉字部件规范》规定多达六百多个,这是规定交叉不拆的缘故。其实这样规定是不怎么合理的,本人认为当某个笔画与前二个及以上笔画相交时,这个后写的笔画必须单独拆出。若这么规定,则大量的所谓汉字部件实际上是由其它几个汉字部件拼凑组成的,完全可以排除这些所谓的汉字部件。为减少记忆量,从《信息处理用GB 13000. 1字符集汉字部件规范》中精选了 40来个组字频率高的汉字部件,这些精选的汉字部件在本发明中称为交连部件,特点是笔画交连在一起,组成汉字部件。将它们按起笔归类到横、竖、撇、点、折五个区。再主要根据每个区中基本部件的组字频率的高低,适当兼顾基本部件的多寡来决定每个区中包含的键位多少,经科学测算,起笔为横、点、竖的基本部件组字频率较高、数量也较多,各得六个键位,起笔为撇的汉字频率次之,分得五个键位,折起笔的基本部件组字频率最低,仅安排三个键位。为便于记忆和兼顾指法操作,并参照新华字典部首排列规律,将点区、横区、竖区、撇区、折区以二列为界从左到右依次排列。将点区部件分别排在标准键盘最左边两列的六个字母键位上,即排在Q、A、Z、W、S、X上,将横区部件分别排在标准键盘中点区的右边两列六个字母键位上,即排在E、D、C、R、F、V上,将竖区部件分别排在标准键盘中横区的右边两列六个字母键位上,即排在T、G、B、Y、H、N上,将撇区部件分别排在标准键盘中竖区的右边两列的五个字母键上,即排在U、J、M、I、K上,折区部件分别排在标准键盘最右边的两列的三个字母键上。各个基本部件在字母键上的分布见附图2。具体讲,点区中的ι、言、i、广等部件排在Q 键上,用Q作代码;立、门、广等部件排在A键上,用A作代码;?、水、氺等部件排在Z键上, 用Z作代码;火部件排在W上,用W作代码;丨、心、等部件排在S上,用S作代码;+、!_、 寺等部件排在X上,用X作代码;王、雨等部件排在E上,用E作代码;土、十等部件排在D上, 用D作代码;大、车、石等部件排在C上,用C作代码4等部件排在R上,用R作代码;木、 西等部件排在放F上,用F作代码;戈、*、升等部件排在V上,用V作代码;虫等部件排在T 上,用T作代码;日、足等部件排在G上,用G作代码;田、山等部件排在G上,用G作代码; 目、口等部件排在Y上,用Y作代码;口等部件排在H上,用H作代码;贝等部件排在N上,用 N作代码;禾、竹、、夂、夂等部件排在U上,用U作代码;彳、人等部件排在J上,用J作代码冻、金等部件排在M上,用M作代码;月等部件排在I上,用I作代码;鸟、鱼、3、舟等部件排在K上,用K作代码;马、耳、尸、卩等部件排在0键上,用0作代码;女、又等部件排在L 上,用L作代码;乡、弓等部件排在P上,用P作代码,乡含系、糸、幺,也用P作代码。为便于记忆和遵循习惯,个别组字频率不高的部件也被排列到键上,它们并不一定按起笔归类,而是按同源和近形归类到组字频率高的基本部件中。如?含水、氺、小含、 含金、止含 、IJ含U、*含升、心含、含竹、3含豕、勹含、四含m和皿、止含Zt、夂含&和文、个含心和、?含水和氺、王含、乡含$、糸、么等部件,事实上,这些被包含的部件应视为同一个部件,因此本发明实际上的交连部件的数量仅为40来个。为减少重码,便于用区分码区分重码,往往有意使各个键上的基本部件的末笔画不同或字型不同。汉字的编码是指用一组代码表示一个汉字,形部编码规则是按书写顺序取该汉字的首尾二个基本部件编码;当某汉字只有一个基本部件时,就只取这个基本部件的代码。 在编码实例中就采用这一规定。当然也可规定当某汉字只有一个基本部件时,就取这个基本部件的代码,在重复取这个基本部件的代码作为第二码,也可规定取这个基本部件的首笔或末笔的代码编码,在编码实例中不这么规定。形部取码规则都要遵循取大优先原则,即要优先按笔画数多的基本部件编码,应保证按书写顺序每次拆分出尽可能笔画数尽可能多的基本部件,不要把笔画多的部件拆分成笔画少的部件。根据这一规则可引申出一条规则,那就是多笔画部件肯定比单笔画部件即五种基本笔画优先编码。另外还要兼顾直观,避免把四边封闭的方框形如“口”、“西”等基本部件按书写顺序拆开编码,这条规则实际上也是取大优先原则引申出来的。编码实例“王”的拼音为wang,双拼为wg,该汉字只有一个汉字部件为“王”,代码为E,王的编码就为WGE。又如“拼”字,拼音为pin,双拼为冊,取首尾二个汉字部件 、升的代码分别为R、V, “拼”的编码就为PRRV.对于常用汉字若只取其完整编码前边的一个、二个、三个,再补上空格键,就构成了一、二、三级简码。本输入法中的一、二、三级简码的数量都多于25键的输入法,重码率又很低,因此输入速度比25键的输入法要快些。为提高输入速度,目前各类输入法都提供了词语输入的功能,本输入法也如此,规定不论词语的长短,其编码长度都为4码,并且字词兼容。词语的编码规则是二字词,分别取每个字的完整编码的前2码,如“可以”,取“可”的前二个代码ke,“以”的前二个代码yi, “可以”的编码就为KEYI。三字词,分别取前二个字的完整编码的第1码,取第三个字的完整编码的前2码。如词语“计算机”的编码,分别取计的第一代码J,算的第一个的代码S, 机的前二个的代码JI,“计算机”的代码就为JSJ。四个字及四个以上字的词,分别取第1、 第2、第3和最后一个字的完整编码的第一码。词组输入是提高输入速度的重要方法。要尽量利用词组输入。如“中华人民共和国”的编码,分别取中、华、人、国的第一个代码V、H、R、 G,“中华人民共和国”的编码就为VHRG。三类五区音形码的重码率比较低,为最大限度减少重码,在软件设计中有意将发生重码的两个字中的某一个字列为二级简码,另一个字列为三级简码,从而实际上消除重码。为了便于使用,还设置了容错码,对一些编码容易出错的汉字,在错误输入时也能出现所要输入的汉字。需要指出的是,本发明说明书、权利要求书、说明书附图中的字母不分大小写。
权利要求
1. 一种计算机汉字编码键盘输入法即三列五区音形码,将汉字的各种笔画按国家语委的规定归类为横、竖、撇、点、折五种基本笔画后,其特征是(1)、编码由两部分组成,一部分是音码,即拼音,或称拼音码,另一部分是形部编码,汉字码的两部分可前可后,一经选定,不能改变;O)、拼音可采用全拼或双拼或简拼或不完整拼音;(3)、形部编码时,将汉字的各种部件分为单个基本笔画部件、离散部件和交连部件三类,这三类部件统称基本部件;离散部件要求部件的笔画离散并且对称,分为两个散笔、三个散笔,四个散笔、五个散笔,其中两个散笔、三个散笔,四个散笔、分别用罗马字母Π、ΙΙΙ、 IV表示,五个散笔只有一个“立”,就直接用“立”表示,将优选的40多个交连部件按起笔归类到横、竖、撇、点、折五个区;再主要根据每个区中基本部件的组字频率的高低,适当兼顾基本部件的多寡来决定每个区中包含的键位多少,点区、横区、竖区、撇区、折区以二列为界从左到右依次排列;将点区部件分别排在标准键盘最左边两列的六个字母键位上,即排在 Q、A、Ζ、W、S、X上,将横区部件分别排在标准键盘中点区的右边两列六个字母键位上,即排在E、D、C、R、F、V上,将竖区部件分别排在标准键盘中横区的右边两列六个字母键位上,即排在T、G、B、Y、H、N上,将撇区部件分别排在标准键盘中竖区的右边两列的五个字母键上, 即排在U、J、M、I、K上,折区部件分别排在标准键盘最右边的两列的三个字母键上;具体讲, 点区中的ι、言、i、广等部件排在Q键上,用Q作代码;立、门、广等部件排在A键上,用A作代码-J、水、氺等部件排在Z键上,用Z作代码;火部件排在W上,用W作代码;丨、心、等部件排在S上,用S作代码; 、等部件排在X上,用X作代码;王、雨等部件排在E上, 用E作代码;土、十等部件排在D上,用D作代码;大、车、石等部件排在C上,用C作代码; 才等部件排在R上,用R作代码;木、西等部件排在放F上,用F作代码;戈、*、升等部件排在V上,用V作代码;虫等部件排在T上,用T作代码;日、足等部件排在G上,用G作代码; 田、山等部件排在G上,用G作代码;目、口等部件排在Y上,用Y作代码;口等部件排在H 上,用H作代码;贝等部件排在N上,用N作代码;禾、竹、、夂、&等部件排在U上,用U作代码;彳、人等部件排在J上,用J作代码冻、金等部件排在M上,用M作代码;月等部件排在I上,用I作代码;鸟、鱼、3、舟等部件排在K上,用K作代码;马、耳、尸、卩等部件排在0 键上,用0作代码;女、又等部件排在L上,用L作代码;乡、弓等部件排在P上,用P作代码, 乡含g、糸、么,也用P作代码;个别组字频率不高的部件也被排列到键上,它们并不一定按起笔归类,而是按同源和近形归类到组字频率高的基本部件中如?含水、氺、小含、韦含金、止含At、U含U、*含升、心含、含竹、3含豕、勹含、四含M和皿、止含;t、夂含 &和文对含心和、?含水和氺、王含、乡含$、糸、么等部件;形部编码的取码规则是形部编码规则是按书写顺序取该汉字的首尾二个基本部件编码;当某汉字只有一个基本部件时,就只取这个基本部件的代码;当然也可规定当某汉字只有一个基本部件时,就取这个基本部件的代码,在重复取这个基本部件的代码作为第二码,也可规定取这个基本部件的首笔或末笔的代码编码;形部编码在取码时,都要遵循取大优先原则,即要优先按笔画数多的基本部件编码,应保证按书写顺序每次拆分出尽可能笔画数尽可能多的基本部件,不要把笔画多的部件拆分成笔画少的部件;另外还要兼顾直观,避免把四边封闭的方框形如“ 口”、“西”等基本部件按书写顺序拆开编码。
2.根据权利要求1所述的三列五区音形码,其特征是双拼最好选用王治阳双拼ch、 sh、zh按音序分别用i、U、ν表示,单韵母U用字母ν表示,各韵母与字母映射关系设定为a-a b-uai c-un iin d-aie-e f-an g-ang h-ou i-ij-ong iong k-ei 1-en m-uang iangη-uan Uan ο- uo ρ-ingq-ie r-in er s-ao t-iaou-u ν-Uui w-iu χ-ue Uey-an ζ-ua ia ; -eng只有韵母没有声母的,取e或ο或a作声母,还可取韵母的第一个字母作声母代码,再补上韵母代码,建议选用e作声母代码。
3.根据权利要求1所述的三列五区音形码,其特征是词语输入的步骤是 二字词语,取每个字的声母、韵母的代码依次输入;三字词语,取每个字的声母的代码依次输入,再补空格输入; 四字及以上词语,取前三个字及最后一个字的声母的代码依次输入。
全文摘要
本发明三类五区音形码属于计算机汉字编码输入法,在将汉字各种笔画按国家语委的规定归类为横、竖、撇、点、折后,并将多笔画部件为离散部件、交连部件,并结合汉字拼音进行编码,具有符合笔顺规范、直观、简单易学、输入汉字方便快捷等特点。
文档编号G06F3/023GK102436312SQ20111034557
公开日2012年5月2日 申请日期2011年10月28日 优先权日2011年10月28日
发明者王治阳 申请人:王治阳
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1