和码汉字数字输入法的制作方法

文档序号:6342869阅读:197来源:国知局
专利名称:和码汉字数字输入法的制作方法
所属技术领域和码汉字数字输入法属于汉字编码输入法技术领域,是适用于计算机,手机,电话机等设备的汉字键盘输入方法。
背景技术
汉字输入法是通过输入键盘的有限个键输入六千多个,甚至更多汉字的方法,其关键技术是对这么多汉字进行编码,通过一码或多码输入一个汉字或词组,每个码对应输入键盘上的一个键。如何对汉字进行编码,有多种不同的方法,因此有多种不同的汉字输入法。汉字输入法就其所使用的汉字信息的不同大致可分为三类形码,音码,形音结合码。
音码的输入码简单,但汉语同音字太多,使得其重码太多,输入效率低,加之对许多有地方话口音的人来说,给出音码要求的准确汉字读音很困难。音码的模糊音功能,虽降低了对准确读音的要求,但确又大大加重了重码率。
形码是以汉字字形,笔画和笔画构成的部件作为输入码输入汉字,汉字一字一形,形码与汉字最有可能构成有效的对应关系。由于汉字有大量的笔画和部件,汉字的构成又没有很好的规律性,如何选取和利用字型、笔画和部件进行编码,又有许多家的看法,这就形成了现有的多种汉字形码输入法。现有的汉字形码输入根据输入键盘的大小又可分为两类标准计算机键盘形码输入法,和数字键盘形码输入法。
为标准计算机键盘设计的形码输入法的码个数多,一般都在25个以上。构成汉字的笔画和部件按其特点分类组合到这些码中。主要优点有码长短,多为4,重码率低。主要缺点有各码所含的笔画和部件难记、拆分取码规则主观、复杂、难记难用。许多输入法中各码的设计和安排都按“形托”或“音托”找与英文26个字母的关系,这些关系牵强附会,26个英语字母在键盘上的排布本来就是无序的,就些方法使汉字输入法各码在键盘上的位置更混乱,更难记。
为数字键盘设计的形码输入法的码个数少,一般是5至10个,各码表示的内容大都为单笔画、简单易记。主要缺点有码长长(取码个数多),都为6个以上,获取的字结构与字意的信息量小,重码率高,取码困难。
许多输入法不能同时适用于标准计算机键盘和数字键盘,不能做到了同一输入法在两种键盘上的统一。
形音结合码是综合利用汉字的音和形的信息为汉字编码,所利用的汉字信息多,但输入汉字因要考虑汉字的形、音两个方面,加重了使用者大脑的负担。

发明内容
一、和码汉字数字输入法的目的1、较大幅度地减少汉字形码输入法所含部件的个数,从而减少记忆量。
2、按数字的次序在键盘上排列25个数字输入码,排布顺序与英文字母不关联,方便记忆。
3、使汉字编码最大程度地包涵汉字的字意、字结构信息。
4、简化汉字取码规则,使取码简单易行。
5、实现在计算机大键盘和数字键盘上的汉字编码方法的统一。
二、和码汉字数字输入法的技术方案1、和码汉字数字输入法25个输入数字码,各码所包含笔画和部件的排布、定值和选取。
将汉字部件按其第一笔画的起笔,横(包刮提)、竖、撇、点(包刮捺)分类,将部件按其对字意与字结构的限定性大小或按其所含笔画的繁简程度分级,将笔画与部件在纵横两个方向按级别和按类别有序地排布到5×5矩阵的25个格子里,各个格子里的部件根据其结构、意思的相似性,取码时的容错性,及其在编码数据统计中的分布均匀性,进行优选和调整组合,得到一个码表。码表中的各个码根据其在矩阵中的位置(行数、列数)取得一个二位数的数字,此数字即为该输入码的码名,也是该输入码的码值。此方法的优点1)、纵横两个方向的客观次序,有利于记忆各笔画或部件在矩阵中的位置。
2)、码名的数值化可用于在计算机大键盘上顺序排布输入码,也可用于在手机或其它数字键盘上直接输入该码。
3)、输入码码值是其所包含的字意和字结构信息大小的尺度。码值越大,码所含的信息就越多,其对字意或字结构的限定就越大。例如横笔画(一),在国标GB2321一级常用字3755个字的3000多个字中出现。部件“口”在700多个字中出现,部件“日”在300多个字中出现,因此它们对字意或字的结构的限定性由小到大,横笔画(一)的码值是11或12;部件“口”的码值是33;部件“日”的码值是43。
和码汉字数字输入法的25个码,各码所包含笔画与部件的排布如以下码表1所示 码表1码表1的说明1)、各个码依据其在矩阵中的位置(纵向的行数、横向的列数)取得二位数,此数字即是该输入码的码名和码值,如“丿”的码名和码值是14;“日”的码名和码值是43。
2)、和码中提笔画等同于横笔画、捺笔画等同于点笔画。
3)、从第一列到第五列是横、竖、撇、点(包刮捺)的顺序。
第一列主要是横、横折有关笔画和部件。
第二列是横画起笔的笔画和部件。
第三列主要是竖起笔的笔画和部件。
第四列是撇画起笔的笔画和部件。
第五列主要是点、捺起笔的笔画和部件。
4)、从第一行到第五行是部件对字意与字的结构限定性增加的顺序。
第一行各码为单笔画,单笔画在汉字中分布很广,对字的结构和字意的限定性最小,码值也最小。
第二行各码主要为由两个单笔画构成的部件,这些部件在汉字中分布也很广,对字的结构和字意的限定性较小。
第五行各码多含有成字部件,如页贝雨巾王工木弋戈戋虫厶幺豸乌鸟小火心等,对字的结构与字意的限定性最大,码值也最大。
5)、11码是与其它笔画相分离,或相接的横(提)笔画,12码是与其它笔画相交的横(提)笔画。
6)、33码中的口字偏旁和43码的日、目字偏旁是与其他笔画相分离或相接的。例如和、党、眼、显、早、造等等。53码的口字形是口字框(其内含有其他笔画)和与其他笔画相交的口字形。例首笔田、回、国、申、贯、署;末笔西、串。
7)、各码所包含的部件大都是连续书写的笔画构成,只有四个码中的5个部件例外
41码的“匚”部件在字中不是由连续书写的笔画构成的,如在“区”字中“匚”是由第一笔画的横和末笔画的竖折构成。类似的字还有驱、欧、匡等等,这些字在取码时、取“匚”码41,而不需考虑它构成笔画的顺序。
52码的“戈”字,常在字中不是由连续笔画构成。如或、戒、成、感等等。这些字在取码时取“戈”字码52、而不需考虑它构成笔画的顺序。
53码中的口形框、以及且、皿二字的外框,它们在字中不是连续书写的笔画。如“国”字,口框由第一、二笔和末笔画组成。类似的例子还有田、回、且、皿、囚等等。另外还有与其它笔画相交的框形,如中,申、由、西、央等等。这些字在取码时取框形码53,而不需考虑构成这些框形的笔画的顺序。口形和“且、皿”的外框都不能被拆开取码。例如束、柬、串、央等。
55码的“心”,在“必”字中不是由连续笔画构成,这“必”字在取码时取“心”字码55、而不需考虑它构成笔画的顺序。
除以上四个码5个部件外,其它部件都是由按顺序书写的笔画构成。
8)、55码中的“  ”是不与其它笔画相交的,如“东”字第二码是25,而不是55,“余”字第二码是52,而不是55或25。“兼”字取码25,而不是55。
9)、各码包含的笔画和部件、码值、简码及举例

2、和码汉字数字输入法取码规则1)、单字的取码规则字的码长为4,有25个常用一级简码字,输入一个码就可选出。
和码输入法中,汉字按结构分为两类左右型汉字和其它型汉字。左右型汉字中存在一垂直的间隙线,可自下而上地将该汉字分为两部分。取码时左右型汉字,被分为左、右两部分,左部分为最左边的不再含自上而下垂直间隙的部分。剩余的部分为字的右部分。例字如、川、非、兆、部、隙、师。
左右型汉字的取码规则第一码取自左部分第一笔(也是字的第一笔)及其后续笔画。在和码表中可能有多个部件包含此第一笔及其后续若干笔画,那么哪个部件码的码值最大,就取哪个部件码。使用过的笔画,不参与后续码的选取,以下相同。例销,第一码为24。
第二码取自右部分第一笔及其后续笔画,取码值最大的部件或笔画码。例销,第二码为55。
第三码取自字的最后一笔及其往前续笔画,取码值最大的部件或笔画码。例销,第三码为41。
第四码取自剩余的笔画或部件,取码值最大的部件或笔画码。例销,第四码为51。
例销四码是24,55,41,51;谆15,35,22,33如第二码同时取去了字的末笔画,那么第三码、第四码依次取剩余笔画与部件中最大值码、次大值码。
例捆22,53,52,12朝22,41,43,22;其它型汉字的取码规则第一码取自字的第一笔及其后续笔画,取码值最大的部件或笔画码。使用过的笔画,不参与后续码的选取,以下相同。
第二码取自字的最后一笔及其前续笔画,取码值最大的部件或笔画码。
第三、四码在取去前二码后剩余的笔画中,依次取最大值码、次大码值部件码。
例画11,23,53,22;奔42,42,22;病35,24,25,23;道25,45,43,14。
如果第一码同时取去了字的最后一笔,那第二,三、四码依次取剩余部分的最大值码,次大值码、次次大值部件码。
例国53,51,15或52,33,11特别的例字束12,25,53,13“束”字,虽有构成“木”的笔画,但这四个笔画不是连续书写的,故取码时不能取“木”字码。“束”字还含有构成“十”的两笔画,但这两个笔画在字中不是连续书写的,故也不能取“十”字码。
“束”字中末尾两笔取25码,而不取24,被其他笔画相间的撇捺两画,认其为分离的撇捺两画,取25码。相似的例子还有柬12,25,53,25。
来12,52,25。“来”字的末尾四个连续笔画构成“木”字,应取取“木”字码52。
2)、词组的取码规则词组的码长为4,有的词组的码少于4个。
二字词,取第一字的前两个码加上后一字的前两个码。如第一字只有一码,则第二字取前3码。
三字词取三个单字的第一码和末一字的第二码。四字和四字以上的词取前四个字的第一码。
三、和码汉字数字输入法的有益效果1、部件数少及部件的有序排列使记忆量大幅度减少和码笔画和部件总数是148个(详细表达形式),其中成字字根55个,它们是一乙弓十山门人入八又力刀九乃土七上止匕口勿夕久及女月巳巴大井日目欠儿几之页贝雨巾王工木弋戈戋虫厶幺豸乌鸟小火心。
王永民先生的五笔字型字根总数是284个(详细表达形式),其中成字字根99个,它们是王一五戋土士二十干寸雨大犬三古石厂木丁西工七弋戈廿目卜上止日日早虫口川田甲口四皿车力山由贝几禾竹彳白手斤月丹乃用豕人八金儿夕言广文方圭立六辛门水小火米之巳已己乙尸心羽子孑也了耳女刀九臼又厶巴马幺弓匕。
表形码字根总数是377个(详细表达形式),其中成字字根129个,它们是一二八三川小六火立五又叉女及瓦目耳且虫日日夕山巾习中丰申韦事串聿巨臣月冉丹工王里正廿卅世册甘刀乃主厂广片爿匕七屯乜也电车木本未末束耒果柬门口凹凸尸尹皿四田母毋口豸豕大夫央夷丈史吏弗井开曲西酉弋戈戋曳丁不干于甲厶心臼人入幺了弓儿几北兆非十力九上止土士由子孑孓乙。
三种输入法字根数比较如下

可见和码输入法与以上两种常用输入法相比,大幅度地减少了部件数目,此外笔画和部件在码表中按纵横两方向的顺序有序地排列更方便了记忆,因而和码大幅度减少了使用者的记忆量。
2、和码输入法的汉字编码最大程度地包涵了汉字的字意、字结构信息。
和码汉字数字输入法各码码值的大小表示其对汉字的字意和字结构的限定性大小,和码编码是在定点位置和在剩余的笔画与部件中取最大码值和次大码值的码,使所获得的汉字编码最大限度地保留了字意和字结构信息。
3、取码规则简单,易用和码输入法中,上下,包围、嵌套型结构的汉字都被作为其它型汉字,减少了结构划分的歧义和复杂程度。
左右型字在左部起笔位置,右部的起笔位置和右部的末笔位置各取一个最大码值的输入码,其它型字在起笔位置,和末笔位置各取一个最大码值的码,这种定点取码的方法比按书写顺序取码方式有好的引导性,易于操作。和码输入法对字定点取码,不需对整个字进行拆分,简化了许多多笔画汉字的取码。
4、25的码位在计算机大键盘上的排布是按码值的大小顺序,与英文字母没有关系,因此简单易记。25个码在计算机大键盘上的排布如下图示 5、码值用于在手机或其他数字键盘上直接输入该输入码,实现了在计算机大键盘和数字键盘上的汉字的取码方法的统一。
6、对标准GB2312汉字库的6763个字的编码统计显示,各码的统计数分布均匀,使得重码率达到最好的结果。
具体实施例方式
和码汉字数字输入法具体实施需要结合不同的设备通过制作输入软件在设备上由键盘实现。和码的25个数字码可按其数字顺序分布在不同设备的输入键盘上。
对于计算机的标准大键盘,和码的25个码使用26个英语字母键中的25个键,多余的一个英语字母键作为和码的0码值键,在汉字编码中如果字或词的码数不够4码时可用0码值补足。和码的排布依照空间的上下左右顺序,不与英语字母关联。大键盘上的其他辅助键和功能键也可为和码输入法的程序所用。
手机和其它数字键盘上都有十个数字键0、1、2、3、4、5、6、7、8、9,和码汉字的编码只使用其中6个键0、1、2、3、4、5。和码的每个码是一个二位数的数字,因此需要输入二个数字键完成一个码的输入。6、7、8、9四个键可用作输入的辅助键和功能键。
权利要求
1.一种汉字形码数字输入法所含笔画和部件的排序和定值方法,其特征是将构成汉字的笔画与部件按其第一笔画的起笔(横、竖、撇、点、捺)分类,将部件按其对字意与字结构的限定性大小或按其所含笔画的多少分级,将笔画与部件在纵横两个方向按级别和按类别有序地排布到5×5矩阵的25个格子里,各个格子里的笔画与部件经优选和调整组合后得到一个码表,码表中各个码根据其在矩阵中的位置(行数、列数)取得一个二位数的数字,此数字即为该码的码名,也是该码的码值。
2.根据权利要求1所述的一种汉字形码数字输入法所含笔画和部件排序和定值方法,和码汉字数字输入法的特征是横方向以横(提)、横(提)、竖、撇、点(捺)为序,纵方向按部件对字意或字结构的限定性大小为序,经优选和调整后,和码汉字数字输入法的码表如下表所示。
3.根据权利要求1所述的一种汉字形码数码输入法所含笔画和部件排序和定值方法,和码汉字数字输入法的取码特征是字码长为4,汉字分为左右型和其它型,左右型字在左部起笔位置,右部的起笔位置和右部的末笔位置各取一个最大码值的输入码,在剩余的笔画与部件中再取一个最大码值的码;其它型字在起笔位置和末笔位置各取一个最大码值的码,在剩余的笔画与部件中取最大码值和次大码值的码。
全文摘要
和码汉字数字输入法有25个数字输入码,有序地排布于5×5矩阵格子中。在横向各码的笔画与部件按其起笔笔画的横(提)、竖、撇、点(捺)的顺序排列,在纵向按部件对字意与字结构的限定性由小到大的顺序排列。各码根据其在矩阵中行列的位置取得一个两位数的数字,此数字即为码名也为码值。码的值越大其对字意或字结构的限定越大。码值用于在计算机大键盘上顺序排布输入码,也用于在数字键盘上直接输入该码。字码长为4,左右型字在左部起笔位置,右部的起笔位置和右部的末笔位置各取一个最大码值的输入码,余部再取一个最大码值的码。其它型字在起笔位置和末笔位置各取一个最大码值的码,余部取最大码值和次大码值的码。词组码长为4。
文档编号G06F3/023GK1564108SQ20041001708
公开日2005年1月12日 申请日期2004年3月17日 优先权日2004年3月17日
发明者欧阳贵林 申请人:欧阳贵林
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1