数形码汉字键盘输入技术的制作方法

文档序号:6601576阅读:260来源:国知局
专利名称:数形码汉字键盘输入技术的制作方法
表9
…COOT.
③常用字的重码对数必须降到高速输入能够承受的范围。也就是说,在按汉字的字根取码后加附加信息时,重码对数要与五笔字型相当,即少于70对;在不加字根信息以外的附加信息的情况下,重码对数应少于150对。为了易学而放弃对低重码的追求,其结果充其量只能造就一个“易学一阵子,慢了一辈子”的汉字输入法,而推广这种输入法的结果也只能是误人子弟。十多年来所谓“普及型编码”无法与五笔字型竞争的实践结果,证明了重码不是很低(更不用说重码很高)的“普及型编码”是没有办法普及的,因为它们不能满足用户的生产要求、考核要求、求职要求。
④编码一定要易学易记,即使多时不用也不会忘却。编码搞得太复杂,所谓重码少、盲打,对非专业用户来说,不过是一个望梅止渴的目标,因为许多字编错、不会编,经常要使用模糊查询或切换到拼音码才能把字打出来。
⑤经过定量的重码统计,能够得出这样一个重要的结论如果一个键对应过多的字根,反而会造成大量的重码。这一结论,确认了研制低重码的易学型编码的可能性。
目前,社会上仍存在一大批对使用拼音存在心理障碍的人,为了解决这部分人输入汉字难的问题,研制易学高速且不用声母表示字根的形码仍有其相当的必要性。为此,数形码设计了如下的字根键位图。
这个字根键位图可以简单地用顺口溜“1直2盖3点水,4撇5横67折,8人开草9口十,金(斤)几木声手寸Y”来描述,不但极易记忆,而且字根不多,很容易制作成面积较小的键贴。
这个数形码的字根安排对于懂拼音的人也是极为友好的,字根中有“文、阝、亻、儿、土、丶、攵、工、戈、金、斤、几、开、木、女、小、心、忄、止、丨”的声母就是所在键位的字母。
数形码按照客观存在的汉字结构对构成汉字的各部件进行有长度限制的编码,因而能够比较全面地获得汉字的比较全面的信息,因此重码比较少。经重码统计,若不加附加信息,在3755个一级汉字中有重码133对;若对不满四码的重码汉字追加声母作附加信息,重码降到57对;若对重码汉字追加第五键(不加声母作附加信息),重码为105对。显然,它的各种重码指标均少于上面第一表中同类的最小值264,62和105(苍颉码的统计范围是3000个字,而不是3755个字),数形码的字根数与一表中的诸码相比是最少的,字根与键位对应关系极其规则,总的记忆量也最小。
数形码在编码时需要按汉字的结构(包括上下、左右、包围、左上右下、右上左下五种结构),并结合成字原则、自然分离、部首原则对汉字进行分解。通常尽可能将汉字一分三,分不成三就分二,分不成二就是独体字。
对于独体字至多可取四码,对于非独体字中的末部件,至多可取三码,非末部件最多可取二码。
其详细的拆分过程如下1.是否是独体字?如是,进入步骤3。
2.将汉字按五种结构一分为二后①第一部分是否只由一个字根构成,如不是转②。如是,再看第二部分是否可按五种结构一分为二。如不可以,对第二部分按“取大优先”的办法取字根,最多取三个,以字根首笔的笔顺的先后作为取字根的顺序;如可以,则取第二部分中的首部的两个字根,取第二部分末部一个字根;若第二部分首部只有一个字根,则末部可取两个字根。如第二部分中没有自然分离部分,但按“成字原则”可以分出非单笔划的汉字或部首时,仍要划分,如“埠”、“啤”。如果第二部分中的首部只有一个字根,而末部还可按五种结构一分为二,则还要分,分成的四部分各取一码;否则按字根起笔笔顺取第二部分中的末部的两个字根;如果第二部分中的末部只有一个字根,则第四键加声母,或用空格、数字选入。②若第一部分由两个字根构成,或第一部分为新华字典中的部首,则按字根首笔顺序取第一部分的两个字根后,再按五种结构拆分第二部分,并各取一个首字根;如第二部分不能分,则按字根笔顺取二码。如只有一码,第四键加声母,或用空格、数字选入。③若第一部分由两个以上字根构成且非新华字典中的部首,则首先看第一部分是否自然分离的两个小汉字,如是,而第一部分中的首部又可取二码,则第一部分中的末部取一码,第二部分取一码;如第一部分中的首部只有一码,则第一部分中的末部取二码,第二部分取一码。如第一部分不能分为两个小汉字而第二部分却可分为自然分离的两个小汉字,则将汉字分为第一部分、第二部分首部、第二部分末部三个部分,第一部分按字根起笔笔顺取二码,第二、第三部分各取首字根。如第一部分、第二部分中均无自然分离的两个小汉字,则看第一部分是否“自然分离”,如“自然分离”,则汉字已一分为三;否则,看第二部分是否“自然分离”,如“自然分离”汉字也已一分为三。若两部分均不“自然分离”,则先看从第一部分相互粘连的笔划组合中中能否拆分出非单笔划的小汉字或部首,如不能分,再看从第二部分相互粘连的笔划中能否拆分出非单笔划的小汉字或部首,尽可能将汉字分为三部分。对于两部分均无法拆分的汉字,每部分各按字根起笔顺序取两个字根,如第二部分只有一个字根,加声母或用空格、数字选入。对于可以分为两个相同部分的汉字,每部分各按字根起笔顺序取两个字根,不拆为三部分。
3.独体字首先看是否可拆分出非单笔划的汉字或部首。如可以,则第一部分可取一至二码,第二部分可取三至一码,合起来至多取四码;不足四码加声母或用空格、数字选入。如不可以,则按字根首笔笔顺为序进行编码,至多取四码,不够四码加声母或用空格、数字选入。
4.字根字按对应字母后选入。
上述步骤说起来繁琐,实际使用起来却是非常简单的。
数形码认为,汉字编码既要兼容于汉字的写字笔划,使用户不因之而形成倒笔划的坏习惯,另一方面还要“兼顾直观”。汉字编码不是写字,应该看上去像什么就编什么,不要机械地完全按照书写笔划来拆分字根和部件,从而把部件拆得支离破碎、面目全非。因为汉字在书写时,并非总是写完了一个字根或部件再写另一个字根或部件。但为了减少与书写笔顺的矛盾,则规定以字根首笔笔顺的先后来决定取字根的顺序。对于有多笔交叉的部件,数形码采用割开来的办法,也是为了“兼顾直观”。譬如“丰”,我们看到有三个交点,就把它分为三个“十”。如完全按照笔划取大优先地划分,只能划成“三”和“|”,完全看不到有相交的迹象。再如“栽”,将其分割为“土”、“木”和“戈”也是符合汉字本身的意义的(即用“戈”挖“土”种“木”)。
关于“口”和“口”的差别在于“口”代表当中没有其他笔划的小“口”及只有一笔穿过的“口”,如果有多笔穿过或内部有一至多笔,则都用“口”例“数”分为“米”(im)、“女”(n)、“攵”(f)“盘”分为“舟”(fa)、“皿”(az)“熟”分为“享”(wo)、“丸”(o)、“灬”(c)“舆”分为“ ”(fz)、“车”(u)、“八(i)”“琢”分为“王”(gt)、“豕”(b)、“丶”(d)“甄”分为“西”(g1)、“土”(t)、“瓦”(g)“夹”分为“ナ”(b)、“丷”(i)、“大”(b)“主”分为“亠”(w)、“土”(t)“选”分为“ ”(ft)、“儿”(r)、“辶”(s)“卸”分为“ ”(jp)、“卩”(ez)“尊”分为“酋”(il)、“寸”(y)“兼”分为“”(i)、“彐”、“ ,”“静”分为“十、土”(pt)、“月”(a)、“ク”(v)
权利要求
1.一种数形码汉字键盘输入技术,其特征之一在于进行编码所依据的字根的类别在计算机通用键盘上是按各字母键列向对齐的数字的形状、起笔来分布的;其特征之二在于使用字根对按照汉字的结构进行分解后得到的部件进行有长度限制的编码末部件至多取三个字根,非末部件至多取二个字根,一个汉字至多取四个字根。
2.根据权利要求1,数形码进行汉字编码输入所依据的数字~字母~字根对应关系如下1区 Q-不对应字根;A-月骨冂;Z-止山丨卜;2区 W-二亠文言讠乙;S-之辶宀冖;X-心小忄 3区 E-三了阝;D- 广疒;C-水冫氵 灬 ;4区 R-四儿亻;F-丿攵的;V-犭勹ク夂多;5区 T-土士5;G-一工戈;B-厂石ナ大;6区 Y-六 扌手寸;H-纟厶幺乡;N-女∠L く;7区 U-七匕7彐予;J-金钅斤几刂亅;M-木;8区 I-八ソ人;K-开卄9区 O-九口;L-口日曰目田凹凸 (“ ”指其他包围形);0区 P-十。
3.根据权利要求1~2,对于由两个形状相同(或基本相同)的部分构成的汉字,如果该部分本身是权利要求2所述之字根,则各取一码,否则,各部分按构成其的字根的起笔的先后各取两码。如“哥”、“兢”可分为两个基本相同的部件“可”和“克”。
4.根据权利要求1~3,对于不属于权利要求3的汉字,数形码应首先按汉字所属的左右型、上下型、包围型、左上右下型、右上左下型五种结构的自然分离结合成字原则,将汉字一分为二,然后尽可能按“成字原则”、“非末部件的部首不分解原则”、“自然分离原则”、“成部首原则”次序的优先级别(次序先,优先级为高),尽可能将这两部分之一再划分为一次,使汉字分为3个“部件”。如“孵”,属于左右型结构,结合“成字原则”,应将其分为“卵”和“孚”,然后将“卵”再一分二。如果可以根据汉字本身的结构分为两个部件,则按如下步骤设法再分出第三个“部件”。①第一部件是否由三个以上字根构成,如果第一部件只有两个字根,或第一部件为新华字典所定义之部首,不拆第一部件,而进行步骤③、⑤、⑦。②观察第一部件是否可以分为两个“自然分离”的汉字。③如不能,则看第二部件是否可分为两个“自然分离”的汉字。④如②、③均不能分,观察第一部件内是否自然分离。⑤如不能,再观察第二部件内是否自然分离。⑥观察能否从第一部件中拆出非单笔划的部首。⑦观察能否从第二部件中拆出非单笔划的部首。如“懿”中的“壹”不能分为两个汉字,而“恣”可分为“次”和“心”,故进行到步骤③,即能完成对汉字的分解。
5.根据权利要求1、2、4,如果可以划分为三个部件,则按三部件编码分配规则“如果第一部件可取二码,则二、三部件各取一码;如果第一部件只能取一码而第二部件可取二码,则在第二部件取二码后第三部件取一码;如果一、二部件均只能取一码,则对不可分的第三部件按可分解出的字根的首笔的书写顺序取一至二码,若第三部件还可按‘自然分离’或‘部首原则’分解为两部件,则取分解后两部件的首字根的编码”进行编码。如果汉字只能划分为两个部件,则按二部件编码分配规则“若首部件只有一码,末部件至多可按该部件各字根首笔划顺序的先后取三码;否则,首部件、末部件均至多按字根首笔先后取二码,合起来整个汉字至多取四码”进行编码。如“恶”,无法从“亚”和“心”中再分出非单笔划的部首,所以对“亚”取“一”和“ ”,再取“心”。如果是无法按照结构的自然分离进行划分的独体字,首先应根据“成字原则”和“成部首原则”(单笔划除外)尝试对独体字一分二、二分三的划分。划分后按照权利要求4取码。如不能分,则按“书写顺序”及“取大字根优先”的原则对该汉字取码,码长最长为四。如“阜”,根据“成字原则”可分为“ ”和“十”然后取第一部件前两个字根“丿”和“丨”,再取第二部件“十”对应的字母。这里对“成字原则”、“成部首原则”要补充的是如“阜”那样只要其中能拆出一个非单笔划的字,就是贯彻了“成字”、“成部首”原则,并非一定要拆出两个字或部首。当然,在有汉字-汉字、汉字-部首、汉字-非部首、部首-非部首多种拆法的情况下,以汉字-汉字的优先级最高,其他按序降级。对于无法拆分的字根字,按对应字母后用数字选入。
6.权利要求1~5述及的“取大字根优先”必须尽可能避免字根之间互相穿插,必须尽可能避免破坏本部首与下一部首的完整性。如“生”第一码应取“丿”,因为取“”会造成“”与“土”的交叉。“成”应分为“戈”和“勹”。如第一字根取“厂”就把“戈”、“勹”拆得支离破碎。“歹”应分为“一”、“夕”,因为取“丆”会破坏“夕”的完整。实际上本规定是“自然分离”、“成字”、“成部首”原则的拓展。
7.为了避免字根间的穿插,能够直观地分解字根,规定对于“ ”丶“丰”及“ ”“ ”拆成两(在非末部件中)或两至三(在单字或末部件中)个“十”或“ナ”。如不这样规定,势必把“ ”拆成“二”、“丨”两个看不出有任何相交痕迹的部件,不符合快速取码的“直观”要求。同样,对“井”,规定将它拆为两个“卄”;对于“ ”,规定将它拆为“卄”和“曰”。
8.“丷”总是依附于它下面的部分成为一个部件。对于“羊”、“ ”“ ”统一取“丷”和“一”对应的字根“ig”;“关”、“酋”和“兰”,第一字根取“”;“半”丶“”、“ ”、“ ”,第一字根取“ ”。
9.所谓“部首”,指新华字典所定义的部首,但对“辰、麻、其、音、青、老”这些在常用字中不起或很少起表意作用且本身内部又有自然分离的部首,在本编码中不作为“部首”,即当它们不处于末部件时,仍可以分为两个部件。
10.对于采用其他拆分部件方法的汉字编码所采用的字根表,也不得有与权利要求3所述字根表有70%的相同。
全文摘要
一种名为数形码的汉字键盘输入技术,其特征之一在于进行编码所依据的字根的类别在计算机通用键盘上是按各字母键列向对齐的数字的形状、起笔来分布的;其特征之二在于使用字根对按照汉字的结构进行分解后得到的部件进行有长度限制的编码;末部件至多取三个字根,非末部件至多取二个字根,一个汉字至多取四个字根。由于其字根少、键位分布规则、根据汉字自然结构的分离来取码,比较全面地获得了汉字的信息,因而不但易学,而且重码少。
文档编号G06F3/023GK1150666SQ9511334
公开日1997年5月28日 申请日期1995年11月23日 优先权日1995年11月23日
发明者周宪 申请人:周宪
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1