汉字形体特征象形分类法与汉字特征象形码输入法的制作方法

文档序号:6375483阅读:497来源:国知局
专利名称:汉字形体特征象形分类法与汉字特征象形码输入法的制作方法
技术领域
本发明涉及汉字形体结构分类、检索、识别和汉字电脑输入法及其键盘等。
背景技术
目前,各类汉语辞书中对汉字和汉语词条的编排分类和检索主要是按拼音或偏旁部首或书写笔画笔顺或笔画数等。这些方法均存在着环节多、速度慢、确定性差和复杂化等弊端;传统的识字教学方法和对汉字基本结构的分类法与现代汉字信息处理严重脱节,不适应高速发展的信息化的需要;在目前各种汉字电脑输入法中,录入速度较快、准确率较高的主要有五笔字型输入法和二笔输入法等,五笔字型是按字根取码,其字根数目繁多,规律性差,拆分取码复杂,难学难记难掌握,使低文化层次和年龄较大的人望而生畏,并且该输入法在GB2312字集中还有数百个重码字,词组容量也很小;二笔输入法按汉字拼音的首字母和书写笔画笔顺取码,它要求对录入的汉字要会读会写,即必须掌握正确的读音和正确的书写笔画和笔顺,并且该输入法取码缺乏直观性,进入易而熟练难。

发明内容
本发明运用形象思维和数学原理,从汉字各部位的局部特征笔画或笔画组合的空间形态(象形)、空间位置和空间次序出发,从更抽象更简约的层次上把握汉字的形,首创了汉字字符的25个头形类别、12个尾形类别,即共计37个汉字字符的形体特征象形; 首创了按“单头字”和“多头字”进行基本划分的汉字结构分类法,确立了汉字的10个基本结构类型;在前述发明的基础上,结合极少数常用字根,创建了汉字特征象形码输入法的编码系统、编码方法及其键盘等。本发明主要是为汉字分类、检索、识别和电脑输入编码等提供一种简明、直观、准确、快速的基本方法,解决目前汉字字形分类欠科学、检索缓慢,各种形码输入法难学难记难掌握,重码字词多,词组输入能力差等弊端和不足。本发明可广泛应用于汉字字形分类、检索、辞书编排、识字教学和编码输入等。


附图是本发明的键盘图。
具体实施例方式
一、汉字形体特征象形分类所谓“汉字形体特征象形”,是指汉字形体结构的特征笔画或笔画组合的空间形态,或者说是表征各个汉字形体特征的某些局部笔画或笔画组合的空间形状、形象。
1.汉字头部特征象形--头形--分类根据汉字字符头部特征笔画的空间形态(象形),并结合实际应用的需要,可将所有汉字(简体字、繁体字和异体字)和汉字中的分部结构(包括单笔画)的上部形态--头形,划分为五大类,二十五个亚类。
在确定汉字字符的头部特征象形--头形--时,遵循“只顾左右,不论上下”的原则,即选取垂直投影方向能够看到或首先看到的1-2个主要特征笔画或笔画顶端的一部分,再放到正视平面中按照从左到右的顺序并依笔画(有时是笔画上部)或笔画组合的空间形态(形状、形象)进行观察定形和命名,如将“横”笔称为“线平”,将“撇”、“捺”以及“撇折”和“斜钩”的上部统称为“斜”形;将“中、电、才、”的头部统称为“单坚头”;将“人、入、八”统称为“双斜头”等。见下页表1
汉字头形类别及例字一览表表1
2.汉字尾部特征象形--尾形--分类根据汉字字符尾部特征笔画的空间形态(象形),并结合实际应用的需要,可将所有汉字(简体字、繁体字和异体字)和汉字中的分部结构(包括单笔画)的尾部形态--尾形,划分为五大类,十二个亚类。在确定汉字的尾形时,规定均以字符下部末尾或右下末尾的1-2个笔画,按照逆垂直投影方向进行观察来确定。见表2汉字尾形类别及例字一览表表2

汉字其它部位的特征象形,均可以通过相应的头部特征象形来表征。
二、按头形数目的汉字结构分类法汉字的结构是一个比较复杂的问题。本发明提出一种按头型数目进行基本划分,并结合一般划分法进行再分类的新方法,以期获得对汉字基本结构的一种比较明确的认识,消除在汉字分类、检索、识别和电脑输入编码中的疑惑。
根据前面提出和确定的25个头型类别,并以此为标准,可以将所有汉字(简体字、繁体字、异体字)划分为“单头字”、“多头字”两大类别,其中每一类别又可进行若干结构类型划分。见表3汉字结构分类及例字一览表表3

此外还有一种“四合体”字如“翟、翳、翡”等,这类字作“多头上下结构”或“多头左右结构”字看均可。
三、汉字特征象形码输入法汉字特征象形码输入法是运用前述有关汉字特征象形与结构的方法体系,并结合极少数常用字根(称为“键面字根”)创建出的一种电脑汉字纯形码输入法,具有简明、直观、易学、易熟和准确、快速、无重码字等特点,且能大容量输入词组。
1.汉字特征象形码输入法取码要素和码元的确定汉字特征象形码输入法共确立、设定了128个取码要素,包括24个汉字字符的基本头形(25个头形类别中的纯点头即“冫”和“氵”作键面字根安排)、12个尾形、和92个键面字根。128个取码要素经过精心安排和巧妙布局,分配在32个键位上,即共设立了32个编码符号(码元)。
(1)24个头形取码要素系统中的24个基本头形就是前面提出的25种头形类别除去纯点头,即线平头、方平头、另平头、平竖头、单竖头、多竖头、竖平头、竖斜头、竖点头、斜出头、单斜头、双斜头、斜平头、斜竖头、斜点头、点斜头、点方头、点竖头、点盖头、点罩头、点包头、点折头、特形头、双飞头。
(2)12个尾形即线平尾、方平尾、另平尾、单竖尾、多竖尾、竖斜(斜竖)尾、单斜尾、双斜尾、平踢尾、特形尾、以及左钩尾、右钩尾。
(3)92个键面字根
1工王不可页耳西酉 (线平头类10)2几口贝目足见田甲卩 (方平头类12)3了辰马水阝廴冖 (另平头类8)4十土士寸巾木末耒虫扌 (单竖头类10)5山共刂 (多竖头类3)6 (竖平头类1)7大女车(斜出头类5)8反斤手禾舟鸟幺豸亻彳爫 (单斜头类12)9八人入厶 (双斜头类4)10气钅夂攵(斜平头类5)11失 (斜竖头类2)12火犭 (双飞头类5)13门心穴冫氵讠辶疒丬 (点子头类10)14巛巜 癶 (特形头类5(4)32个码元(编码符号)32个码元(即编码符号)是键盘上的26个英文字母,加上排的“5”、“7”两个数字键,再加4个非字符号“,./;”。
取码要素与编码符号的对应关系,即取码要素的键位分布见下页表4和附图。
128个取码要素键位分布一览表表4
2.码长汉字特征象形码输入法设置的最大码长为4码。输入时绝大部分汉字只需3码加空格键,常用的一、二级简码字达1000余个。
3.汉字特征象形码输入法的编码(取码)规则汉字特征象形码输入法编码(取码)规则的最大特点和优点就是顺乎自然,其要点包含在下面这样一首顺口溜中象形码,真直观,看啥是啥把码编。
空间位置定次序,结构拆分依自然。
单头从上往下取,多头顺着时针转。
独体逐形来剥离,合体分部依次键。
键面字根巧牢记,取形唯从大优先。
依照规则补尾形,尾形直到左下边。
简码多由自然定,其余简码均常见。
象形码,真方便,汉字处理最快捷。
简明易学人人会,打字轻快如闪电。
下面,按“单头字”、“多头字”、和“词组”来分别阐述象形码输入法的编码(取码)规则。
(1)单头字编码(取码)规则从表3巳知,单头字即顶部只有一个头形的字符,包括“单头独体字”和“单头合体字”两大类。
<1>单头独体字编码(取码)规则单头独体字按照从上到下的顺序逐形剥离取码。所谓逐形剥离即按该输入法确定的头形和键面字根以及尾形依顺序挨次拆分。(抽离)取形,并遵遁“取大优先”和“键面字根一级优先”的原则;在按头形剥离(抽离拆分)时规定凡“单竖头”、“斜出头”、“斜竖头”、“竖点头”、“斜点头”的“竖”笔或“斜”笔穿过的最上一个“横(一)”笔(不包括“横折”)均不再取形,即随这些头形一同被剥离掉,亦即将 弋”等六个笔画组合视为“固定字根”,对于笔画少的字符(不足三码时)尚需补尾形码;尾形码可与前一个形码同笔同形同名,如“止”字,取完第二码“线平”后可再取第三码“线平尾”,尚可反向再取“多竖尾”;末尾有“钩笔”时则按“左钩尾”或“右钩尾”取形,若末尾(下部或右下部)的两个笔画左侧的一笔为“钩笔”,则忽略右侧的笔画,即所谓“尾形有钩,逢钩取单,钩分左右,B、N两键。”例如于--线平、单竖、左钩尾--x.b母--方平、点盖、特形、左钩尾--cjtb由--单竖、日、方平尾--.5c申--单竖、日、单竖尾--.5.
头--点斜、点盖、单斜--hjd犬--斜点、单斜、双斜尾--hds另外,“厂(vd)、广(ld)、乙(vn)、又(vs)、巳(cn)、小(sb)、义(ys)”等极少数字符加上尾形也只能取到两码为止,则就按两码输入。
<2>单头合体字编码(取码)规则单头合体字包括单头上下结构字、单头上中下结构字和单头内外结构字。
①单头上下结构字编码(取码)规则先在上部按头形或键面字根取第一码;再在下部依次取码A)若下部为单结构(独体)且非键面字根时,则按独体字规则依次剥离取码;若为键面字根时,则按键面字根取第二码,再在末尾取尾形码;若为单笔画时,则按单笔画的头形取第二码,再按尾形取第三码,需要时可再反向上部末尾取尾形码(第四码)。B)若下部为并列的双体或多体时,则按从左到右的顺序依次取各分部的头形码或键面字根码。需要时可再在右分部按独体字规则取第四码,若右分部为键面字根时,则转向左分部的末尾取尾形码。
例如盂--线平、方平、多竖、线平--xc,x恶--线平、心、右钩尾、线平尾--x;nx异--方平、多竖、线平、斜竖尾--c,xg曹--多竖、日、方平尾、方平尾--,5cc②单头上中下结构字编码(取码)规则先在上部按头形或键面字根取第一码;其次在中部取第二码或第二码与第三码,即当中部为单头结构或键面字根时只取第二码,当中部为多头或多体结构时按从左到右的顺序取第二码与第三码(但当中部并列有两个完全相同的字根,即两个笔画、组合形状、规格大小完全相同,或者说全等的分部结构时,则只按左边的一个取第二码);再在下部依规则取第三码或第三码与第四码。
例如鼻--单斜、田、线平、斜竖--d/xg罨--方平、大、单竖、日--ca.5暴--日、多竖、水、左钩尾--5,eb卒--点盖、双斜、十、单竖尾--js..
③单头内外结构字编码(取码)规则单头内外结构字包括全包围、左上右包、上左下包、上左包、以及上右包的一部分等五种包围、半包围形结构字。均先在外部结构按头形或键面字根取第一码,再在内部结构(被包围体)按相应结构字规则依次取码,需要取尾形码时均在外部结构的末尾取尾形码。
例如国--方平、王、特形、方平--cgtc用--方平、单竖、线平、左钩--c.xb式--斜点、工、右钩--hen(2)多头字编码(取码)规则多头字即顶部具有两个或两个以上头形的字符,包括“多头独体字”和“多头合体字”两大类。
<1>多头独体字编码(取码)规则多头独体字先在顶部按照从左到右的顺序依次取各个头形码,再按剥离后的笔画依相应规则取码。此类汉字极少。
例如臼--单斜、另平、竖平、线平--dvbx臾--单斜、斜出、另平、竖平--davb<2>多头合体字编码(取码)规则①多头上下结构字编码(取码)规则多头上下结构字首先在顶部按从左到右的顺序取各个头形码或键面字根码,再在下部结构按相应规则依次取码;但当顶部出现有两个完全相同的字根(即两个笔画、组合形状、规格大小完全相同,或者说全等的分部结构)时,则该两个相同的字根只取最左边的一个。
例如舁--单斜、另平、多竖、线平--dv,x樊--木、双飞、大、双斜尾--wyas②多头上中下结构字编码(取码)规则首先,在顶部按从左到右的顺序取各个头形码或键面字根码;当顶部出现有两个完全相同的字根,即两个笔画、组合形状、规格大小完全相同,或者说全等的分部结构时,则该两个相同的字根只取最左边的一个。其次,在中部依A)当中部为单头结构或键面字根时只取一码;B)当中部为多头或多体结构时按从左到右的顺序取一至两码(当中部有两个完全相同的字根,即两个笔画、组合形状、规格大小完全相同,或者说全等的分部结构时,则只取左边的一码)。最后,再在下部依规则取第四码或第三码与第四码。
例如攀--木、双飞、大、手--wyap矍--目、隹、另平、双斜尾--itvs③多头左右结构与左中右结构字编码(取码)规则多头左右结构与左中右结构字按照顺时针方向依次取码。最多取四码。首先,在顶部按照从左到右的顺序依次取各头形码或键面字根码;其次,当右分部为单结构且非键面字根时,则按独体字规则依次剥离取码;当右分部为上下结构或其它复合结构时,则在各分部取头形码或键面字根码。最后,若需要时,再按以下规则取尾形码A)当右部或右下部为非键面字根时,在右下末尾取尾形码;B)当右部或右下部为键面字根时,左右结构字在左下末尾取尾形码;左中右结构字在中下末尾取尾形码;应特别注意不能再在整个左部或整个中部的任何部位取头形码或键面字根码,即左右结构与左中右结构字从左上角或左部(左部为键面字根时)开始按照顺时针方向只取外围(外部)形状码。这是头形码输入法化繁为简的主要特点和优点之一。
例如动--线平、力、特形尾--x7t师--竖斜、线平、巾--gxq卿--单斜、方平、卩、特形--dcut④多头内外结构字编码(取码)规则多头内外结构字包括半包围形结构字中的左下包、左下右包、以及上右包中的一部分。与左右或左中右结构字的取码规则类似,即首先在顶部从左到右依次取各头形码或键面字根码;其次,当右分部(内部结构)为单结构且非键面字根时,则按独体字规则依次剥离取码;当右分部(内部结构)为上下结构或其它复合结构时,则在各分部取头形码或键面字根码,只是需要取尾形码时,均在外部结构的末尾取尾形码。
例如建--廴、单竖、另平、线平--b.vx赵--土、双飞、双斜尾--rys彪--、单斜、单斜、单斜--bddd凶--单竖、双飞、单竖、方平尾--.y.
武--线平、斜点、竖平、平踢--xhbm(3)词组编码(取码)规则汉字特征象形码输入法中的词组编码(取码)规则可以有多种方式,这里提出一种独特的十分直观和自然的词组编码(取码)规则(每个词组均取4码)<1>2字词组,先从左至右取每字的顶部头形码或键面字根码,不足4码时词组的第二字按单字规则依次取码。
<2>3字词组,第一字为单头字时取一码,为多头字时取第一、二码;第二字只取一码(单字的第一码);第三字取一码或二码(单字的第一码或第一、二码)。
<3>4字词组,分别取每字的第一码。
<4>5字及5字以上的词组分别取前3字的第一码和末字的第一码。
权利要求
1.一种汉字形体特征象形分类法与汉字特征象形码输入法,其特征是,一反按偏旁部首、字根或按书写笔画笔顺进行分类、检索和编码的常规方法,首次采取从汉字的局部特征笔画或笔画组合的空间形态(象形)、空间位置和空间次序出发的研究方法,提出、确立和命名了“线平头、方平头……”等25个汉字字符的头形类别;提出、确立和命名了“线平尾、方平尾……”等12个尾形类别;提出、确立和命名了按“单头字”和“多头字”进行基本划分的10种汉字结构类型;创立了汉字特征象形码输入法的编码系统和编码方法,包括由24个头部特征象形(头形)、12个尾部特征象形(尾形)和92个常用字根(即“键面字根”)组成的128个取码要素;由26个英文字母和“5”、“7”两个数字以及“,./;”4个非字符号组成的32个编码符号(码元);包括取码要素与编码符号的对应关系及其键位设置和键盘;还包括按“单头字”、“多头字”,以及按确定的空间位置、空间次序进行拆分取码的编码(取码)规则和方法等。
2.根据权利要求1所述的汉字形体特征象形分类法与汉字特征象形码输入法,其特征是,按汉字一定部位的局部特征笔画或笔画组合的空间形态(形状、形象)来确定和区分汉字的形体特征,并按照从左到右的顺序对某一汉字的某一部位的局部特征笔画的空间形态即象形进行命名;本发明中提出、确立和命名的25个头形和12个尾形,实际上是一套汉字形体的识别要素(或称模糊识别要素)系统,是表征汉字形体的一些特征信息,通过它们,我们能够以最直观、最简明的信息对所有汉字(简化字、繁体字、异体字)进行清晰的区分和辨别。
3.根据权利要求1或2所述的汉字形体特征象形分类法与汉字特征象形码输入法,其特征是,依据25种头形类别,将所有汉字首先划分为“单头字”和“多头字”两大类,然后再按“独体”、“上下结构”、“上中下结构”和“内外结构”以及“左右结构”、“左中右结构”等进行细分。
4.根据权利要求1所述的汉字形体特征象形分类法与汉字特征象形码输入法,其特征是,既不是纯粹按字根取码,也不是纯粹按笔画取码,而是依据汉字不同部位的笔画或笔画组合的某些特征要素(象形)和极少数常用字根(键面字根)进行取码;并且完全不考虑书写笔顺,也不过多考虑严格意义上的“书写笔画”,在拆分取码顺序上,完全按照空间位置和空间次序,即任一汉字均从上部或左上部取第一码,然后,单头字按从上到下或从上层到下层依次取码,多头字按顺时针方向依次取码。
5.根据权利要求1所述的汉字形体特征象形分类法与汉字特征象形码输入法,其特征是,可以随编码的要求和需要,对其中的键面字根进行增减,对整个取码要素在各键位间进行各种调配和各种排列布局,也可以重新设置和增减码元,甚至还可以取消所有键面字根,纯粹按25个头形和12个尾形所表征的汉字各个部位的特征象形对汉字进行编码输入,并且还可以将25个头形和12个尾形合理分配到0-9的10个数字键,创建“汉字象形数码键盘输入法”,并以此应用到手机、电话机、电子记事本、电子辞典等各种类电脑产品中。
6.根据权利要求1所述的汉字形体特征象形分类法与汉字特征象形码输入法,其特征是,取码要素与键位的对应关系,即取码要素在键盘中的分布,可以通过本发明中的一首非常顺口的助记词来帮助和加强记忆。
7.根据权利要求1-6所述的汉字形体特征象形分类法与汉字特征象形码输入法,其特征是,词组的编码(取码)规则非常直观、自然和独特,即每一个字均在顶部或左上部取头形码或键面字根码,并且具有大容量的词组输入能力,即可以实现绝大部分词组无重码。
8.根据权利要求1或2所述的汉字形体特征象形分类法与汉字特征象形码输入法,其特征是,将“横”笔称为“线平”,将“撇”、“捺”、“撇折”、以及“斜钩”统称为“斜笔”等等的按笔画或笔画局部的空间形态、形象即象形进行描述和命名。
9.根据权利要求1-6所述的汉字形体特征象形分类法与汉字特征象形码输入法,其特征是,本发明能同时适用于汉字中的简化字、繁体字、异体字和各种字符集。
10.根据权利要求1-4所述的汉字形体特征象形分类法与汉字特征象形码输入法,其特征是,这些发明可广泛应用于汉字分类、检索、辞书编排、各种电脑和类电脑产品中的汉字输入编码以及识字教学等各个方面。
全文摘要
汉字形体特征象形分类法与汉字特征象形码输入法,涉及汉字形体结构分类、检索、识别和电脑输入法及其键盘。其目的是为汉字分类、检索、识别和电脑输入等提供一种简明、直观、规范、高效的基本方法,解决目前汉字检索缓慢,各种形码输入法难学难记、重码字词多、词组容量小等弊端和不足。本发明从汉字各部位的局部特征笔画或笔画组合的空间形态、空间位置和空间次序出发,独创了汉字的25个头形和12个尾形类别,以及按“单头字”和“多头字”划分的结构分类法;以此为基础,结合少数常用字根,创建出一种简明易学、准确快速的汉字电脑输入法。本发明可广泛应用于汉字检索、辞书编排、识字教学和编码输入等。
文档编号G06F3/023GK1514340SQ0315333
公开日2004年7月21日 申请日期2003年8月11日 优先权日2003年8月11日
发明者张德龙, 张文斌 申请人:张德龙
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1