汉字形态数字编码方法

文档序号:6600470阅读:898来源:国知局
专利名称:汉字形态数字编码方法
技术领域
本发明涉及一种汉字的编码方法,适用于电脑输入与查字典。
汉字编码方法已有几百种,各有所长,也各有其短。常见的有字形编码(如五笔字型),首尾码,拼音码,区位码,自然码等等。拼音码易学易掌握,但重码太多,翻页选字相当麻烦。区位码无重码,但不便记忆。五笔字型输入速度快,效率高,容易实现盲打,但掌握比较困难,基本字根130个,拆字往往搞不准,特别是末笔识别码带来许多麻烦。
本发明的目的是提供一种易学易记,电脑输入速度较快,重码选择基本不翻页的汉字编码方法,同时将编码应用于查字典,使汉字电脑输入与查字典融为一体。
本发明的目的是这样实现的根据汉字的基本结构和笔顺将汉字编成4码,用4个数字表示。将汉字依据结构形态分成独点、独线、纵离、单折、单交、口形、人形、双折、横离、双交10类字基,依次用0~9数字表示,另有金、王、竹分别用10,11,12表示。根据汉字书写笔顺和字基出现的先后顺序编成4码。复杂汉字,取首尾各2码;简单汉字不足4码,后面可以添0凑4码;汉字首笔独点不记码。字基辨别原则是多笔从离、离连从人、线折从口、一切从交。汉字后面标上《新华词典》上的页数。
下面对本发明作详细说明一、汉字字基名称、编码及说明编码 名称 形态(举例) 字例 说明0 独点 丶 私劲夕不 单独一点1 独线一丨丿 干旧自瓜刁单独一线,无钩.
2 纵离二三冫氵 彡 云具北汉习母点与点(线与线)从上到下相离排列,不连.
3 单折  买公丫习飞单独一折,可带小钩,(含两笔 库后心相连成折.)4 单交乂十又力 父古麦办奂丙笔划交叉,有一个交点.
5 国户且骨臼四面包围( 已未全封)6 合仁衣百虫一线的端点接另线中间或大内头(见5页) 一点沾在一线上.
7 双折冖冂(含勹) 空区同凡凶阳 一笔或二笔连成2个折, 万象可带钩.
达与鼎计识8 父关元门划木点、线及单折从左到右相川忄小巛灬 学怕示巡恭热 离排列,不连,互不包含.
9 共芸打戈鹿毛连续2交,有2个交点.
10 金字 金钅 淦针 金字及钅旁11 王字 王壬 主廷 王字及壬字12 竹字 竹 笑竹 竹字及字头补充说明①单折、双折均可带一小钩,但独线不带钩,线可有弧度。
② 从两个单折,记作33, 从两个双折,记作77, 从两个单折,记作33,但阝仍算一个双折从7,不看作多个单折。已从73。
③连续相接成人形,如“止”,按接点记码,止从666,工从66,下66,等。(在词典里“下”的一点沾在竖上,但“不”的一点未沾在竖上)
④多个交点连续出现记码法若有三个交点的,记作49,如丰韦车尹史申 等。有四个以上(含四个)交点的,记作99,如南吏 弗聿事串曲母册井冉等。
⑤金、王、竹都是双码字基,分别从10,11,12,不受它笔影响。如毋从丿王不从十一。
⑥纵离限于点与点或线与线之间,而横离范围较广,点、线,单折皆可参与组成。但它们排列整齐,在同一层次,互不包含。如“心”,3点从8, 在下,心从83,必从84。水左边两笔构成8,水从86。门的丨和 在同一层次,门从08。 有三个字基,按书写顺序记作亅 322。有时纵离、横离的两笔可被其他字基隔开,记在该字基后边,如木48;办48;舟192,母492;业881;肃肀八、 ,9988;有时纵离,横离难以辨别,如豕和 均有 。前者在勹下边,有从左到右趋势,从8;后者在直线左旁,有从上到下趋势,从2。
⑦双折必须有两个角,而工不是双折,工从31,刀从31。彐从71,而 从32,不从71。
二、字基构成原则(一)多笔从离若有多笔相离排列,在同一层次,互不包含,不要看作多个单一的字基,而应看成一个整体(纵离或横离)如氵从2,不从000;亍从23,不从113,归从871,不从1171。
(二)离连从人若相离笔划中有一笔与它笔相连成人形,则服从人形字基,如彳从16,不从21。但是,另外规定,如果相离各部分同一方向端点共接一线,则相离字基(2或8)不受影响,如“兀”,儿的两笔上方端点共接一线,儿仍从8,兀从18,不从63,故相离字基接线原则是“全或无”式的。又如光818,非282等。复杂情况要分清楚,如止,两竖下边共接一横,看似从8,但后面一竖另接了一短横,故这两竖不从8,止从666(前已述)。
(三)线折从口,如果线或折构成口形字基,则从口形,而线折不计。如“且”中的 从5,不从71,“骨”中的 从53,不从737,巨从5,不从77(注 同巨不同, 从匚丿口丿)局从535,不从775。
(四)一切从交各种字基形态被它笔穿过,则服从相交字基(4或9),其中点、线、单折、双折、口形被它笔穿过后,一律只按交点记码,如力从4,不从31;中从9,不从51;耳从 二十,624,不从52;又如奂,从746,为7,下面 从4,不从74。(这是因为 从5[口形],再从交, 从4) 从46,故奂从746。但是,人形、横离、纵离以及未相交的部分应另记码,如土41,大46,手19,但戊从9,不从19,这是因为厂是单折,不可分离,单折从交,故从9,如成从309,不从709,冬记为142。
三、记码顺序同汉字书写笔顺,按字基出现的先后次序记码。
(一)从左到右如乃133,及134,扎93,非282,兆282。
(二)从上到下如匕13,寸40,刀31,歹170,饣73,出47,包75,木48,贝78,五141,月72,单849,柬4988,禹1496,仓633;相交字基号码按交点位置记,交点上面的字基应先记,如叉04,丹09,戈09,戋049,臾846,黑8918。双交被“八”隔开,先记相交基。如本98,来988,夹986。一个字往往是既有从上到下又有从左到右等顺序,如壮2141,可153。
(三)由外到内如日51,田54,皿58,臼58,图5142,面6582等。
(四)先中间后两边如斋的顺序是文非一刂,办48,肃9988等。
(五)先两边后中间如火86,脊从 人月,拳从丷夫手等,都有从上到下趋势。
(六)之、廴在字的最后,如达4607,建9934等。
(七)右上角点记在右下角之前,如戈09,戊09,咸1509,龙404, 4024,术408,甫099,武1604,弋和戈在右旁一律记作字的末2基,如鸢从鸟弋。
(八)从相交字基非端点引出的点或线从6,如大46,内46,夫96,头246等,但若引出的是折,则仍从3,如尢43,它们记在相交基前面或后面,又如长,记作646。
四、查字方法(一)复杂汉字,取首2码和末2码依次组成4位码,即为该字号码,如私丿,十,ㄥ,丶,1430,铉钅,ㄥ,丶,1030,鱼,口,十一7541。殷丿尸几又1574,藏艹ㄥ丶 9309,作亻 二6662。繁 、小6408( 从49,只取4),梅十八 4892( 从49,只取9)鼻囊丿口レ 1536,鸢勹丶、 7004,揿扌钅ク人9176(钅从10,只取1);李4834,豕1786,两1966,雨1422, 3260。
(二)不足四个字基的汉字,则依次记上已有码位,并在后面添0,凑足4位,如波氵 又2440,打9130,成3090,丸9000,夕7000,电4900,人6000,可1530,员5780,次2760,酉1910,事9900,三2000,七4000,金1000,王1100,竹1200等,(若省去后面添的0即成简码)。
(三)不管复杂汉字还是简单汉字,字首独占一律不计。如,广3000,丫3000,病3246,礼3630,阄8790( 从9,不是电)衷1936,鄽3417( 从49,)瘦3244,计7400,安7900,但是,不在整个汉字的字首,依次照记,如廓3047。
为便于记忆,兹将字基号码及成基原则编成歌诀,记之于下(一)零点一线二八遥, (二)多笔从离连从人,三七含折四九交, 线折从口概从交,一零一二金王竹, 多折多接多交异,六人五口用零调。
前点不计架金桥。
汉字编码举例如下铭1005 玉1100 符1240 致1364 刻1368 稠1415就1503 京1580 行1623 迈1707 岩1765 产1830生1910 济2048 河2153 动2304 波2440 言2500汽2613 没2740 沙2810 油2900 广3000 邵3157病3246 结3315 迅3407 麻3448 礼3630 马3710席3914 为4000 塔4115 农4360 圣4410 故4564大4600 狼4616 有4720 械4809 车4900 咳5016旺5111 盼5231 叫5310 町5413 咽5546 跟5616呜5771 置5852 虽5960 依6036 气6130 联6246创6338 伏6406 矿6503 攻6664 虏6744 份6831访7017 饺7384 鱿7503 论7613 险7681 忆8300籼8417 灶8641 接9019 萃9064发明人已将《新华字典》上的汉字及国标区位码的汉字全部编码,共9800多字。从编码来看,汉字重码虽有70%,但一般为3~5个,重码字按由简到繁依次排列,标上序号,电脑输入时99.5%的字不需翻页选字。
由于采用数字编码,不但可简化键盘,制成笔记本式的袖珍电脑,而且操作输入简便,记住数字键就行,因此可提高输入速度。本编码只有10类字基和三个双码字基,且界限清楚,不易混淆,便于记忆。
本编码方案在汉字后标记《新华词典》上的页次,可作为检字表查新华字典用,较四角号码查字法快捷,同码字少,号码容易确定》。
权利要求
1.一种汉字编码方法,根据汉字的基本结构和笔顺编码,本发明的特征在于将汉字基本结构依据形态分成独点、独线、纵离、单折、单交、口形、人形、双折、横离、双交10类字基,依次用0,1……9数字表示,另有金、玉、竹3字与偏旁分别用10,11,12表示;根据汉字书写笔顺和字基出现的先后顺序编成4码,复杂汉字,取首、末各2码;简单汉字不足4码,后面可以添0凑4码;汉字首笔独点不记码。
2.根据权利要求1所述的编码方法,其特征是独点(0)即单独一点;独线(1)包括 ,独线无折无钩;纵离(2)包括 ,即点与点(或线与线)从上到下相离排列;单折(3)包括 ,即笔划有一折或两笔连成一折;单交(4)包括 。即一笔与一笔相交,只有一个交点;口形(5)包括 ,即四面封闭或包围;人形(6)包括 ,即一线的端点接另线的中间,或一点沾在一线上,有一接点;双折(7)包括 ,即一笔有2折或2笔连成2折,有两个角;横离(8)包括 ,即点、线,单折从左到右横向相离排列,互不包含;双交(9)包括 ,即连续2交,有两个交点;有3个交点记为49,如韦,车、 、有4个交点记作99,如甫,吏,聿,串,井。
3.根据权利要求1所述的汉字编码方法,其特征是字基辨别有以下原则a,多笔从离凡多笔相离排列的不能拆散,应视为纵离2或横离8;b,离连从人相离排列的笔划有一笔与它笔相连成人形,则服从人形6;c,线折从口如果线或折组成口形字基,则从口形5,不从单折或双折;d,一切从交各种字基形态被它笔穿过,则从相交字基4或9。
全文摘要
一种汉字编码方法,根据汉字的基本结构和笔顺编码,其特征是将汉字基本结构依据形态分成点、线、折、交、离、口形、人形等10类字基,分别用数字0,1……9表示,另有金、王、竹3偏旁(字)分别用10、11、12,表示,根据汉字书写笔顺和字基出现先后顺序编成4码,复杂汉字,只取首、尾各2码,汉字首笔独点不记码,字基辨别原则是多笔从离、离连从人、线折从口、一切从交。本编码方案易学易记,电脑输入速度较快,重码选择基本不翻页,同时可应用于查字典,将汉字电脑输入与查字典融为一体。
文档编号G06F3/023GK1102894SQ94111108
公开日1995年5月24日 申请日期1994年8月5日 优先权日1994年8月5日
发明者李善成 申请人:李善成
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1