汉字笔顺数字码的制作方法

文档序号:6598302阅读:655来源:国知局
专利名称:汉字笔顺数字码的制作方法
技术领域
本发明属于汉字编码,适用于编排汉语词典、汉外词典和计算机输入汉字。
一、背景描述目前国内通用的查字法主要有四种,即1.部首查字法;2.四角号码查字法;3.笔画查字法;4.汉语拼音查字法。前三种是形码,后一种是音码。
部首查字法是传统的查字法,沿用了一千多年。其缺点是部首太多,难学难记,有些字难分清属于何种部首,查字麻烦,本应一步查到的字用该法却分成三步,即(1)查部首;(2)查检字表;(3)翻到该字所在页。费时费神,十分不便。
四角号码查字法有一步到位之功,但有10%以上的汉字难以取码。由于取码困难,故目前大多数汉语词典已不采用按四角号码编排字序。
笔画查字法每个汉字都要数笔画,同一笔画的字太多,查一个字要分两步走,也是件十分费劲的事。
汉语拼音是我国中小学语文教学的重点,从启蒙开始,就要花四、五个星期教拼音字母,多数青少年都能掌握汉语拼音,现在的汉语词典大部分是按字的拼音字母编排顺序的。但是,由于中国幅员广大,方言相差甚远,各人的汉字读音难予标准化、归一化。而且要查的字常常是不知其读音的,如果按拼音字母编排的汉语词典没有《部首检字表》或《笔画检字表》,则查字无从下手。每本词典前印上五、六十页甚至一百多页的检字表实属浪费。
本世纪七十年代以来,随着计算机技术进入我国,为了解决计算机输入汉字问题,已研究了四、五百种汉字编码方案,各有其特长与不足。目前在全国一定范围内推广应用的方案约有二十几种(参见《常用汉字编码字典》,宇航出版社,1990年)。其中有代表性的有《五笔字型》、《前三末一》、《汉字表形编码》等。这些编码有一个共同点,即将汉字按其结构特征分解成一百多个字元(或字根),再将这些字元按笔形特征分布在25个或多到64个键上。优点是可以快速输入汉字,适用于专职操作员。缺点是难学易忘,一般需要一个星期的学习期,熟练掌握需要大约一个月时间。所以非专职操作员宁愿用重码率最高、输入速度较慢的(每分钟约20字)《紧缩拼音汉字输入法》。
目前已进入实用的汉字数字码有1.国际区位码;2.电报码;3.天府码;4.笔形编码;5.四笔法(前三末一简码);6.五笔画。前两种按拼音和部首顺序排列,4键一字,缺点是字码难记。中间两种按笔形特征编码,基本上单字单码,缺点是字码太长,有的高达8位,输入速度慢。最后两种易学易记,但重码率太高,有的翻页多达七、八次,输入速度慢。
二、发明的目的本发明的目的是要推出一种易学易用既适用于编排汉语、汉外词典又适用于计算机快速输入汉字的编码系统。解决汉字排序问题。使查汉字的速度比从英语词典查英文单词还要快,计算机输入汉字的速度超过输入英语单词的速度。统一汉字笔顺。
三、发明的内容本发明的要点是将构成汉字的38种笔画按对称形式分成十类,再将选出的65种起笔部首和字元按笔画特征也分成相关的十类。码元为0-9十个数字。制造了笔顺法则,统一了笔顺,然后严格按笔顺法则取码。
本发明含A码本和B码本。A码本适用于编排汉语、汉外词典。B码本适用于计算机汉字输入。两码本按同一原理、同一思路取码。不相同之处仅在于A码本的汉字都为四位数字码,不足四位以0补之。含辞海中包括繁体字共16345个汉字(《辞海》缩印本,1980年第1版,上海辞书出版社)。全部字按字码顺序排列,包括字的笔画和页码。用A码本可以迅速查到辞海中任何汉字。B码本对国家一、二级汉字共6763个字符按出现频率取码,常用高频字的码长为一位、二位,普通字的码长为三位、四位。码本按字码顺序排列。只用小键盘十个数字键或大键盘中间十个键(用V、B、G、T、N、H、Y、M、J、U键代替0-9十个数字键)另加上排选字数字键可快速输入汉字,不含词汇码的平均码长为1.8位。
本发明的详细内容如下汉字笔顺数字码1.本编码以印刷仿宋体字的笔画为编码依据。
2.所有汉字都是由38种基本笔画中的数种构成,为便于记忆,将这些笔画按对称形式分成十类,列表如下表1 笔画分类
3.选出的65种起笔部首和字元按笔画特征也分成相关的十类。
①三画或少于三画的起笔部首按第一画取码,例如0=宀、广、忄、门;1=扌;2=口、山;3=饣、犭;6=尸、马;8=女、纟、乡、幺、。
②四画起笔部首按第一画前面加4取码,例如40=方、礻;42=日、贝。同理,五画起笔部首按第一画前面加5取码,例如51=石;53=禾。所有六画以上的起笔部首按第一画前面加7取码,例如70=
、鹿、…;71=雨、耳、…。
③按字元笔画码的和取码,例如4=工、士、扌、干(121→1+2+1=4,或112→1+1+2=4);4=
(0103→0+1+0+3=4);5=艹(122→1+2+2=5);6=爫(3003→3+0+0+3=6);8=冂、匚(26→2+6=8,17→1+7=8)。
④按字取码的有一个字元,即8=
、八。注意此两画一定是分开的。
⑤按九大行星(金星、木星、水星、火星、土星)的名取码,即9=钅、木、氵、火、土。
以上综合列表如下表2 65个起笔部首和字元的分类
4.笔顺法则 我国当前的汉字笔顺没有统一。现行的小学语文课本以及教学参考书对某些字,例如车、皮、匡等,按几种笔顺教学。辞海中对同一字元的笔顺也没有统一。本发明的任务之一是要统一笔顺,故制定了笔顺法则。制定此法则时,照顾到了当前全国通用小学语文教材中的写字笔顺习惯。凡有不同之处,以下举例作出说明。
表3 笔顺法则
注①按表1中的笔画和表2中的字元依笔顺取码。以上所有例字都是A码本的,即每个字的字码为4位,不足4位以0补之。B码本的取码原则和A码本相同,不同的是按字的出现频率取码,常用高频字的码长为一、二位,也即为A码本中该字字码的前一、二位。例如,在A码本中,就=0127,经=8604;在B码本中,就=0,经=8。
②在写字取笔顺时,把乛、、看作横系列。
③左撇高出横应先撇后横,如先=3437,万=1360。
④现行小学语文教材中此类字按两种笔顺教学。一是先写中间后加左框;另一是先写框架后写里面。本法则按后者取码。
⑤比字的笔画竖折是主体,应先写主体再写横、撇,符合从左到右的法则。
⑥这几个繁体字按传统写字习惯,从左到右,与辞海中的笔画笔顺相符合。學、興之类的字应按传统写字习惯,从左到右。
⑦一般说来,左右对称的字、中间为口、言、白的左右对称的字,应先写中间后写两边。出字与山字同属左右对称的字,规定起笔都为竖。
5.取码法则①严格按笔顺法则。
②大元优先,即凡是遇到表2中的字元一律按字元码取码,而不是按单笔画码元取码。
6.编码举例 请参见表3笔顺法则中的例字以及附录一A码本(适用于编排汉语词典、汉外词典)和附录二B码本(适用于计算机输入汉字)(节选的)。
五、效果对比1.与现有先进编码相比《五笔字型》选用了一百多个字根安排在25个键上。《前三末一》选用了一百多个字元安排在26个键上。每个键上的字元虽有助记词也非常难记,对于非专职操作人员,编码规则难学易忘,这些编码只适用于专职操作员,不易普及。本编码只选用65个字元,字元码与笔形发生关系,按第一画取码,规律性强,十分好记,一般半个小时可以记住所有笔画和字元码。本码用的键位少,键位集中,有利于快速输入汉字。本码与查字法紧密相关。当A码本被推广用于词典,则B码本的规则无需专门记忆,人人皆会,有利于计算机普及化。《五笔字型》与《前三末一》对大多数字都需要四键一字。本编码有一千多个常用高频字只需要击一、两键就见字,包括一次选字键,平均每字击键2.8次。
2.与现有数字编码相比《国际区位码》和《电报码》都是四键一字,但字码无规律,要死记硬背。本编码按字的笔顺取码,见字知码,2.8键一字。《天府码》和《笔形编码》码长最长8位,《笔形编码》平均每字3.3键。《四笔法》和《五笔画》对大多数字都是四键一字和五键一字,而且重码率高,要多次翻页。本编码的最长码位数,平均码长和翻页次数(极少数字码最多翻页一次)都低于上述同类数字码。
六、发明的优点和积极效果1.本编码设计科学,每个码元和字码段的字分布均匀,这为减少重码、缩短码长创造了有利条件。
2.笔画、字元分类科学。笔画按对称形式编排,金、木、水、火、土为九大行星的名字,把钅、木、氵、火、土巧妙地安排在码元9上;起笔部首按第一画,四画部首笔画码前加4,五画部首笔画码前加5,六画以上部首笔画码前加7取码;其它几个字元都按组合笔画码元之和取码。如此科学安排笔画和字元码,并严格按笔顺取码,做到了见字知码,易学易用。码长短,码键少、集中,可快速输入汉字。
3.用于词典的A码本和用于计算机的B码本按同一原则取码。只要A码本被推广用于编排字典则B码本自然为大家掌握,为计算机普及化、家庭化创造了有利条件。
我国出版的新华字典、现代汉语词典和辞海的数量多达数千万册,若按本发明A码本编排字典、词典,每本词典可删去五、六十页甚至一百多页的部首检字表、笔画检字表,光这一项可节约财富数百万元甚至数千万元。按数字码查字,速度快,简便,给亿万炎黄子孙带来方便,其精神财富,无法估计。
4.有利于编辑汉外词典,如汉英、汉日、汉俄…等词典。从事这项工作的人皆知,编辑汉外词典给每个汉语词汇注上拼音,然后按拼音字母排序,这是件十分困难之事。而利用本码给汉语词汇排序,此项工作将变得简便。
5.统一了笔顺,为改善中小学语文教学创造了有利条件,今后的中小学语文教学无须花费大量时间去分清和记忆难查汉字的部首,可使中、小学生节约大量检字时间。
6.本编码兼顾繁体字,有利于向海外华人推广。
7.为图书、档案、单位名录、电话本的汉字排序提供了科学方法。
七、实施方式1.向中国专利局申请专利,并要求提前公开。
2.专利受理以后向国家语言文字工作委员会和国家教委提出报告,请求推广应用《汉字笔顺数字码》A码本。并建议修改小学语文教材,按统一笔顺进行教学。首先向《新华字典》推广,应用本码编排字序。
3.与计算机厂家联系,推广应用《汉字笔顺数字码》B码本。
附录二 汉字笔顺数字码(B码本)字码 字 字码 字8 能级经如因同女八乡幺 8121 嫣8* 纟冂匚 8122 缙娅80 综统简缩管台编篇参纩 8123 筮80* 厶 8125 筇801 嫁叁纹绞篙绽篱姣婷嬗 813 恩笼缅娠缄盎鸯箴绔绮8012 缟 8131 缛8013 缡弁畚毵 8134 缭802 怠迨炱邰绾 8136 绂803 允圈箭嫌绊牟矣婉娣绻 8137 籀8031 罔缢缣姘姹 8138 囿8032 嫔缤 814 筻绠8034 箪婵 815 缰箝8036 箢绨妫 816 姨筢箨婕8038 缯 817 囤兮簪纣804 缠婶 818 圃缚箍篥簟嫖缥806 娘妒筷匾 819 绕娆808 垒熊逡皴 82 回娱妙织幅篮纱巾叵809 娴嬷 820 恕嫦迥筲绡绱81 练线纯团固续策园筹央 821 匪绰绯帏帱811 围纬绒笺绑竽竺笄纡妍 822 帜帧贴皿颐缆煕匮赜幞8112 篝媾 8221 缱缋篑8113 妩 8222 缲8118 纭 823 筛帕帆帐帷帙幡812 姑筑嫩典妓圄簌籁缜筘 824 圆绳帽幌幢幔幛8120 嫱 825 帻字码 字 字码 字826 臣卧幄帔 837 见纸匹婚笫姊827 缉媸绌 838 篦媲828 娟绢絮娲帼 84 等结红妨纺绪妹竿奸冉83 四答绝图终约给区内笔 840 簇缔圉830 刚欧纵欲姚网肉鸥冈囚 841 笠匦嫜8301 瓯 842 笛绅匣缨嬉娼妯娌缦缇8302 鹆 8421 妲笪缬8303 殴 8422 娉831 医纤笑妖娥娇翳缍纥笮 8427 绲832 符维缎筏筱篌筵缏缒缑 8428 郾媪833 匠篪笊绗 843 绷筋姥箸834 绘爸父签绵缴谷斧爹妊 844 娃8340 囹飨妗 848 嫡绫8342 婢篼篁 85 国算组细绩媒姐缈匡箩8343 筅姝缵 850 嫉箜8344 釜 851 簧匿箕绀箬绁慝簸8345 筌 852 篡纂篾嫘箅缌缧缳圜8346 爷 853 绣婊8347 纶囵 854 箦嫫835 姓媳笙 858 圊箐婧836 奶绸络缝篷绚娩绦筝纨 86 第好分努妇纪她贫巨妈8360 妁 幻笃8362 笱 860 缀簦妤媛纾绶缪8363 笏姗囫 861 缓绿笋纽娜箫妃妞缓绋8364 绛绺笈 8611 簋8366 绉 8612 笥字码 字 字码 字8617 缗 9 本地机没法流活根木火862 婿媚笆婀 9* 钅氵863 颁绍幼盆纫岔忿娓笤笳 90 注增校述术深济液演浓8630 笾 钔圹8634 坌 900 杰镰焖濂钭榉864 奴怒绎帑弩胬孥驽 901 核杭滚棕坟淬淀澜壤锭867 妮囝 9011 烷锎淙浣垸868 绥 9012 墩镶淳壕镐锿镦椋濠汴87 继籍纠嫂缘姆缮缕篓糸 槁榱椁870 姒簏簖 9013 坑炕漓铱镓垴钪沆汶浏871 孀筚纰缂妣 9014 楦渲煊876 篆 9017 柠泞瀛88 公始纲颂筒丝匝巡纷纳 9018 澈铰梳柿檀檩铈铳镧垓880 翁瓮绐笞 锍炫鎏澶泫铉881 姻囡畿鸶箧 902 棺榈涫882 姬笸篚 903 栏洲滋梯锐溯溢滨烂锑883 妪笕 9031 燧湔镨锩镒885 筐 9032 槟镔888 巢剿邕缁缫甾邋 9034 泮888* 巛 9036 涕镲檫沩89 困簿笨箔筠箱缃 9037 樽904 桩涧锏渖滓905 渡润柱镀炷锵906 浪沪泳沈沉炉泻枕塘浑9061 榔溏墉镛锒9063 榷浒
权利要求
本发明属于汉字编码,用0-9十个数字作码元进行编码。1、本发明的特征是将构成汉字的38种笔画按对称形式分成10类。再将选出的65种字元按起笔笔画、字元笔画数、字元组合笔画码之和以及天文学9大行星名称的特征将它们分成相关的10类。
2.根据权利要求1所述,38种笔画按对称形式分成10类以0代表丶
;以1代表一;以2代表丨;以3代表
丿
;以4代表
;以5代表
;以6代表横系列的13种笔画乛




(与码元1的笔画对称);以7代表竖系列的8种笔画亅
(与码元2的笔画对称);以8代表撇系列的
(与码元3的笔画对称);以9代表
(与码元4的笔画对称)。
3.根据权利要求1所述,选出的65种字元按起笔笔画、字元笔画数、字元组合笔画码之和以及9大行星名称的特征将它们分成相关的10类按起笔部首第一画取码的有以0代表宀、广、忄、门;以1代表扌;以2代表口、山;以3代表饣、犭;以6代表尸、马;以8代表女、纟、乡、幺、
(糹)。按字元笔画数及第一画取码的有以40代表方、礻;以41代表王、歹、车(車);以42代表日、贝(貝);以43代表月;以50代表立、
、疒、衤;以51代表石;以52代表目、且、田、罒;以53代表禾;以70代表
、鹿、
、羊、
、米;以71代表
、走、耳、革、酉;以72代表虍、齿、髟、且、
、虫、骨、黑;以73代表臼、鱼(魚)、舟。按字元组合笔画码之和取码的有以4代表工、土、扌、干(121→1+2+1=4或112→1+1+2=4)、
(0103→0+1+0+3=4);以5代表王、
、羊、
(1121→1+1+2+1=5或1112→1+1+1+2=6)、艹(122→1+2+2=5);以6代表爫(3003→3+0+0+3=6);以8代表冂、
(26→2+6=8)、匚(17→1+7=8)、(310310→3+1+0+3+1+0=8)。按9大行星名称取码的有以9代表钅(
)、木(木)、氵、火(火)、土。
全文摘要
将构成汉字的38种笔画按对称形式分成十类,再将选出的65种起笔部首和字元按笔画特征分成相关的十类。制定了笔顺法则,统一了笔顺。然后严格按笔顺取码。见字知码,易学易用。本发明含A、B码本。A码本含辞海中16345个汉字,适用于编排汉语、汉外词典,为四位数字码。按字码可迅速查到辞海中任何汉字。B码本适用于计算机,对6763个汉字按出现频率取码,码长1—4位,高频字为1—2位。用10个数字键就可快速输入汉字。不含词汇码的平均码长为1.8位。
文档编号G06F3/023GK1066334SQ9210194
公开日1992年11月18日 申请日期1992年3月28日 优先权日1992年3月28日
发明者万孟章, 胡金 申请人:万孟章, 胡金
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1