通用字元汉字排检、输入法及键盘的制作方法

文档序号:6409390阅读:264来源:国知局
专利名称:通用字元汉字排检、输入法及键盘的制作方法
技术领域
本发明用于汉字排检(排序与检字)和计算机(或其它机器)中文信息处理。
汉字由于不能按形读音,所以在检索方面必须有按形和按音两种排序;在计算机信息处理方面,必须有按形和按音两种输入法。汉字音节数(不带调约400多个)比字数少得多,而产生很多同音字(重码),为区分同音字,需在拼音的基础上增加字形信息,这样就形成了汉字的音形序和音形码,但从本质上讲,它们仍属于音序和音码。
在汉字检索方面(指手工操作),目前主要有拼音法、部首法、笔画法和号码法。张天光先生在发明专利申请《中文检索与编码通用字元(部首)及键盘》(94102084.3,公开号CN1104351A)中提出了通用字元检字法。
拼音法是一种类似英文的排序法,具有直接查检的优点,但汉字同音字多,因而影响了检字速度。再者,如不知字的读音,此法就无法使用。
部首法需要先确定部首,需要数部首的笔画和所查字除去部首部分的笔画,还要到检字表里查字的页码,要三四步才能完成。另外,此法还存在部首位置不易确定的问题。
已故王竹溪教授搞出的顺序部首法也属于部首法(《新部首大字典》,王竹溪,上海翻译出版公司,1988)。王先生用56个部首按先高后低、先左后右等规则(但不是按笔顺)给汉字排序。此法虽有直接查检和重码少的特点,但检字规则与汉字的笔顺相冲突,且规则应用不统一,特例多,故难以推广。另外,56个部首之间虽然有序,可按歌谣记忆,但并不押韵。
笔画法需要先数汉字的笔画,再按前两笔的笔形一丨丿丶乛查找。此法重码很多,且数笔画既花时间也容易出错。
号码法主要有四角号码法。张国防先生已获专利的“五十字元法”也属于号码法。四角号码法把汉字的笔形分为十类,用0~9十个数码表示。五十字元法从汉字中分解出50个字元,归为26类,用英文的26个字母表示(整套字元没有次序,故只能依附在英文字母上)。此类方法都是用汉字四个角或三个角的笔形进行编码、排序。号码法虽有速度较快、重码较少的特点,但由于汉字结构比较复杂,很难用10种或26种笔形准确表达,再加上这类方法规则多,难以掌握,所以用起来并不方便。另外,各种号码法都存在“号码转换”的问题,即笔形→号码→检字。这不能不说是一种负担。
张天光先生发明的通用字元法采用英文的检字原理,从汉字中优选出84个字元(构字单元),作为汉字的“字母”,用于分析、拼写、查检所有汉字。如,“明”查日月,“境”查土立日儿,等等。通用字元法使汉字实现了直接查检,即直接查字典的正文,不需数笔画、不需把汉字的笔形转换为数字或英文字母,也不必知道字的读音。它依照汉字的书写笔顺提取字元,符合人们日常的书写习惯和国家语言文字规范,在国内外首次实现了汉字的分析、排检、计算机输入和识字教学四者的统一,是目前国内外最优秀的汉字字形排检法。随着通用字元法在字典排检和计算机上的应用,它也显露出了一点美中不足,即字元选84个稍微少了一点,使得有些字的分析不够直观。如,“新”为立木厂丨,“非”为丨二一一。
在计算机中文输入方面,目前主要有拼音码、五笔字型、自然码和张天光先生的通用字元码(含全形码和音形码)。
拼音码方便好用,但重码多,且不知读音时就无法使用(智能技术的作用也是有限的)。
五笔字型依形编码,重码少、速度快,但难以为大众所掌握,因为一方面它的编码规则繁杂,另一方面,字根由于数量太多(约两百多个)而产生了不确定性。不确定性指字元本身的不确定,即不知道某笔形是不是编码字元(因为记不住),或指字元在键盘上的位置(键位)不确定。五笔字型既有字元不确定的问题,也有字元键位不确定的问题(即不知道字根在某区的哪个键上,需逐键查找)。
自然码码长短、速度较快,但表形的部首数量太多(约两百多个),很多部首没有读音,无法按音放在键盘上,因而部首和键位都难以记忆,也具有不确定性(绝大多数用自然码的人用的其实都是它的音码部分)。
通用字元码字元少、码长短、速度快,规则只有“取大少连,兼顾直观”一句话,按笔顺提取字元符合人们日常的书写习惯和国家语言文字规范,在国内外首次实现了汉字的分析、排检、计算机输入和识字教学四者的统一,是目前国内外最优秀的汉字形码输入法和音形码输入法。随着通用字元码在计算机上的应用,它也显露出了美中不足字元选84个稍微少了一点,使得有些字的分析不够直观,如,“新”为立木厂丨,“非”为丨二一一;全形声码有两个字元(骨、舟)未按规定(读音的声母)放在键盘上,造成特例;全形声码右手上排字母键负担稍重一些。
本发明的目的是,在通用字元法84个字元的基础上增加一些字元,使通用字元法在字元记忆难度增加不大的条件下,显著地改善其性能;字元全部按音放入键盘,消除例外;精选增加的字元,使各键的负担平衡、合理;重新布置韵母,使通用字元法的音形码在输入无声母字词(啊、安、昂等)时在国内外首次实现规则的统一。
本发明是这样实现的通过对汉字的构成进行分析,从使用频度高低、构字重码多少、键位布置是否平衡合理等几方面考虑,优选出增加的14个字元(共计98个)。本发明的特点是,整套字元组成了规整、押韵的诗句,字元在诗句中的位置就是字元之间的前后次序,用这套字元分析、查检、输入汉字时,比84个更直观、键位负担更合理,且记忆难度几乎没有增加;音形码的声母键zh、ch和韵母键ai、ang、ao、en、er作了调整,实现了无声母字词双拼规则的完全统一。
优选出的字元,其数目可依诗句的格式(五言、七言等)和长短而不同,笔者认为98个最为理想。理由如下汉字由一丨丿丶等30多个基本笔画(类似于英文的字母)按先上后下、先左后右等书写规则构成。这些基本笔画又构成汉字的两百多个基本笔形,称为字元或部首。因此,汉字也可以说是由两百多个字元(类似于英文的字母)按书写规则(笔顺)拼写而成的。字元选的越少,就越容易记忆,在计算机键盘上也容易安排,但汉字编码的码长就越长(如用简码则重码就会很多),字的分析就越不直观(汉字都变成了没有意义的笔画符号),用起来就不会便捷;字元选的越多,汉字的码长就会越短,字的分析就越直观,但记忆就越困难,字元之间也就难以成序。笔者经过对汉字的构成进行分析,从使用频度高、构字重码少、中文排检与中文输入(编码)完全一致、键位负担平衡合理等几方面考虑,经过反复挑选、反复编码,从两百多个字元中优选出98个(图1)。为便于记忆,将它们组成了14句押韵的七言诗。所有汉字(包括繁体)按这98个字元的次序依规则(笔顺、角形等)进行排序或编码。下面的诗句可用来帮助记忆(助记字的读音即为字元的读音)横竖撇点弯折乙,八人寸土草木稀。
子口之言益工厂,日月似火止山雨。
王力冰心示宝弓,十车丝巾包儿女。
方头大耳目又小,金佛老舅气长须。
匕戈斤刀禾几片,手足非围尸虎皮?病虫革门食竹骨,水鸟二爪立田西。
牛羊同舟叉鱼贝,犬马私盖风雪衣。
优选出的字元因为有序,故可按规则——笔顺、角形等,直接进行汉字的排检,而不需再把字元转换为英文字母码(如五十字元法、表形码等)或数字码(如四角号码法、唯物码等)。依照字形可构成汉字的全形序;依照拼音和字形可构成音形序。
全形序——现结合98字元表(图1),把全形序按笔顺提取字元的排检方法说明如下排检方法所有汉字都由这98个字元按笔顺拼写而成,并按字元表排列成序。如“明”由“日月”构成,“曼”由“日四又”构成,“晶”由“日日日”构成。在字元序列中,“日”在“月”之前,“月”在“四”之前,故三字的排队次序为晶明曼。检索时,依次按构成被查字的第一、第二、……字元查检。如“境”字查“土立日儿”,就像英语的lace查l.a.c.e.一样。为了使排检更加快捷,对含有4个以上字元的汉字采用简码排检,即将字分析为字元序列后只取前三个和最后一个字元(一二三末)。如“熔”字取“火宀八口”即可。当然,也可以用三元简码(一二末)或五元简码(一二三四末)进行排检,但那样要么增加很多重码,要么增加码长。
通用字元法把汉字分为单元字和多元字。单元字也叫字元字,即用作字元的字,如“日月四火止山雨”等;多元字即含有两个以上字元的字,如本(木一)、梦(木木夕)、熔(火宀八人口),等等。对多元字分析字元时应遵循“取大少连,兼顾直观”的原则。现解释如下组成汉字的字元之间的结构关系可分为相离、相接和相交。相离是指字元之间没有接触,如“加”字的“力”和“口”没有接触,故“加”字的字元是相离结构。相接是指字元之间有接触,但未构成交叉,如“白”字的“丿”和“日”即是相接结构。相交是指字元之间有交叉,如“果”字的“日”和“木”即是相交结构。这样,从相离到相交,字元之间的联系(或接触)是逐步增多的。“取大”是指每次提取笔画最多的字元。如“章”字取“立日十”,而不取“亠八一十”。 “少连”是指字元之间的联系(或接触)越少越好,也就是说能取相离字元的,就不要取相接字元,能取相接字元的,就不要取相交字元。这样提取的字元才明显易辨。如“主”字取“丶王”,而不取“亠土”;“天”字取“一大”,而不取“二人”。“兼顾直观”是指提取字元时要考虑汉字的直观可辨性。如“歹”字和“兀”字按“取大”原则,第一元应取“厂”,但这两个字分别取“一夕”和“一儿”更直观些。需要“兼顾直观”的只有五、六个字(部件),是为人们对汉字的辨识习惯考虑的。
本排检法按笔顺提取字元,故对个别笔顺有分歧的汉字,可按两种笔顺分别编码。
音形序——汉语拼音虽常用于汉字的排检,但同音字之间其实并无序。笔者认为,克服这一缺陷的唯一途径是在拼音码的基础上增加汉字的字形信息。具体地说,就是对所有同音字按上段所述的字元法进行排序。如“艺”是“yì艹乙”,“峄”是“yì山又”,“薏”是“yì艹立日心”,等等。这样它们的次序即为艺薏峄。但实际编排辞书时,书眉上的标识编码并不需要这么复杂,只要按辞书的收字容量取一个(最多两个)字元就够了。如“艺”和“薏”可在“yì艹”页上查到,“峄”可在“yì山”页上查到。对收字不多的中小型辞书,甚至可按基本笔画字元“一丨丿丶 <乙”排检就够了。如“艺”和“薏”可在“yì一(横)”页上查到,“峄”可在“yì丨(竖)”页上查到。也许对一些特大型辞书才需要两个字元。如“艺”可在“yì艹乙”页上查到,“薏”可在“yì艹立”页上查到。
本发明的优选字元也可用于汉字的分析。对于汉字结构和构造成分的分析,近年来部件分析法似乎逐渐取代了传统的偏旁分析法,然而部件分析法同样存在着难以克服的缺陷,如,部件不定量、与书写规范相矛盾(如把回分析为口口),等等。而通用字元法认为汉字是由字元构成的,就像英文由字母构成一样。通用字元法完全遵照人们书写汉字的习惯(笔顺)分析汉字,与汉字的识字教学完全一致,符合汉字构成的实际,不存在任何矛盾现象。如“亘”为一日一,“回”为冂口一,等等(详见《汉字构成的字元分析法》,张天光、黄伯荣、翟万林著,《语言文字应用》,95年第3期,国家语委主办)。
本发明的优选字元还可作为各种计算机中文输入法(指和字形有关的编码)的通用字元,这套字元由于经过了优选,且组成了规整、押韵的诗句,又全部按读音放人键盘,因而就具备了易记性和确定性,同时又兼顾了汉字分析的直观性与键位负担的合理性。
本发明把字元按其读音的声母安排在计算机的24个字母键上(图2),按规则——笔顺、角形等,依字形构成中文的天光形码,依拼音和字形构成天光音形码,两者的合成构成音形兼容码。
天光形码现结合图2,把天光形码按笔顺取码的编码方法说明如下单字按“一二三末”取码。取码规则与汉字排检中采用的完全相同,即“取大少连,兼顾直观”。如有重码,用数字键选取(词输入时也是如此)。如“时”为RC,“熔”为HBBK。
单元字和高频字敲一次所在的键后,高频字(每键处在第一位的字)用空格键输入,单元字用数字键选取。如“人”为R,“我”为W,“巾”为J。图2中加点的字为单元字以外的高频字。
两字词取两字的前两个字元。如“部分”为LKBD,“时间”为RCMR。对含有单元字的两字词,可实际取元组成二元码(两字都是单元字)与三元码。如“工人”为GR,“工艺”为GCY。
三字、四字词取每字的第一字元。如“大部分”为DLB,“柳暗花明”为MRCR。
五字以上取前三个和最后一个字的第一字元。如“最高人民检察院”为RTRE。
天光音形码单字在声韵双拼的后面增加一个或两个字元码(一二或一末),无声母则打两次韵母。如,“机”为JIM(JI木),或JIMJ(JI木几);“安”为JJB或JJBN。
两字词用两字的声韵双拼输入。如“机器”为JIQI,“安排”为JJPX。
三字、四字词用各字的声母输入(无声母则用韵母)。如“计算机”为JSJ,“汉字编码”为HZBM,“柳暗花明”为LJHM。
五字以上用前三个和最后一个字的声母输入。如“最高人民检察院”为ZGRY。
天光音形码仅用音码(天光双拼)也可输入,只是单字的重码会增加。如“机”为JL,“昂”为QQ。
天光音形码不仅字元、键位确定,而且在国内外首次对无声母字词实现了双拼规则的统一,即,对所有无声母的字词,双拼时都是打两下韵母。如,啊AA(a),喔OO(o),俄EE(e),澳FF(ao),尔WW(er),爱XX(ai),安JJ(an),昂QQ(ang),恩LL(en),欧BB(ou),嗯HH(ng)。
音形兼容码音形兼容码是音码、形码和音形码的组合。对所有字词,用户可随意按音码(天光双拼)、天光形码或天光音形码输入,中间不需任何转换操作。如“钇”,可输入YI(音码)、YIJ(音形码)或JY(形码);“大部分”可输入DBF(音码)或DLB(形码)。
本发明有以下主要特点1字元确定——字元少(98个),且组成了规整压韵的七言诗,学龄前幼儿都能记住;2键盘不需记忆——98个字元全部按音放在计算机的英文字母键上,因此字元在键盘上的位置不需记忆;
3简单易学——通用字元法的规则只有一句话取大少连,兼顾直观。如,“日”打R,“时”打RC(日寸),“鳓”打YGL(鱼革力),“器”打KKQK(口口犬口)。打字就像写字一样简单。只要上过一年小学,一般人不到一小时就能学会,一两天就能熟练。
4规范——按笔顺分析、拼写字词,与小学教学完全一致。如,“回”为冂口一(TKH)。
5通用——98个字元既用于计算机中文输入,也用于字典的排检,两者取元完全相同。如“鳓”字,在字典正文中直接查“鱼革力”即可,而不需把字元转换为数字(如四角号码、唯物码)或英文字母(如表形码)。因此,学会了计算机汉字输入,也就同时学会了用字元法编排的字典的查检;反过来也一样。这套字元还可使汉字按音排检不再为同音字太多而困惑。它使汉字难查这个困扰世人数百年的问题得以解决。
6快速——通用字元法编码短(击键少)、重码少,加上简单易学,属于快速码。
7适用面广——通用字元法适用于任何人(中小学师生、机关干部、编辑记者、专业打字员、……)。它包括三种码天光形码、天光音形码、音形兼容码。天光形码使打字就像写字一样简单;天光音形码不仅字元、键位确定,而且在国内外首次对无声母字词实现了双拼规则的统一;音形兼容码不需任何转换就可使用户随意按音、按形或音形输入字词。因此,不管用户喜欢音码还是形码,总有一种适合他。
本发明的有序字元和简单、规范的取元规则实现了汉字的分析、排检、计算机输入与识字教学四者的完全统一,使中文输入真正实现易学、规范、快速的目标,这对计算机汉字编码的规范与统一,具有重要意义。


图1优选的98字元表。
图2把字元按读音的声母安排在24个字母键上构成的中文键盘。
权利要求
1.一套用于汉字排检(排序与检字)和编码的优选字元(部首),组成了规整、压韵的诗句,具有类似英文字母的有序性,用于汉字排检和编码具有易记性和确定性,其特征在于优选字元的数目是98个,构成14句七言诗。
2.权利要求1所述的优选字元,其特征在于它们可以按规则——笔顺、角形等,直接进行中文的排检(而不需再转换为英文字母码或数字码),依字形构成中文的全形序;依拼音和字形构成音形序。
3.权利要求1所述的优选字元,其特征在于把字元按其读音的声母安排在计算机的英文字母键上,按规则——笔顺、角形等,依字形可构成中文的全形码;依拼音和字形构成音形码;两者的合成构成音形兼容码。
4.权利要求3所述的音形码,其特征在于形码部分具有确定性,即按笔顺取一二或一末字元构成四元码,或仅取第一字元构成三元码。
5.权利要求3所述的音形码,其特征在于无声母字词实现了双拼规则的完全统一,即打两下韵母。
6.权利要求3所述的音形兼容码,其特征在于用户不需任何转换操作就可随意按形、按音或音形输入字词。
全文摘要
一套用于汉字排检(排序与检字)和中文信息处理的通用字元(98个)及键盘。本发明把字元组成了规整、压韵的诗句,使字元具有了易记性、有序性和确定性,把字元用于汉字排检,可使中文辞书、图书目录像英文那样实现直接查检,而不需数笔画或查检字表,也不必知道字的读音;把字元按读音放在计算机键盘上,可构成易学、规范、快速的全形码、音形码和音形兼容码,供不同用户(懂拼音或不懂拼音)使用,从而使中文输入真正面向了大众。
文档编号G06F3/023GK1150271SQ9511891
公开日1997年5月21日 申请日期1995年11月2日 优先权日1995年11月2日
发明者张天光 申请人:张天光
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1