与西文兼容的中文吕氏编码输入系统的制作方法

文档序号:6405577阅读:166来源:国知局
专利名称:与西文兼容的中文吕氏编码输入系统的制作方法
与西文兼容的中文吕氏编码输入系统,属计算机信息处理领域,利用这一编码输入系统,能够高速地输入全部中文信息,并于西文完全兼容。
中文的信息处理,尤其是汉字的输入问题,一直是计算机信息处理领域的“瓶颈”,它严重地影响了计算机在使用汉语的国家和地区的应用与普及,为较好的解决这一问题,人们进行了广泛的探索研究,据不完全统计目前已有近七百种汉字输入方案,但尚没有一种能够达到令人比较满意的程度,这些输入方案,可规纳为以下两类,第一类根据汉字的“音”,“形”或者“音”,“形”结合将汉字进行编码,直接利用目前标准的小键盘用字母或数字输入,这类输入方式,不须专用键盘,造价低,但由于目前的编码方案存在很多缺陷,未能得到普遍的接受,主要表现如下a.编码输入速度不高,b.编码规则未有理论支持,不系统,易学性差,c.对操作者的单项水平要求过高,d.汉字,词,语不能兼容或不能很好兼容,不能与西文兼容,e.代码长短不一,难于规范,第二类汉字非编码输入,它包括汉字的整字输入方法和将汉字分解成字根的直接输入方法,分别采用大键盘和中键盘输入方式,造价高,且整字输入方法,盘面字容量一般较小,输入速度较低;由于汉字极为复杂,采取字根输入法时,要求使用者具有很高的字根分解水平,难于熟练掌握应用,这类输入方法与西文的兼容尤为困难。
本发明的目的寻求一种比较理想的中文输入方法,基本克服目前汉字输入方法的各种缺陷,提供一个具有理论支持,系统规范,易于学习掌握,高效的中文输入系统,在这一系统里,汉文字,词,语兼容;中西文兼容;并采取造价低的标准小键盘输入方式,较好地解决汉字输入的问题用事实证明具有悠久历史的汉文字,是一种完全适应现代信息社会,便于计算机处理的,最丰富,最简洁的文字。
本发明的内容为一.研究汉字的基本特征,获得下述认识1.汉文字是一种由象形文字发展的具有二维结构的形意文字,表观上相当部分的简单字(如大,单,有等),在纵向上具有对称性或准对称性。
2.一个汉字是一组笔形的有机组合,笔形间只可能有两种关系,即笔形间相互交叉或连接与不相连接,本发明称一组相互交叉或连接的笔形为连组。
3.构成汉字的有些笔形或笔形组合(简记为笔形)极为常用,这些笔形相当简单(如、,一,丿等),一般附在其它笔形之上很难独立,本发明称这类笔形为附体。
4.可根据汉字的字形特征,提取一些特征符,并根据汉字所包含的特征符对汉字分体,分类。
5.汉字在现代拼音首字母的分布上极为不均,相当数量的汉字读音可以根据构成汉字的表音部分得出相近读音。
二.汉字的分体,分类方法基于上述(内容一)对汉字的认识,根据汉字的字形特征,将汉字分为七种体,分别为独体,纵体,垒体,并体,靠体,庇体,围体,二十个类,分别为1,2,3,4,5,6,7,8,9,a,b,c,d,e,f,g,h,i,j,k,汉字的字形特征图如

图1。
对图1,字形特征图的说明“
”指必要部分,“
”指非必要部分,“厂”,“囗”是字形特征符,1.为准确地对汉字分体,分类,进一步对连组及附体研究如下汉字由连组及附体构成,连组即一组相连的笔形,下列笔形亦认为是一个连组
,,附体指一些常用于构成汉字的简单笔形,附体一般附在字的上部,常用附体归集如下丶(丷,,
),一(亠,
),丿(爫),人(八,,
,入,丆),乂(十,又),,,在上述附体中,除“丶,丷,;
,一,人,八”外,处于非附体下时认为是连组,如“古”字的“十”为附体,“早”字的“十”为连组,非重复附体迭加后仍为附体,如“合”字可认为由一个附体和一个连组组成,其附体为“人”,“一”的迭加,两个相同的附体的迭加认为是一个连组,如“爻”认为是一个连组,在考察汉字的各笔形关系时,若不能确定笔形间有相互连接关系,即认为不相连接,2.汉字的体,结合图一,详述如下独体字汉字中最多含有一个连组,对应字形特征图(1),即图1,1或难于归入下述各体的字,如“大,内,分,鸟”等,纵体字汉字呈纵向串列,且在任一层面上最多只能含有一个连组,对应图1,2,如“各,草,帛”等,垒体字汉字呈纵向串列,且在至少一个层面上有两个以上连组,对应图1,3及图1,4,如“磊,菠,孬,梁,哭”等,并体字汉字呈横向并列,由两部分组成,且任一部分不为垒体字码或下面所说的总体围护及总体围护及总体庇护字码,对应图1,5,如“特,地,到,部,加,他,报”等,靠体字汉字呈横向并列,由两部分或者两个以上部分组成,当由两部分组成时,其中一部分为垒体字码,对应图1,6及图1,7,如“测,操,糊,礁,陛,准,珩”等,庇体字汉字含有庇体特征符(特征符见下文)且符合下面所说的汉字分体时量的规则,对应图1,8及图1,9,如“庇,这,玻,蔑,”等,
围体字汉字含有围体特征符(特征符见下文),且符合下面所说的汉字分体时量的规则,对应图1,10及图1,11,如“容,国,风,同,间简,洞,阙”等,
汉字分体时量的规则当汉字含有庇体或围体特征符时,若特征符所庇护或围护的部分约占一半以上,则该汉字为庇体字或围体字,如“析,俯,掴,恫”等,若汉字的所有部分都在庇体或围体特征符之庇护或围护中,则称该字为总体庇护或总体围护,如“庆,同,这,遮”等,而“蔗,谠”不为总体庇护或总体围护,若汉字在分体时,依上述规定可划归多种体,依下述顺序优先;庇体围体,垒体,独体,3.汉字的分类,汉字在上述所说的体上分布很不均匀,要更准确地把握汉字的字形特征,需进一步对汉字分类,为了汉字的分类将一些常用部首及偏旁(简记为BP)归集如下
,汉字的分类,结合字形特征图及汉字的体规定如下表
注1.在字形分类表中,字中含有某一BP,对纵体字,垒体字是指该BP单独占据字的最高或最低层面;对并体是指该BP单独占据字的左或右部分,2.在字形分类表中,当含有两个对应BP时,对并体字以右部的BP为准分类,三.汉字编码方法由于用单一信息难于准确地表示出汉字的全部特征,本发明的汉字编码方法为,汉字代码含有四位码元,包含字的四种特征信息,四位码元分别为字音码元,字类码元,字首码元,字尾码元,1.汉字读音码元的取法因汉字在读音首字母的分布上极为不均(内容1.5),规定读音码元取法如下读音码元由下列字符组成a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z。
当汉字的现代汉语拼音的首字母不为c,j,l,s,y,z时,该字的拼音首字母即为其读音码元;否则,其读音码元的取法如下表。
表2.汉字读音码元取法表
注1.顺序比较结果指汉字拼音的前若干个字母与比较字符串依(相应英文字母的排列)顺序进行比较的结果,2.可以用对应字母的大写字母,2.字类码元的取法字类码元由下列字符组成1,2,3,4,5,67,8,9,a,b,c,d,e,f,g,h,i,j,k,汉字的分类号即是该汉字的字类码元,当分类号为字母时,可以用对应的大写字母,3.字首码元及字尾码元的取法这两个码元由下列字符组成0,12,3,4,5,6,7,8,9,其取法类似新四角号码查字法中的取角码方法因相当部分的汉字存在对称性(内容1.1),而字首码元及字尾码元根据汉字的字首及字尾的笔形提取,它基本包含了汉字的笔形特征,这两个码元的取法如下表表3.字首码元及字尾码元取法表
注应尽量使取码的笔形多包含些笔画,一个笔画可以分开取码。
字首笔形的取法除以BP1为字首的纵体字或垒体字外,字的左上角笔形即为字首笔形;当字为以BP1为字首的纵体字或垒体字时,去除BP1后的字的左上角笔形即为字首笔形。
字尾笔形的取法对独体字,并体字,靠体字,非总体庇护的庇体字非总体围护的围体字和不以BP1为字尾的纵体字及垒体字,字的右下角笔形即为该字的字尾笔形;对以BP1为字尾的纵体字及垒体字(当为纵体字时,不以BP1为字首),去除BP1后的字的右下角笔形即为字尾笔形;对为总体庇护的庇体字,当为“厂”式的特征符时,字的右下角笔形即为该字的字尾笔形,当为“辶,
,,弋”式的特征符时,取庇护字码的右下角笔形为字尾笔形;对为总体围护的围体字,当为
式的特征符时,字的右下角笔形即为字尾笔形,当为“囗,冂”式的特征符时,取围护字码的右下角笔形为字尾笔形。
汉字的编码,即是按上述取码方法,依次写出该字的各个码元,当码元为字母时,采用小写字母,即为该字的代码,如“票,好,硼,达,岗田,愁”的代码分别为“P319,ha44,Pd12,df38,gi22,ti64,i528”,四,中文词,语的编码输入方法当词,语长度不足四字时,用小写字母的形式,词,语为二字时,依次写出第一字的字音码元,字类码元,第二字的字音码元,字类码元;词语为三字时,依次写出,第一字的字音码元及字类码元,第二,三字的字音码元;当词,语长度多于或等于四字时,用大写字母的形式,依次写出构成该词,语的前四字的字音码元,如“共产党,中华人民共和国,汉语”的代码分别为“glid,VHRM,h6y7”。
五.西文的输入方法由于汉,字,词的代码规范,皆为四位;当连续输入一个长为四位不含有空格符的字符串时,规定系统默认为汉字,词,语的代码,否则系统默认为直接输入,据此,西文(包括数字及其它符号)采取分段直接输入方式,如“Thespeed,v=s/v”可直接输入为“Thespeed,v=s/v”
六.字的选择方法由于本编码方法重码率很低,重码数很小,为减少不必要的选字,规定选字方法如下当连续输入四位不含空格符的字符串后,系统默认为此字符串是汉字词,语(简记为字)的代码并将具有该代码的首字送入指定位置,当该代码无对应的字或该代码还有其它字时,系统可以发出呼叫,请求处理(如有必要时);若所选字为首字,可直接输入下一个字,若所选字不为首字,则通过键入一数字选字,系统将所选字送入指定位置,删除系统自选的首字,若该代码无对应字或待选字里无所需字,则可进入其它字库查找。
在选字时,键入空格符,系统默认为选第二字。
七.字库的分类及进入汉字依使用频度统计,大致可划分为高频字约100个,常用字约3000个,次常用字约4000个,罕见字约8000个,已基本无使用价值的死字约45000个;“GB2312-80图形字符代码表”给出的常用字为3755个,次常用字为3008个,因此可以认为,常用字及次常用字约7000个,本发明为了进一步提高汉字的输入效率,设两级,两类字库;两级字库分别为一级字库,二级字库;两类字库分别为通用字库(包括一级字库,二级字库),专用字库。
1.字库的建立一级字库包括97%以上的常用字及次常用字,相当部分的罕见字,和大量以这些字为首的词,语;在一级字库中,控制重码数一般不超过三,以字的使用频度编序,且若第三字不为“GB2312-80图形字符代码表”中的常用字时,将该字归入二级字库,二级字库主要由罕见字,尚有一定使用价值的所谓“死字”和以这些字为首的词,语组成。一级字库和二级字库具有通用性,称为通用字库。
专用字库主要由专业述语组成,根据用户的专业需求配置。
2.各字库的进入系统进入本输入系统后,即为一级字库的使用状态若一级字库不能满足需要,希望使用其它字库时,直接键入该字库名和回车键即可,系统使用一次该字库后,自行返回一级字库;若希望该字库与一级字库联接使用,重复两次键入该字库名和回车键即可,各字库名规定为不含空格符的四位字符串,如“物理字库”取名为“WLZK”。
本输入系统的实现只需按照上述方法对汉字,词,语进行编码输入即可实现。
本发明与现有汉字输入技术相比具有的优点1.编码规则具有相当的理论支持,系统规范,对操作的单项水平要求不高,便于学习掌握。
2.系统具有可用编码空间1200万余,实现了汉字,词,语的完全兼容,其可用编码空间目前是最大的。
3.系统设有两级,两类字库,必要时,可以输入全部中文信息。
4.汉字(包括中文词,语)编码的重码率很低,重码数很小。
5.汉字代码设计合理规范,与西文完全兼容。
6.系统设计了快速选字方法。
7.由于系统有上述1,2,3,4,5,6的优点,与汉字的其它输入方案相比,本系统可以成倍地提高输入速度;基本解决了汉字输入方法的易学性和好用性的矛盾。
8.本系统采用标准小键盘输入方式,造价低,其性能价格比更低。
9.本发明的核心汉字的分体,分类方法,反应了汉字的基本特征可以作为学习掌握汉字的手段之一,独立出来学习,用于教学或培训,从而为人们掌握这一汉字编码输入系统打下坚实基础。
10.在本系统中,汉字的代码可极方便地转换为密码。
11.本发明的汉字编码方法,可以作为快速查字法,用于作中文信息的检索。
本人已用本发明的编码方法,对“GB2312-80图形字符代码表”中的全部6719个汉字(不包括部首偏旁)进行了编码,也根据现代汉语成语小词典对最易造成重码的部分的连续二百个成语进行了编码,对其统计的结果证明,这一编码方法确实具备易学,高效的特点,对“GB2312-80图形字符代码表”中的汉字编码统计结果如下单码率72%,两码率21%,三码率5%,其它2%,最大重码数6。
本发明除适于计算机的中文信息处理外,还可广泛用于中文打字机,各种形式的电信通讯,中文信息的检索;如本发明的汉字(包括词,语)编码方法用作电报编码,可收到易学,高效的效果,本发明的核心汉字的分体,分类方法,可作为学习,研究汉字的手段之一。
权利要求
1.与西文兼容的中文吕氏编码输入系统,属计算机信息处理领域,它包括本发明对汉字的研究认识以及建立在这一认识基础上的汉字,词,语的编码方法及其系统,其特征是根据汉字的字形特征对汉字分体,分类,汉字,词,语的代码一般含有多种特征信息码元(一般包括字类码元)在本系统中,汉字,词,语与西文完全兼容。
2.如权利要求(1)所述,基于对汉字的研究认识,本发明提出的连组和附体概念以及汉字的分体,分类方法。
3.如权利要求(1),(2)所述,本发明提出的汉字编码方法,其特征是汉字代码由四位码元组成,分别为字音码元,字首码元字尾码元。
4.如权利要求(1),(2),(3)所述,基于对汉字的研究认识,本发明提出的字音码元,字类码元,字首码元,字尾码元的取法。
5.如权利要求(1),(2)所述,本发明提出的中文词,语的编码方法,其特征是根据词,语长度的不同,其代码由组成该词,语的前若干字的字音码元或者字音码元与字类码元组成。
6.如权利要求(1)所述,根据本系统的特点,本发明提出的快速选字方法,其特征为当输入一个字,词,语的代码后,系统自动地将具有该代码的首字送入指定位置。
7.如权利要求(1)所述,本系统根据汉字,词,语的作用,将其分级,分类的方法,不同字库的进入与联接方法。
8.如权利要求(1)所述,本发明提出的与中文兼容的西文输入方法其特征是分段直接输入。
9.如权利要求(1),(2),(3),(4),(5),(6)所述,根据本发明的汉字,词,语编码方法而得出的中文信息检索方法。
10.本发明可广泛应用于计算机,中文打字机,各种形式的电信通讯中文信息的检索分类等;本发明的基础;对汉字的研究认识,汉字的分体分类方法,可作为学习研究汉字的手段之一。
全文摘要
与西文兼容的中文吕氏编码输入系统,属计算机信息处理领域,是一个用计算机处理中文信息,兼容西文信息的编码输入系统,其特征是本发明根据汉字的字形特征提出了汉字的分体,分类方法、汉字、词、语相互兼容,并于西文完全兼容,在汉字、词、语的代码中,一般含有多种码元(包括该字、词、语的字类码元),码型规范,皆为四位,重码率低,重码数小,基本解决了中文信息输入方法的好用性与易学性之间的矛质。可广泛用作计算机,中文打字机,各种形式的电信通讯系统等方面的汉字输入系统。
文档编号G06F3/023GK1043014SQ89106889
公开日1990年6月13日 申请日期1989年12月29日 优先权日1989年12月29日
发明者吕宝申 申请人:吕宝申
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1