字元谱汉字编码法(炎黄码)及其键盘的制作方法

文档序号:6407675阅读:286来源:国知局
专利名称:字元谱汉字编码法(炎黄码)及其键盘的制作方法
技术领域
本发明涉及一种计算机汉字输入的编码方法及其键盘,具体地属于一种按汉字笔顺拆字元定代码、以汉语拼音或注音符号的首字母作识别码、以通用的计算机键盘及相应设备为输入装置的汉字编码方法。
采用按笔顺(或基本按笔顺)拆字根(字元)定代码的汉字编码法已有不少,其中最著名的有“王码”《优化五笔字型编码法及其键盘》(专利号85100837)和“郑码”《字根编码输入法及其设备》(专利号89108851.2)。这类编码法的共同特征是一、要求记忆一定数量的字根;二、要求熟悉各字根在键盘上的位置;三、要有拆字根的明晰规则,尽量避免“二义性”。这些都是此类编码法的重点和难点。上述两种编码法均在上述问题上煞费苦心,花了大气力。例如“王码”以字根首笔是横、竖、撇、捺(点)、折为特征将字根划分为五个根区,一部分字根还以第二笔确定位号;另外还编出了“字根助记词”。“郑码”以字根起笔的笔形确定“一码主根”,以与主根构形成分相关的字根作为“二码副根”和“副根”。这些设计都是为了有助于解决上述第一、二两个问题。但它们的规律性显然并不强,使用者为了掌握它们,更多的还是靠机械记忆。这是电脑打字上手难的症结之一。
另外,许多汉字编码法声称依照笔顺拆字根,其实并不严格,甚至相当程度上不遵守这个规则。例如“王码”中“可”拆成“丁口”,酉-西-,巫-工人人,匹-匚儿,戒-戈廾,卤-ト囗乂,等等;“郑码”中匹-匚儿,束-木口,龙-尤丿,成-戊
,等等;都明显违反了笔顺规则。不利于中小学生识字、写字和普及文化。
再者,有的编码规则不够简明,甚至相互抵触。例如,“王码”的拆字根规则是“依照书写顺序,取大优先,兼顾直观,能连不交”。除了“兼顾直观”含义模糊外,其它三条都不能贯彻到底。违反“书写顺序”的情况较普遍,前已举证多例。违反“取大优先”的例子也不少,如“羊”拆成“
”,而不是依照本规则拆成“
二丨”;“生”拆成“丿
”,而非“土”;“兀”拆成“一儿”而非“丆乚”;等等。违反“能连不交”的例子也有,如“缶”拆成“
山”,而不是“十凵”。这里似乎认定“取大优先”的原则优先于“能连不交”,但上述“生”字的拆法,似乎认定后者应优先于前者,叫人无所适从。这样的例子绝不是个别的。
上述问题的产生,一般并不是由于发明者的疏忽(应该说,这些编码法是经过千锤百炼的),而是为了追求尽量少的字根(以减轻记忆负担)、尽量短的码长(以提高输入速度)、尽量低的重码率等目的。总之,是受到了整体设计方案的制约。
本发明的目的在于避免上述汉字编码法的缺点,提供一种新型的以拆字元定代码、以汉语拼音或注音符号的首字母为识别码的汉字编码法,要求它所选用的字元在键盘上排列有很强的规律性,便于检索,避免死记;同时拆字元的规则力求简明、规律性强,无“二义性”,并严格遵循笔顺;还要求简、繁体字兼容,字、词兼容。
本方案的字形以1965年文化部和中国文字改革委员会共同发布的《印刷通用汉字字形表》为准。
在字元谱中,可把所涉及的简、繁体字的偏旁对照列出,便于共用一个字元谱分别对简体字和繁体字进行编码。
字元谱汉字码的编码及输入规则叙述如下一、汉字拆字元规则(1)严格依照笔顺和字元谱。即必须依照笔顺来拆字元,字元只能是字元谱中的成员。
(2)、用以决定代码的字元称为码元,每字所拆出的码元数不少于两个(除“一”和“乙”两字外)。
(3)“取大不取小”。何为字元的大小?即某字或某笔画组合,按规则(1)可拆解出笔画由少增多、后者包含前者的一个字元序列,我们称后一字元大于前一字元。例如“正”字,按“四划码字元谱”(图2)或“五笔码字元谱”(图3),都可分解出“一、ㄒ、
、正”四个字元,由后往前,字元一个比一个大,这里“正”是最大字元,“下”是次大字元。另外,值得一提的是,由“下”到“正”不止增添了一画(所以,通常以“某字元增添一画则不成字元”来定义“最大字元”并不严密)。“取大不取小”的含义是按规则(1)、(2)拆分汉字,规定取仅小于全字的字元作为第一码元,随即抹去这字元的笔画;再取该字剩余的笔画组合中的最大字元作为第二码元,又抹去这第二码元的笔画;若还有剩余笔画组合,再取它的最大字元作为第三码元;等等,直至该字的全部笔画用尽为止。最后得到该字的一个字元序列,用以确定字元谱汉字码。例如上面的“正”字,按照“取大不取小”的规则,拆出的码元序列只能是“下丄”。
二、本方案的识别码、码长及输入规则(4)、汉字的识别码规定为该字的汉语拼音首字母。为了便于港澳台同胞使用本编码,也可取为汉字注音符号的首字母(可刻写于键面上)。使用识别码是为了减少一部分笔画少的汉字的重码率。
(5)、本编码的最大码长定为4。
当某字拆出的字元序列中的字元数超过4时,依次取定第1、2、3、末字元的英文字母代码组成本编码。键盘输入时只要从前至后按字母序列逐个击键即可。
刚好4个字元时,依次取定它们的代码作成本编码。
不足4个字元时,依次取定各代码,并在尾部添加识别码,共同组成本编码;若仍不足4码,键盘输入时要补打空格键。
以上(1)~(5)条就是本方案的全部编码输入规则(参见图1)。按照这5条规则得到的编码,称为本方案的正常编码。
相对于正常编码,本方案还设置了汉字的简码。为了说明简码,我们只须注意到,在一定容量的汉字集(例如《国标》一、二级汉字)中,有一部分汉字的正常编码,假若从后往前删去一个或两个代码,却能映射唯一的汉字,这时我们就删去这些多余的代码,所剩下的编码便称为该字的简码。显然,简码一定不含识别码,还可能不含末字元代码等。为了制定简码,只须在按字元谱汉码排列(字典排列法)的码本中,逐个比较删定,便可得到一部简码本。这在本编码体系中,是最简省、高效的编码本。当然,在汉字输入时若靠记忆来辨别哪个字有简码。哪个字无简码是很困难的。这只能在计算机处理程序上想办法。可使计算机在每个字输入过程中,当击第二键后,即开始搜索;若两码已唯一确定了某字,则荧屏显示该字,并以短促声响提示;击空格键隔断下一字的键入信号,同时机器自动录入。否则,再击第三键,又搜索,……直至完成正常编码的输入。
为了提高输入速度,消除或减少重码现象,本编码法可以设置1至4种“单键字”一键字,选用汉字频度表中的前26个高频字,排列成易记的形式,即“我们是中国的主人,不要有时为了个(人),在这一大工地上动用(国)产;和”。将它们在键盘上从左到右、从上至下依次排列。击键一次并加击一次空格键即可。二键字输入时则须连续击同一键两次并加击一次空格键;三键字仿此类推;四键字却只须同键连击四次便可。从二键字至四键字,除已被正常编码占用者外,都安排重码字,优先考虑消除《国标》一级汉字中的重码现象。不过这些重码字的正常编码仍然保留,排在同码字的后面,依靠荧屏显示,选择输入,而同码非单键字则优先显示。这样,不使用单键字设置,也能照常输入预定的汉字集,以减轻初学时的记忆量。
由于本编码法的码长为4,其编码容量很大,理论上有264+263+262个不同编码,不仅可以容纳大量的汉字,而且可以兼容大量的汉语词汇。本方案规定词语的定码方式与单字的一致,但当词语中有某字是字元谱中的字元时,不再拆分,就取该字元的代码。不论词语由几个单字组成,一律用四个英文字母作代码。
对于两字词,分别取两字的首二字元代码;当某字的字元数不足定额时以英文字母“O”补位(下同)。例如,当采用图2的四划码<p>本发明的负载催化剂体系含有一种催化剂体系,它优选由至少一种铝噁烷作为助催化剂和至少一种金属茂作为催化剂。
金属茂优选的是式Ⅸ的一种化合物,
其中M1是钛,锆,铪,钒,铌和钽,优选的是锆和铪,M2是硅,锗或锡,优选为硅或锗,R14和R15是相同的或不同的基团,可为氢原子;C1-C10烷基,优选的是C1-C3烷基;C1-C10烷氧基,优选的是C1-C3烷氧基;C6-C10芳基,优选的为C6-C8芳基;C6-C10芳氧基,优选的为C6-C8芳氧基;C2-C10链烯基,优选的为C2-C4链烯基;C7-C40芳烷基,优选的为C7-C10芳烷基;C7-C40烷芳基,优选的为C7-C12烷芳基;C8-C40芳基链烯基,优选的为C8-C12芳基链烯基;卤素原子,优选的是氯;
m可以是1或2,按中心原子M1的价数定,R16和R17是相同的或不同的基团,可为单环和多环的烃基,它们能与中心原子M1形成夹心结构,R16和R17优选的是彼此独立的达到盲打的程度。汉字的正常编码熟悉后,再逐步熟悉单键字、简码和词语输入,这样就越打越快,得心应手。
本编码方案的规则简明,规律性、逻辑性很强,在码本的制作过程中没有发现“二义性”(即某字可能有两种编码的情况),拆字元规则也不存在互相矛盾的情形。
本编码方案特别强调按笔顺拆解字元、识别码采用汉语拼音首母,都是着眼于“电脑要从娃娃抓起”,有利于中小学生汉字读写的规范化,有利于电脑打字和汉字书写规则的统一及相互促进。
本编码方案由于简、繁体兼容,识别码既可用汉语拼音首母,也可用注音符号首母(可刻于键码表面),适合海峡两岸、港澳台同胞和各地华侨使用,故又名之曰“炎黄码”。
本发明的


图1是“炎黄码”编码流程图;
图2示出四划码字元谱;
图3示出五笔码字元谱;
图4是汉字常用部首拆分、编码示例;
图5是繁体偏旁编码示例;
图6是“炎黄码”码本之一页。
下面结合以上附图着重说明四划码字元谱和五笔码字元谱的编制方案。
一、四划码字元谱将汉字的各种笔画分解、抽象为简单的四种“笔划”,简称为“划”,以别于通常的笔画或画。这“四划”依次为“点”、“横”、“竖”、“斜”
值得注意的是,本方案关于“四划”的划分仅适用于字元谱中的字元编码。汉字依笔顺拆字元时,仍采用普通的笔画,即不得分解、割裂曲折笔画(极少例外须明确规定)。
本方案所规定的例外拆分如下1、违反“不断开笔画”规则的车ナ
东ナ木疌肀用熏千
灬;
戊厂戈戎
戈成万戈(含“戈”的字)2、违反“取大不取小”规则的丷豕酋丷酉象
3、违反笔顺规则的必心丿。
采用四划码编制字元谱的好处在于1)数码的总数较少(75个,还可更少点);2)计算字元的各种“划”数比考虑普通的笔画要直观些;3)同数码的字元,各类划数分别相等,因而往往在形体上具有某些共同特征。不少同码字元,从一个到另一个,可以看作由少数笔划的移动或略加变形而得到,如“1101”中的“大、
、厶、ス、、
、广”等,“0211”中的“牛(
)、午、
、壬、
、尸、几、开、井”等等,这些都有助于记忆。4)由于字元的四划码不考虑笔顺,因此在拆分字元时可以减弱少数笔顺有分歧的字元的影响。例如,字元“上”,有的字典规定笔顺为“-丨-”,有的规定为“丨-”,但它的四划码只有一个“0210”,不会出现歧义。
四划码字元谱中选用的字元个数虽然比较多(约340个),但它们的可检索性大大抵消了这个弱点。通常它们不必硬记,而是边用边熟。而且字元多一些,拆字较顺手,较自然。
二、五笔码字元谱将汉字的所有笔画象“王码”那样,归结为五种基本“笔画”横、竖、撇、捺(点)、折,曲折笔形都归于“折”,分别以数字1~5来代表它们。每个入选字元依笔顺取首三画的数字代码,不足三画者以零补位,一律得到一个相应的三位数码,称之为字元的“五笔码”。如王112,
213,-100,+120,韦115,氵444等。所有入选字元的五笔码按大小顺序、类似于四划码的方式配置于键盘的英文字母键上,便构成了“五笔码字元谱”。请参见图3。
五笔码定码规则简单,只需三位数码。但数码总个数(102)比四划码(75)多不少。且各数码统率的字元数太不均衡,给它们在键位上的分布造成一定困难。
用以上两种字元谱编码的实例可参见图4、图5和图6。图4和图5中的“编码Ⅰ”与“编码Ⅱ”分别是依据四划码字元谱和五笔码字元谱得到的编码;但图4未加识别码,图5所加识别码是汉语注音首母。图6是根据四划码字元谱编制的,并按规则加上了汉语拼音识别码,它是按区位号排序的码本之一页(共41页)。
另外,由于“字元谱”所包含的数码并不多,也适合配置中键盘,设计成一键一数码,可进一步减少重码率,更方便检索字元。
权利要求
1.一种计算机的汉字输入编码方法一字元谱汉字编码法,它主要是由一张字元、键位排列表和拆字元定代码的一套规则组成的,其特征在于a)、上述的排列表是由优选的字元集依据各字元的形体特点编制成一个多位数码集,这些数码又按大小顺序配置在26个英文键位上,从而建立了由字元到数码、由数码到英文字母代码的定码方式,这种排列表,称之为“字元谱”;b)、本方案拆分字元的规则如下(Ⅰ)严格依照笔顺和字元谱;(Ⅱ)每字所拆出的字元个数不少于2(除“一”和“乙”两字外);(Ⅲ)“取大不取小”,即按上述规则(Ⅰ)、(Ⅱ)拆分汉字,取仅小于全字的最大字元作为第一码元,其后的码元则取该字剩余笔画组合中的最大字元,依此类推,直至该字的全部笔画用尽为止;c)、本方案的识别码、码长及输入规则(Ⅳ)汉字的识别码规定为该字的汉语拼音首字母,或者“汉字注音符号”的首字母;(Ⅴ)本编码的最大码长定为4,当某字拆出的字元数超过4时,依次取定第1、2、3和末字元的代码组成本编码;按照编码的英文字母逐个击键,便可将该字输入计算机;刚好4字元时,依次键入它们的代码即可;不足4字元时,依次取定各代码,并在尾部添加识别码;若仍不足4码,键入时要补打空格键。
2.如权利要求1所述的字元谱编码法,其特征是在字元谱中,所涉及的简、繁体字的偏旁对照列出,便于共用一个字元谱分别对简体字和繁体字进行编码输入。
3.如权利要求2所述的字元谱编码法,其特征是在正常编码的基础上制定了简码。
4.如权利要求3所述的字元谱编码法,其特征在于另外设置了1至4种“单键字”一键字,选用26个高频字,即“我们是中国的主人,不要有时为了个(人),在这一大工地上动用(国)产;和”,将它们在键盘上从左到右、从上至下依次排列;输入时只须击键一次并加击一次空格键即可;二键字输入时则须连续击同一键两次并加击一次空格键;三键字仿此类推;四键字却只须同键连击四次便可;从二键字至四键字,除已被正常编码占用者外,都安排重码字,优先考虑消除《国标》一级字中的重码现象。
5.如权利要求4所述的字元谱编码法,其特征在于汉语词汇的定码方式与单字一致,但当词语中有某字是字元谱中的字元时,不再拆分,就取该字元的英文代码即可;不论词语由几个单字组成,一律用四个英文字母作代码对于两字词,分别取两字的首二字元代码;当某字的字元数不足定额时以英文字母“O”补位(下同);对于三字词,取第一字首二字元代码,第二和第三字的首字元代码;对于四字词,各字都取首字元的代码;对于多字词,取第一、二、三、末字的首字元代码。
6.如权利要求5所述的字元谱编码法,其特征在于字元谱采用“四划码”对入选字元编码,即将汉字的所有笔画简化为四种“笔划”点、横、竖、斜,曲折笔形分解为这“四划”;将每个入选字元的“划”数分类相加,缺某类“划”者,以O补位,所得四个和依序构成一个四位数码,称为该字元的“四划码”;通常一个四划码统领多个字元,所有入选字元的四划码按大小顺序配置到键盘的26个英文键上,就得到了便于按数码检索字元的“四划码字元谱”。
7.如权利要求5所述的字元谱编码法,其特征在于字元谱采用“五笔码”对入选字元编码,即将汉字的所有笔画归结为五种“笔画”横、竖、撇、捺(点)、折,曲折笔形都归于“折”,分别以数字1~5来代表它们;每个入选字元依笔顺取首三画的数字代码,不足三画者,以O补位,一律得到一个相应的三位数码,称之为该字元的“五笔码”;所有入选字元的五笔码按大小顺序配置于键盘的26个英文键上,便得到可按五笔码查找字元的“五笔码字元谱”。
全文摘要
本发明提供一种计算机汉字输入的编码方法,它严格依照笔顺拆字元定代码、以汉语拼音或注音符号的首字母为识别码。其主要特征在于将优选的字元集根据各字元的结构特点编制成三位或四位的数码集,数码又依大小次序,合理配置在键盘的26个英文键位上,作成“字元-数码-键位”的易于检索的“字元谱”。本编码方案规则简明,无“二义性”;简、繁体字兼容,字、词兼容。电脑打字与手写一样遵循笔顺,有利于汉字书写规范化及相互促进。
文档编号G06F3/023GK1095502SQ9410078
公开日1994年11月23日 申请日期1994年2月4日 优先权日1994年2月4日
发明者彭声羽 申请人:彭声羽
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1