计算机汉字信息处理的规范编码输入方法

文档序号:6605951阅读:1546来源:国知局
专利名称:计算机汉字信息处理的规范编码输入方法
技术领域
本发明涉及一种用于汉字信息处理的汉字编码技术,特别是使用键盘往微型计算机输入汉字的规范编码方法。
计算机信息处理的汉字输入方式,一般有光电扫描、手写输入、语音录入以及键盘编码输入等几种。前三种方式由于对计算机硬件配置的要求较高以及适应性问题而不易推广普及,目前成本低,应用广泛的仍是键盘编码输入方式,其中具有代表性且使用较多的有拼音、自然码、钱码、五笔字型等多种汉字输入方法。这些输入方法尚存在着这样的问题,即易学易用与重码率高的矛盾,重码率的高低又直接关系到汉字录入的速度。如拼音易学,但重码字多,须翻页寻找再选字输入,录入很慢。为了减少重码以达到快速往计算机输入汉字的目的,就必须把汉字按一定的规则拆分为多个部首和字根,由于汉字数量多,且结构复杂,拆分出的部首和字根多达数百个才能满足汉字编码的要求,而且这种拆分为了适合编码的需要,往往因字而异,规则繁琐,给汉字输入人员增加了很大的记忆负担。这种字根多、又不规范的拆分方法破坏了汉字内在结构的整体性,成为计算机汉字输入难以掌握的主要原因。
为了解决这个问题,通常的办法是将拆分后的部首和字根按形、音、义分类整理,然后按一定的规则有序地进行组合排列,使人们便于记忆。如申请国家专利的钱码以及王林快码,即采用了按形、音、义分类安排键位,高频字预示等便于记忆的方法,但其拆分的编码字根高达200-300个,所需的记忆量并未减少,仍是人们学习汉字输入技术的沉重负担和障碍,难以为一般人在短时间内掌握。
本发明的目的是要提供一种改进的声形结合的汉字编码技术。它基于一般人均已具有的知识储备,在减少重码率,达到汉字编码技术指标的同时,实现计算机汉字编码的规范化,从而使所需的记忆量降到最低限度,进而有效地解决计算机信息处理过程中汉字录入难学易忘的问题,给人们提供一种既规范、又简易便捷、能即学即用的计算机汉字快速输入方法。
本发明的汉字规范编码方法是这样实现的借助计算机的26个字母键,一个汉字取四键作为编码。其编码思想是汉字的编码由声码和形码两部分组成,声码部分取汉字的声母编码,形码部分取汉字的首、尾、补编码。汉字的声母编码与键盘的英文字母相对应(无声母的汉字取韵母的首字母为编码)。汉字规范编码对首、尾、补编码的约定意义是以汉字左上角的起笔为首形码,右下角末笔为尾形码,补码则取汉字右上角最高的笔形,一个汉字的全码为四码,最多四键输入一个汉字。
形码部分的字形编码元素分为十种,分别用十个英文字母键表示E-横(含横上钩和斜右钩)
I-竖、撇(含竖左钩)U-点、捺X-叉(两笔交叉)W-插(一笔纵穿两笔或两笔以上)O-口(四角整齐的方形)L-角(一笔向下转折或两笔笔头相接所形成的角形)B-八(八字形和八字形的变形)V-小(小字形和小字形的变形)A-点下有一横(点和横相结合)以上编码元素按国家现行出版的《新华字典》、《辞海》对汉字四角笔形的分类进行了取舍,但基本码元相同。
由于同声母的一些汉字具有相似的首尾结构,出现多个汉字编码相同的重码问题,为了在仅有十个基本码元的情况下降低重码率,分散较为集中的重码字,达到易学好用的目的,规范编码采用了一种“路径”的编码方法,将全码相同的多个不同汉字,按其使用的频度分散到全码所路经的上级简码,即任何一个全码汉字,均可根据编码需要占用其路径上的一级、二级、三级简码资源。例如有五个汉字的编码均为ABLV,则按使用频度以AB为一个高频字简码,ABL为两个常用字简码,ABLV为两个非常用字的编码。因此只要知道一个字的全码,就可以在打入全码的路径上找到该汉字,从而使重码率大为降低,实现了同一编码最多不超过三个汉字,为计算机的汉字快速输入创造了条件。
词汇编码采用四键编码,根据词汇的字数不同有以下三种编码方法。(一)双字词编码首字声码+末字声码+首字首形码+末字尾形码(二)三字词编码依序输入每个字的声码和末字的尾形码。
即声码1+声码2+声码3+末字尾形码(三)多字词编码依序输入前三个字的声码和末字的声码。
即声码1+声码2+声码3+末字声码基于快速输入的思想,词组的编码与汉字的编码一样,采用了“路径”的编码方法,全码词可以占用“路径”上的二级简码、三级简码资源。如北京的简码为BJ;计算机的简码为JSJ;满园春色的全码为MYCS,均无需输入形码。
由于声码和形码分别采用了不同的英文字母键,使得汉字的编码与词的编码虽合而不混,减少了发生重码的几率,提高了规范编码的素质。
汉字规范编码与现有计算机汉字编码方法相比,其特点是编码的规范性和确定性。本发明是基于国家确定了的拼音和对汉字四角笔形分类的确定性条件下构建的规范编码,其中任何一个汉字也都具有规范确定的编码,因而最大限度地减少了汉字编码的模糊性和二义性。
编码规则特别简单,充分利用了人们已有的知识储备,没有特殊要求记忆的附加内容。由于用声母作首码,形码的基本码元只占十个键位,扩展的变形码元也只25个,学习掌握特别容易。一个具有小学文化程度的人,已经学习了拼音和查字典的基础知识,只要了解一下编码的基本规则就可以进行计算机的汉字输入,容易做到即学即用。
简易便捷容易掌握。即使不会查字典的人,学习形码的编码方法也是容易的。规范编码运用了古代汉字象形、会意、形声的造字方法选取十个键位,以I表示竖笔;E表示横笔;O表示方框;L表示折角;B表示八字形;X表示两笔交叉;V表示小字形,如同上大下小的利刃;W很容易联想到交错穿插;点下有横的顶盖,用英文的首字母A表示,这都是极为形象易记的,无需解释就能明白其代表的含意,从而使所需的记忆量降到最低的限度。
词组的编码以声母编码为主,先声后形,形码则先首码而后尾码,符合人们书写的思维过程。声码与形码分别使用不同的英文字母键,词的简码只需连续输入两个或两个以上的声码,简码省去形码后,提高了词的输入速度,如三字以上的词组,根据声码就可迅速输入,无需考虑词组是怎么写的。汉字规范编码收集了国标GB2312-80的一、二级汉字库和近两万条常用词组,此外,囊括了商务印书馆1996年版《汉语成语小词典》中的全部成语,仅凭声码就可进行成语录入而不会与汉字发生重码。
声母的zh、ch、sh和Z、C、S不分,适应南方方言不分卷舌音的特点。
下面分步详细说明依据本发明提出的汉字规范编码方法的实施过程。
(1)首先依据《新华字典》、《辞海》对汉字四角笔形的分类选取适合的基本码元和扩展异形码元,根据基本码元和编码规则对国标GB2312-80的6763个汉字逐一进行编码后排序。
(2)通过对汉字编码排序,然后采用上述“路径”的编码方法,把重码较为集中的汉字按使用频度分散安排到全码路径的各级简码中去,修改后形成汉字码表文本文件。
(3)依据词的编码规则对二字词和多字词进行词的编码,形成词的码表文本文件。
(4)将字和词的码表文件合一进行排序形成字词合一的码表源文件。
(5)通过WINDOWS95或UCDOS的应用程序将码表源文件编译生成输入法编码字典,然后按操作系统规定步骤进行安装。
(6)根据WINDOWS 95或UCDOS工作平台的要求运行加载汉字规范输入法程序,即可调用规范码输入汉字和词组。
本发明作为计算机汉字信息处理的规范编码输入方法,采用了悬挂方式,可在中文WINDOWS3.X、中文WINDOWS95、以及UCDOS等汉字操作系统下调用汉字规范输入法以输入汉字。
权利要求
1.计算机汉字信息处理的编码技术,一种使用键盘往微型计算机输入汉字的规范编码方法。该方法的汉字编码由声码和形码两部分组成。其特征在于(1)声码为汉语拼音的声母,形码的基本编码元素取自《新华字典》以及《辞海》对汉字四角笔形的十种分类。(2)根据权利要求(1)所述的汉字四角笔形的十种分类与计算机键盘所对应的英文键位如下E-横(含横上钩和斜右钩)I-竖、撇(含竖左钩)U-点、捺X-叉(两笔交叉)W-插(一笔纵穿两笔或两笔以上)O-口(四角整齐的方形)L-角(一笔向下转折或两笔笔头相接所形成的角形)B-八(八字形和八字形的变形)V-小(小字形和小字形的变形)A-点下有一横(点和横相结合)
2.汉字规范编码以“路径”的编码方法分散较为集中的重码字到沿路径的二、三级简码上,录入汉字时须根据全码查找沿路径的一、二、三级简码直至全码。
3.词组的编码采用声码优先的原则,其编码的规则及特征如下双字词编码首字声码+末字声码+首字首形码+末字尾形码三字词编码依序输入每个字的声码和末字的尾形码。即声码1+声码2+声码3+末字尾形码多字词编码依序输入前三个字的声码和末字的声码。即声码1+声码2+声码3+末字声码
全文摘要
本发明是一种用于计算机汉字信息处理的汉字规范编码输入技术。该方法提供了一种改进的汉字编码技术,它基于人们已有的知识储备,在降低重码率,达到汉字编码技术指标的同时,实现计算机汉字编码的规范化,从而使所需的记忆量降到最低限度。通过科学选取基本码元的数量和键位,有效地解决计算机汉字输入难学易忘的问题,给人们提供一种既规范、又简易便捷、能即学即用的计算机汉字快速输入方法。
文档编号G06F3/023GK1258881SQ9812681
公开日2000年7月5日 申请日期1998年12月30日 优先权日1998年12月30日
发明者刘君度, 陈昌英 申请人:刘君度, 陈昌英
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1