一种汉字编码方法及其所用键盘的制作方法

文档序号:6405283阅读:368来源:国知局
专利名称:一种汉字编码方法及其所用键盘的制作方法
专利说明 本发明涉及汉字信息处理技术。特别是涉及一种汉字编码方法及其所用键盘,通过该方法及其键盘能简便、快速地把汉字输入到计算机、打字机或其它类似设备中。
汉字键盘是用于汉字信息处理的一种输入设备。按照键数地多寡,汉字键盘可分为大、中、小三种。不同的汉字键盘使用不同的汉字编码法。
已有的汉字编码法可分为两大类整字编码法及组合编码法。
整字编码法是按人为的规则将一定数量的汉字排成一序列,并用汉字的序数作为它的代码。整字输入法使用大键盘。它的原始设计是一字一键。键数最少的大键盘也有几百个键。由于键数太多,寻找键位困难,故输入汉字的速度较慢。遇到键盘上没有的汉字时,要用其他辅助办法将该字输入。另外,它的制造成本较高。大键盘的优点是直观易学,而且没有重码的问题。
组合编码法可分为三种形符编码法、音符编码法及形音混合编码法。
形符编码法的数量最多。它按一定的约定俗成规则将汉字拆为一字元或字根的序列,并用它作为该字的代码。字元或字根一般是汉字的笔划、偏旁、部件或其他形符。偏旁可分为形旁和声旁,包括作为特殊形旁的部首,而部件则是一些不属于偏旁的特别形符。字元集的大小,拆字规则的难易及重码的多寡是决定形符编码法优劣的重要因素。
音符编码法有多种。常用的是以汉字拼音为基础的编码法。汉字拼音编码法的最大困难是汉字的同音字太多。
为了区别同音字,即避免重码,有的编码法在拼音字之前再加偏旁这是一种形音混合的编码法。另一种形音混合的编码法是按一定的规则,先将汉字拆字成一字元序列,然后再将序列中的每个字元依次换成它的关系字拼音的第一个字母,并用最后得到的四字母序列作为该字的代码。
一些组合编码法使用中键盘,另一些使用小键盘,还有一些使用数字键盘。由于用数量较少的基本形符或音符代替了大量汉字,再加上用数个符号共用一键等办法,使得中、小键盘的键数比大键盘大为减少。为了减少键数而付出的代价是编码规则变得复杂。另外,还有重码等其他的问题。
除了汉字拼音法外,已有的汉字编码法全部都是对楷书汉字进行编码。其实,除楷外,汉字还有篆书、隶书、草书及行书等字体。其中,篆书和隶书已经过时,实用价值较小,不用考虑,但草书和行书却值得我们重视。按照历史,汉字经历了陶文、甲骨文、金文、大篆、六国文字、小篆、隶书、草书及楷书等发展阶段。草书的出现比楷书更早。汉代,可能更早时已有草书。可惜它没有受到重视,没能成为普遍使用的字体,但作为书信和艺术的字体,一千多年来它一直受到人们的喜爱和不断地使用。另外,从汉字的演变过程来看,草书比楷书更加体现了汉字由繁到简的发展趋势。在这种意义上,楷书可以说是开倒车。
实际上,楷书在今日社会主要用于印刷品,以及像招牌和广告之类广义的印刷品。楷书可以说是一种印刷体。而我们平时写字时,尤其是在写笔划较多的字时,经常都在自动减少字的笔划,写的根本不是楷书,而是行草。另外,无论在人的生理或心理状态上,用键盘打字和用笔写字十分相似,不同的只是书写工具。因此,我们可以说,对于用键盘打字或输入汉字这种广义的写字过程,作为手写体的行草应该是更简便及更合实际的字体。而在显示及打印汉字时,我们可以按不同的需要,选用不同的字体楷书(简体或繁体)或行草,甚至篆书。但在汉字索引、排序、存储、打印及计算机识别等方面,行草肯定比楷书简单和方便。
因此,本发明的目的是提供一种简单、方便的、并符合人们书写习惯的汉字编码方法及其键盘,该方法及其键盘使得操作者很容易就能将汉字输入到计算机或类似设备中。
行草,尤其是草书给人的印象是难认。因此,要想使草书成为一种通用的字体,首先必须解决难认的问题。其实,一种字体是否难认完全是相对和比较的,取决于我们学习、使用和习惯的是那一种字体。例如,只认识简体字的人,常觉得繁体字难认。反过来,那些熟悉繁体字的人,又觉得简体字难认。不过草书难认的问题更复杂。因为它是还涉及到草书本身规范化的问题。
下面我们先分析造成草书难认的主要原因,然后提出解决问题的办法。草书有的两种写法原形草法和符号草法。原形草法在“删难省烦,损复为单”时,要求尽量保存原来的字形。符号草法则着重用符号去表示草字,而不在乎保存原来的字形。在这两种草法之间,并不存在一条泾渭分明的界线。事实上,符号草法使用的许多符号本身就是用原形草法写的。
造成草书难认的一个主要原因是滥用符号,以致许多草字简化过头,完全丧失原来的字形。这种不注意保存原来字形的作法割断了字体间的联系,使我们在辨认草字时,无法利用已有的楷书知识,而陷于孤立无援的地位。打个比喻,用原形草法写的草书好比是写意画,而用符号草法写的草书好比是抽象画,面对一幅写意画无论它的形象怎样简单,只要看一眼,就能知道它的内容。但是,要想弄清楚一幅抽象画的内容就没有那么容易了。
造成草书难认的另一主要原因是草字没有统一的、固定的字形。为了追求草书的艺术效果,古代的书法家大力提倡草书的变化写法,即同一个字在不同的地方要用不同的写法,而反对一字万同。结果,在草书里产生了大量的异体偏旁、异体部件和异体字,造成了认字的困难。举例来说,甲写了一张五个字的便条给乙。假定每个字有两个异体字,则便条可以有三十二种不同的写法。再假定十个异体字中,乙只认识九个。这样就有十六种写法的便条他不能完全认识。换句话说,乙只有一半的机会能够完全看懂便条。更大的问题是许多人不遵守或不熟悉草书的传统写法,全凭个人的想象任意乱写。结果,造成一人一书体的混乱局面,而看懂这类草书的机会更是微乎其微。
汉字可分为独体字和合体字。合体字由独体字组合而成。虽然在组成合体字时,篆书、隶书和楷书都有省形或省声的作法,但只限于笔划复杂的字。对于大多数合体字,一般都是尽量保存偏旁的原形和独立,而不任意减少或合并它们的笔划。这是一个十分重要的原则,我们称它为组合原则,它保证了汉字组拼思想的贯彻和实施。造成草书难认的又一主要原因是在写合体字时,任意减少或合并偏旁的笔划。往往使合体字变成了一个新的独体字,而需要个别记住。这种减少或合并偏旁笔划的作法,容易使人产生错觉,以为它简化了字形,应该是一个好办法。殊不知这种作法制造出许多新的独体字,根本违背了汉字的组拼思想。一些俗体字在简化字形时,就犯了这个毛病。事实上,这种作法十分片面,它只顾简化个别的汉字,而没有将汉字作为一个整体系统去考虑。打个比喻,为了日常记数,十个阿拉伯数字就够了。如果为了简化千、万、亿等大数字,而另外用一些新符号去代表它们,显然是不合理的。此外,要记住几百个独体字,虽不容易,也还可以做到,但是要记住成千的独体字,即使每个字的字形很简单,也是十分困难的事。
总起来说,草书难认的困难是人为的,是自由放任的结果。它不是草书本身固有的困难。只要我们将草书规范化,就能克服这种困难。由历史知道,在六朝时,楷书也有过一段混乱时期。一直到了唐朝,由于科举的影响和大量的刊正字体的工作,楷书才有了规范。到了宋朝由于雕版印刷事业的发展,作为印刷体的楷书才进一步定型下来。其实,规范化这个问题并不限于汉字,拉丁文的手写体也有过同样的问题。在探讨古代西方的印刷术比中国落后的原因时,一些学者认为主要由于拉丁字母长时间没有定型的原故。
本来下面提出的行草汉字键盘既能处理行草字体,也能处理纯粹草书。我们之所以在编制汉字代码表时采用行草字体,而没有采用纯粹草书,有下列四点理由 (1)有的简体字,例如,业、从、兰、华、务等没有草书的写法。只有采用行草字体,才能将简体字和繁体字兼收并容在一个汉字系统内。
(2)传统草书的字数有限。有的字,例如,凸、凹没有草书的写法。
(3)对于一些偏旁,例如,亻、彳、才、方等,采用行书的写法可以避免草书的异字同形的问题。
(4)有的汉字,例如,天、下、中、古等本身已够简单,宜用行书的写法。用草书的写法反而造成不必要的认字和记忆的麻烦。
我们按下列五个原则,将行草字体规范化 (1)传统的写法 在符合其他原则的前提下,我们尽量采用行草的传统写法。
(2)原形草法 所谓易认或难认的问题,实质上就是字体是否相似的问题。使用原形草法使草字在外形上同隶书,间接也同楷书保持相似。
(3)一字万同原则 为了取缔异体字,我们规定每一行草汉字在一种字体内(简体或繁体)只有一种固定的写法。为了保持传统的写法,以及避免产生重码。有少数的草字,例如别、利、叨、叻等采用了与众不同的偏旁。虽然这样,它们仍然只有一种固定的写法。
(4)组拼原则 像拼音文字一样,每一行草汉字都由行草字母组拼而成。不同之处是行草汉字拼形,而不是拼音。行草字母一共有32个。
(5)组合原则 对于独体字,我们尽量将它们简化。对于合体字,我们则尽量保持偏旁的一致和独立,而不任意减少或合并它们的笔划。
上述各个原则是要将行草汉字整理成为具有传统写法的、容易辨认的、由行草字母组拼的、拆字规则简单的,没有重码的拼形汉字系统。
行草字体及行草汉字键盘具有下列优点 (1)行草字体是快速写字的结果。在实用方面,它是我们日常用得最多的手写体,它的书写效率比楷书高,能够节省时间,又能合符信息时代的要求。
(2)像拼音文字一样。每一行草汉字由行草字母组拼而成。拆字规则简单易学。
(3)可按行草字母次序排列汉字。按行草字母检索汉字十分方便。
(4)兼有处理简体字及繁体字的能力。
(5)行草汉字代码表容易扩充。
(6)可以节省汉字的储存空间。
(7)用行草字体输出时,显示和打印比楷书简单。
(8)行草字体便于计算机识别。
(9)行草字体及键盘合乎手写汉字的实际。
(10)可以盲打。输入速度快。
(11)便于人机对话及通讯。
(12)可以完全避免重码。
(13)兼有处理汉字及英文系统的能力。
(14)较英文容易发现打字错误。
总起来说,社会越进步,要求处理文字的速度越快。行草字体和行草汉字键盘的实用价值并不只限于能够快速书写和输入汉字,它同时使得汉字信息处理技术的其他问题,例如,汉字的储存、打印和显示、计算机识别、情报检索、人机对话、重码问题、汉英文字的兼容、通讯等都能够在技术上用简单的方法加以解决。
下面结合附图及列表详细介绍本发明。


图1是本发明的汉字键盘; 图2是本发明的英汉混合键盘。
行草字母表
字母
读音日么贝捺隐竖私撇拾点横
键位ABCDEFGHIJK
字母
读音乙迷口雨折少叉白弓电示
键位LL(1)L(2)MM(1)M(2)M(3)N OP P(1)
字母
读音子人挑包厂土才肉角钩
键位QRSTUVWXYZ
行草字母一共有32个。在本发明人编制的行草汉字代码表中,共列出6,941个行草汉字(简体及繁体)和它们的代码。该表包括“信息交换用汉字编码字符集一基本集”(GB2312)中的6,763个汉字,还有多。实际上,行草汉字键盘能够处理的汉字远不止这个数目。我们可以按需要将行草汉字代码表扩充。
有的行草字母,例如,

等没有采用它们本来的读音,而选用了通俗的读法。
所谓键位是指行草字母在键盘上的位置。
在设计行草汉字键盘时,遵守了下列四个原则
(1)按32个行草字母的使用频率安排键位。常用的字母安排在容易操作的位置。
(2)尽量将相继出现的字母分开安置在键盘的左右部分,以便两手轮流击键。
(3)避免不顺手的击键。
(4)尽量减少隔行跳动击键。
下面参照图1、图2看本发明键盘。行草汉字键盘由32个字母键、10个数字键、2个备用键、1个空格键及若干个功能键所组成。其中,功能键包括升格键、回车键(输入键)、退格键及表格键等。它的主要部分由排列成4行的44个键组成。行的编码自下而上。第1行有10个键。
个键。从左向右,它们依次是1、2、3、4、5、6、7、8、9、0和2个备用键。空格键位于第1行的下面。功能键分别位于键盘主要部分的两侧。
在32个行草字母中,只有12个字母可以单独成字,它们是
(日)、
(么)、十(十)、一(一)、
(乙)、口(口)、
(少)、
(乂)、
(弓)、
(子)、人(人)、
(厂)。其余20个不能单独成字的字母键,在单独使用时,可以用作标点符号键。对标点符号的键位,行草键盘没有作统一的规定。为了达到汉字和英文系统兼容的目的。在设计汉字标点符号的键位时,必须顾及不同的QWERTY键盘特有的标点符号键位。基于同样的理由,行草键盘也没有对功能键作统一的规定。
行草汉字编码法
行草汉字编码法按拆字规则,将每一行草汉字拆字成为一行草字母序列,并用它作为该字的输入码。输入方法是用行草汉字键盘将字母序列中的各个字母,逐个按键输入。在输入最后一个字母后,按一次空格键,表示结束。输入码不等长。码长是码元的总位数,即击键的次数,包括空格键在内。
对行草汉字代码表的6,941个字统计的结果,最短码有2个码元。有12个行草汉字具有最短码。最长码有12个码元。有4个简体字,6个繁体字具有最长码。其余的,见下列统计表
统计表
简体字
码长23456789101112
数字121495041,2611,9381,672953322101254
繁体字
码长23456789101112
数字121414701,1791,8661,7141,006375135376
总字数6,941字平均码长6.3(简体),6.4(繁体)
实际上,在输入码长为11和12码元的少数行草汉字时,只要输入前10个码元(包括空格键)也就够了,不会产生重码。
我们可以用26个英文字母及另外6个符号L(1)、L(2)、M(1)、M(2)、M(3)及P(1)去代表32个行草字母。英文表示法并不是必要的,但对于熟悉QWERTY键盘的人,这种表示法无疑是方便的。
大多数行草汉字的拆字顺序就是平时的书写顺序,即是约定俗成的笔顺。只有少数行草汉字因避免重码而例外。
拆字规则
(1)从上到下
例,古
IL(2)

LR

MM(3)

JL(1)Q

OH

KM(3)

DH
(2)从左到右
例,法
JSKB

KVAV

KBL(1)

FP(1)

CAMF

WDQ
(3)先外后内
例田
SM(1)I

SM(1)KR

FM(1)PD

JFM(1)R

FM(1)M

HM(1)L
(4)先横后竖
例丁
KF

KE

KM(3)

KR

YG

YW
(5)先撇后捺
例,八
HD

IHD
(6)先中间再两边
例小
FJJ

FCG

JM(1)CG

KVOJJ
(7)点在左上先拆
例斗
JJI

JJKR

JXL(1)

JGP(1)A
(8)点在右上后拆
例尤
KHEJ

ICGJ

MFJ

YHUDJ

JODJ
(9)点在内后拆
例叉
UDJ

P(1)J
(10)弋和戈点不拆
例弋
KZ

KZH

FKL(2)KZH

LZSJ
重码的问题
我们用下列四种办法避免重码
(1)改变其中一字的拆字顺序。
例刀M(1)H力HM(1)
儿HE七EH
已LE已EL
(2)用不同的行草字母表示。
例太KHDJ犬KRJ
于KKF干KI
(3)用不同的写法去区别。
例 易
OHH 易
OP

IUD 末
KIJJ

KM(2)DL(1)R 费
MFFL(1)R

KYWE 连
ILE

HKGE 乱
HIL(2)E

L(2)AE 邑
OE

L(2)JJ 叭
L(2)HD

ISJOJJ 柰
IHDOJJ
(4)用不同的行草偏旁去区别。
例 另
L(2)HM(1)

JJM(1)H 叻
JJHM(1)

L(2)L(1)R 呗
JJL(1)R

LHFP(1) 旮
LHA
100个常用行草汉字代码
1.的
NTJ 2.一 一 K
3.是
AKB 4.在
KYFK
5.了
L(1)F 6.不
UFJ
7.和
TLL(2) 8.有
UKN
9.大
KR 10.这
JKM(3)E
JJME
11.主
JKV 12.中
L(2)F
13.人
R 14.上
FKK
15.为
UA 16.们
HFJFM(1)
17.地
KSM(1)FE 18.个
RF
19.用
FM(1)LF 20.工
KFK
21.时
FP(1)IJ 22.要
MFFM(2)D
FP(1)KT
23.动
JCM(1)H 24.国
SM(1)KV
HMVM(1)H
25.产
KGC 26.以
JJG
KGUKV
27.我
HKTL(1) 28.到
OSL(1)
29.他
HFM(1)FE 30.会
RJM
31.作
HFYFL 32.来
ILJJ
IPD
33.分
HTJ 34.生
YV
35.对
UDIJ 36.于
KKF
JJJKVIJ
37 学
JJJL(1)Q 38.下
KFJ
39.级
QOHD 40.义
JM(3)
JJLTL(1)
41.就
NWKBJ 42.年
YLI

TKL
43.阶
OFRFF 44.发
YHUDJ
OFKEGN
45.成
HOZH 46.部
KGCOF
47.民
LZ 48.可
KM(2)
49.出
YFK 50.能
QKG
51.方
KTH 52.进
LFFE
LVE
53.同
FM(1)M 54.行
FG
55.面
LM(1)M(3) 56.说
JCJJUE
57.种
TLL(2)F 58.过
IJE
TLHMV
OJE
59.命
RQL(1)F 60.度
JUITD
61.革
JJLW 62.而
OJJ
63.多
HTM(3) 64.子
Q
65.后
HHM 66.自
HSM(1)L
FBM(3)
67.社
JP(1)IK 68.加
M(1)HL(2)
69.小
FJJ 70.机
ISHL
ISBGKZG
71.也
M(1)FE 72.经
QUDL
QKJJV
73.力
HM(1) 74.线
QKM(2)J
75.本
KYFJ 76.电
MGAE
77.高
JKOJJ 78.量
AMV
79.长
YG 80.党
FJJL(1)UE
81.得
FOJ 82.实
JL(1)JJKR
JL(1)KJJTR
83.家
JL(1)OL(1) 84.定
JL(1)JL
85.深
JSL(1)LFJJ 86.法
JSKB
87.表
KVHG 88.着
JJKVHG
89.水
FCG 90.理
KVAV
91.化
HFEH 92.争
PAF
93.现
KVAHE 94.所
UJJJ
95.二
KK 96.起
KBLE
97.政
LJJTD 98.三
KKK
99.好
WDQ 100.十
I
在汉字信息处理技术中,汉字排序法十分重要。许多汉字信息处理系统,用汉字的序数作为内部码。已有的汉字排序法分别按部首、笔划、拼音字母及使用频率将汉字排序。行草汉字排序法,按行草字母表排定的字母顺序,像拼音字母排序法一样,用组成行草汉字的字母,将行草汉字排序,并用行草汉字的序数作为相应汉字的序数。
已有的汉字索引法分别按部首、笔划和拼音字母等去检索汉字。行草汉字索引法,按行草字母表排定的字母顺序,像拼音字母索引法一样,按组成行草汉字的字母去检索行草汉字。通过行草汉字能查出相应的汉字。
此外,本发明的行草汉字字母还可以用在许多其它领域中,如电报编码系统,或其它通讯系统中,这样只需有一本按行草字母编码的汉字代码表,人们就可利用目前现有的电报系统利用本发明汉字编码方法用中文进行交流。
以上详细地介绍了本发明具体实施过程,而在实际应用本发明时,也可有许多修改。总之,这些根据本发明构思及原理作出的种种修改,都应受到本申请所附的权利要求的保护。
权利要求
1、一种汉字编码方法,其特征是从行草汉字中,挑选一些具有代表性的笔划及基本形符作为行草汉字字母,使得每一行草汉字都由行草字母组拼而成;编码的方法是按一定的顺序规则,将行草汉字拆成一行草字母序列,并用它作为该字的代码。
2、一种如权利要求1所述的汉字编码方法,其特征是行草字母共有32个,它们是
3、一种如权利要求1或权利要求2所述的汉字编码方法,其特征是拆字的顺序是书写的顺序,即是约定俗成的笔顺。主要的拆字规则如下
1)从上到下 2)从左到右
3)先外后内 4)先横后竖
5)先撇后捺 6)先中间再两边
7)点在左上先拆 8)点在右上后拆
9)点在内后拆 10)弋和戈点不拆
4、一种如权利要求3所述的汉字编码方法,其特征是所述32个行草字母按下列顺序排列
5、一种如权利要求4所述的汉字编码方法,其特征是按所述行草字母的顺序将汉字排序。
6、一种如权利要求5所述的汉字编码方法,其特征是按所述行草字母的顺序检索汉字。
7、一种键盘,该键盘可以用来输入汉字,其特征是键盘的主要部分由多个行草字母键所组成,输入汉字时,将组成行草汉字的行草字母依次按键输入。
8、根据权利要求7所述的键盘,其特征是按行草字母的使用频率安排键位,常用的字母安排在容易操作的位置,尽量将相继出现的字母分开安置在键盘的左右部分,以便两手输流击键,避免不顺手的击键。
9、一种如权利要求7或8所述的键盘,其特征是所述多个行草字母键由下列32个行草字母键所组成
10、一种如权利要求9所述的键盘,其特征是键盘的主要部分由排列成4行的44个键所组成;行的编码自下而上;第1行有10个键,从左向右,它们依次是
第2行有11个键;从左向右,它们依次是
第3行有11个键,从左向右,它们依次是
。第4行有12个键;从左向右,它们依次是1、2、3、4、5、6、7、8、9、0和2个备用键,空格键位于第1行的下面,功能键分别位于键盘主要部分的两侧;输入方法是用该键盘将组成行草汉字的行草字母,依次按键输入,在输入最后一个字母后,按一次空格键表示结束。
全文摘要
一种汉字编码法及其所用的键盘。该方法从行草汉字中,挑选一些具有代表性的笔划及基本形符作为行草字母,使得每一行草汉字都由行草字母组拼而成。编码时,按笔顺将行草汉字拆成一行草字母序列,并用它作为该字的代码。键盘的主要部分由32个行草字母键组成,并按字母的使用频率及便于操作的方式去安排键位。该键盘可用作电子计算机、打字机等类设备的输入装置。
文档编号G06F3/023GK1042783SQ8810796
公开日1990年6月6日 申请日期1988年11月15日 优先权日1988年11月15日
发明者李大用 申请人:李大用
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1