计算机汉字数码输入方法

文档序号:6337284阅读:287来源:国知局
专利名称:计算机汉字数码输入方法
技术领域
本发明涉及汉字编码及其计算机汉字输入方法。
目前汉字编码方法很多,已经在计算机上使用的汉字编码方法有几十种,其中包括最常见的拼音码(全拼、简拼、双拼、微软拼音、万全新拼音等)、五笔字型码、智能ABC码、表形码和阴阳码等。这些编码都未能很好地同时解决汉字拆码的简易性、汉字输入的快速性和编码方法易记易学三方面的矛盾。例如拼音码,虽简单易学,但重码率高,输入速度慢。五笔字型码和表形码等虽能实现汉字的快速输入,但汉字拆码难,部件或字根难以记忆。智能ABC码是建立在拼音码的基础上的,它也存在拼音码共有的问题。阴阳码虽简单易学,重码率不高,但它采用26个英文字母键和4个标点符号键,共30个键,使用的键过多,不规范,另外还有因笔顺编码造成输入速度不快等问题。
本发明者在发明专利《汉字数码计算机输入系统》(专利号97118808.4)中提出子汉字拆分方法,并引入数码对汉字编码,因此编码方法简单、易记易学、重码率较低,可在计算机通用小键盘上实现汉字的高速度输入。但由于采用的数码最多只有20个,未充分利用26个英文字母键,重码率仍偏高。本发明采用26个数码,可有效降低重码率,并且数码排列更合理,编码方法更加易记易学。
下面对本发明进行详细说明。
本发明者在发明专利《汉字数码计算机输入系统)》(专利号97118808.4)中提出子汉字拆分方法,使汉字的拆分变得十分简单,它克服了许多编码方法中存在的汉字拆分难、部件多、难记忆等缺点。另外通过引入数码,采用汉字声码、韵码和数码以及子汉字的数码等各种码或部分码对汉字和汉字拆分后的子部编码,编码方法简单、易记易学、重码率较低。根据不同体系(二分体系、三分体系、四分体系和不拆分体系)和不同编码方法(声韵数码法、声数码法和全数码法),可用任何一种方法对所有汉字和词组进行编码。对于熟练掌握、一般掌握和完全不懂汉语拼音的人都能够在计算机通用小键盘上实现汉字的高速度输入。但由于采用的数码有限,即使在使用数码最多的拓展C型数码方法中也只有20个数码,没有充分利用26个英文字母键,因此重码率仍然偏高。本发明将数码从20个增加为26个,并与26个英文字母键对应,可有效地降低重码率。
为了使数码排列更合理和编码方法更加易记易学,选择10个汉字笔形类型竖、横、撇、点、双点、串、叉、方、撇-点和角作为10个基本数码,再引入极少数拓展笔形和少数常用部首构成26个数码,分布在26个英文字母键上。26个数码与26个英文字母、汉字笔形类型、基本笔形、拓展笔形和单码部首对应关系如表1所示
表1数码与英文字母、汉字笔形类型、基本笔形、拓展笔形和单码部首关系 说明(1)笔形叉“十”称I型叉,它由一横和一竖构成;(2)笔形串 称I型串,它由一竖穿二横构成;(3)单码部首不单指部首部分,还指汉字、子部中包括的相同部分;(4)单码部首单独编码例如作为汉字时,需按有关方法拆分和编码。
声码按双拼法或拼音首字母取码,韵码按双拼法取码。数码取法如下(1)取角顺序 按照汉字的左上角、右上角、左下角、右下角的顺序取码。
(2)取角方法a.如果一个笔形,前角已经用过,则后角不取码,或某角不存在时,此角也不取码。例如“品”的数码是DDD,“只”的数码是DS,“又”数码是AAR。
b.一笔可分角取码。例如“习”数码是LALP,“乙”的数码是LAAL。
c.一笔的上下两段和别笔构成两种笔形的,分两角取码。例如“半”的数码是HG,“大”的数码是RS。
d.下角笔形偏在一角的,按实际位置取码,缺角不取码。例如“飞”的数码是LKL,“弓”的数码是LAP。
e.凡外围由“口”、“门”等四面包围的汉字和子部,先取“口”的数码C或“门”左上角的数码J,再对去掉“口”或“门”后的剩余部分按照顺序取码,例如“困”的数码是CV,“田”的数码CF,“间”的数码是JE。
f.凡外围由“广”、“疒”、“辶”等三面包围的子部,先取其左上角数码,再对去掉其后的剩余部分顺序取码,如“庄”数码是UF,“述”数码是JVJ。
g.对多个叉、串重叠构成的字,取法与常用四角号码方法不同,例如“丰”的数码是GF,“串”的数码是TT,“曳”的数码是BB,“申”的数码是TF,“井”的数码是RR,“卅”的数码是RF,“世”的数码是RRAL。
至于取笔形和取角应注意的事项,可参照四角号码方法的有关规定,即(1)取笔形注意点a.角形尽量取复笔。例如“介”数码是SKP,“少”数码是HK。b.点下带横折的,如“官”、“户”等字,取其上方笔形“点”数码J。
(2)取角注意点a.角形有两单笔或一单笔一复笔的,不论高低,一律取最左或最右的笔形。例如“非”的数码是LLLL,“梁”的数码是YJV。
b.有两复笔可取的,在上角取较高的复笔,在下角取较低的复笔。例如“内”的数码是RPP,“军”的数码是JAT。
c.当中起笔的撇,下角有他笔的,取他笔作下角。例如“衣”数码是UAJ。但左边起笔的撇,取撇笔作角。例如“辟”的数码是AUKF。
根据汉字是否拆分和拆分最大部分数不同,本发明包括四种体系a.不拆分体系,在该体系中汉字不拆分;b.二分体系,在二分体系中汉字最多拆分成两部分,汉字分为单部字和双部字;c.三分体系,在三分体系中汉字最多拆分成三部分,汉字分为单部字、双部字和三部字;d.四分体系,在四分体系中汉字最多拆分成四部分,汉字分为单部字、双部字、三部字和四部字。
汉字拆分原则是根据汉字本身或子部中包含的子汉字对汉字进行拆分,子汉字是指汉字本身或子部中包含的由最大部分构成的汉字。汉字拆分后的部分称为子部。在各种体系中规定①交式单体字不拆分,一律为单部字;②如果子部是子汉字,则不再拆分;③“一”不是子汉字;④在N分体系中汉字最多拆分成N部分。
在不同的体系中汉字拆分方法和结果不同,具体说明如下(1)在二分体系中汉字拆分方法①如果汉字首部是子汉字,则按汉字首部和剩余部分(余部)将汉字依次拆分成第一子部和第二子部;②如果汉字首部不是子汉字,而尾部是子汉字,则按尾部和余部将汉字拆分成两部分,尾部和余部分别是第二、第一子部;③当汉字首部和尾部都不是子汉字时,如果由它们可构成新的子汉字,则按新子汉字和余部将汉字拆分成两部分,新子汉字是第一子部,余部是第二子部;如果不能由它们构成子汉字,但汉字中部包含一个或一个以上子汉字,则取子汉字或第一个子汉字作为第二子部,余部是第一子部。如果汉字按上述方法均无法拆分,则它为单部字。
(2)在三分体系中汉字拆分方法①当汉字首部和尾部都不是子汉字,且不能由它们构成新子汉字时,如果汉字中部是子汉字,则直接按首部、中部和尾部依次将汉字拆分成第一、第二、第三子部;如果中部包含两个或两个以上子汉字,则取其两个子汉字或第一、第二个子汉字依次作为第二、第三子部,余部是第一子部;②如果按(1)中方法(但不包括(2)中①情况)拆分的双部字中两个子部均是子汉字,则不再拆分;如果双部字中有一个子部不是子汉字,则按照(1)中方法对其继续拆分,如果能拆分,则拆分成三部字,否则它是双部字。
(3)在四分体系中汉字拆分方法①当汉字首部和尾部都不是子汉字,且不能由它们构成新子汉字时,如果中部包含一个或两个子汉字,则直接按首部、中部和尾部依次将汉字拆分成三个子部或四个子部;如果中部包含三个或三个以上的子汉字,则取其三个或第一、第二、第三个子汉字依次作为第二、第三、第四子部,余部是第一子部。②如果按(1)中方法(但不包括(3)中①的情况)拆分的双部字中两个子部均是子汉字,则不再拆分;如果有一个子部不是子汉字,则按(2)和(3)中方法对其继续拆分,如果能拆分,则拆分成三部字或四部子,否则它是双部字。
汉字拆分实例如表2所示
表2 汉字拆分实例
在不拆分体系和二分体系中汉字编码方法均有三种方法声韵数码法、声数码法、全数码法。在三分体系中汉字编码方法有两种方法声数码法、全数码法。在四分体系中汉字编码方法只有一种方法全数码法。
各种汉字数码及其计算机汉字输入方法叙述如下1.二分体系中声韵数码法(1)单部字 编码规则为声+韵+数01+数02,码长为3-4码。
数01+数02表示按汉字的左上角、右上角、左下角和右下角次序取最前面两个数码,如果汉字仅有一码,则只取数01码。在下文中,数01+数02+数03、数11+数12、数21+数22、数21+数22+数23等意义类似。数11和数21分别表示第一子部和第二子部的第一码,数12和数22等分别表示第一子部和第二子部的第二码,数03和数23等意义类似。
(2)双部字 编码规则为声+韵+数11+数21,码长为4码。
词组编码规则如下(1)双字词 第一字的第一、第二码+第二字的第一、第二码。
(2)三字词 第一字的第一、第二码+第二字的第一码+第三字的第一码。
(3)四字词 第一字、第二字、第三字和第四字的第一码相加。
(4)多字词 第一字、第二字、第三字和最后一字的第一码相加。
2.二分体系中声数码法(1)单部字 编码规则为声+数01+数02+数03,码长为2-4码。
(2)双部字 编码规则为{声+数11+数12+数21+数22}MAX=4,码长为3-4码。
{声+数11+数12+数21+数22}MAX=4表示按声码、数11码、数12码、数21码和数22码的顺序最多取四码,以下意义同。当第一子部由两码或者两码以上的码构成时,上述编码规则为声+数11+数12+数21,但当第一子部仅由一码或者单码部首构成时,上述编码规则为声+数11+数21+数22。
词组编码规则与二分体系中声韵数码法的词组编码规则相同。
3.二分体系中全数码法(1)单部字 编码规则为数01+数02+数03+数04,码长为1-4码。
(2)双部字 编码规则为{数11+数12+数21+数22+数23}MAX=4,码长为2-4码。
{数11+数12+数21+数22+数23}MAX=4表示按数11码、数12码、数21码、数22码和数23码次序最多取四码,以下意义同。当第一子部由两码或两码以上的码构成时,上述编码规则为数11+数12+数21+数22,当第一子部仅由一码或者单码部首构成时,上述编码规则为数11+数21+数22+数23。
词组编码规则与二分体系中声韵数码法的词组编码规则相同。
4.三分体系中声数码法(1)单部字 编码规则为声+数01+数02+数03,码长为2-4码。
(2)双部字 编码规则为{声+数11+数12+数21+数22}MAX=4,码长为3-4码。
(3)三部字 编码规则为声+数11+数21+数31,码长为4码。
词组编码规则与二分体系中声韵数码法的词组编码规则相同。
5.三分体系中全数码法(1)单部字 编码规则为数01+数02+数03+数04,码长为1-4码。
(2)双部字 编码规则为{数11+数12+数21+数22+数23}MAX=4,码长为2-4码。
(3)三部字 编码规则为{数11+数12+数21+(数22)+数31+数32}MAX=4,码长为3-4码。
{数11+数12+数21+(数22)+数31+数32}MAX=4表示按照数11码、数12码、数21码、数22码、数31码和数32码的次序最多取四码,以下意义相同。而其中(数22)表示数12码存在时,不取数22码,而当数12码不存在时,取数22码。
当第一子部由两码或两码以上的码构成时,上述编码规则为数11+数12+数21+数31,但当第一子部仅由一码或单码部首构成时,上述编码规则为数11+数21+数22+数31,但当第一子部和第二子部均由一码或单码部首构成时,上述编码规则为数11+数21+数31+数32,词组编码规则与二分体系中声韵数码法的词组编码规则相同。
6.四分体系中全数码法(1)单部字 编码规则为数01+数02+数03+数04,码长为1-4码。
(2)双部字 编码规则为{数11+数12+数21+数22+数23}MAX=4,码长为2-4码。
(3)三部字 编码规则为{数11+数12+数21+(数22)+数31+数32}MAX=4,码长为3-4码。
(4)四部字 编码规则为数11+数21+数31+数41,码长为4码。
词组编码规则与二分体系中声韵数码法的词组编码规则相同。
7.不拆分体系中声韵数码法单字编码规则为声+韵+数01+数02,码长为3-4码。
8.不拆分体系中声数码法单字编码规则为声+数01+数02+数03,码长为2-4码。
9.不拆分体系中全数码法单字编码规则为数01+数02+数03+数04,码长为1-4码。
此三种编码方法中词组编码规则与二分体系中声韵数码法词组编码规则相同。
对于不拆分体系中全数码法的汉字取角方法还有特别的规定,补充如下a.凡外围由“匚”、“几”、“戊”、“衣”、“行”等四面包围的汉字和外围由“厂”、“尸”、“气”、“户”等三面包围的汉字,首先取其最前两个码,再对去掉其后的剩余部分按顺序取码。例如“匡”的数码是ALL,“风”的数码是AAR,“戚”数码是BJPL,“衷”数码是UAT,“衍”数码是KLY,“仄”数码是ALS,“氧”数码是XLWG。b.凡具有月、阝、 、饣、火、、钅、日、口、目、艹、土、木、虫、扌、女、氵、忄、衤、礻、广、疒、辶、讠、亻、石、王和山等单码部首的汉字,先对单码部首取码,再对去掉单码部首的剩余部分顺序取码,如“队”数码是AS,“钓”数码是XKAJ,“设”数码是MAAR,注意“那”数码是ALAB。
总之,本发明的汉字编码及其计算机汉字输入方法,其特征在于a.采用计算机通用小键盘;b.采用汉字声码、韵码和26个数码中各种码或部分码对汉字单字和词组编码,再进行汉字输入,其中26个数码代号是0、1、2、3、4、5、6、7、8、9、①、②、③、④、⑤、⑥、⑦、⑧、⑨、(1)、(2)、(3)、(4)、(5)、(6)和(7),它们对应于26组不同的英文字母、汉字基本笔形、拓展笔形或部首。
在26个数码中,10个数码0-9分别对应于计算机通用小键盘上的英文字母P、A、S、D、F、G、H、J、K和L,9个数码①、②、③、④、⑤、⑥、⑦、⑧和⑨分别对应于英文字母Q、W、E、R、T、Y、U、I和O,7个数码(1)、(2)、(3)、(4)、(5)、(6)和(7)分别对应于英文字母Z、X、C、V、B、N和M。
数码与英文字母、汉字笔形类型、基本笔形、拓展笔形和单码部首的对应关系还可以选择不同于表1的关系,例如表3所示的关系等。
综上所述,本发明的汉字编码及其计算机汉字输入方法特点是采用声码、韵码和数码编码,再进行汉字输入,其中数码排列规律性强,易记易学,特别在全数码法中完全不需要记忆英文字母的位置,就可以进行汉字输入。另外既可使用子汉字拆分汉字的方法,又可以使用不对汉字拆分的方法对汉字编码。对于熟练掌握汉语拼音、一般掌握汉语拼音和完全不懂汉语拼音的人,能够选择不同的编码方法进行汉字输入,都可以做到汉字拆分容易、编码方法简单、易记易学、重码率低,可在计算机通用小键盘上实现汉字的高速度输入。
表3数码与英文字母、汉字笔形类型、基本笔形、拓展笔形和单码部首关系
下面举例对汉字数码编码方法加以说明(采用表1关系)。
权利要求
1.一种汉字编码及其计算机汉字输入方法,其特征在于A.采用计算机通用小键盘;B.采用汉字声码、韵码和数码中各种码或者部分码对汉字单字和词组编码,再进行汉字输入;C.数码共26个,其代号是0、1、2、3、4、5、6、7、8、9、①、②、③、④、⑤、⑥、⑦、⑧、⑨、(1)、(2)、(3)、(4)、(5)、(6)和(7),10个数码0-9分别与计算机通用小键盘上英文字母P、A、S、D、F、G、H、J、K和L对应,9个数码①、②、③、④、⑤、⑥、⑦、⑧和⑨分别与英文字母Q、W、E、R、T、Y、U、I和O对应,7个数码(1)、(2)、(3)、(4)、(5)、(6)和(7)分别与英文字母Z、X、C、V、B、N和M对应;D.选择26组汉字笔形和单码部首作为26个数码,具体如下a.第1组是笔形“冂”、 和单码部首“月”、 ,第2组是笔形角“乛”、 、“”、 和单码部首“阝”、 “卩”,第3组是单码部首“厶”、“幺”、“糸”和“纟”;b.第4组是笔形“丷”和单码部首“火”,第5组是笔形撇-点“八”、笔形“人”、“入”和单码部首“”,第6组是笔形“勹”、 、“”和单码部首“饣”;c.第7组是单码部首“日”、“曰”,第8组是单码部首“口”,第9组是笔形围“口”和单码部首“目”;d.第10组是II型笔形叉“×”、“ナ”、 等及单码部首“艹”和“廾”,第11组是I型笔形叉“十”和单码部首“土”、“士”,第12组是单码部首“木”;e.第13组是II型笔形串和单码部首“虫”,第14组是I型笔形串 和单码部首“扌”,第15组是III型笔形串和单码部首“女”;f.第16组是单码部首“氵”,第17组是笔形双点 以及单码部首“忄”和“小”及其变形,第18组是单码部首“衤”、“礻”;g.第19组是单码部首“亠”、“广”、“疒”,第20组是笔形点“丶”、笔形捺“”和单码部首“辶”,第21组是单码部首“讠”;h.第22组是单码部首“亻”,第23组是笔形撇“丿”、笔形“”和单码部首“钅”;i.第24组是单码部首“石”,第25组是笔形横“一”和单码部首“王”;j.第26组是笔形竖“丨”和单码部首“山”;E.声码按双拼法或拼音首字母取码,韵码按双拼法取码。
2.按照权利要求1所述的汉字编码及其计算机汉字输入方法,其特征在于a.数码代号Q、A、Z分别与第1、2、3组汉字笔形和单码部首对应;b.数码代号W、S、X分别与第4、5、6组汉字笔形和单码部首对应;c.数码代号E、D、C分别与第7、8、9组汉字笔形和单码部首对应;d.数码代号R、F、V分别与第10、11、12组汉字笔形和单码部首对应;e.数码代号T、G、B分别与第13、14、15组汉字笔形和单码部首对应;f.数码代号Y、H、N分别与第16、17、18组汉字笔形和单码部首对应;g.数码代号U、J、M分别与第19、20、21组汉字笔形和单码部首对应;h.数码代号I、K分别与第22、23组汉字笔形和单码部首对应;i.数码代号O、L分别与第24、25组汉字笔形和单码部首对应;j.数码代号P与第26组汉字笔形和单码部首对应。
3.按照权利要求1所述的汉字编码及其计算机汉字输入方法,其特征在于a.数码代号Q、A、Z分别与第1、2、3组汉字笔形和单码部首对应;b.数码代号W、S、X分别与第7、8、9组汉字笔形和单码部首对应;c.数码代号E、D、C分别与第22、23、6组汉字笔形和单码部首对应;d.数码代号R、F、V分别与第12、11、10组汉字笔形和单码部首对应;e.数码代号T、G、B分别与第13、14、15组汉字笔形和单码部首对应;f.数码代号Y、H、N分别与第16、17、18组汉字笔形和单码部首对应;g.数码代号U、J、M分别与第19、20、21组汉字笔形和单码部首对应;h.数码代号I、K分别与第4、5组汉字笔形和单码部首对应;i.数码代号O、L分别与第24、25组汉字笔形和单码部首对应;j.数码代号P与第26组汉字笔形和单码部首对应。
4.按权利要求2或3所述的汉字编码及其计算机汉字输入方法,其特征在于在二分体系中声韵数码法的汉字编码及其计算机输入方法如下(1)单部字 编码规则为声+韵+数01+数02;(2)双部字 编码规则为声+韵+数11+数21;词组编码规则如下(1)双字词 第一字的第一、第二码+第二字的第一、第二码;(2)三字词 第一字的第一、第二码+第二字的第一码+第三字的第一码;(3)四字词 第一字、第二字、第三字和第四字的第一码相加;(4)多字词 第一字、第二字、第三字和最后一字的第一码相加。
5.按权利要求2或3所述的汉字编码及其计算机汉字输入方法,其特征在于在二分体系中声数码法的汉字编码及其计算机输入方法如下(1)单部字 编码规则为声+数01+数02+数03;(2)双部字 编码规则为声+数11+数12+数21,但当第一子部仅由一码或单码部首构成时,编码规则为声+数11+数21+数22;词组编码规则与权利要求4的声韵数码法中词组编码规则相同。
6.按权利要求2或3所述的汉字编码及其计算机汉字输入方法,其特征在于在二分体系中全数码法的汉字编码及其计算机输入方法如下(1)单部字 编码规则为数01+数02+数03+数04;(2)双部字 编码规则为数11+数12+数21+数22,但当第一子部仅由一码或单码部首构成时,编码规则为数11+数21+数22+数23;词组编码规则与权利要求4的声韵数码法中词组编码规则相同。
7.按权利要求2或3所述的汉字编码及其计算机汉字输入方法,其特征在于在三分体系中声数码法的汉字编码及其计算机输入方法如下(1)单部字 编码规则为声+数01+数02+数03;(2)双部字 编码规则为声+数11+数12+数21,但当第一子部仅由一码或单码部首构成时,编码规则为声+数11+数21+数22;(3)三部字 编码规则为声+数11+数21+数31;词组编码规则与权利要求4的声韵数码法中词组编码规则相同。
8.按权利要求2或3所述的汉字编码及其计算机汉字输入方法,其特征在于在三分体系中全数码法的汉字编码及其计算机输入方法如下(1)单部字 编码规则为数01+数02+数03+数04;(2)双部字 编码规则为数11+数12+数21+数22,但当第一子部仅由一码或单码部首构成时,编码规则为数11+数21+数22+数23;(3)三部字 编码规则为数11+数12+数21+数31,但当第一子部仅由一码或单码部首构成时,编码规则为数11+数21+数22+数31,当第一子部和第二子部都由一码或单码部首构成时,编码规则为数11+数21+数31+数32;词组编码规则与权利要求4的声韵数码法中词组编码规则相同。
9.按权利要求2或3所述的汉字编码及其计算机汉字输入方法,其特征在于在四分体系中全数码法的汉字编码及其计算机输入方法如下(1)单部字 编码规则为数01+数02+数03+数04;(2)双部字 编码规则为数11+数12+数21+数22,但当第一子部仅由一码或单码部首构成时,编码规则为数11+数21+数22+数23;(3)三部字 编码规则为数11+数12+数21+数31,但当第一子部仅由一码或单码部首构成时,编码规则为数11+数21+数22+数31,当第一子部和第二子部都由一码或单码部首构成时,编码规则为数11+数21+数31+数32;(4)四部字 编码规则为数11+数21+数31+数41;词组编码规则与权利要求4的声韵数码法中词组编码规则相同。
10.按权利要求2或3所述的汉字编码及其计算机汉字输入方法,其特征在于在汉字不拆分体系中声韵数码法的单字编码规则为声+韵+数01+数02;声数码法的单字编码规则为声+数01+数02+数03;全数码法的单字编码规则为数01+数02+数03+数04;在此三种编码方法中词组编码规则与权利要求4的声韵数码法中词组编码规则相同。
全文摘要
一种汉字编码及其计算机汉字输入方法,它的特点是以10个汉字笔形类型竖、横、撇、点、双点、串、叉、方、撇-点和角为10个基本数码,再引入极少数拓展笔形和少数常用部首,构成26个数码,分布在26个英文字母键上。采用汉字声码、韵码和数码对汉字编码,或用子汉字拆分方法拆分汉字后,采用汉字声码、韵码、数码和子汉字的数码对汉字编码,使汉字拆分容易,编码简单,易记易学,重码率低,能在计算机上实现汉字的高速度输入。
文档编号G06F3/023GK1372183SQ0110357
公开日2002年10月2日 申请日期2001年2月28日 优先权日2001年2月28日
发明者邱行中, 黎涤萍, 邱新萍 申请人:邱新萍
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1