元根码汉字输入方法

文档序号:6565771阅读:489来源:国知局
专利名称:元根码汉字输入方法
技术领域
本发明涉及一种新的、利用规范的汉字部件进行编码的元根码汉字输入方法,属于形码汉字输入方法的范畴。
在过去的二十多年里,我国汉字输入技术虽然有了长足进步,但还有些根本性的问题亟待解决,其中最主要的是以下两大难题1.将“规范、易学、高效、兼容”集于一种输入方法20世纪八十年代以来,我国出现了万“码”奔腾的局面,涌现出众多的汉字输入方法,其中与汉字文化相联系的形码输入方法主要有两种五笔字型和郑码。五笔字型虽然比较容易学习,并且拥有很多用户,却存在着不规范问题,即它在拆分和笔顺方面与国家语言文字规范之间存在尖锐矛盾,因而受到学术界和教育界的批评和排斥;郑码虽然规范性比较好,但不易学习掌握,故难以推广。针对这一问题,人们也曾推出新的形码方案(如“98王码”),但由于在易学、效率、兼容等方面存在诸多问题,很少有人问津。所以,汉字输入方法进入中小学课堂的问题一直没能解决,这表明汉字键盘文化尚未建立。对我们中华民族的文化事业,这不能不说是一个十分严峻的问题。
建立民族键盘文化,关系到汉字的现代化,也是一百多年来中国人梦寐以求的事。计算机的出现为实现这一梦想提供了可能,而二十多年的实践证明,要真正在我国建立起汉字键盘文化,关键是要根据汉字的构字理论和认知规律,按照信息化原则开发出一种集“规范、易学、高效、兼容”于一身的形码汉字输入方法。这是汉字编码领域中第一个亟待解决的重大课题。
2.特殊字符快速盲打所谓特殊字符,是指国标第一区至国标第九区中常用的数学符号、单位符号、数字序号、拉丁字母、日文假名、汉语拼音的四声韵母等。在汉字输入中,这些特殊字符经常遇到。例如,在文稿中遇到下列文字今天的气温是12℃①R1≈100Ω,R2≠1KΩ,R3≥1KΩ∵ΔABC∽ΔDEF∴∠α=∠β就涉及到℃①≈≠≥Ω∵∴Δ∽∠αβ等特殊字符,它们跟汉字一样,都是键盘上没有的图形符号,但它们又与汉字不同,不能像汉字那样直接根据其形或音进行编码输入。特殊字符可以用区位码输入,但区位码是一种死记硬背的序号码,很难学习和使用。为了方便特殊符号的输入,人们曾挖空心思地想了不少办法,例如Windows提供的“软键盘”功能和Word提供的“插入特殊符号”功能,都为输入它们提供了方便。但这些办法终究都是通过查表的方法来实现输入的,没有从快速盲打这一根本角度上解决问题,所以,特殊字符的输入,一直是十分麻烦和费时的事,它是进一步提高汉字输入速度的瓶颈。要实现特殊字符的快速盲打,就要为它们提供一种特殊编码,这种特殊编码必须是不用死记、人们很容易接受和掌握的。在过去的二十多年里,多少人试图建立特殊字符的这种编码,但都未能成功。所以,特殊字符的快速盲打是汉字输入技术中的一个一直未能解决、而又亟待解决的历史难题。
本发明正是基于建立汉字键盘文化的宗旨,为解决汉字编码领域的这两大难题,提出了一种称为元根码的汉字输入方法。
本发明的目的是通过以下方式实现的本发明采用标准键盘,将26个英文字母全部用来进行编码,其特征是本发明将26个编码键划分成六个区,分别称为1区、2区、3区、4区、5区和0区,前五个区每区包括五个键,每区的五个键分别命以键位号1、2、3、4、5,0区是元根码的编码“特区”,只有一个键,键位号为0,一个编码键的区号和位号的连写便是该键的区位号,区位号与编码键的对应关系是1区11-G、12-F、13-D、14-S、15-A2区21-H、22-J、23-K、24-L、25-M3区31-T、32-R、33-E、34-W、35-Q4区41-Y、42-U、43-I、44-O、45-P5区51-N、52-B、53-V、54-C、55-X0区00-Z;本发明将汉字部件分为字根和字元,字根是具有编码信息特征的部件,其特点是构字能力强,使用频度高,是汉字编码的基本单位,其余的部件称为字元,它不作为汉字编码的基本单位;标准键盘的26个键对应着本发明的全部字根,其对应关系是
G王、一、、戋、五;F土、二、十、寸、雨、 干、未、士、 D大、三、厂、石、戊、羊、 古、犬、丆、ナ、镸;S木、丁、西、 A工、匚、七、戈、犭、艹、弋、 廿、 廾、 H目、丨、上、止、 、卜、、 饣;J日、 刂、 曰、 早、虫、 K口、川、卅、 L田、甲、囗、四、 皿、力、车;M山、冂、由、贝、曲、 几;T禾、丿、、 、毛、攵、夂、 彳;R白、 手、 扌、丘、斤、 E月、彡、乃、用、 豸、豕、 W人、八、亻、癶、 Q金、钅、勹、夕、 儿、 乂;Y言、丶、讠、文、方、广、 亠 U立、冫、 丷、、丬、辛、疒、六、门;I水、氵、氺、 小、 、 O火、灬、米、 兆、革、业、 P之、冖、辶、礻、衤、宀、廴;N已、乙、、 己、巳、尸、 羽、 心、忄、;B子、ㄍ、 了、凵、卩、阝、孑、也、皮、耳;V女、巛、 九、飞、刀、 彐、、臼;C又、厶、マ、 巴、马、牛;X幺、纟、 母、 毋、 艮、 弓、匕;Z○、、舟、酉、夫、 每个字母所对应的第一个字根是该字母键的中文键名,0区的Z键不仅用来对应字根,而且还对应着本发明的扩展码,称为扩展键,扩展键的中文键名是特殊字符“○”;
每个字根所对应的编码键的区位号称为该字根的字根码,扩展键的区位号也称扩展码,单字中某一个笔画所对应的单笔字根的字根码叫做该笔画的笔画码;在汉字的结构分类上,本发明将汉字分为独体字与合体字,独体字包括单根字(成字字根)和单体字(成字字元),合体字是部件之间以离散的关系组成的汉字,合体字包括左右结构、上下结构、半包围结构和全包围结构四种结构类型;为了汉字编码,需要将汉字中的字元变通为几个字根,按某种规则将字元变通为字根的过程,叫做汉字拆分;本发明是采用以下方法对字元进行拆分a.若字元的首笔与次笔可构成一个字根,其余部分也是一个字根,且这两个字根连而不交,则将它的前两笔拆为第一字根,剩余的部分作为第二字根;b.若字元不具备上述特点,但其首笔与其它笔画连而不交,且去掉首笔后剩余的部分是一个字根,则将它的首笔画拆为第一字根,剩余部分作为第二字根;c.若字元不具备上述两个特点,则依据笔画的书写顺序,以每次取一个尽可能大的字根(即笔画尽可能多的字根)为原则进行拆分;本发明在编码规则上,针对键名字、单根字、复根字和词语设定了不同的规则a.键名的编码规则将键名的字根码重复取四次;b.单根字的编码规则(键名除外)(1)笔画在三笔以上的单根字,其编码是字根码+首笔笔画码+次笔笔画码+末笔笔画码(2)笔画为两笔的单根字,其编码是字根码+首笔笔画码+末笔笔画码(3)以下五种单笔画要在字根码和笔画码之后加一个L,即为一11 11 24/GGL丨21 21 24/HHL
丿31 31 24/TTL丶41 41 24/YYL乙51 51 24/NNLc.复根字的编码规则本发明将汉字的笔画分为六种横、竖、撇、点、弯、拐,前四种笔画分别命以笔画代号1、2、3、4,弯和拐的笔画代号均为5,同时将复根字分为三种字型左右型、上下型、杂合型,分别命以字型代号1、2、3,由复根字的末根的末笔笔画代号与其字型代号组成的两位数字称为识别码,对复根字采取以下编码规则(1)双根字的编码规则是第一字根码+第二字根码+识别码(2)三根字的编码规则是第一字根码+第二字根码+第三字根码+识别码(3)多根字的编码规则是第一字根码+第二字根码+第三字根码+末根码;d.词语的编码规则(1)双字词的输入码是由其每个字的前两个码组成(2)三字词的输入码是前两个字各取第一码,最后一个字取其前两个码组成(3)多字词的输入码是由第一、第二、第三及最末一个字的第一字根码组成;本发明对于含特殊字符的词设定了编码,含特殊字符的词指含“○”的公元年号、含“·”的外国人名及含西文字母(看作特殊字符)的词汇,其编码规则是将其特殊字符一律当作扩展键上的键名字来对待,按词语的编码规则进行编码;本发明对于国标第1区至国标第9区的图形符号(特殊字符)设定了编码,在编码规则上,针对表义字符、希腊字母、四声韵母和日文假名设定了不同的规则a.表义字符的编码规则本发明将表义字符的称谓前加“○”构成的词语,称为该字符的“相当词语”,表义字符的编码规则是对其相当词语按含特殊字符的词语的编码规则进行编码;b.希腊字母的编码规则(1)小写希腊字母的编码是扩展码+读音的第1个拼音字母+扩展码(2)大写希腊字母的编码是扩展码+读音的第1个拼音字母+扩展码+扩展码c.四声韵母的编码规则本发明将汉字的四种声调(阴平、阳平、上声、去声)分别命以声调代号“一”、“二”、“三”、“四”,四声韵母的编码规则是扩展码+<韵母>+声调代号的字根码d.日文假名的编码规则本发明将日文假名的5个元音分别命以元音符a、i、u、e、o,将假名各行分别命以行符a、k、g、s、z、t、d、n、h、b、p、m、y、l、w,日文假名的编码规则是(1)平假名的编码规则扩展码+行符+元音符(2)片假名的编码规则扩展码+行符+元音符+扩展码本发明为单字设定了一级简码、二级简码和三级简码,一级简码由一个字根码组成,二级简码由其全码的前两个码组成,三级简码由其全码的前三个码组成;本发明在设定简码时遵循以下方法a.一级简码由使用频度最高的26个一级高频字享受;b.二级简码和三级简码优先常用字,即在前两码或前三码相同的字中,选择使用频度高的字享受二级简码或三级简码;c.在使用频度相同的情况下,二级简码优先双根字,三级简码优先三根字;
d.一个字如果享受了一级简码就不再享受二级简码或三级简码,享受了二级简码就不再享受三级简码;本发明通过扩展码Z的参与编码,构成了一整套的扩展简码,扩展简码分为一级扩展简码、二级扩展简码和三级扩展简码,其编码规则是a.一级扩展简码由二级高频字和三级高频字来享受,每一级包含26个字,二级高频字主要是一些常用双根字,其一级扩展简码由它的首根码和一个扩展码组成;三级高频字主要是一些常用三根字,其一级扩展简码由它的首根码和2个扩展码组成;b.二级扩展简码二级扩展简码是由无简码的常用双根字的字根码再加两个扩展码组成;c.三级扩展简码三级扩展简码是由无简码的常用三根字的三个字根码再加一个扩展码组成;在重码序的处理上,本发明采取以下原则a.将使用频度高的字或词放在第一位置b.重码字中有简码的字将第一位置让位给没有简码的常用字c.常用字与词语重码时,常用字放第一位置d.不常用字与词语重码时,词语放第一位置;本发明为单字和词语设定了混编容错码,混编容错码由部分本发明的字根码和部分五笔字型的字根码组成;在本发明中26个英文字母全部用来进行编码,而用“/”键作为查询键。
本发明解决了汉字编码领域亟待解决的两大难题一是将“规范、易学、高效、兼容”集于了一种输入方法,解决了建立汉字键盘文化的关键问题;二是提出了扩展编码的思想,解决了特殊字符快速盲打这一历史难题。其主要特点是1.规范易学与五笔相比,本发明在字根的规范性上主要体现在以下三点(1)没有不规范的字根像“ 、、 、 ”这样一些五笔中的不规范字根,本发明中均没有。
(2)拥有完整的规范性字根 像下面的50个组字部件,都是一些基本的、具有很强的信息特征的汉字部件,在本发明中都被选为字根,在五笔字型中均不是字根未 戊羊 犭 饣 曲 毛 丘 豸兆业 革礻衤 皮 飞 牛母 毋艮 舟酉 夫(3)本发明的字根分布在26个英文字母键上,而不是五笔字型的25个键上。
本发明的字根与汉字构字部件相一致,不存在汉字拆分过碎等不规范问题,直观易学,符合中小学语文教学规律,宜纳入中小学基础教育。从下面的例字拆分对比可见一斑汉字 本发明拆分结果 五笔字型拆分结果狠 犭艮丿彐 祥 礻羊丶丷 褴 衤 皿 丶皿酶 酉母 一 一 敝攵 丷冂小攵茂 艹戊 艹厂 丶丿甫、一 丨丶靠 宀 八 一八 酷酉 口 一丿土口典八 八舞夕 一夕匚丨段几又亻三几又假 亻 又 亻丨二又牦 牜毛 丿扌 二乚饶 饣 一儿勹 七丿一儿岛山 勹、 山躇艹 日口止艹土丿日鹿 匕 广一 匕2.低重码、高效率本发明由于字根的选择定位符合信息化原则,使得重码率明显低于五笔字型。下面的几个编码实例可说明这一问题所输字词 输入码 出现字词 五笔输入码 出现字词饱hqnn饱qnqn 饱 饥饿 饭馆 馄饨狡猾 auam狡猾 qtqt 狡猾 狼狈 猖狂 猖獗选择 eqrc选择 tfrc 选择 造反跟踪 zxzp跟踪 khkh 跟踪 踊跃 跳跃 蹂躏 践踏 蹊跷教师 zbjg教师 ftjg 才是 都是 老师 教师舰艇 zmzt舰艇 tete 舰艇 航船 船舶甲醛 lhza甲醛 lhsg 甲醛 甲酚 甲醇 甲酸下面的几个统计实例可说明这一点(1)将“P”键上的字根“ ”用“衤礻”替代后,在相关的260个字词中,重码数由44降为24;(2)去掉“Q”键上的字根“ ”,并在“A”键上增加字根“犭”,在相关的162个字词中,重码数由36降为15;(3)在“F”键上增加字根“ ”,在相关的75个字词中,重码数由原来的15降为3;(4)在“E”键上增加字根“ ”,在相关的152个字词中,重码数由原来的42降为4。
本发明的低重码率特点,适合配置大容量词库及对汉字大字符集编码,它提供4万余条词语编码,实现了“以词为取码对象的汉字输入”原则,平均每输入一个汉字只需敲1.8键。例如输入下面一段文字在计算机应用领域,文字处理涉及的用户最广。磁盘是信息时代的文字载体,而键盘则是现代化的书写工具。电脑打字已成为当今大多数人的主要“书写”方式。这段文字共64个汉字,由以下29个词组成
在/计算机/应用/领域/文字处理/涉及/的/用户/最广/磁盘/是/信息时代/的/文字载体/而/键盘/则是/现代化/的/书写/工具/电脑打字/已成为/当今/大多数人/的/主要/书写/方式在这29个词中,单字词只有7个,并且几乎都是一级高频字,均可用一级简码输入,所以输入这段文字(不包括标点输入)总共只需敲104键,平均每个字敲1.625个键。若将这段文字翻译成英文则为In the application of computer,word-processing is most widely used.Disk is the riting carrier of IT time,while key board is the writing tool.computer type-writing has become the normal writing way of most people.
要完成这段英文输入,总共需敲215个键,去掉5个标点,光文字部分需敲210个键,击键总数比用本发明输入的104个键多一倍多。
3.人人可对特殊字符快速盲打本发明不仅提供了特殊字符的标准编码,还提供了特殊字符的拼音编码,也就是为各类用户提供了特殊字符的快速盲打功能,用户即使不会本发明的输入法,只要会拼音,也可以利用本发明提供的简单编码规则,快速地输入特殊字符。
附图

图1为本发明的字根键位示意图;图2为本发明的汉字拆分流程图;图3为本发明的一级扩展简码的一级高频字键位示意图;图4为本发明的一级扩展简码的二级高频字键位示意图;图5为本发明的一级扩展简码的三级高频字键位示意图。
权利要求
1.一种元根码汉字输入方法,采用标准键盘,将26个英文字母全部用来进行编码,其特征是将26个编码键划分成六个区,分别称为1区、2区、3区、4区、5区和0区,前五个区每区包括五个键,每区的五个键分别命以键位号1、2、3、4、5,0区只有一个键,键位号为0,一个编码键的区号和位号的连写便是该键的区位号,区位号与编码键的对应关系是1区11-G、12-F、13-D、14-S、15-A2区21-H、22-J、23-K、24-L、25-M3区31-T、32-R、33-E、34-W、35-Q4区41-Y、42-U、43-I、44-O、45-P5区51-N、52-B、53-V、54-C、55-X0区00-Z;本发明将汉字部件分为字根和字元,字根是具有编码信息特征的部件,是汉字编码的基本单位,其余的部件称为字元,它不作为汉字编码的基本单位;标准键盘的26个键对应着本发明的全部字根,其对应关系是G王、一、、戋、五;F土、二、十、寸、雨、 、干、未、士、 D大、三、厂、石、戊、羊、 古、犬、丆、ナ、镸;S木、丁、西、 A工、匚、七、戈、犭、艹、弋、 廿、 廾、 H目、丨、上、止、 、卜、、 饣;J日、 刂、 曰、 早、虫、 K口、川、卅、 L田、甲、囗、四、 皿、力、车;M山、冂、由、贝、曲、 几;T禾、丿、、 、毛、攵、夂、 彳;R白、 手、 扌、丘、斤、 E月、彡、乃、用、 豸、豕、 W人、八、亻、癶、 Q金、钅、勹、夕、 儿、 乂;Y言、丶、讠、文、方、广、亠、 U立、冫、 丷、、丬、辛、疒、六、门;I水、氵、氺、 小、 、 O火、灬、米、 兆、革、业、 P之、冖、辶、礻、衤、宀、廴;N已、乙、、 己、巳、尸、 羽、 心、忄、;B子、ㄍ、 了、凵、卩、阝、孑、也、皮、耳;V女、巛、 九、飞、刀、 彐、、臼;C又、厶、マ、 巴、马、牛;X;幺、纟、 母、 毋、 艮、 弓、匕;Z、舟、酉、夫、 每个字母所对应的第一个字根是该字母键的中文键名,0区的Z键不仅用来对应字根,而且还对应着本发明的扩展码,称为扩展键,扩展键的中文键名是特殊字符“○”本发明是采用以下方法对字元进行拆分a.若字元的首笔与次笔可构成一个字根,其余部分也是一个字根,且这两个字根连而不交,则将它的前两笔拆为第一字根,剩余的部分作为第二字根;b.若字元不具备上述特点,但其首笔与其它笔画连而不交,且去掉首笔后剩余的部分是一个字根,则将它的首笔画拆为第一字根,剩余部分作为第二字根;c.若字元不具备上述两个特点,则依据笔画的书写顺序,以每次取一个尽可能大的字根(即笔画尽可能多的字根)为原则进行拆分;本发明在编码规则上,针对键名字、单根字、复根字和词语设定了不同的规则a.键名的编码规则将键名的字根码重复取四次;b.单根字的编码规则(键名除外)(1)笔画在三笔以上的单根字,其编码是字根码+首笔笔画码+次笔笔画码+末笔笔画码(2)笔画为两笔的单根字,其编码是字根码+首笔笔画码+末笔笔画码(3)以下五种单笔画要在字根码和笔画码之后加一个L,即为一11 11 24/GGL丨21 21 24/HHL丿31 31 24/TTL丶41 41 24/YYL乙51 51 24/NNLc.复根字的编码规则本发明将汉字的笔画分为六种横、竖、撇、点、弯、拐,前四种笔画分别命以笔画代号1、2、3、4,弯和拐的笔画代号均为5,同时将复根字分为三种字型左右型、上下型、杂合型,分别命以字型代号1、2、3,由复根字的末根的末笔笔画代号与其字型代号组成的两位数字称为识别码,对复根字采取以下编码规则(1)双根字的编码规则是第一字根码+第二字根码+识别码(2)三根字的编码规则是第一字根码+第二字根码+第三字根码+识别码(3)多根字的编码规则是第一字根码+第二字根码+第三字根码+末根码;d.词语的编码规则(4)双字词的输入码是由其每个字的前两个码组成(5)三字词的输入码是前两个字各取第一码,最后一个字取其前两个码组成(6)多字词的输入码是由第一、第二、第三及最末一个字的第一字根码组成;本发明对于含特殊字符的词设定了编码,含特殊字符的词指含“○”的公元年号、含“·”的外国人名及含西文字母(看作特殊字符)的词汇,其编码规则是将其特殊字符一律当作扩展键上的键名字来对待,按词语的编码规则进行编码;本发明对于国标第1区至国标第9区的图形符号(特殊字符)设定了编码,在编码规则上,针对表义字符、希腊字母、四声韵母和日文假名设定了不同的规则a.表义字符的编码规则本发明将表义字符的称谓前加“○”构成的词语,称为该字符的“相当词语”,表义字符的编码规则是对其相当词语按含特殊字符的词语的编码规则进行编码;b.希腊字母的编码规则(1)小写希腊字母的编码是扩展码+读音的第1个拼音字母+扩展码(2)大写希腊字母的编码是扩展码+读音的第1个拼音字母+扩展码+扩展码c.四声韵母的编码规则本发明将汉字的四种声调(阴平、阳平、上声、去声)分别命以声调代号“一”、“二”、“三”、“四”,四声韵母的编码规则是扩展码+<韵母>+声调代号的字根码d.日文假名的编码规则本发明将日文假名的5个元音分别命以元音符a、i、u、e、o,将假名各行分别命以行符a、k、g、s、z、t、d、n、h、b、p、m、y、l、w,日文假名的编码规则是(1)平假名的编码规则扩展码+行符+元音符(2)片假名的编码规则扩展码+行符+元音符+扩展码。
2.根据权利要求1所述的汉字输入方法,其特征是为单字设定了一级简码、二级简码和三级简码,一级简码由一个字根码组成,二级简码由其全码的前两个码组成,三级简码由其全码的前三个码组成,在设定简码时遵循以下方法a.一级简码由使用频度最高的一级高频字享受;b.二级和三级简码优先常用字,即在前两码或前三码相同的字中,选择使用频度高的字享受二级简码或三级简码;c.在使用频度相同的情况下,二级简码优先双根字,三级简码优先三根字;d.一个字如果享受了一级简码就不再享受二级简码或三级简码。
3.根据权利要求1所述的汉字输入方法,其特征是通过扩展码Z的参与编码,构成了一整套的扩展简码,扩展简码分为一级扩展简码、二级扩展简码和三级扩展简码,其编码规则是a.一级扩展简码由二级高频字和三级高频字来享受,每一级包含26个字,二级高频字主要是一些常用双根字,其一级扩展简码由它的首根码和一个扩展码组成;三级高频字主要是一些常用三根字,其一级扩展简码由它的首根码和2个扩展码组成;b.二级扩展简码二级扩展简码是由无简码的常用双根字的字根码再加两个扩展码组成;c.三级扩展简码三级扩展简码是由无简码的常用三根字的三个字根码再加一个扩展码组成。
4.根据权利要求1所述的汉字输入方法,其特征是在重码序的处理上,采取以下方法a.将使用频度高的字或词放在第一位置b.重码字中有简码的字将第一位置让位给没有简码的常用字c.常用字与词语重码时,常用字放第一位置d.不常用字与词语重码时,词语放第一位置。
5.根据权利要求1所述的汉字输入方法,其特征是用“/”键作为查询键。
全文摘要
本发明涉及一种元根码汉字输入方法,它采用标准键盘,将26个英文字母全部用来进行编码,而用“/”作为查询键;本发明依据国家语言文字规范选定238个具有信息化特征的组字部件作为字根,按照谐调性和规律性原则定位在26个英文字母键盘上,构成中文键盘的“字母”体系,成功地解决了建立汉字键盘文化的关键问题;本发明创立了编码特区,提出了扩展编码的新思想,圆满地解决了特殊字符快速盲打的历史难题;本发明的基本特点是:规范、易学、高效、兼容,人人都可以用它对特殊字符快速盲打。
文档编号G06F3/023GK1381778SQ01132758
公开日2002年11月27日 申请日期2001年9月6日 优先权日2001年9月6日
发明者刘春荣 申请人:刘春荣
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1