优选码输入系统的制作方法

文档序号:6331763阅读:148来源:国知局
专利名称:优选码输入系统的制作方法
技术领域
本发明涉及汉字编码输入系统。
方块汉字的输入编码,是将汉字进行分解,再逐级选取其中信息作为编码元素,而每个汉字所含信息量是巨大的,所以,汉字编码方案有很多种。现今社会上编码现状是易学难用,易用难学。究其原因,在于拆解汉字编码过份集中在汉字的某方面信息上。编码发明者为了减少码长和重码率,人为地设计或固化某些不明确或非通用难记忆的规则。俗话说江山易改,本性难移,因规则非通用性而大大影响编码的易学性和实用性。其实,因汉字信息量大,只有突破传统方法,精选几方面的信息又有针对性地辅选某方面信息进行拆解组合编码。在充分利用键盘键容量基础上,辅以少量人为调整组合拆分编码。就能达到易学易用快速输入目的。
本发明目的在于设计一种极其简单的编码方法,使其码长很短而重码率不致过高,并且能够兼顾专业输入,能够充分发挥现有的各种编码快速输入手段。
本发明核心在于采用汉字公认明确、广泛通用的信息作为编码基础,以汉字自身特征为背景,有针对性地对这些信息进行多维分解组合编码,在充分利用键盘键位容量的基础上,进行适当调整,形成易学易用的编码方案。
俗话说结字分成纟、吉两部字部,吉分成土、口两个字源,土的笔画为横、竖、横,口的笔画为竖、折、横。构字分成木、勾两部字部,勾分成勹、厶两个字源,木的笔画为横、竖、撇、点,勹的笔画为撇、折,厶的笔画为折、点。由此可见笔画构成字源,字源构成字部,字部构成单字。
汉字拆解编码过程如下单字一→字部一→字源一→笔画。笔画采用最传统的简易分法将汉字笔画分成横、竖、撇、点(捺笔归入点)、折(有勾笔画均认为折笔)五大类。这5种笔画再两两组合成25种笔画对。字源是从一个具体的汉字中拆分出来的,由若干笔画复合连接交叉所形成的相对不变的紧密结构。字源是一个不能满足再拆分条件的最基本构字单位。字部由若干字源按一定的位置摆放而成。单字由若干字部按一定的位置摆放而成。我们把笔画称为汉字的基本元素,把字源定义为构成汉字的基本单位。字源不再拆分为更小的构件单元,只可拆分为笔画。
构成汉字的基本单位字源的定义规则。我们从单笔画字源开始定义竖、撇、点散单笔画不能肢解作一单笔画字源,只把它们看作字源中的一个笔画元素。横、折散单笔画如同其它笔画相连,或同其它笔画之间无非常明显间距者则一律不拆,只把它们看作字源中的一个笔画元素。横、折散单笔画如同其它笔画之间有非常明显间距者又有特殊意义,才可肢解作一单笔画字源。连续写成的若干同名笔画复合构件的单笔画不能肢解作任一单笔画字源,我们认为这些笔画均隶属于同一字源。
多笔画字源的定义规则。结构相当紧密的汉字构件单元中的笔画均相连或相交,并且无分离单元;交笔不能分别拆分于不同的字源中;笔画纠缠不清者不拆分。有明显界限的构件必需拆分为不同的字源。从界限模糊可拆可不拆的构件中拆分出来的两个或多个非单笔画小单元,(拆分时须保留笔画的原样,不能把笔画作任何变动)。如果这些小单元有笔画数在三画以上者,或拆分出来的这些小单元中有少笔画汉字者,则把该构件单元看为可拆分的字部而不是字源。如果拆分出来的这些小单元笔画数在三画以内且都不是少笔画汉字者,则把该构件单元定义为字源。作为判断标准的汉字,均以国标汉字为标准。如王不可拆分为一、土,也不可拆分为干、一,违反了连单笔画不拆规定。止不可拆分为 违反了非字不拆规定;也不可拆分为卜(卜是汉字)、 违反了笔样不变规定。风可拆分为 、ㄨ(几是汉字)。矢可拆分为、大(大是汉字)不可拆分为丿、天,违反了散单笔画不拆规定。失不可拆分为丿、夫,违反了连单笔画不拆规定也不可拆分为、大,违反了交笔不拆规定。发可拆分为 又(又是汉字)。而可拆分为丆、 虽不是少笔画汉字,但笔画数在三画以上)。禾不可拆分为丿、木,违反了连单笔画不拆规定;也不可拆分为千、八,违反纠缠不清者不拆分规定。
各字源之间没有什么关联,各部分相对独立,不能有交的关系。
有了明确的字源定义规则。我们就能准确判断一个汉字构件单位是由一个单独体字源构成,或是由多个字源复合而成。我们就能准确筛选出有意义的三个字源进行编码。
字部是从一个具体的汉字拆分出来的,由若干字源按一定的位置摆放而成的构件单位。字部可由一个或多个字源构成。字部中可嵌套有字部。从汉字中拆分出来的构件单位,我们定义这些单位为一级字部,从含有多个字源的一级字部中拆分出来的构件单位,我们定义这些单位为二级字部。字部是一个涵义较广的弹性概念,但在一个具体的汉字拆分过程中却又有其特殊意义。我们把由一个单独字源构成的字部或汉字定义为独体件。
汉字按其整体结构分为上下、左右、杂合三种结构。上下、左右结构又可分为上下、左右、上中下、左中右,上中中下、左中中右,上中中```下、左中中```右等结构种类。我们把上下、左右、杂合结构定义为二元结构类。我们把上中下、左中右,上中中下、左中中右、上中中```下、左中中```右等结构归纳定义为线性排多类。
为了很好界定一个多字源线性排列的汉字或字部一次性拆分为多少份字部,以及应如何分,界线又如何定。我们有如下规定平行拆分,嵌字勿拆原则。多字源线性排列的汉字或字部,能够一次性平行拆分为多少份字部就拆分为多少份字部,但如果该汉字或字部中嵌套有汉字,则此被嵌汉字的所有字源在拆分时不能分别拆分于不同的下档字部中.如蒿字一次性分为艹、高2份字部。不可拆分为艹、亠、口、 4份字部或其它各种拆法。
上下结构的多字源汉字或字部,如果有冖字源,则冖字源单独作中部,冖上为前部,冖下为后部。
足、鱼、石、米、疒、等非独体高频字部,把它们定义为独体件,不再拆分结构。
把汉字按其整体轮廓作一次性拆分,以拆分出的一级字部数目分为独体字、二元字、排多三类,依此类推把二元汉字的前后两部分字部又分别拆分为独体、二元、多元三类;依此把汉字归纳分为独体、独独,独二,独多,二独,二二,二多、多独,多二,多多,排多共11类字。
从汉字拆分出的一级字部,以书写顺序命以代号一、二、三、九(九表示最末字部),从一级字部中拆分出的二级字部,也以书写顺序命以代号1、2、3、9(9表示最末字部)。如搞拆分为(扌)代号(一)(高)代号(二)。(高)拆分为(亠)代号(二1)、(口)代号(二2)、 代号(二9)。
独体字取首6笔画再两两组合成3笔画对作编码元素;5笔单字全取5笔笔画,取首4笔画两两组合成2笔画对,取5笔笔画按单笔画对应键。4笔以下单字全取笔画两两组合成笔画对,单数笔画按单笔画对应键。不足三码取末笔画按单笔画对应键补齐。独独字取前部首2笔画,后部首4笔画,再两两组合成3笔画对作编码元素。后部3笔,全取3笔笔画。头2笔笔画按双笔画组合对应键,第3笔画按单笔画对应键。后部不足3笔,左右结构取前部末笔画按单笔画对应键补齐;非左右结构取后部末笔画按单笔画对应键补齐。
多字源汉字则依结构和书写顺序相结合的规则从中选出三个字部作编码字部,选取字部的对应规则如下。
顺码取字部顺序对应规则如下独二(一1、二1、二2),独多(一1、二1、二9),二独(一1、一2、二1),二二(一1、一2、二1),二多(一1、一2、二1)、多独(一1、一2、二1),多二(一1、一2、二1),多多(一1、一2、二1),排多(一1、二1、九1)。以选出的三个编码字部的首字源作编码字源。以三个编码字源的首2笔画画两两组合成3笔画对作编码元素。
补码取字部顺序对应规则如下独二(一1、二1、二2),独多(一1、二1、二9),二独(一1、二1、一2),二二(一1、二1、一2),二多(一1、二1、一2)、多独(一1、二1、一2),多二(一1、二1、一2),多多(一1、二1、一2),排多(一1、二1、九1)。以选出的三个编码字部的首字源作编码字源。以三个编码字源的首2笔画画两两组合成3笔画对作编码元素。
对于习惯性分法和有歧义的结构分法,几种分法都允许输入。如摊标准分法为扌(一1)、又(二1)、亻(二2);取(’xu)三码。歧义分法为扌(一1)、又(二1)、主(九1);取(’xy)三码。
以横竖开头的构件,如果先写的横笔和竖笔不相连,依此我们把它们从横竖类构件中分离出来,另称为横竖分笔,记作“一分”。例“邴”字的构件编为“一分”。以撇折开头的构件,如果该折笔含有勾笔画,依此我们把它们从撇折类构件中分离出来,另称为撇勾,记作“ノ亅”。例“九”的构件编为“ノ亅”。以横、“竖勾”两笔画开头的构件,依此我们把它们从横折类构件中分离出来,则称为横竖勾,记作“一亅”。例“丁”字的构件编为“一亅”。以横撇开头的构件,如果先写的横笔和撇笔相交,依此我们把它们从横撇类构件中分离出来,另称为横撇叉笔,记作“ナ”。例“大”字的构件编为“ナ”。以竖折开头的含有囗(方枢)的构件,我们定义第二笔画为撇笔,记作 依此把它们从竖折类构件中分离出来,调配到竖撇码对应键。例“国、田”字的构件编为“竖撇”;记作 这些特设构件均从含字较多的双笔画构件中选出,调配到含字较少的笔画码或特设码对应键。
对“氵、艹、口”3个组字频率高的字部,当整字底线右方的字源有带钩的笔画,则称为有勾水、有勾草、有勾口,记作“氵2、艹2、口2”;没有带钩笔画的,则称为无钩水、无钩草、无钩口,记作“氵1、艹1、口1”。例“吴”字“口”字部编为“口1;“清”字“氵”字部编为“氵2”。依此我们把它们定义到不同的键码上。这些特设字部均从含字较多的双笔画字部中选出,调配到含字较少的笔画码或特设码对应键。
由汉字构字规律可知,书写时以某些双笔画开头的汉字构件极多,且组字频率高;而以另外一些双笔画开头的汉字构件较少,为了使各个键位汉字均匀分布,减少重码率,特设适当数量的构件(大部份是偏旁部首,和一些重新定义的部类码),作为比笔画优先的编码元素。这些特设构件均从含字较多的双笔画构件中选出,调配到含字较少的笔画码或特设码对应键。
各笔画码及特加码、调整码、在键盘定义如下 提笔定义当提笔的中部和其它笔画相连或相交则该提笔认为横笔,否则该提笔认为点笔。如(扌)的提笔认为横笔;如(氵)的提笔认为点笔。
对某类有较多共同特征,在上述规则下又难以散分的汉字群类;还可用扩展的规则编码输入。如赢、羸、嬴、蠃4字,扩展编码规则为以贝、羊、虫、女代替月作第三码的编码字部。
有些特设字部本身就是一个汉字,这些汉字的编码是重复按其字部码对应键。
重码时,用数字键选择。
双简码设置方案其中空格键为选择侯选框中的首字,]键为选择侯选框中的次字,即序号为2的汉字。
编码方案如下一、优选顺码单字取三码取码规则及顺序见上。词组取四码。二字词组取码顺序取第一字的一、二码,第二字的一、二码。三字词组取码顺序取第一字的一、二码,第二字的第一码,第三字的第一码。四字词组取码顺序顺取各字的第一码。多字词组取码顺序取第一、二、三、末字的第一码。
二、优选补码单字取三码取码规则及顺序见上。词组取四码。二字词组取码顺序取第一字的一、二码,第二字的一、二码。三字词组取码顺序取第一字的一、二码,第二字的第一码,第三字的第一码。四字词组取码顺序顺取各字的第一码。多字词组取码顺序取第一、二、三、末字的第一码。
本发明的优点是本方案码长极短、简单明确、歧义少、反应快,所以相当方便有效。它以汉字最明确的、广泛认知的信息为拆解编码元素。其输入按键直接与坐标位置对应,输入者无须熟悉英文键盘,即可快速输入汉字。由于本方案采用的汉字规则信息完全是大众所熟知的汉字信息,和人们日常交流中对汉字拆分解释说法完全一致。它没有人为编造出某些的与人们所熟知通用的汉字规则信息相悖的规则。所以学习很容易。由于码长短,拆字编码无歧义,而输入按键又直接与坐标位置对应。所以输入速度极快。它适于听打和看打。
实施实例编码表例字编 码 分 解 顺码 补码汉 (氵1)(、)(、) dxs dxs字 (宀) ()(—) ezg ezg编 () (、)(丨) zq? zq?码 (—ノ) ()(—) kzg kzg输 (—) (ノ、)(ノ亅) o{ o{入 (ノ、) (、) (、) oss oss速 (—分) (、)(、) sqs sqs度 (广) (—丨)(、) ejx ejx熟 (、—) (ノ亅)(、、) t[w tw[解 (ノ) (ノ亅)(ノ) p[c pc[
权利要求
一种汉字形码输入系统,利用经过重新定义的英文标准键盘进行汉字输入,其特征包括1、把汉字拆分过程划分为4个层次单字——部件——字源——笔画;对笔画、字源、部件作适当定义(1)笔画采用最传统的简易分法将汉字笔画分成横、竖、撇、点、折(在特定情况下从折笔中分出竖勾、勾两种笔画)五大类;(2)字源是从一个具体的汉字中拆分出来的,由若干笔画复合连接交叉所形成的相对不变的紧密结构;字源是一个不能满足再拆分条件的最基本构字单位;字源不再拆分为更小的构件单元,只可拆分为笔画;(3)部件是从一个具体的汉字中拆分出来的,由若干字源按一定的位置摆放而成的结构;部件可由一个或多个字源构成;部件按拆分次序分为几个级别;一次性从汉字中拆分出来的构件单位,定义这些单位为一级部件,从含有多个字源的一级部件中拆分出来的构件单位,定义这些单位为二级部件;
2.将5种笔画再两两组合成25种笔画对;另增设撇勾,(横、竖勾)2个特加笔画对码;将单笔画与双笔画及2个特加码分开定义在键盘上;25种双笔画按起笔笔画分成5个双笔画区,5种单笔画组成一个单笔画区,2个特加笔画对码组成特加码区;
3.把汉字按其整体轮廓作一次性拆分,以拆分出的分部构件数分为独体字、二元字、排多三类,依此类推把二元汉字的前后两部分构件又分别拆分为独体、二元、多元三类;依此把汉字分为独体、独独,独二,独多,二独,二二,二多、多独,多二,多多,排多共11类字;
4.嵌字勿拆原则多字源线性排列的汉字或构件,如果该汉字或构件中嵌套有汉字,则此被嵌汉字的所有字源在拆分时不能分别拆分于不同的下档部件中;
5.对一些高频笔画对、字源、部件进行另定义和调整a、以横竖、撇折、横撇、横折、竖折开头的构件,以这些构件的其它特征作为编码辅助元素,把它们分为不同的部类码,拆编到不同的键码上;(2)对于“氵、艹、口”这3个组字频率太高的字部;以含有这些字部的汉字的其它特征作为编码辅助元素,把它们拆编到不同的键码上;(3)特设适当数量的字部(大部份是偏旁部首),作为比笔画优先的编码元素;并且分开定义到笔画元素及特加码对应键位中;这些特设调整字部均从含字较多的双笔画字部中选出,调配到含字较少的笔画码及特加码对应键;(4)足、鱼、石、米、疒、高频部件,把它们定义为独体字源,不再拆分结构;
6.独体字取首6笔画再两两组合成3笔画对作编码元素,独独字取前部首2笔画,后部首4笔画,再两两组合成3笔画对作编码元素,多字源汉字则依结构拆分次序和书写顺序相结合的规则从中选出三个字源作编码字源,以三个编码字源作编码元素;
7.双简码设置方案其中空格键为选择侯选框中的首字,]键为选择侯选框中的次字,即序号为2的汉字;
8.补码方案左右结构取前部末笔画按单笔画对应键补齐;非左右结构取后部末笔画按单笔画对应键补齐;
9.扩容一字多码输入;(1)对于习惯性分法和有歧义的结构分法,几种分法都允许输入;(2)对某类有较多共同特征,在上述规则下又难以散分的汉字群类;用扩展的规则编码;允许输入;
10.各笔画及特加码、调整码、在键盘定义如下
全文摘要
本发明采用的汉字规则信息完全是大众所熟知的汉字信息,和人们日常交流中对汉字拆分解释说法完全一致。它没有人为编造出某些的与人们所熟知通用的汉字规则信息相悖的规则。所以学习很容易。由于码长短,拆字编码无歧义,而输入按键又直接与坐标位置对应。所以输入速度极快。
文档编号G06F3/023GK1725155SQ200410045060
公开日2006年1月25日 申请日期2004年7月19日 优先权日2004年7月19日
发明者林声闯 申请人:林声闯
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1