自由码汉字输入编码系统的制作方法

文档序号:6605993阅读:253来源:国知局
专利名称:自由码汉字输入编码系统的制作方法
技术领域
本发明涉及一种计算机用汉字输入编码系统,特别是一种涉及与汉字的字形结构相关的汉字键盘输入编码系统。
现有的凡涉及与汉字的字形结构相关的汉字键盘输入编码系统,在标准西文键盘上实现汉字输入,若要使重码较少,均必定使编码组件(组字结构有字根或部件等不同称谓,本发明称其为组件)达到相当数量,从而造成记住组件及组件代码相当不容易,而且,虽然使用的组件多,但也只是选取了组字组件的一部分,甚至是少部分,造成拆分困难和拆分不规范;选用少量组件的普及型输入编码系统,不仅重码多,而且拆分困难和拆分不规范的问题更加突出。
本发明为了克服现有编码系统的上述缺点,提出一种编码系统,其组件集可以选得足够大,所选组件甚至于比《信息处理用GB13000.1字符集汉字部件规范》(以下简称《汉字部件规范》)中的基础部件还多,并且组件的选用和拆分都符合《汉字部件规范》,但是组件及代码的记忆量却很小,实现的编码方案多样而灵活,重码少,易于掌握,普通人员和专业录入人员均可使用。
本发明的特点是把众多的组件进行适当地分类,并给以适当的代码规定,组件拆分规定和取码规定,具体规定是①将组字组件区分为字组件、常用非字组件、一般非字组件、基本组件、复合组件和子组件几种类型,组件本身为一个字的组件为字组件,而且规定凡是字均可以作组件,常用非字组件大多为常用现代汉语字典中的非字部首,一般非字组件按其结构或笔划特征归成类别,复合组件与基本组件是从组件的可分性出发来区分的,不可进一步拆分的组件为基本组件,可拆分的组件为复合组件,按《汉字部件规范》确定可分性,构成复合组件的次一级组件成分称为子组件。
②组件代码规定字组件的代码与字的读音相关,常用非字组件的代码与组件名称或称谓相关,一般非字组件按类取代码。
③组件拆分取码规定以拆分出的组件的代码组成字的编码,凡可拆分的字均应进行拆分取码,按组件书写顺序进行拆分,交重不拆,并对各取码位拆取组件的类型作出具体地限定,以形成多种风格特点的取码方案,并使同一方案下拆分取码具有唯一确定性。
④组件少、码位不足时可以取补充码。
⑤可以字词结合取码。
有了以上规定①和②,便于识别众多的组件和记住组件代码。这是因为第一、字组件用不着专门记忆,只要在使用拆分规则对字进行拆时可以自然明白,至于字组件的代码,如取单代码,可以取拼音第一字母为代码;如取双代码,可取其双拼为代码,甚至可以取全拼为代码,这要视具体所选编码方案而定,每个使用者可灵活选用。
第二、由于常用非字组件大多是字典中所选非字部首,人们熟悉它们,又由于原则上代码与其名称或称谓相关,易于一一记识它们。
第三、一般非字组件虽然众多,但记住了量不大的常用非字组件,剩下的非字组件就属于这一大类了,再加上我们按其结构或笔划特征进行分类,再按类取码,我们只要记住划类规定和少数类码就掌握了众多的一般非字组件,例如我们规定凡起笔为“撇”(“丿”)的一般非字组件归为一类,并以“p”为代码,那么只要见到 等会自然掌握它们,哪怕你事先并不知道有 ,在按规则取码时,遇到“段、卑、姊”等字时,自然从直觉上就可以看出 为组件,且又不是字组件,自然就是非字组件,又因为在常用非字组件中没有选它们,所以很容易地辨认出它们是一般非字组件,其第一笔为撇笔,其代码也确定了。以撇笔为起笔的组件有几十个,我们事先并不用一一记住它们,和上面举例情况一样,在对字的拆分时可以很容易地识别它们。其他类别的一般非字组件也是同样地易于识别。根据①和③关于复合组件、基本组件和子组件的规定及组件拆分规定结合起来,不同的组件拆分规定形成不同风格特点的编码方案,在同一风格的编码方案下可以保证拆分取码的唯一性,同时可在编码过程中掌握字组件。举例加以说明我们事先选定在各方案中 等为常用非字组件,考查“确”和“葆”两字,两字中有 等常用非字组件,有“石、角、用、保、呆、口、木”等字组件,“角、用、保、呆”是复合组件, 等是基本组件。如不确定具体拆分规则,则对上述两字的拆分就不确定,对于“确”字,可拆分为“石、角”, 等几种部件组合,“葆”字也有多种拆分法,正是有这种多样的拆分法,可以形成多种风格特点的方案。按照第③条,对各取码位所取组件类型作出不同规定,就可得到不同风格特点的编码方案,在同一方案下,拆分是唯一的,编码也就是唯一的。我们试举出三种规定,也即有三种可供选择的方案。
第一个方案按一般采用较多的取大优先的原则,“确”和“葆”只能分别拆分为“石、角”和“ 保”。
第二个方案规定只能取基本组件,“确”和“葆”只能分别拆为“石、 第三个方案规定第二码位组件只取基本组件,其他码位组件取大优先,“确”和“葆”只能分别拆分为“石、 、用”和“ 呆”。
根据规定④,可以减少重码。有些字由于组件少,也由于有的取码方案,如第一种和第二种方案,容易导致取码组件少,码位不足,特别按上述第一方案很多字只能取足二码,这时要取补充码。在具体使用时,为了减少重码,可以有针对性地规定取补充码的规则。例如规定从取过码的组件中寻求结构特征作为补取补充码的依据,例如对于第三方案,“确”字经拆分成的组件中,有复合组件“用”,它由“冂”及 组成,可以 的代码作为“用”的辅助特征码之一,并取其作为补充码,“葆”字经拆分成的组件中,有复合组件“呆”,可做上述类似处理。还可做出取补充码的其它规定。
根据⑤可以提高编码效率和输入效率。
我们可以看到,只要拆分取码规则定了,具体到每个字,拆分是唯一确定的,因此,很自然地,字组件、常用非字组件和一般非字组件都是确定的。
可以通过不同的拆分规则限定,产生不同的编码方案,以上举出的三种限定,可产生三套方案,实际上还可以有别的限定。可按使用者的需要灵活使用。
根据上述规定及举例说明,显示本编码系统有如下优点第一,编码系统的组件选用和拆分合理,且符合《汉字部件规范》规定。按照上述举例的第二方案,所使用的组件刚好只是《汉字部件规范》中的基础部件;按照方案一和方案三,除使用《汉字部件规范》中的基础部件之外,还要使用一些基础部件以外的字部件,《汉字部件规范》允许将基础部件组合成字作为部件使用,《汉字部件规范》允许使用的这种字部件就是本编码系统的复合组件,即本编码系统符合“基础部件可以组合的规则”;拆分规则符合《汉字部件规范》“交重不拆”的原则和“基础部件不再拆分的规则”,本发明在拆分规则中明确了“交重不拆”,同时在各实施方案中,在具体拆分时坚持与《汉字部件规范》中“基础部件不再拆分的规则”一致,这理所说的基本组件对应于《汉字部件规范》中的基础部件。如上述“确”字,一般容易把其中的“石”作为 两个组件,但本发明按《汉字部件规范》将其作为一个基础部件,上述方案二中规定只取基本组件,我们便未将“石”拆分为 和“口”。第二,记忆量小,易于掌握。所要记忆的是常用非字组件及其代码(本系统只选用了不到100个非字组件)、简单的拆分规则、一般非字组件的类别特征及其代码(本系统只选几个类),巧妙地实现了大组件集记忆量小;记住了上述内容,再加上能认识一定数量的字,具有一定拼音知识,就可以顺利使用本编码系统。第三,本系统重码低,其重码低到可以供专业人员实现盲打。因此其使用效果是专业级的,而其易用性却不亚于现行的主要以易用为目的的普及型编码系统。第四,实现方案多样而灵活,使得该编码系统与用户友好结合成为可能。
作为一个具体的选用方案,进一步加以说明。本实施方案规定①基本组件为《汉字部件规范》中的基础组件,②字组件的代码以其拼音第一字母为代码,③常用非字组件及其代码如下a (“爱”字头);宀(“安”字头) 单笔划代码规定如下 “o”除用作拼音以“o”开头的字组件的代码外还兼作调整代码,以作为导致重码集中的字组件及常用非字组件脱离正常读音及名称关系的替代代码,如将“木”的代码,或将“日,月”的代码调整至“o”。
④一般非字组件的分类及代码如下第一类起笔为撇笔划的归为一类,其代码为“p”,如 等等之类组件。
第二类带“□”笔划结构归为一类,其代码为“o”,如 等等之类组件。
第三类带点笔划结构的归为一类,其代码为“d”,如 等等之类的组件。
第四类仅由横竖笔划组成的结构的归为一类,其代码为“i”,如 等等之类组件。
第五类除上述四类之外的一般非字组件,其代码为“v”。
兼多种特征的按一、二、三、四类的优先顺序归类,即优先往前面类别归。
⑤组件拆分规则为第二码位只取基本组件,其他码位取大优先。
⑥最多取四码,如组件数多于四个,取第一、二、三、末组件的代码组成字的编码。如不足四码,可取补充码。
⑦取补充码的规定a.根据字的整体结构特征和组成字的组件的结构特征确定补充码,特别是根据组成字的组件的相互位置结构特征和组成字的组件所包含的更小的子结构特征确定补充码。
b.三组件字可取一个补充码,双组件字可取两个补充码,单组件字可取三个补充码,在考虑前两项的基础上,根据字的结构控制补充码,控制码长,以提高编码效率,降低重码。
c.补充码优先靠后取,尽可能不取或少取单笔划补充码,双组件字一般从一个组件中取一个补充码,复合组件中可取两个补充码。
⑧取词码的规定双字词取各字前二码组成词组码,三字词取各字第一码组成词组码,四字及四字以上词取第一、二、三、末字第一码组成词组码。
对以上各项规定的使用注意点说明如下根据规定①,要注意避免将一些基本组件误为复合组件,比如采、石、食、立等基本组件容易误为复合组件,这样的组件还有一些。
规定②和③是对组件代码的一种具体选择。
关于规定②,在实例编码中严格按规定取字组件拼音第一字母为代码,未作调整。如稍作调整,重码会更少。
关于规定③,非字常用组件代码表中列明了取码依据,体现了这类组件的代码与组件名称和称谓相关的原则,绝大多数是取名称或称谓的拼音第1字母, 字头的代码取“v”,寓意以“v”代辅音“zh”(多个双拼方案以“v”代辅音“zh”),有几个是取韵部,其中 和 取韵部“i”,而 和 的韵部是 以“v”代替,“乂”、 入“凵”部)取与其形似的英文字母称谓相关。
根据规定④, 具有第二类带“□”结构特征和第三类带点笔划结构特征,按优先往前面类别归而归到第二类,其代码为“o”,而非“d”。
关于规定⑤,举例说明,“朝”应拆分为“十,日,十,月”不能拆分为“十,早,月”,因为第二码位不能取复合组件,再如“葆”字应拆分为 而不能拆分为 因为“呆”不处于第二码位,按取大优先,不能将“呆”拆分为“口”和“木”取码。
关于规定⑥,也举例说明,“瀚”按规定拆分为 五个组件,组件数多于四个,按规定取一、二、三、末组件的代码为编码,因此“瀚”字取 组件的代码组成编码为“dszy”。
关于规定⑦,对特征的选取和补充码的确定作进一步说明。字的整体结构特征和组件的结构特征存在多种选择的余地,本发明的本实施例对字的整体结构特征是从字的组件的相对位置结构关系考虑的,这种关系可有左右结构、上下结构、横排结构、竖排结构、包围结构、半包围结构及其他结构特征,对这些结构特征分别赋予不同的特征码,以这特征码作为补充码;至于组件的结构特征可从组件所包含的更小的子结构中寻求,如果组件中含有更小的字组件子结构和常用非字组件子结构时,可以利用这些子结构的代码作为组件的辅助特征码,如果组件为复合组件,以复合组件的子组件的代码作为复合组件的辅助特征码,如果组件中不含有更小的字组件子结构和常用非字组件子结构,可以取组件首末单笔划的代码作为辅助特征码,这种辅助特征码不用一个个组件记住,见组件即可确定。在需要取补充码时,可以辅助特征码作为补充码,当不需要补充码时,辅助特征码不用。下面举一些例字予以说明。
“葆”字按规则拆为 相应的编码为“erd”,不足四码,可取一个补充码,复合组件“呆”含字组件子结构“口”和“木”,有辅助特征码“k”和“m”,从复合组件“呆”中优先靠后取其辅助特征码“m”为补充码,则“葆”取补充码后的编码为“erdm”。
“足”字按规定拆为“口、 相应的编码为“kv”,其中基本组件 中有组件子结构“人”和 有辅助特征码“b”和“r”,优先靠后取,从第二组件 中取辅助特码“r”为补充码,故“足”在取补充码后其编码为“kvr”。第一组件“口”中无比本身更小的组件成份,第二补充码不取。
“没”字拆分为 相应的编码为“djy”,三个组件均只有单笔划辅助特征码。类似“没”字这种情况的三组件字,可不取补充码,因为有的三组件字的组件含有明显的字组件子结构或非字常用组件子结构,易于取补充码,易于取补充码的便提取,不易于提取补充码的便不提取,有的三组件字为四码,有的三组件字为三码,这便于减少重码,也缩短编码长度。
“分”字,按规定拆分为“八,刀”,相应的编码为“bd”,两个组件均只有单笔划辅助特征码,只有取单笔划辅助特征码作补充码,于是取组件“刀”的末笔划特征码“p”和组件“八”的首笔划特征码“p”为补充码,“分”取补充码后的编码为“bdpp”。本实施例从后组件取末笔划特征码,从前组件取首笔划特征码作为补充码,优先从后取。
至于根据字的整体结构取补充码,本实施例的试用编码仅对呈上中下竖排结构的三组件字一律取补充码“i”,呈左中右横排结构的三组件字一律取补充码“h”,已使重码足够低。再使用其他整体结构特征取补充码,还可进一步降低重码。举两个例字“泐”字拆分为 相应的编码为“dzl”,属左中右横排结构,取补充码后编码为“dzlh”,“京”字拆分为 小”,相应的编码为“wkx”,属上中下竖排结构,取补充码后编码为“wkxi”。
关于规定⑧,取词码的规定易于掌握,不用举例说明。
以本实施例形成的编码方案重码率低。其重码率与现在常用的专业录入法的重码率差不多。仅取形码的方式比五笔字型的重码率略低;与自然码的音形各取二码的方式相比,重码低得多,如本方案也使用音形各取二码的方式,重码比自然码略高,但比自然码少用几个编码键。
如果适当调整个别组件的编码,可再降低重码,再适当调整取补充码的规定,也可再降低重码。
适当使用简码,不仅可避开一些重码,还大大提高输入效率。
本实施方案中辅音为“zh,ch,sh”的字组件代码分别与辅音为“z,c,s”的字组件的代码不能区分。若对这种情况予以区分,辅音为“zh,ch,sh”的字组件的代码分别以“v,a,u”代替,常用非字组件 的代码由“c”调整为“a”, 的代码由“s”调整为“u”。
将“zh,ch,sh”辅音分别以“v,a,u”替代之后形成的方案减少了一些重码。这种方案实用于对卷舌音掌握得较好的人。如果为了促进掌握规范的汉语读音,也可特意选此改进方案。
作为另一个具体的选用方案,进一步加以说明。本实施方案规定①基本组件为《汉字部件规范》中的基础部件,②字组件的代码以其拼音第一字母为代码,③常用非字组件及其代码如下 “o”除用作拼音以“o”开头的字组件的代码外还兼作调整代码,以作为导致重码集中的字组件及常用非字组件脱离正常读音及名称关系的替代代码,如将“木”,或将“日,月”等的代码调整至“o”。
④一般非字组件的分类及代码如下第一类起笔为撇笔划的归为一类,其代码为“p”,如 等等组件。
第二类带“□”笔划结构的归为一类,其代码为“o”,如 等等组件。
第三类带点笔划结构的归为一类,其代码为“d”,如 等等之类的组件。
第四类仅由横竖笔划组成的结构归为一类,其代码为“i”,如 等等之类。
第五类除上述四类结构之外的一般非字组件归为一类,其代码为“v”。
兼多种特征的按一、二、三、四类的优先顺序归类,即优先往前面类别归。
⑤组件拆分规则为各码位只取基本组件。
⑥最多取四码,如组件数多于四个,取第一、二、三、末组件的代码组成字的编码。如不足四码,可取补充码。
⑦取补充码的规定a.根据字的整体结构特征和组成字的组件的结构特征确定补充码,特别是根据组成字的组件的相互位置结构特征和组成字的组件所包含的更小的子结构特征确定补充码。
b.三组件字可取一个补充码,双组件字可取两个补充码,单组件字可取三个补充码,在考虑前两项的基础上,根据字的结构控制补充码,控制码长,以提高编码效率,降低重码。
c.补充码优先靠后取,尽可能不取或少取单笔划补充码,双组件字一般从一个组件中取一个补充码,复合组件中可取两个补充码。
⑧取词码的规定双字词取各字前二码组成词组码,三字词取各字第一码组成词组码,四字及四字以上的词取第一、二、三、末字的第一码组成词组码。
对以上各项规定的使用注意点说明如下根据规定①,要注意避免将一些基本组件误为复合组件,比如采、石、食、立等基本组件容易误为复合组件,这样的组件还有一些。
规定②和③是对组件代码的一种具体选择。
关于规定②,在本实施例的试用编码中严格按规定取字组件拼音第一字母为代码,未作调整,重码已足够低。
关于规定③,非字常用组件代码表中列明了取码依据,体现了一般以组件名称和称谓相关的大原则,绝大多数是取名称或称谓的拼音第1字母, 字头的代码取“v”,寓意以“v”代辅音“zh”(多个双拼方案均以“v”代辅音“zh”),有几个是取韵部,其中 取韵部“i”,而 和 的韵部是“ǖ”,以“v”代替,“乂”、 入 部)取与其形似的英文字母称谓相关。
根据规定④, 具有第二类带“□”结构特征和第三类带点笔划结构特征,按优先往前面类别归而归到第二类,其代码为“o”,而非“d”。
关于规定⑤,举例说明,“朝”应拆分为“十,日,十,月”不能拆分为“十,早,月”,因为第二码不能取复合组件,再如“葆”字应拆分为 而不能拆分为 因为“呆”不处于第二码位,按取大优先,不能将“呆”拆分为“口”和“木”取码。
关于规定⑥,也举例说明,“瀚”按规定拆分为 习,习”七个组件,组件数多于四个,按规定取一、二、三、末组件的代码组成字的编码,因此“瀚”的编码取 组件的代码组成为“dsrx”。
关于规定⑦,对特征的选取和补充码的确定作进一步说明。字的整体结构特征和组件的结构特征存在多种选择的余地,本发明的本实施例对字的整体结构特征是从字的组件的相对位置结构关系考虑的,这种关系可有左右结构、上下结构、横排结构、竖排结构、包围结构、半包围结构及其他结构特征,对这些结构特征分别赋予不同的特征码,以这特征码作为补充码;至于组件的结构特征可从组件所包含的更小的子结构中寻求,如果组件中含有更小的字组件子结构和常用非字组件子结构时,可以利用这些子结构的代码作为组件的辅助特征码,如果组件中不含有更小的字组件子结构和常用非字组件子结构,可以取组件首末单笔划的代码作为辅助特征码,这种辅助特征码不用一个个组件记住,见组件即可确定。在需要取补充码时,可以辅助特征码作为补充码,当不需要补充码时,辅助特征码可以不用。下面举一些例字予以说明。
“定”字按规定拆为 相应的编码为“ahv”,其中的基本组件 中有组件子结构 有辅助特征码“b”和“r”,靠后取辅助特征码“r”为补充码,故“定”在取补充码后其编码为“ahvr”。
“足”字按规定拆为 相应的编码为“kv”,其中基本组件 中有组件子结构“人”和 有辅助特征码“b”和“r”,优先靠后取,从第二组件 中取辅助特征码“r”的代码为补充码,故“足”在取补充码后其编码为“kvr”。第一组件“口”中无比本身更小的组件成份,第二补充码不取。
“没”字拆分为 相应的编码为“djy”,三个组件均只有单笔划辅助特征码。类似“没”字这种情况的三组件字,可不取补充码,因为有的三组件字的组件含有明显的字组件子结构或非字常用组件子结构,易于取补充码,易于取补充码的便取,不易于提取补充码的便不取,有的三组件字为四码,有的三组件字为三码,这便于减少重码,也缩短编码长度。
“分”字,按规定拆分为“八,刀”,相应的编码为“bd”,两个组件均只有单笔划辅助特征码,只有取单笔划辅助特征码作补充码,于是取组件“刀”的末笔划特征码“p”和组件“八”的首笔划特征码“p”为补充码,“分”取补充码后的编码为“bdpp”。本实施例从后组件取末笔划特征码,从前组件取首笔划特征码作为补充码,优先从后取。
至于根据字的整体结构取补充码,本实施例的试用编码仅对呈上中下竖排结构的三组件字一律取补充码“i”,呈左中右横排结构的三组件字一律取补充码“h”,己使重码足够低。再使用其他特征取补充码,还可进一步降低重码。举两个例字“揶”字拆分为“扌,耳,阝”,相应的编码为“fez”,属左中右横排结构,取补充码后编码为“fezh”,“京”字拆分为 小”,相应的编码为“wkx”,属上中下竖排结构,取补充码后编码为“wkxi”。
关于规定⑧,取词码的规定易于掌握,不用举例说明。
以本选用实施例形成的编码方案,其重码率与比前一实施例重码略多,但此方案显得较为简洁。
本选用实施方案与前述实施方案同样存在辅音为“zh,ch,sh”的字组件代码分别与辅音为“z,c,s”的字组件的代码不能区分。若对这种情况予以区分,辅音为“zh,ch,sh”的字组件的代码分别以“v,a,u”代替,常用非字组件 的代码由“c”调整为“a”, 的代码由“s”调整为“u”。将“zh,ch,sh”辅音分别以“v,a,u”替代之后形成的方案减少了一些重码。与前述实施方案同样,本选用方案实用于对卷舌音掌握得较好的人。如果为了促进掌握规范的汉语读音,也可特意选此改进方案。
还可以采取形码与音码相结合的方案。采用三个字形码加一个音码,或者两个字形码加两个音码,可以字形码在前,也可以字形码在后,相应地可以构成不同的实施例。
可以选取另具特色的一类实施例,组件的代码可取单代码,也可取多代码,可取三个字形码加一个音码,或者两个字形码加两个音码,组成字的编码,词码方式为双字词取各字前二码组成词组码,三字词取各字第一码组成词组码,四字及四字以上的词取第一、二、三、末字的第一码组成词组码。
权利要求
1.一种涉及与汉字的字形结构相关的汉字输入编码系统,特别是一种涉及与汉字的字形结构相关的汉字键盘输入编码系统,其特征在于①将组字组件(本发明将组字结构称为组件)区分为字组件、常用非字组件、一般非字组件、基本组件、复合组件和子组件几种类型。组件本身是一个字的组件称为字组件,而且规定凡是字均可以作组件,常用非字组件大多为常用现代汉语字典中的非字部首,一般非字组件按其结构或笔划特征归成类别,根据组件的可分性来区分复合组件与基本组件,不可进一步拆分的组件称为基本组件,可拆分的组件称为复合组件,按《信息处理用GB13000.1字符集汉字部件规范》(以下简称《汉字部件规范》)确定可分性,构成复合组件的次一级组件成分称为子组件。②组件代码规定字组件的代码与字的读音相关,常用非字组件的代码与组件名称或称谓相关,一般非字组件按类取代码。③组件拆分取码规定以拆分出的组件的代码组成字的编码,凡可拆分的字均应进行拆分取码,按组件书写顺序进行拆分,交重不拆,并对各码位拆取组件的类型作出具体限定,以形成多种风格特点特点的编码方案,并使同一方案下拆分取码具有唯一确定性。④组件少、码位不足时可以取补充码。⑤可以字词结合取码。
2.根据权利要求1所述之编码系统,其特征在于①基本组件为《汉字部件规范》中的基础部件。②字组件的代码取其拼音第一字母。③常用非字组件及其代码如下 其中单笔划代码规定如下 ④一般非字组件的分类及其代码规定如下第一类起笔为撇笔划的归为一类,其代码为“p”;第二类带“□”结构的归为一类,其代码为“o”;第三类带点笔划结构的归为一类,其代码为“d”;第四类仅由横竖笔划组成的结构归为一类,其代码为“i”;第五类除上述四类组件之外的一般非字组件统归为这一类,其代码为“v”;兼有多种结构特征的按一、二、三、四类的优先顺序归类,即优先往前面类别归。⑤组件拆分规则为第二码位只取基本组件,其它码位取大优先。⑥最多取四码,组件数多于四个,取第一、二、三、末组件的代码组成字的编码,组件数少,取不足四码,可取补充码。⑦取补充码的规定a.根据字的整体结构特征和组成字的组件的结构特征确定补充码,特别是根据组成字的组件的相互位置结构特征和组成字的组件所包含的更小的子结构的特征确定补充码。b.三组件字可取一个补充码,双组件字可取两个补充码,单组件字可取三个补充码,在考虑前两项的基础上,根据字的结构控制补充码,控制码长,以提高编码效率,降低重码。c.补充码优先靠后取,双组件字一般从两个组件的辅助特征码中各取一个辅助特征码作为补充码,复合组件中可取两个补充码。⑧词码方式为双字词取各字前二码组成词组码,三字词取各字第一码组成词组码,四字及四字以上词取第一、二、三、末字的第一码组成词组码。
3.根据权利要求1所述之编码系统,其特征在于①基本组件为《汉字部件规范》中的基础部件。②字组件的代码取其拼音第一字母。③常用非字组件及其代码如下 其中单笔划代码规定如下 ④一般非字组件的分类及其代码规定如下第一类起笔为撇笔划的归为一类,其代码为“p”;第二类带“□”结构的归为一类,其代码为“o”;第三类带点笔划结构的归为一类,其代码为“d”;第四类仅由横竖笔划组成的结构归为一类,其代码为“i”;第五类除上述四类组件之外的一般非字组件统归为这一类,其代码为“v”。兼有多种结构特征的按一、二、三、四类的优先顺序归类,即优先往前面类别归。⑤组件拆分规则为各码位只取基本组件。⑥最多取四码,组件数多于四个,取第一、二、三、末组件的代码组成字的编码,组件数少,取不足四码,可取补充码。⑦取补充码的规定a.根据字的整体结构特征和组成字的组件的结构特征确定补充码,特别是根据组成字的组件的相互位置结构特征和组成字的组件所包含的更小的子结构的特征确定补充码。b.三组件字可取一个补充码,双组件字可取两个补充码,单组件字可取三个补充码,在考虑前两项的基础上,根据字的结构控制补充码,控制码长,以提高编码效率,降低重码。c.补充码优先靠后取,双组件字一般从两个组件的辅助特征码中各取一个特征码作为补充码。⑧词码方式为双字词取各字前二码组成词组码,三字词取各字第一码组成词组码,四字及四字以上的词取第一、二、三、末字的第一码组成词组码。
4.根据权利要求1或2所述之编码系统,其特征在于字组件中辅音为“zh、ch、sh”的字组件代码分别以“v、a、u”代替,常用非字组件 的代码由“c”调整为“a”, 的代码由“s”调整为“u”。
5.根据权利要求1或3所述之编码系统,其特征在于字组件中辅音为zh、ch、sh”的字组件代码分别以“v、a、u”代替,常用非字组件“ 的代码由“c”调整为“a”, 的代码由“s”调整为“u”。
6.根据权利要求1所述之编码系统,其特征在于组件的代码可取单代码,也可取多代码;可取三个字形码加一个音码,或者两个字形码加两个音码,组成字的编码;词码方式为双字词取各字前二码组成词组码,三字词取各字第一码组成词组码,四字及四字以上的词取第一、二、三、末字的第一码组成词组码。
7.根据权利要求2所述之编码系统,其特征在于可取三个字形码加一个音码,或者两个字形码加两个音码,可以字形码在前,也可以字形码在后。
8.根据权利要求3所述之编码系统,其特征在于可取三个字形码加一个音码,或者两个字形码加两个音码,可以字形码在前,也可以字形码在后。
9.根据权利要求5所述之编码系统,其特征在于可取三个字形码加一个音码,或者两个字形码加两个音码,可以字形码在前,也可以字形码在后。
10.根据权利要求6所述之编码系统,其特征在于可取三个字形码加一个音码,或者两个字形码加两个音码,可以字形码在前,也可以字形码在后。
全文摘要
本发明系计算机用汉字键盘输入编码系统,特点是:将组件分类为字组件、常用非字组件、一般非字组件、基本组件、复合组件和子组件;字组件的代码与字的读音相关,常用非字组件的代码与组件名称或称谓相关,一般非字组件按类取代码;对各码位拆取组件类型作出具体限定,以形成多种风格特点的取码方案,并使同一方案下拆分取码具有唯一确定性。本发明重码少,易掌握,普通人员和专业录入人员均可使用。
文档编号G06F3/023GK1279418SQ9911023
公开日2001年1月10日 申请日期1999年7月6日 优先权日1999年7月6日
发明者林述文 申请人:林述文
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1