汉字多音编码输入方法

文档序号:6336226阅读:292来源:国知局
专利名称:汉字多音编码输入方法
技术领域
本发明涉及一种计算机或类似设备的汉字输入方法,具体来说是汉字多音编码输入方法。
背景技术
目前,如汉语拼音、五笔字型等计算机或类似设备的汉字输入方法较多,其方法各异,但归纳起来,大致可分为拼音类、字形类、音形类、数字类这四种。其中字形类和数字类输入法输入效率较高,但对于字形符号的记忆比较困难;汉语拼音输入法简单易学,但输入速度较慢,重码率高。中国专利公开号CN1508655A,
公开日2004年6月30日;发明名称《音缀码计算机汉字键盘输入法》,提出了一种利用汉字的拼音、偏旁部件来确定编码的方法。它的首码取汉字声母的首字母,再将汉字一分为二拆成两个部件,取其部件的拼音首字母作为二码和三码并可分层拆分,对非成字部件则规定了相应的代码。该方法输入效率较高,简单易学,记忆较方便。但仍存在一些缺陷;主要是重码率相对较高;有些字母键位如O、I、U、V等使用率极低,码元分配不均匀;其分层拆分比较麻烦;对于单体字等难以拆分的汉字,一分为二比较困难。

发明内容
本发明的目的是克服现有技术所存在的缺陷和不足,提供一种汉字多音编码输入方法。它更接近汉字的书写习惯,规律性强,简单易学,记忆方便,码元分配均匀,拆字方便,输入速度快,重码率低。
本发明所述的部首是本发明部首编码中所规定的部首,所述的字根是由我国在1988年制定的国标《现代汉语通用字表》中的汉字和本发明部首编码中所规定的部首组成,所述的非字根笔画是本发明字根以外的笔画结构,所述的字音码是汉字的拼音第一个字母以及I、U、V三个规定的字音码,所述的字根码是字根的读音第一个字母以及I、U、V三个规定的字根码,所述的未笔码是该汉字的最后一笔画名称的拼音第一个字母即本发明未笔编码表中所规定的未笔码。
本发明的技术解决方案是汉字多音编码输入方法,以字音码、字根码以及未笔码来组成编码,编码码元与计算机键盘英文字母一一对应,从而完成汉字计算机输入。主要内容如下本发明对汉字的拆分按以下规则顺序进行第一、按所拆出字根的数量的优先顺序拆分首先汉字能拆为三个字根为第一拆分优先权,其后依次为二字根、四字根、五字根以上,再其后为三个字根加非字根笔画、二字根加非字根笔画、四字根以上加非字根笔画;最后为一个字根加非字根笔画、一个字根(也就是该字本身)。
第二、按字根相互位置关系优先顺序拆分,优先顺序依次为离散关系、相连关系、内外关系、相交关系。
第三、在拆分字时尽量保持字的客观性和客观结构。
第四、字根间的书写笔顺不交叉的拆法优先。
第五、在拆内外结构的字或字根时,从外至内拆分,内部尽量拆空不留笔画或字根。
第六、优先拆分笔画靠后的部分第七、前面的字根笔画多的拆法优先。
第八、尽量减少非字根笔画数本发明依以上八个拆字规则,每个汉字只有一种拆法,因而为每个汉字编码的唯一性提供了条件。
本发明所采用部首及编码为部首编码表

本发明所采用的未笔编码为未笔编码表

本发明汉语拼音的字母与键盘上的英语字母相对应,确定键盘上26个字母键与最常用汉字(字母字)的对应关系如下表字母字表

本发明汉字的编码由字音码、字根码、未笔码从左至右排列1至4个字母组成。字音码只有一个字母是必不可少的,排在字码最前(最左边)。字根码在字音码之后,一个字中的多字根码是按字根书写顺序从左至右排列,并称为第一个字根码至最后一个字根码。未笔码也只有一个字母,排在字根码之后,非字根笔画不参与编码。具体规则如下1.依据本发明拆字规则拆分出一个字根的字(简称“1”部件字)的编码,是由字音码+未笔码+空格组成。
2.依据本发明拆字规则拆分出一个字根加非字根结构的字(简称“1+1”部件字)的编码,是由字音码+一个字根码+未笔码+空格组成。
3.依据本发明拆字规则拆分出二个字根、二个字根加非字根结构的字(简称“2”、“2+1”部件字)的编码,是由字音码+第一个字根码+第二个字根码+未笔码组成。
4.依据本发明拆字规则拆分出三个字根、三个字根加非字根结构的字(简称“3”、“3+1”部件字)的编码,是由字音码+第一个字根码+第二个字根码+第三个字根码组成。
5.依据本发明拆字规则拆分出四个字根以上、四个字根以上加非字根结构的字(简称“4”、“4+1”部件以上字)的编码,是由字音码+第一个字根码+第二个字根码+最后一个字根码组成。
6.字母字编码是与26个字母一一对应(见字母字表),是同字音码中最常用的字,其编码是由字音码+空格组成。
本发明词组编码规则如下
1.两字词组首字字音码+首字第一个字根码(或未笔码)+第二字字音码+第二字第一根码(或未笔码)。
2.三字词组首字字音码+首字第一个字根码(或未笔码)+第二字字音码+第三字字音码。
3.四字及四字以上词组首字字音码+第二字字音码+第三字字音码+末字字音码。
本发明对多音字的处理多音字(或多音字根)有两种情况一种是读音不同,但字音码(或字根码)相同,这种情况对编码没影响,如“差cha、chai”字音码为“C”;另一种是读音不同,字音码(或字根码)也不相同,因而有两个以上字音码(或字根码),以下是这种多音字(或字根码)的编码规则1.对多音字(或字根码)取一个常用读音来确定字音码(或字根码)。
例如“红hong、gong”取“hong”确定字音码为“H”。
2.无法确定常用读音时,采取一字多码方案,也就是在一个字中,由多个字音码,或所拆出汉字或部首码排列组合成多个编码,即多音字可以有多个编码。
例如“行”的字音码是“X”和“H”,字码为“XRID”和“HRID”;“栎li、yue”字音码是“L”和“Y”,其字根“乐le、yue”字根码是“L”和“Y”,字码为“LVBL”、“LVBY”、“YVBL”和“YVBY”。
这种一字多码的字数量很少,对编码没有多大影响也不会给编码带来麻烦和过多的重码,反而在实际使用起来很方便,可以任选已知读音进行编码。
本发明在键盘上设定汉字拆分优先顺序转换键,对应改变汉字拆分的优先顺序。
本发明将键盘上字母键“O”设为不确定编码替代键(万能键)。
本发明的优点和有益效果在于1.本发明把字的构成形式分为“n”部件和“n+1”部件,根据字根数优先顺序拆字编码,解决了一个字有多种拆法的关键问题。
2.设有非字根笔画(剩余笔画),并不参予编码,使拆字更容易、更自然,更快捷,可减少需记忆的部首,简化拆字编码规则。
3.设计了独特的未笔码方案,较好地解决了汉字的重码问题。
4.根据汉语读音的特点,在部首编码中巧妙地利用了“I、V、U”的字母键位,并在字母“O”的键位上增加了不确定编码替换功能(即万能键),其码元分配均匀,重码率低,输入效率高。
5.仅需输入汉字的拼音首字母,解决了汉语拼音中“c”与“ch”、“s”与“sh”、“z”与“zh”不易区分的问题。
6.根据汉字由字组字,字中套字,组字结构多样的特点,设置有拆字结构优先顺序转换键,可以适应多种拆字方式,使汉字的输入更加灵活、方便。
7.本发明编码尽可能地使用汉字读音的首字母,所采用部首数量较少,与汉语字典中的偏旁部首相比,本发明部首编码中的部首要少许多(只有59类),且以上部首的编码大多采用了该部首名称读音的首字母,使其编码记忆起来十分方便,汉字的语言化输入效果好,输入速度快。
8.具有易学、易记、输入快、重码少、使用灵活方便等特点。由于需记忆的内容少、规律性强,编码方法简单、易掌握,将会受到更多的人青睐,因而有广泛应用范围和前景。
9.更接近人们书写汉字的习惯和汉字结构的客观特性,对人们正确、规范学习汉字是很有益处的。
10.规则严谨、简单,需记的内容少、有规律。
具体实施例方式
以下对本发明作进一步的详细描述本发明对汉字的拆分按以下规则顺序进行第一、按所拆出字根的数量的优先顺序拆分首先考虑将汉字拆分成三个字根简称“3”部件,其后的优先顺序依次为二个字根即“2”部件,四个字根即“4”部件,五个字根以上即“5”部件以上等;其次考虑将汉字拆分成三个字根加非字根笔画(或称剩余笔画)简称“3+1”部件,其后的优先顺序依次为二个字根加非字根笔画即“2+1”部件,四个字根加非字根笔画即“4+1”部件,五个字根以上加非字根笔画即“5+1”部件以上等;最后考虑将汉字拆分成一个字根加非字根笔画即“1+1”部件,一个字根(也就是该字本身)即“1”部件。
优先顺序的表示依次为“3”部件、“2”部件、“4”部件、“5”部件以上;“3+1”部件、“2+1”部件、“4+1”部件、“5+1”部件以上;“1+1”部件、“1”部件。
例如“略”拆为“田、夂、口”优先于拆为“田、各”;“压”拆为“厂、十、一、丶”优先于拆为“厂、土、丶”(“丶”为非字根笔画);第二、按字根相互位置关系优先顺序拆分离散关系字根与字根(或笔画)相互离散,且位置不相互包含称为离散关系。
相连关系字根与字根(或笔画)相连接,且位置不相互包含称为相连关系。
内外关系字根与字根(或笔画)内外相包含称为内外关系。
相交关系字根与字根(或笔画)相互交叉或空间位置相交叉称为相交关系。
优先顺序依次为离散关系、相连关系、内外关系、相交关系。
例如“胡”拆“十、口、月”正确,拆为“古、 二、”错误;“构”拆为“木、勹、厶”正确,拆为“十、八、勾”错误;第三、按字的客观性拆分在拆分字时尽量保持字的客观性和客观结构。
例如“兰”拆为“丷、一、二”正确,拆为“丷、二、一、”错误。
第四、按笔顺拆分字根间的书写笔顺不交叉的拆法优先。
例如“果”拆为“日、十、八”正确,拆为“口、一、木”和“甲、一、八”错误。
第五、内部拆空优先在拆内外结构的字或字根时,从外至内拆分,内部尽量拆空不留笔画或字根。
例如“相”拆为“木、口、二”正确,拆为“木、日、一”错误;“询”拆为“讠、勹、日”正确,拆为“讠、句、一”错误。
第六、按“后者优先”拆分“后者优先”就是优先拆分笔画靠后的部分。
例如“冒”拆为“日、口、二”正确,拆为“口、一、目”错误;第七、按“多笔画优先”拆分“多笔画优先”是前面的字根笔画多的拆法优先。
例如“泰”拆为“三、人、氺”正确,拆为“一、夫、氺”错误;第八、尽量减少非字根笔画数例如“币”拆为“巾、丿”正确,拆为“冂、丿丨”错误本发明所采用部首及编码为
以上59类部首编码中除“I、V、U”是人为规定的部首码以外,其他部首的编码均取自该部首名称拼音的首字母。
本发明所采用的未笔编码为
本发明将未笔编码分成13类,其未笔的编码均取自该未笔名称拼音的首字母。
本发明方法的汉字的编码由字音码、字根码、未笔码从左至右排列1至4个字母组成。字音码只有一个字母是必不可少的,排在字码最前(最左边)。字根码在字音码之后,一个字中的多字根码是按字根书写顺序从左至右排列,并称为第一个字根码至最后一个字根码。未笔码也只有一个字母,排在字根码之后,非字根笔画不参与编码。具体规则如下1.依据本发明拆字规则拆分出一个字根的字(简称“1”部件字)的编码由字音码+未笔码组成,例如“乡”字码为“XP”,键盘输入为“XP空格”。
2.依据本发明拆字规则拆分出一个字根加非字根笔画的字(简称“1+1”部件字)的编码由字音码+一个字根码+未笔码组成,例如“寸”拆为“一、亅丶”,未笔为点,字码为“CID”,键盘输入为“CID空格”,其中“亅丶”为非字根笔画。
3.依据本发明拆字规则拆分出二个字根、二个字根加非字根笔画的字(简称“2”、“2+1”部件字)的编码由字音码+第一个字根码+第二个字根码+未笔码组成,例如“申”拆为“口、十”,未笔为竖,字码为“SKVS”;“石”拆为“一、口、丿”,未笔为口字横,字码和键盘输入为“SIKK”,其中“丿”为非字根笔画。
4.依据本发明拆字规则拆分出三个字根、三个字根加非字根笔画的字(简称“3”、“3+1”部件字)的编码由字音码+第一个字根码+第二个字根码+第三个字根码组成。例如“特”拆为“牜、土、寸”,字码和键盘输入为“TNTC”;“老”拆为“十、一、匕、丿”,字码和键盘输入为“LVIB”,其中“丿”为非字根笔画。
5.依据本发明拆字规则拆分出四个字根以上、四个字根以上加非字根笔画的字(简称“4”、“4+1”部件以上字)的编码由字音码+第一个字根码+第二个字根码+最后一个字根码组成。例如“福”拆为“礻、一、口、田”,字码和键盘输入为“FSIT”;“豪”拆为“一、口、冖、豕、丶”,字码和键盘输入为“HIKS”,其中“丶”为非字根笔画。
6.字母字编码字母字是与26个字母一一对应的26个字(见字母字表)是同字音码中最常用的字,也可按规则编为多字母码。例如“国”字码为“G”,键盘输入为“G空格”。
本发明所采用的字母字为
字母字表

本发明词组编码规则如下1.两字词组首字字音码+首字第一个字根码(或未笔码)+第二字字音码+第二字第一根码(或未笔码)。
例如“现代”词中,“现”字中所拆出的第一个字根为“一”,其编码为“I”,“代”字中所拆出的第一个字根为“亻”,其编码为“R”,因此“现代”两字的词码为“XIDR”。
2.三字词组首字字音码+首字第一个字根码(或未笔码)+第二字字音码+第三字字音码。
例如“莫须有”三字中,“莫”字所拆出的第一个部首为草字头,其编码为“C”,因此“莫须有”三字的词码为“MCXY”。
3.四字及四字以上词组首字字音码+第二字字音码+第三字字音码+末字字音码。
例如“心花怒放”的词码为“XHNF”。“有志者事竟成”的词码为“YZZC”。
其实,本发明所述四字及四字以上词组的编码已经与汉语拼音编码的方式一致了。
本发明对多音字的处理多音字(或多音字根)有两种情况一种是读音不同,但字音码(或字根码)相同,这种情况对编码没影响,如“差cha、chai”字音码为“C”;另一种是读音不同,字音码(或字根码)也不相同,因而有两个以上字音码(或字根码),以下是这种多音字(或字根码)的编码规则1.对多音字(或字根码)取一个常用读音来确定字音码(或字根码)。
例如“红hong、gong”取“hong”确定字音码为“H”。
2.无法确定常用读音时,采取一字多码方案,也就是在一个字中,由多个字音码,或所拆出汉字或部首码排列组合成多个编码,即多音字可以有多个编码。
例如“行”的字音码是“X”和“H”,字码为“XRID”和“HRID”;“栎li、yue”字音码是“L”和“Y”,其字根“乐le、yue”字根码是“L”和“Y”,字码为“LVBL”、“LVBY”、“YVBL”和“YVBY”。
这种一字多码的字数量很少,对编码没有多大影响也不会给编码带来麻烦和过多的重码,反而在实际使用起来很方便,可以任选已知读音进行编码。
本发明汉字多音编码法可用于计算机汉字键盘输入、字典编写等方面。在用于计算机汉字键盘输入时,通过键盘设置和程序设计可以增加以下功能1.在键盘上设定“字根的数量的优先顺序”转换键F2、F3、F4、F5等,对应改变汉字拆分的优先顺序,并相应进行编码码元输入按动“F2”就可以将优先顺序改变为“2”部件、“3”部件、“4”部件、“5”部件以上;“2+1”部件、“3+1”部件、“4+1”部件、“5+1”部件以上;“1+1”部件、“1”部件。
按动“F3”就可以将优先顺序改变为“3”部件、“2”部件、“4”部件、“5”部件以上;“3+1”部件、“2+1”部件、“4+1”部件、“5+1”部件以上;“1+1”部件、“1”部件。
该顺序与前面的“汉字的拆分规则中的第一条中”顺序一致即标准顺序。
按动“F4”就可以将优先顺序改变为“4”部件、“2”部件、“3”部件、“5”部件以上;“4+1”部件、“2+1”部件、“3+1”部件、“5+1”部件以上;“1+1”部件、“1”部件。
采用这种编码输入方式可以有效解决以下问题(A)难拆的字例如“弹”按“3”部件为第一拆分优先顺序时,拆为“弓、丫、旦”,这时该字的编码为“DGED”,其中“丫”字较难拆出,而通过转换键F2改变“2”部件为第一拆分优先顺序时,拆为“弓、单”,其编码为“DGDS”,则容易得多。
(B)不知字根读音例如“健”按“3”部件为第一拆分优先顺序时,拆为“亻、聿、廴”,这时该字的编码为“JRLZ”,但有时往往不知“聿”的读音,可通过转换键F2改变“2”部件为第一拆分优先顺序,拆为“亻、建”,则很容易确定该字的编码为“JRJN”。
(C)提高编码输入速度把汉字按使用频率高低分成等级,采用三字母码输入,二字母码输入,甚至一字母码输入,很适合快速输入的需要。
2.由于字母“O”在编码中使用的很少,故在字母“O”键原有功能的基础上,设定“O”键为不确定编码替代键(万能键),该键可以代替任何不确定的字音码、所拆出汉字或部首码和未笔码,减少查找字的范围。如在拆分“蔑”字“艹、罒、戍”时,编码应为“MCSS”,但其中不知“戍”的读音,通过按动字母“O”键,输入编码“MCSO”,即可从中查选出“蔑”字。
3.设有常用生字读音表(约80个字),能方便、快速、准确地查找生字的读音。
4.设有部首和未笔编码表(59个部首+13个未笔),能方便、快速、准确地查找部首和未笔的(读音)编码。
权利要求
1.汉字多音编码输入方法,以字音码、字根码和未笔编码来组成编码码元,其中字音码是汉字的拼音首字母,字根是由1988年制定《现代汉语通用字表》中的汉字和本发明部首编码中所规定的部首组成,字根码是字根读音的首字母和U、I、V规定编码。其特征在于包括以下步骤(一)对汉字的拆分按以下规则顺序进行第一、按所拆出字根的数量的优先顺序拆分首先考虑将汉字拆分成三个字根简称“3”部件,其后的优先顺序依次为二个字根即“2”部件,四个字根即“4”部件,五个字根以上即“5”部件以上等;其次考虑将汉字拆分成三个字根加非字根笔画简称“3+1”部件,其后的优先顺序依次为二个字根加非字根笔画即“2+1”部件,四个字根加非字根笔画即“4+1”部件,五个字根以上加非字根笔画即“5+1”部件以上等;最后考虑将汉字拆分成一个字根加非字根笔画即“1+1”部件,一个字根(也就是该字本身)即“1”部件。优先顺序的表示依次为“3”部件、“2”部件、“4”部件、“5”部件以上;“3+1”部件、“2+1”部件、“4+1”部件、“5+1”部件以上;“1+1”部件、“1”部件。在键盘上设定转换键可改变汉字拆分的优先顺序。第二、按字根相互位置关系优先顺序拆分,优先顺序依次为离散关系、相连关系、内外关系、相交关系。第三、在拆分字时尽量保持字的客观性和客观结构。第四、字根间的书写笔顺不交叉的拆法优先。第五、在拆内外结构的字或字根时,从外至内拆分,内部尽量拆空不留笔画或字根。第六、优先拆分笔画靠后的部分第七、前面的字根笔画多的拆法优先。第八、尽量减少非字根笔画数部首编码 (二)汉字的编码由字音码、字根码、未笔码从左至右排列1至4个字母组成。字音码只有一个字母是必不可少的,排在字码最前(最左边)。字根码在字音码之后,一个字中的多字根码是按字根书写顺序从左至右排列,并称为第一个字根码至最后一个字根码。未笔码也只有一个字母,排在字根码之后,非字根笔画不参与编码。具体规则如下A.拆分出一个字根的字(简称“1”部件字)的编码字音码+未笔码+空格;B.拆分出一个字根加非字根结构的字(简称“1+1”部件字)的编码字音码+一个字根码+未笔码+空格;C.拆分出二个字根、二个字根加非字根结构的字(简称“2”、“2+1”部件字)的编码字音码+第一个字根码+第二个字根码+未笔码;D.拆分出三个字根、三个字根加非字根结构的字(简称“3”、“3+1”部件字)的编码字音码+第一个字根码+第二个字根码+第三个字根码;E.拆分出四个字根以上、四个字根以上加非字根结构的字(简称“4”、“4+1”部件以上字)的编码字音码+第一个字根码+第二个字根码+最后一个字根码;F.字母字编码是与26个字母一一对应(见字母字表),是同字音码中最常用的字,其编码是字音码+空格。未笔编码
字母字表
(三)词组编码规则如下A.两字词组首字字音码+首字第一个字根码(或未笔码)+第二字字音码+第二字第一根码(或未笔码);B.三字词组首字字音码+首字第一个字根码(或未笔码)+第二字字音码+第三字字音码;C.四字及四字以上词组首字字音码+第二字字音码+第三字字音码+末字字音码。
2.根据权利要求1所述的汉字多音编码输入方法,其特征在于按汉字所拆出字根的数量的优先顺序拆分,优先顺序是首先是三个字根、二字根、四字根、五字根以上;其次是三个字根加非字根笔画、二字根加非字根笔画、四字根以上加非字根笔画;最后是一字根加非字根笔画、一字根。
3.根据权利要求1所述的汉字多音编码输入方法,其特征在于只有字音码、字根码、未笔码参与编码,非字根笔画不参与编码。
4.根据权利要求1所述的汉字多音编码输入方法,其特征在于独特的13类未笔编码。
5.根据权利要求1或2所述的汉字多音编码输入方法,其特征在于在键盘上设定汉字拆分优先顺序转换键,对应改变汉字拆分的优先顺序。
6.根据权利要求1或2所述的汉字多音编码输入方法,其特征在于所拆分出的汉字应是《现代汉语通用字表》中的字。
7,根据权利要求1所述的汉字多音编码输入方法,其特征在于59类部首及编码,拼音首字母相同的汉字中最常用的字与键盘上26个字母键对应关系。
全文摘要
汉字多音编码输入方法,适用于计算机或类似设备的汉字输入,按所拆出字根的数量的优先顺序为首要规则拆分汉字,以汉字拼音首字母、所拆出汉字的拼音首字母、所拆出部首的编码及未笔编码作为编码码元,所拆出的非字根笔画不作为编码码元。每个汉字以其拼音的首字母和最多三个拆分出的汉字拼音首字母或部首编码或未笔编码构成的输入键组成。部首及未笔编码大多采用其名称读音的首字母,记忆起来十分方便,独特的未笔码方案,有效地减少重码,设有拆字结构优先顺序转换键,可以适应多种拆字方式,拆字更容易、更快捷,规则严谨、简单,易记易学,输入速度快,灵活方便,重码率低。
文档编号G06F3/023GK1815421SQ20061001848
公开日2006年8月9日 申请日期2006年3月7日 优先权日2006年3月7日
发明者彭全 申请人:彭全
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1