分层首拼编码法

文档序号：8412110阅读：590来源：国知局

分层首拼编码法
【技术领域】
[0001]本公开涉及汉语字、词、句分层首拼编码法，可广泛应用于中文电脑(含手机等智能设备)输入、中文检索等领域。
【背景技术】
[0002]目前汉语智能化编码技术一直是个难题，虽然已有五笔编码法，但五笔也存在字根复杂、难记，字难拆、拆样多、大规模推广难等缺点，汉语拼音方案虽然简单，但重码太多，编码效率低，此处，还有类似的智能ABC输入法，也是重码率高。而且，以前的编码法只是主要针对字和简单的二字、至四字词进行编码，还没有一个编码技术可以对很长的一段句子进行编码。因此，还是需要一种方法能解决以上问题。
[0003]汉语字、词、句分层首拼编码法(以下简称分层首拼编码法)设计可以解决汉字输入难、效率低、重码率高、字根难记等的缺点。她的出现预计是我国汉字自电脑、手机、平板等智能终端出现以来汉字编码输入领域一场新的革命，是首次实现字、词、句统一进行编码，是首次实现中英文输入不用依赖ctrl+shift即可进行切换，是首次实现数字0~9也可用字母键进行输入，通过分层首拼编码法的学习与撑握，还可加深对我国汉字本质的理解，通过拆分汉字认识字根的发音来了解我国汉字是怎么来的，能够更好地撑握中国汉字构造规律，也加深对中国传统文化的了解。

【发明内容】

[0004]分层首拼编码法。
[0005]分层首拼编码法是依据人的语言发音特点、结合汉字构造原理和汉字来历而设计，以汉语拼音为基础，取汉字及其拆分的字根汉语拼音首字母(以下简称首拼)组合而成，只要撑握汉字及字根的音，即可学会本输入法，所谓音，即语言，而语言是与生俱来的，本说明书具体讲就是汉语拼音，而汉语拼音在我国汉语教学中是必修课，这就决定了分层首拼编码法具有广泛推广的基础，加上其有简单易学易记的特点，因而适合在中小学生中推广。
[0006]分层首拼编码法对于初学者的要求是撑握基本汉字及字根的首拼，比准确掌握全部汉语拼音的发音要求还要低，例如，很多人不大会区别声母“s”和“sh”(对应的汉字有“三”和“山”)，分层首拼编码法统一其首拼皆为“S”，足见本编码法的简单吧；分层首拼编码法还具有学习功能，当遇到有不认识的汉字或字根而不知道其首拼时，对于单个字或字根，可直接从第2层开始输入，由于编程时可做到每个汉字或字根上屏前皆附有其全拼发音，故可通过打字来认识汉字、学习汉字。
[0007]分层首拼编码法不仅仅限于字的编码，还可实现二字词及以上词语、句子的编码，理论上可实现任意长度的句子(可理解为一句话、甚至一段文章)的编码，且可实现无重码。
[0008]分层首拼编码法可实现汉字输入高速、高效，能大大提高汉字输入速度，因而也适合专业打字员盲打。
[0009]分层首拼编码法编码方案都是围绕取汉字或字根发音的首拼展开，因而简单易学，无须像五笔那样需要记忆复杂的字根在键盘的哪个键上，只需记住附图1、图2、图3、图4中汉字或字根的发音首拼字母即可，而字母在键上的位置是固定的，因而不用记汉字或字根在键盘的哪个键上，只记住首拼便可打字，非常适合普通人员打字输入。适合在大众中推广，社会价值高。
[0010]分层首拼编码法使用的是标准键盘(中文与英文通用键盘)，通过V键可实现中英文输入切换，不用依赖ctrl+shift即可进行切换，通过i键实现数字0~9也可用字母键进行输入，即当输入i切到数字功能时，ο代表0，y代表1，e代表2，s代表3，f (four是英文4的读音)代表4，w代表5，I代表6，q代表7，b代表8，j代表9 (注:0yeSfVlqbj为对应0~9的首拼)。
[0011]分层首拼编码法是以简体中文为输入对象，由于简体字与繁体字发音没有变化，字根书写虽有一些变化，但基本字根没有变，因而同样适用繁体字。
[0012]分层首拼编码法基本要求学习者对汉字要有正确的发音，至少应知道首拼。这样会加速学习者对我国汉字的认识，因而是有利于汉字普通话的推广。能促进提高学习者识字水平，特别适合在中小学学生中推广。
[0013]分层首拼编码法引入“层”的概念，即字、词、句在没有拆分前取其首拼的字母皆归为第I层；字、词、句首次一拆为三后的汉字或字根首拼皆归为第2层，同样，字、词、句2次拆分后的字根首拼皆归为第3层，依次同理，字、词、句η-1次拆分后的字根首拼皆归为第η层。汉字拆分的终点是第η层字根皆由单笔画字根组成。可实现字、词、句编码无重码。
[0014]分层首拼编码法汉字拆分规则相当简单，只需记住口诀可改笔顺、取多优先、一拆为三、若拆多三，取首次末”，比起五笔复杂的拆分方案要简单的多。
[0015]可改笔顺、取多优先指汉字拆分时，不必按照书写顺序拆分汉字，要取最多的笔画，即使不是连续的笔顺也可组成字根，本规则自始至终会体现在任何一级字或字根拆分上面，包括首位字根，次位字根，末位字根(简称首次末)等等。例如目”字，正确应拆为“口一一”，而不是“门二一”。又如国”正确的拆分应是“口王点”。
[0016]所谓一拆为三、若拆多三，取首次末，即指任一大于或等于3画的汉字或字根一定要拆为三部分，这是最高的优先级(当汉字或字根只有2画时拆成2部分，只有I画时拆成I部分)。若拆分字根总数大于3个时，只需取首次末字根编码即可，不必每个字根都要入编码。
[0017]—拆为三规则的优先级高于取多优先规则，两者有矛盾时，要首先满足一拆为三规则。
[0018]分层首拼编码法以汉语拼音为基础，取每一个汉字首拼。此外，需要熟记图1、图2、图3、图4中汉字或字根的发音以及首拼(这部分属于本编码方案发明创造的，需要熟记)。这些汉字或字根都是本编码法的基础。有了这些基础后，分层首拼编码法中字、词、句及其拆分字根的编码就是由这些首拼组合而成。
[0019]依据分层首拼编码法形成的编码可叫做分层首拼码或许码，许码对于字、词、句而言，可分为有效长码和最大长码；其中最大长码是依据本编码规则对汉字进行拆分到底的长码；有效长码长度是不确定的，有效长码以实现输入时无重码时的长度为有效长码，在设计有效长码时，可将高频汉字有效长码尽量短，低频汉字有效长码加长。
[0020]附加层码:为了防止以上规则全部用完后仍有重码的情况发生，取oyesfVlqbj(注:oyesfwlqbj为对应0~9的首拼)任意字母附加在以上最大长码或有效长码后面(仅当按以上规则输入出现重码时选用)。
[0021]单字最大长码=第I层首拼码+第2层首拼码+…+第η层首拼码+附加层码=1+3+9+…+3(η-1) +1。
[0022]词或句子(设由m个单字组成)最大长码=m (第I层首拼码+第2层首拼码+...+第η层首拼码+附加层码)=m (1+3+9+…+3 (η-1) +1)。
[0023]单个汉字编码:分层首拼编码法对单个汉字编码时，第I层首拼码只有I个；第二层一拆为三，即三个首拼码；第三层，又进行一拆为三，共得九个首拼码；依次类推。
[0024]词、句编码:是属于单个汉字组合分层编码问题，本发明编码规则是每一层皆按先组合后拆分的顺序编码(以下简称先组后拆)。比如:二字词语“ΧΥ”(假设其许码分别为abcd，AB⑶，那么，第I层组合首拼码就为aA，第二层先组后拆字根(首首次次末末)首拼码就为bBcCdD，二字词总的编码为aAbBcCdD (简称组合许码)。为何要先组合呢，是因为这样组合交替输入，有效避免了字与词之间的重码问题。实际输入时不必要输入8位，可减少码长，提高输入速度。具体可参见图5:汉字和词语拆分举例；图6:典型汉字一拆为三的拆分方法。
[0025]分层首拼编码法可用于中文汉字检索，以现代汉语词典为例，目前有汉语拼音检字方案和部首检字方案，以分层首拼编码法为基础的检字法可看作汉语拼音检字方案和部首检字方案的优化。具体如下:词典名称可叫“汉语分层首拼编码词典”，分为两部分，第一部分为无I许码检字表(无I许码，故名字义，即许码是从第2层开始的按照分层首拼规则形成，去掉了第I层码，即无I许码)，无I许码以英文字母顺序排列汉字或字根，这样可从该检字表直接查到该汉字在正文中的位置页码，那么，为何要从第2层开始呢，因为考虑到有些汉字我们不认识，不知其发音，如果从第I层开始的编码排序，则无从查起，从第2层开始的排序方案，有助于查字过程中认识汉字，也达到了查字的目的；第二部分(即词典正文)，汉字或字根排列顺序按许码英文字母顺序排列汉字。如果知道汉字或字根的发音，则可直接跳过无I许码检字表，直接在正文部分查找汉字或字根

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许晓敏;
技术所有人：许晓敏;
我是此专利的发明人

上一篇：一种确定候选词条的可选择区域的方法与装置的制造方法
上一篇：一种手写字符的处理方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。