汉字编码输入法

文档序号:8527856阅读:1999来源:国知局
汉字编码输入法
【技术领域】
[0001] 本发明涉及一种计算机汉字输入方法,尤其涉及一种计算机汉字编码输入法。
【背景技术】
[0002] 目前,计算机汉字输入方法主要分为两种:一种是基于光学字符识别(OCR)技术 的汉字输入法,另一种是基于键盘编码技术的汉字输入法。二十多年来,计算机汉字输入领 域涌现出了数百种汉字编码输入法,极大地推动了我国中文信息处理领域的发展。但是现 有的汉字编码输入法均存在一定的弊端,并未达到令人非常满意的水平。
[0003] 众所周知,汉字是"音形义"三位一体的书面语单位。"音"和"形"是形式,"义"是 内容,因此,汉字编码输入法主要分为音码、形码、形音码和音形码。
[0004] 1、现有的基于音码的汉字编码输入法,大多只利用了汉字的语音信息,是目前用 户使用较多的一种汉字输入法。尽管基于音码的汉字输入法具有容易学习、记忆负担较轻 的优点,但是同时存在着重码字过多的严重缺点。造成此缺点的原因主要是因为汉语中的 同音字太多,有些音节具有一百多个同音字。《现代汉语通用字表》的7000字之中,仅仅音 "ji"的同音字就有117个,音节"yi"的同音字就有118个。由于用户在使用基于音码的 汉字输入法时,屏幕上的选字提示栏一次最多显示10个字,选定一个字要多次翻页,造成 用户体验极差。常用的全拼输入法中输入一个字时击键可能多达6次,如"装Zhuang、窗 Chuang、双Shuang",输入效率过低。而常见的双拼输入法,其特点是输入汉字拼音时可以 使用"元音字母"来代替"声母Zh、Ch、Sh",并且用"辅音字母"来代替众多"复合韵母ai、 ao、ei、ou、an、en、in、un、ang、eng、ing、ong"等。但是这种毫无理据的任意性规定,极大 地增加了初级用户记忆负担。
[0005] 2、现有的基于形码的汉字输入法,大多只利用了汉字的字形信息,其主要代表之 一是五笔字型。形码将汉字的上百个"部件"称为字根或字元,根据有理规则或无理规则将 字根分配到26个键位上。但是基于形码的汉字输入法适用于经过长期严格训练的专业打 字员,而初级用户在学习时记忆负担很极重,并不适用于广大的普通用户。
[0006] 另外,现有的基于形码的汉字输入法的设计者在设计时,存在如下两个认识误 区:
[0007] (1)混淆了"构字法"和"辩字法",过多地选用了"字根"。研宄"构字法"就必然 要研宄数以百计的"字根",但汉字输入技术却只需要研宄"辨字法",即把所输入汉字从"字 库"中"分辨"出来。研宄"构字法"必然要把"广"和"疒"作为两种"字根",但是研宄"辩 字法"的方案若规定"头码"只取头三笔,则"疒"的头三笔就是"广",当然就只能算一个"字 素"。只要能简便地把所输入汉字从字库中"分辨"出来,"字素"越少越容易学。
[0008] (2)过分地追求"低重码率",甚至追求"零重码率"。但是经实际使用证明,为了 "辨辩辫瓣"这四个字而增加识别码的方法是得不偿失的。只要键入一个输入码时出现的同 码字不超过八个,用户在移动终端既不需要翻页,又能在提示栏上一目了然的直接观察选 取,极大地提高了用户的使用体验。
[0009] 3、现有的基于形音码的汉字输入法,既利用了汉字的字形信息,同时利用了汉字 的语音信息,是汉字输入技术的一个进步。起初,只是把一个音码作为一种特殊的识别码 放在形码之后,然后逐渐发展成汉字输入法的一种,有代表性的为已获专利权的键书输入 法。但这种基于形音字的汉字输入法,存在以下不足之处是:
[0010] (1)沿袭了形码的字元太多的缺点;
[0011] (2)把形码放在首位,让多字词语的输入码跟该词语的拼音缩写不一致。例如,虽 然看起来"弓长张、木子李"的说法跟"张弓长、李木子"的说法没有多大区别,但对于使用者 使用习惯而言区别很大。以四字成语"张冠李戴"的输入作为一个例子,若用"形音码"来 输入是"GBMT(弓一木土)",用"音形码"来输入就是"ZGLD (张冠李戴)"。
[0012] 4、现有的基于音形码的汉字输入法既利用了汉字的语音信息,也利用了汉字的字 形信息,并且因为把音码放在首位,使得多字词语的输入码跟该词语的拼音缩写保持一致。 但现有的基于音形码由于沿袭了形码的字元太多的缺点,使音形码的实用受到很大的限 制。

【发明内容】

[0013] 本发明的目的是提供一种基于形码的汉字编码输入法,能够克服现有汉字输入法 的多种弊端,能够按照规范的笔画序将待输入汉字拆分为横向结构、竖向结构、包围结构或 整体结构,再形成数量不多于四个的构件表示,最后利用键盘上对应设置的数字码键进行 输入,具有代码最少、学习难度小、快速准确的优点,特别适用于手机输入。
[0014] 本发明采用下述技术方案:
[0015] 汉字编码输入法,其特征在于:将设定的单码构件分别设置于键盘的数字码键上, 直接通过按键输入与汉字构件对应的一个或多个数字码键,实现汉字的输入;
[0016] 构件是指固定的汉字、笔画或笔画组合;单码构件是指下面列举的与键盘的数字 码键所对应的汉字、笔画或笔画组合,双码构件是指由两个单码构件所组成的汉字、笔画 或笔画组合;复合构件是指由单码构件、双码构件或三码以上构件组成的汉字、笔画或笔画 组合;
[0017] 所述的单码构件与计算机标准键盘的数字码键的对应关系如下:
[0018] 数字码键1对应的单码构件为"一、二、工、厂、王、丁、于、尸、主";
[0019] 数字码键2对应的单码构件为"上、止、小、巾、山、丨、1-对、M/、门、木";
[0020] 数字码键3对应的单码构件为" j、儿、千、九、几、月、j、//、厂、勹、:!
[0021] 数字码键4对应的单码构件为"门、心、、、'?、,、、、、"、7、~";
[0022] 数字码键5对应的单码构件为"乙、女、又、已、了、刁、彐、乡、卩、1_、L、3、<、 3";
[0023] 数字码键6对应的单码构件为"六、文、广、、i_";
[0024]数字码键7对应的单码构件为"七、车、火、C、廿、、z、廿、升、夂";
[0025] 数字码键8对应的单码构件为"八、乂、入、人、个、彳、〃、乂";
[0026]数字码键9对应的单码构件为"土、士、十、t、少";
[0027] 数字码键0对应的单码构件为"口、日、中、口";
[0028] 在输入汉字时,汉字的编码码长最长为4码,其编码规则如下:
[0029] 首先,按照规范书写的笔画序,根据组成待输入汉字的若干个构件的排列形式,将 待输入汉字分为横向结构汉字、竖向结构汉字、包围结构汉字或整体结构汉字;
[0030] 在待输入汉字为横向结构汉字时,首先将待输入汉字的首个复合构件作为左部, 将待输入汉字的剩余部分作为右部;然后按照规范书写的笔画序对待输入汉字的左部和右 部进行拆分,将左部和右部均拆分为一个单码构件和/或多个单码构件和/或由多个单码 构件组成的整体结构;最后先后取左部和右部所包含的全部单码构件所对应的数字码键, 多个单码构件组成的整体结构视为一个单码构件并取此整体结构中首个单码构件所对应 的数字码键;
[0031] 其中,若左部所包含的全部单码构件的数量大于等于2,则只取左部所包含的前两 个单码构件所对应的数字码键;若右部所包含的全部单码构件的数量大于等于3,此时若 左部仅包含一个单码构件,则右部取前三个单码构件所对应的数字码键;若左部包含两个 单码构件,则右部取前两个单码构件所对应的数字码键;
[0032] 在待输入汉字为竖向结构汉字时,首先将待输入汉字的首个复合构件作为上部, 将待输入汉字的剩余部分作为下部;然后按照规范书写的笔画序对待输入汉字的上部和下 部进行拆分,将上部和下部均拆分为一个单码构件和/或多个单码构件和/或由多个单码 构件组成的整体结构;最后先后取上部和下部所包含的全部单码构件所对应的数字码键, 多个单码构件组成的整体结构视为一个单码构件并取此整体结构中首个单码构件所对应 的数字码键;
[0033] 其中,若上部所包含的全部单码构件的数量大于等于2,则只取上部所包含的前两 个单码构件所对应的数字码键;若下部所
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1