一种查字打字同码输入法及其输入装置和应用的制作方法

文档序号:6563818阅读:303来源:国知局
专利名称:一种查字打字同码输入法及其输入装置和应用的制作方法
技术领域
本发明涉及一种査字打字同码输入法及其输入装置和应用,属计算机和 数字化键盘汉字编码技术。二、 背景技术目前对电脑汉字录入的研究,有人从代码的优化着手,有人从手写识别 终端设备着手,有人从语音识别着手,这些研究都是必要的,也都对改进和 普及电脑汉字录入曾经发挥了且正在发挥着重要的作用。这些各自独立的研 究成果分别适合于使用电脑的不同群体。但是,目前,有一部分人认为,随着ocr技术的出现和不断改进以及手 写识别终端设备的改进,代码输入已不重要,加上已投入使用的输入法达千 余种,没有必要再进行新输入法的研究。不过根据笔者研究汉字录入的体会,认为就用电脑撰写稿件来说,绝大 多数人是用代码输入,代码输入研究仍大有可为,其理由在于从适用于大多数人电脑汉字录入的角度来看,笔者认为今后电脑汉字录 入的主攻方向是把代码优化研究和手写识别研究结合起来,寻求一种键位 代码输入和手写输入都适用的简便易学好用的方案。也就是说手写并不限于 汉字整字书写,它也可以是代码。这一研究主攻方向的基本思路是手写输 入和键位代码输入用同一套简便易学好用的方案。手写输入还是键位代码输 入由使用者自由选择。习惯边手写边思考或手指不灵巧的用手写输入,习惯 边击键边思考或手指灵巧的用键位代码输入。笔者提出今后电脑汉字录入的主攻方向是"把代码优化研究和手写识别 研究结合起来"的观点是基于以下考虑1.上述思路用于手写输入则可能比整字手写输入更优越,其理由有四(1) 、我们首先应该承认下面的事实,即一部分人之所以不用键位代码 输入而采用整字手写输入的主要原因不在于键位代码输入方案难学,而是在 于或是习惯于边手写边思考;或是手指不灵巧,用手指击键输入还不如用 手写板方便快捷;或是觉得自己所了解的键位代码输入方案不甚好用,还不 如用手写板方便;或是这三方面原因兼而有之。基于这一事实,只要我们能 创设出一套易学的手写输入和键位代码输入都觉得好用的代码方案来,则无 论习惯于手写输入还是习惯于键位代码输入都会采用该方案。甚至可能会由 习惯手写输入改为键位代码输入。(2) 、手写用代码输入可完全解决识别率的问题。因为一套好学实用的 代码,甚至可以说任何一套能用的代码,其代码符号数量都会控制在100以内,几十个代码符号很容易解决识别率问题,何况有现成的计算机早已识别的阿拉伯数字和汉语拼音字母(即26个英文字母)用来做代码符号。(3) 、比整字手写输入可以提高输入速度。手写汉字全形输入,虽然不 用键位代码,可以像英文输入一样怎么写就怎么输入。不过,即使姑且不论 目前技术尚不成熟、存在识别率低的问题,即假设其终端识别设备对行书甚 至草书辨认的准确率达100%,由于各个汉字的笔划数不等,最少的只有一笔, 最多的有30笔以上,静态汉字平均笔划数为10.98;动态汉字平均笔划数为 7.30。而好的代码方案,加之采用"句段输入",用两个代码(即击键两次)就 可输入一个汉字,因而整字输入与代码输入相比有一个录入速度慢的致命缺 陷。现行汉字整字输入太慢(笔者试过,在纸上用行书体手写汉字每分钟大 都在30字左右,很难超过40字,在手写板上更慢,)。这就是说要想"不用 键位代码像英文输入一样怎么写就怎么输入"。再由手写识别终端设备辨识确 认录入汉字,其录入速度一般要慢于目前通用的使用代码的各种输入法,而 若录入速度要慢于目前通用的各种代码输入法肯定不会被广泛采用。(4) 、手写输入在修改文稿时不如代码输入方便。2、 根据手机输入的主流是代码输入及手机在我国已经普及、使用电脑的 人几乎都使用手机的事实,笔者认为本来电脑的汉字录入和手机的汉字录入 二者相通,二者可以通用,至少前两码应该相同。这样人们在使用手机和使 用电脑实质上不需掌握两种差异很大的输入法。也就是说,从输入法应对电 脑的汉字录入和手机的汉字录入作通盘考虑、使二者可以通用的角度说,电 脑汉字录入的主流应该是代码输入。3、 据有关资料介绍,目前,中国近5亿部手机中的汉字输入法,90%的 市场份额被国外企业割占,国产手机生产企业每年为此支付近百亿元的专利 费。而且目前国产汉字输入法软件同国外企业我国手机市场上现有的三大主 流手机输入法-T9、字能和iTAP-相比仍存在诸多不足。目前我国政府明确力 挺自主研发汉字输入法技术。如果能针对目前的手机键盘提出一种好用的输 入法其商业价值非常大。此外,信产部相关官员也指出,除了技术和市场问 题,手机汉字输入法也与国家信息安全相关从这个角度说,如果能研究出一 种能在电脑和手机通用又十分好用的代码输入法,既可为国家增光,又具有 非常大的商业价值。4、 具体就代码输入来说,虽说是万"码"奔腾,各种代码输入法分别适 合一部分特定的人群使用,具体到目前较为通用的某一种输入法都有优点也 有弊端。目前的代码输入法总体上存在如下缺陷(1)以往编码理论都以重码为弊,追求"一码一字, 一字一码",以无重码为最高目标(纯音码无法避免重码是另一回事)。大多形码方案和音形码 方案的编码都尽力避免重码。如"五笔输入法"中的字型区别码和个别字的 末笔码为区别码"L",都是了避免重码。笔者认为应该反弹琵琶有意利用重 码,并使其保持在一个适当的"度"的范围内。借此减少码长并保证单字码长相等。把其做为保证各个字(词)码长短而相等的一个主要手段。(2) 目前通用电脑的输入法的选字键都是由键盘上方的数字键和空格键 担当,导致手指移动范围大,不甚适合盲打。笔者认为,有必要设计一种方案,让字母ii位增加选字(词)功能,使选字(词)键位下移,选字键位全 由字母键位和空格键担当,借此提高打字速度。(3) 目前较通用的输入法大都有一个庞大而固定的的字库、词语库,从 输入法系统本身的角度说,庞大而固定的字库、词语库,不但耗费大量的系 统资源,而且编码时面临两难的选择,要减少甚至避免重码,就要增加码长, 要减少码长就要增加重码,导致使用起来很不方便。从用户的角度说,我们 知道每个人都有自己的用字集和用字特点,尽管汉字总数有几万个,但每个 具体的用户所用汉字和符号一般都在三、四千内(据统计,《毛泽东选集》(l-4 巻)只用了 2900多个不同的汉字,《鲁迅全集》只用了 3100多个不同的汉字), 不同的用户面对这庞大而固定的字库、词语库, 一方面每个具体的用户大部 分都用不着这样庞大而臃肿的字库、词语库,另一方面任何字库词语库无论 收入多少字词句都不能覆盖全体用户所用词汇。因此,对于字库、词语库建 设的最佳选择是变建庞大而固定的字库词语库为建个性化的字库、词语库。(4) 目前用于电脑的通用输入法大都未对电脑的汉字录入和手机的汉字 录入作通盘考虑。本来电脑的汉字录入和手机的汉字录入二者相通,二者可 以通用,至少应该前两码相同。另外,笔者在査字和电脑打字实践中深感目前通用的各种査字法既有优 点又有缺点,如音序法査认识的字可直接翻页选字速度快,但把多音字分列 两处、不知声调的字难査、不认识的字没法査;部首法能査不认识的字但速 度慢且有时数不准笔画。使用电脑过程中,电脑打字和电脑査字未融合在一 起,本来,纸质字典、电子字典、电脑打字三者相通,完全可以用同一种编 码方案,让打字程序既具有打字功能又具有査字学字功能,浏览网页和打字 时遇到生字新词,用打字程序就可査字,不必再启用查字程序。三、发明内容基于上述认识,以及为了改进己有技术存在的缺陷,本发明提供了一种 新型的査字打字同码输入法及其输入装置和应用,设计一种部首音形结合码 査字打字法,其基本思路是(1) 将汉字査字法与电脑及手机汉字输入用同一种编码方案,会査字就 会打字,会打字就会査字,消除目前各种纯音码方案不适合不懂普通话的人 使用和不能录入不认识字的缺点;(2) 将汉字输入法由单一的打字功能变为既能打字又可学字的双重功 能,打字的同时可以学字。(3) 将目前仅用于电脑的电子字典或电子词典用于手机,手机增加字典功能。具体技术方案表述如下 一种査字打字同码输入法,特点是,本发明依据字典査字通用部首,把34个不成字部首归类为5种基本笔画, 把173个成字部首按读音首字母归类为20种读音首字母,设置个性化字词库。 为汉字录入设计四种具体编码方案供人们选用,《方案一》为简体中文版,编 码所依据字形为简体字;《方案二》为繁体中文版,编码所依据字形为繁体字。 《方案一》和《方案二》只适合用于电脑。打字时均采用"句段录入"(与"微 软拼音输入法相似)。《方案三》为简体中文版,编码所依据字形为简体字;《方 案四》为繁体中文版,编码所依据字形为繁体字。《方案三》和《方案四》均 既可用于电脑,又可用直接用于手机的汉字录入。《方案一》和《方案二》一 字两码,每码确定该字的一个部首的读音首字母或一个基本笔画;《方案三》 和《方案四》 一字三码,第一、二码与《方案一》和《方案二》的编码规则 相同,第三码是每码确定该字的一个成字部首的首笔画或一个基本笔画。另 外,《方案一》和《方案三》均既可用于电脑打字又可用于电子字典和纸质字 典的査字。其编码规则如下(1) 按成字部首读音首字母及非成字部首首笔画编码;(2) 每字最多三码,第一二码,成字部首取读音首字母码,不成字构件 取首笔笔画码,第三码均取笔画码;第三码或为显性码或为隐性码,为显性码时,主要用于手机及其他数字 键盘的汉字录入;为隐性码时,主要用于查字和电脑的汉字录入;(3) 编码时首先把汉字分为独体字和合体字两类,再按下列规则编码(3.1) 独体字取码规则(3.1.1) 成字部首独体字-第一码为成字部首读音首字母,第二码仍为成字部首读音首字母;第三码成字部首首笔笔画,第三码按其首笔画"一""I" " j ""、"""" 分别对应编码为"1""2" "3""4"" 5"。(3.1.2) 非成字部首独体字第一码首笔笔画,第二码次笔笔画,第三码为第三笔笔画,第三码按其 首笔画"一""I " " j ""、"","分别对应编码为"6" "7" "8" "9"" 0"。(3.2) 合体字编码规则(3.2.1)两半中均为成字部首或两笔以上非成字部首各自独占一半的 一第一码为独占一半的前半成字部首读音首字母或两笔以上非成字部首首 笔画;一第二码为独占一半的后半成字部首读音首字母或两笔以上非成字部首首 笔画;第三码根据第二码取码,第二码是成字部首的,取成字部首首笔笔画,按其成字部首的首笔笔画"一""I" " j ""、""""分别对应编码为"1" "2" "3" "4" " 5"。第二码是两笔以上非成字部首首笔 画的,取该半次笔笔画,按其笔画"一""1""〗""、""""分 别对应编码为"6""7" "8""9"" 0"。(3. 2. 2)两半中有一个成字部首或两笔以上非成字部首独占一半的 第一码为独占一半的前半(后半)成字部首读音首字母(两笔以上非成 字部首首笔画);第二码(a)另一半只有一笔的,取该笔笔画码,(b)另一半中有成字 部首构件位于该半前一部分后一部分的,取成字部首读音首字母码,否则则 取该半首笔码(注意成字部首构件位于该半中间的,亦取该半首笔码)。第三码根据第二码取码,第二码是成字部首的,取其第二码成字部首的 首笔笔画,按其成字部首的首笔笔画"一""1 ""J "" 、 " 编码为"6""7" "8""9"" 0"。第二码是取笔画码的,取余下部分首笔笔画,按其笔画"一""I" " j " " 、 " 分别对应编码 为w,,",, "s,,'T o,,。(3. 2. 3)两半都不是成字部首或两笔以上非成字部首的各自独占一半的,按笔顺取第一二码;第一码取前半的首笔画,第二码取后半的首笔画,第三码取后半的次笔笔画(后半只有一笔的,第三码与第二码同),按其笔画 "一""I " "、""""分别对应编码为"6" "7" "8" "9""0"。(3.2.4)特殊部首字所属字的编码规则特殊部首字所属字的定义按编码规则其首码其为特殊部首的, 特殊部首字所属字的编码规则首码为特殊部首码;第二码据去掉部首后余下字形依一般字编码规则取码;第三码取码规则a. 第二码是成字部首的,取其第二码成字部首的首笔笔画。按其成字部 首的首笔笔画"一""I" " j ""、"编码为"1" "2" "3" 4 ,,w 5 ,,b. 第二码是取笔画码的,取余下部分首笔笔画。按其笔画"一""I " "j""、""""分别对应编码为"i""2" "3""4" "5"。c.后半只有一笔的,按其第二码笔画"一""I" " j ""、" 分别对应编码为"1""2" "3""4"" 5";(4)高频字(包括",。/;"四个标点)编码规则 分别将30个一级重码字组(第一码相同字的集合组成一个一级重码字组) 中使用频率最高的前ll个高频字的尾码分别编为空格键、a、 e、 u、 i、 o、 v、 ",,,、"。"、"/"、";",高频字击键两次便可输入;为了有规律的记忆或寻找各个高频字所对应的键位,特规定每个一级重码字组中使用频率最高的最高的3个字分别对应空格、a和";"键,其他字按第一码的首笔画"一 I j 、""的顺序排列,第一码首笔画相同的按使用 频率高低的顺序排列。特别规定"纟山竹言(包括"i ") 1^十木人(包括"")水(包括 " ")净^月鱼酉"15个部首各自所属的8个高频字按去掉部首后剩余部分 的首笔画"一 I j 、""的顺序排列,其中属成字部首的高频字,即去掉部 首无剩余笔画的,排在有剩余笔画高频字的前面;",。/; " 4个最常用标点的编码分别为",,"、"。。""〃"";;"; 为了保证330个高频字中排序在前200的高频字原则上都包括在内,可 作如下特殊规定把首码分别为"h、 d、 1"的高频字各选10个将其首码分 别编为"a 、 o、 /"把首码分别为"f、 v"的高频字各选8个将其首码分别 编为"e、 n"。(5)多字词语编码规则三字以上词语的录入,按一字一码的简码录入,编码规则如下(5.1) 运用"三字以上词语简码编码功能键"(f3、 f4、 f5、 f6、 f7): 要输入的是n字词语,先击fn,接着输入该词语简码;(5.2) 运用上档键要录入三字以上词语,其首字首码与上档键构成组 合键,同时击这两键,接着按一字一码击该词语中间字的首码键,最后再同 时击该词语最后一字的首码与上档键,即可录入该词语。另外,在上述(3.1.2)非成字部首独体字编码规则中,非成字部首编码规则为非成字部首的第一、二、三码同为首笔画,第三码按其首笔笔画"一""I"")""、""""分别对应编码为"r, "2""3" "4" "5";在上述(3.2)合体字编码规则中,特殊编码规则规定如下(1) 上中下结构的字按不同分法可分为两个不同成字部首的,成字部首就大不就小;(2) 上下或上中下结构的字仅从字形上看,既有相接处又有相离处的, 一般从相离处划分为两部分,若无相离处,则可从相接处分为两部分;(3) 上中下结构的字其首码只能从上下取码,不能从中间取首码,取第 一码后,余下部分从形体上看仍为上中下结构的,第二码亦只能从上部或下 部取码;若其首码取的是上部(或下部)的一个独占一半的成字部首或两笔以上 不成字部首,第二码仍同其他合体字一样按笔顺优先取余下部分的上部或下 部取成字部首码,余下部分无成字部首的取余下部分的首笔笔画码;若其上部和下部均无独占一半的成字部首或两笔以上不成字部首,第一、 二、三码则分别取第一、二、三笔画;(4) 两半都无成字部首、也无明显界限的上下结构的字,按独体字编码;(5) 左中右结构的字其首码只能从左右取码,左右均为成字部首或两笔 以上非成字部首的按笔顺从左部取首码码,尾码根据余下部分仍按一般规则 取码;(6)难以确定编码的字可有两种编码的容错码。 一种使用上述查字打字同码输入法的输入装置,特点是,采用计算机通 用键盘,键位设置为(1) 把"退格键(Backspace)"下移到","键位;(2) 把所有的标点符号纳入汉字系统,像汉字一样编为两码,腾出现在 的",。/ ;"四个键位另改作编码符号键位;(3) 5个基本笔划编码符号键 横(键位h): —包括匚升竖(键位l):I包括IJ门口产"肖"字上一半撇(键位P): J包括勺、"危"的上一半、"番"的上一半、3多久亇夂 点(键位ci):、包括i纟^A,、、、丰氺L、"曾"的上面两点 折(键位f):"包括3IS P〈《、L、其中"横"包含"提","竖"包含"竖钩","点"包含"捺","折"包 含除"竖钩"外的单笔划"折"笔;另外,上述部首中,有"工^"2个特殊部首仅限于作第二码时按其读音 首字母编码,作首码时,按其特殊部首代码编码。(4) 音码键音码20个,采用现行汉字所用的20个声母读音首字母, 一字母一个键位,与键盘上的20个英文字母键位相同; 20个音码键分别对应的成字部首如下 b八白贝匕比鼻髟广;C厂长虫车辰臣齿赤《寸*; d大刀歹斗豆;f方 风缶父非;g工干甘艮弓高革戈骨谷瓜鬼广鬲;h禾户黑火黄;j己几见角金 ,巾斤臼,"几"包括"风字框";k 口; L老力立里鹿卤龙耒隶;m马麻麦毛 矛门米糸皿木目母面;n鸟牛女;p爿皮片支疋;q气其欠青犬;r人^f日肉 二儿耳,"曰"并入"日";s山手净舌生氏色首身石十士巳尸示矢豕食四厶殳 鼠水乡;t 土田;w王无尤瓦文毋韦;x小西心十辛穴血夕香;y言羊用幺酉 又尤页业弋衣音雨羽聿月牙,"羊"包括"差"的上半、"羔"的上半;z舟走 止豸支至子自竹"竹字头"足"足字旁"隹爪^;另外,上述部首中,有"乡山竹木言i十人4 、?才^月鱼酉"特殊部首 仅限于作第二码时按其读音首字母编码,作首码时,按其特殊部首代码编码。(5) IO个特殊部首字首码键位包括",""。""/" "; " 4个标点符号键位和a、 e 、 u、 i、 o、 v 6个字 母键位,其对应的特殊部首如下a-纟山;e-竹;U-木;i-言(包括i )、丄^; 0-十;V-人(包括4 );(6) ll个高频字尾码键位;包括空格键、a、 e、 U、 i、 0、 V、 ","、 "。"、 "〃,、 ";" ll个键位;(7) 1个常用符号首码键位"q"或"新增加的空格键";(8) l个查字义编码符号键位"=" ,(9) 2个选字光标左右移动键"["和"]";(10) 三字以上词语简码编码功能键-三字词语编码键为f3;四字词语编码键为f4;五字词语编码键为f5;六 字词语编码键为f6;七字及七字以上词语编码键为f7;(11) 功能键位设置两个功能键位fl和f2。 fl为启动自造字程序键位;f2为启动个性 化多字词语库增加程序键位;本输入法还可建立个性化字库、词库、多字词语库。 将上述的査字打字同码输入法同时应用到纸质字典、电子字典、手机中, 使它们的编码规则相同。本发明的输入法简单易学,把34个不成字部首归并为5种基本笔画;把 173个成字部首按读音首字母归并为20种读音首字母,部首本身的归类及与 键盘键位的对应关系都极有规律,在很短时间内就可记牢,遇到不认识的字 也会编码,而且本方案把査字与打字用同一种编码方式,由于要学打字的人 在学打字以前就已熟练掌握编码,可以使其在初学打字时,比新学任何一种 编码都能节省很多的熟练掌握编码的时间。四具体实施方式
下面结合实施例对本发明做具体的解释说明。首先要说明的是,本发明所述的输入法及编码规则是在"中文输入法" 状态下对目前通用键盘某些键位的功能加以调整,如果是在"英文输入法" 状态下,则原始键位功能一概不变。总体设计方案-具体为汉字录入设计四种具体编码方案供人们选用。《方案一》为简体中 文版,编码所依据字形为简体字;《方案二》为繁体中文版,编码所依据字形 为繁体字。《方案一》和《方案二》只适合用于电脑。打字时均采用"句段录 入"。《方案三》为简体中文版,编码所依据字形为简体字;《方案四》为繁体 中文版,编码所依据字形为繁体字。《方案三》和《方案四》均既可用于电脑, 又可用直接用于手机的汉字录入。《方案一》和《方案二》 一字两码,每码确 定该字的一个部首的读音首字母或一个基本笔画;《方案三》和《方案四》一 字三码,第一、二码与《方案一》和《方案二》的编码规则相同,第三码是 每码确定该字的一个成字部首的首笔画或一个基本笔画。四个方案均既可用 于电脑打字又可用于电子字典和纸质字典的査字。在中文输入法状态下对目前通用键盘某些键位的功能加以调剂;1、 取消目前键盘上方的10个数字键位选字(词)功能;2、 把"退格键(Backspace)"下移到现在的","键位; 做此改动的理由是"退格键(Backspace)"的使用频率比较高(不能熟练使用计算机的人尤其如此),宜放在字母键位中间一排位置;3、 把所有的标点符号纳入汉字系统,像汉字一样编为两码,腾出现在的 ",。/;"四个键位另改作编码符号键位;4、 采用句段输入法打字时,有时选字需用光标左右移动键,光标左右移 动键由通用键盘的原来位置改用"["和"]"键位。基于以上的总体设计,具体编码规则如下(一) 、编码范围-以GB2312-80字符集的6763字为准(或字典以6763字为准,单字词库 以一级常用字3755字为准)。另外把标点符号亦纳入汉字系统,将其作为高频 字来编码。把区位码01-15区(即《GB2312字符集》中01-15区) 一些较常 使用的其他符号如"(-)(1) ^tWMdu JogE『『『』』』"也纳入汉字系统,将其 作为一般字来编码。其他非常用字利用本方案的动态字库系统,临时用插入法从微软操作系 统自带的"CJK统一汉字集"中加入或利用微软操作系统的造字程序自造字加 入或采用ocr技术手写加入。其理由在于随着社会电脑总量的不断增加、 使用电脑人数的不断增多和电脑硬件、软件的不断优化,自拟自录稿件所占 比重会越来越大,加之自拟自录稿件中属整段摘录的部分可借助硬件及软件 扫描整体录入,这样非常用字要逐字录入的情况会越来越少,其他非常用字 用插入法从"CJK统一汉字集"中选取录入即可, 一般个人用不必再采用大字符集字库。编码所依据字形《方案一》和《方案三》编码所依据字形为简体印刷体 标准字形;《方案三》和《方案四》编码所依据字形为为繁体印刷体标准字形, 否则取码不准。(二) 、编码符号设置本编码方案为音形结合码,为汉字录入设置了39个编码符号,分别用目 前通用键盘上的26个英文字母键、空格键、"["键、"]"键、","、"。"、 "/" ";" 4个标点符号键、"f3、 f4、 f5、 f6、 f7、" 5个快捷键和键键位表示。其具体设置是1、 5个基本笔划编码符号把汉字的笔划分为"横、竖、撇、点、折",即"一、I 、 j 、 、 、 i", 5种基本笔划分别对应键盘上的h、 1、 p、 d、 f 5个字母键位,其中"横" 包含"提","竖"包含"竖钩","点"包含"捺","折"包含除"竖钩"外 的单笔划"折"笔;2、 音码20个,即现行汉字所用的20个声母读音首字母, 一字母一个键 位需用20个键位,与键盘上的20个英文字母键位相同。3、 10个特殊部首字首码键位。分别用",""。""/" "; " 4个标点符号 键位和a、 e 、 li、 i、 o、 v 6个字母键位。10个特殊部首键位与键盘上的键 位对应如下a-纟山;e-竹;U-木;i-言(包括i )、工^; O-十;V-人(包 括4 ); , - ?;。-净;/ -卄;;-月、鱼、酉。4、 一个",。/;"以外的标点和区位码中一些较常使用的其他符号首码 键位"q"或"新增加的空格键"。另可设想把数学、物理、化学等学科的常用符号的第一、二码分别编为 "qs"、 "qw"、……"qh"。把",。、/; " 4个标点分别归入4个特殊部首键位,当成特殊部首高频字 来编码,其编码分别为",,"、"。。"、"〃"、";;"。这样与英文输入用的是同 一个编码键位,可使已掌握其他输入法的人不用再费时记忆四个标点的编码 键位。也更适合经常用英文输入的人使用。5、 ll个高频字尾码键位。分别用空格键、a、 e、 u、 i、 o、 v、","、"。"、 "/"、 ";" 11个键位。上述中,有h 、 1、 p、 d、 f五个字母键位为音码与形码共用;有"," "。""/" "; " 4个标点符号键位为高频字尾码键位和特殊部首键位共用;有 a、 e、 u、 i、 o、 v6个字母键位为高频字尾码键位和特殊部首字首码键位共用; 有q —个字母键位为常用标点首码键位和音码共用。6、 一个查字义编码符号,用于打字时査字义用,用"="键位。7、 两个选字光标左右移动键,用"["和"]"两个键位。 选字光标左右移动键由通用键盘的原来位置移至此处,可使移动光标选字更快捷。若首码准确率达到85%以上,可取消这两个编码符号,改用鼠标改 正会更快捷。8、 三字以上词语简码编码功能键三字词语编码键为f3;四字词语编码键为f4;五字词语编码键为f5;六 字词语编码键为f6;七字及七字以上词语编码键为f7。9、 功能键位设置设置两个功能键位fl和f2。
fl为启动自造字程序键位;f2为启动个性 化多字词语库增加程序键位。 (三)、编码规则 1、部首设置-以原中国文字改革委员会和国家出版局1983年颁布的的《汉字统一部首 表(草案)》所推荐使用的201部首为基础,适当删去几个按汉字书写笔顺在 后且所数字很少的几个不成字部首(部首成字与否以属于一般中小型字典所 收有读音的字在为准,下同),如,取消或归并了"仓"字下半、申""U""出" 字上半,另外又把几个部首的变形也算作独立部首,如,把小和"肖"字上 一半分为两个部首。共设部首207个。其中 (1)不成字部首归类(共34个)横(键位h): —包括匚升(计3个)竖(键位l): I包括lj门口产"肖"字上一半(计6个)撇(键位P): j包括勺、"危"的上一半、"番"的上一半、3乡夂亇夂、 (计9个)点(键位d):、包括二^ ^A"、、氺氺L、"曾"的上面两点。(计10个) 折(键位f):"包括31S卩〈〈〈、L、(计6个)其中"横"包含"提","竖"包含"竖钩","点"包含"捺","折"包 含除"竖钩"夕卜的单笔戈lj "折"笔;另外,上述部首中,有"工^" 2个特殊部首仅限于作第二码时按其读音首字母编码,作首码时,按其特殊部首代码编码。(2)成字部首按读音首字母归类(个别所属字的不成字部首算成字)-B卜八白贝匕比鼻髟广(9字);c厂长虫车辰臣齿赤《寸* (ll字);d大刀歹斗豆鼎(6字);f方风缶父非(5字);g工干甘艮弓高革戈骨谷瓜鬼广鬲("鬲"读音有二, 一为"ge"; —为"li"这里取"ge"音)(14字);h未户黑火黄(5字);j己几(包括风字框)见角金(包括韦)巾斤臼(8字);k口 (l字);L老力立里鹿卣龙耒隶(9字);m马麻麦毛矛门米糸皿木目母面 (13字);n鸟牛女(3字);p爿皮片支疋(5字);q气其欠青犬(5字);r人(包括4 )日("曰"并入"日")肉二儿耳(特殊规定"二耳儿"三部首的读音首字母为"r") (6字);s山手(包括净)舌生氏色首身石十士巳尸示矢豕食四厶殳鼠水乡(23字);t土田(2字);W王无尤瓦文毋韦(7字);x小西心(包括t )辛穴血夕香(8字);y言羊(包括"差"的上半,"羔"的上半)用幺酉又尤页业弋衣音雨羽聿月牙(17字);Z舟走止豸支至子自竹(包括竹字头)足(包括足字旁)隹爪(包括w) (12字),共计173字。 另外,上述部首中,有"乡山竹木言(包括i )十人(包括4 ) ^ *月、鱼、酉"13个特殊部首仅限于作第二码时按其读音首字母编码,作首码时,按其特殊部首代码编码。2、编码规则(1) 按成字部首读音首字母及非成字部首首笔画编码(非成字部首亦规 定一个读音,重码字按其使用频率排序,高频字在前)。(2) 每字最多三码,第一、二码,成字部首取读音首字母码,不成字构 件取首笔笔画码,第三码均取笔画码;第三码或为显性码或为隐性码,为显 性码时,主要用于手机及其他数字键盘的汉字录入;为隐性码时,主要用于 查字和电脑的汉字录入;(3) 编码时首先把汉字分为独体字和合体字两类,再按各自规则编码。 先简述一下独体字和合体字的认定独体字认定标准现代汉语词典所用的成字部首都认定为独体字,不论其能否再拆分出其它独体字与否。对那些凡分不清上下、左右、内外、包围 半包围结构的称为独体字,如"事串专"等一类有一笔与其他笔画相交的字 均算独体字,再如"朱失"等一类单笔划与独体字所构成的字仍为独体字。另规定1、"乘爽" 一类的字亦算独体字;2、首笔是单笔画且与其余部分相离的上下或上中下结构的如"丽画"等字亦算是独体字。合体字认定标准凡汉字内部有明显界线可以分为二或三个构字偏旁(前 半不能是单笔划)并根据各部分间相互位置可称之为左右结构、上下结构、 外内结构、包围及半包围结构、上中下结构的谓之合体字。 (3.1)单字编码规则(3.1.1) 独体字取码规则(3. 1. 1. 1)成字部首字(所属字多的特殊部首'M *净乡,十i "竹 字头"广? 亦算成字部首)。第一码成字部首读音首字母;第二码仍为成字部首读音首字母;第三码 成字部首首笔笔画。按其笔画"一""I " " J ""、""""分别对应 编码为"l" "2" "3" "4" " 5";如,"车"的编码为"ccl""马" 的编码为"mm5"(3. 1. 1. 2)非成字部首独体字取码规则第一码首笔笔画;第二码次笔笔画;第三码为第三笔笔画(只有一笔的 字,第二、三码与第一码相同。只有两笔的字第三码与第二码相同)。按其笔 画"一""I "" ) "" 、 ""i"分别对应编码为"6""7" "8""9"" 0";如,"于"的编码为"hh7","由"的编码为"lf6"。个别属单笔画与成字部首构成的上下结构的独体字(包括单笔画与成字 部首相接,如,"丘百"属相接;不包括单笔画与成字部首相交,如,"本" 属相交),不按独体字编码规则取码,按合体字规则编码。不考虑其笔顺,成 字部首为第一码,单笔画为第二码。如"百千丘甚"第一码分别为"白十斤 其",第二码分别为"一 j 一i",其他类推。"本"属相交,仍按独体字规则 取码(这样规定,主要是为了第三码与第二码同,编码可更快捷)。(3. 1. 1. 3)非成字部首编码规则(gb2312字符集中有非成字部首) 非成字部首的第一、二、三码同为首笔画,第三码按其首笔笔画"一""I " "J""、" 分别对应编码为"1""2" "3""4" "5";这样编码与录入会更快捷。如,"匚"的编码为"hhl"" 1』"的编码为"LL2"、 "3 "的编码为"pp3"、 一,的编码为"dd4"、"曰"的编码为"ff5" ,"的编码为"ff5"(3.1.2) 合体字编码规则(3. 1. 2. 1)两半中均为成字部首或两笔以上非成字部首各自独占一半的第一码独占一半的前半成字部首读音首字母或两笔以上非成字部首首 笔画;一第二码独占一半的后半成字部首读音首字母或两笔以上非成字部首首 笔画;第三码根据第二码取码,第二码是成字部首的,取成字部首首笔笔画, 按其成字部首的首笔笔画"一""I""〗""、""""分别对应编码为"l" "2" "3" "4" " 5";第二码是两笔以上非成字部首首笔 画的,取该半次笔笔画,按其笔画 "一""I""〗""、""""分 别对应编码为"6" "7""8" "9" " 0";如,"码"的编码为"sm5";"独"的编码为"pc2";"邓"的编码为"yf7";"祁"的编码为"df7"。 (3. 1. 2. 2)两半中有一个成字部首或两笔以上非成字部首独占一半的(包括个别成字部首或两笔以上非成字部首与单笔画构成的字,如"轧礼"等字)第一码独占一半的前半(或后半)成字部首读音首字母(或两笔以上 非成字部首首笔画);第二码(a)另一半只有一笔的,取该笔笔画码,(b)另一半中有成字部首构件位于该半前一部分或后一部分的,取成字部首读音首字母码,否则则取该半首笔码(注意成字部首构件位于该半中间的,亦取该半首笔码)。 左中右、上中下结构的字另有规定;第三码根据第二码取码(1)第二码是成字部首的,取其第二码成字部 首的首笔笔画。按其笔画"一""I""〗""、""""分别对应编码为"6""7', "8""9,," o"; (2)第二码是取笔画码的,取余下部分首笔笔画。按其笔画"一""I" " j ""、"分别对应编码 为"6""7" "s""9"" o";。如,"部"的编码为"fl9";"规"的编码为"jh6";"轧"的编码为"cf0";(这样确定这两类合体字的第一二码主要是为了与目前通用的査字法中 字的部首归类基本一致,也为了使各一级重码字组的字数尽量不相差悬殊)这样确定这两类合体字第三码的优越之处在于 一是第二码是成字部首的字在确定第二码的同时就确定了第三码(这类字在"gb2312字符集"中占 绝大多数,据粗略统计这类字约有4500字,约占6763字的66%。),几乎不用 再费心去确定第三码。二是使第三码虽只有一种编码手段,但同一种编码符 号用两种标记,5种编码符号共有10种标记。这样有一些二级重码字组可以 分成10个三级重码字组,可以减少三级重码字组的平均字数,从而在打字 时可以提高首码准确率,用纸质字典查字则可更快捷。(3.1.2.3)两半都不是成字部首或两笔以上非成字部首的各自独占一半 的,按笔顺取第一二码;第一码取前半的首笔画,第二码取后半的首笔画, 第三码取后半的次笔笔画(后半只有一笔的,第三码与第二码同),按其笔画 "一,,"l" ")" "、" "i"分别对应编码为"6" "7" "8" "9""0";(这类字这样编码而不考虑各半中有无成字部首,编码可更快捷。 这类字不多,基本不影响二级重码字组字的分布)如,"能,,的编码为"fpO,,;"成"的编码为"hfO,,;(3. 1. 2. 4)特殊部首字编码规则为了使各重码字组的字数尽可能少,并使各一级重码字组的字数尽可能平均;选定一些所属字较多的部首作为特殊部首,把其从同音部首中分离出来。特殊部首字所属字的确定按编码规则其首码其为特殊部首的才算,第 二码为特殊部首的不算。如设"人"为特殊部首。"合"为特殊部首"人" 所属字,"队"不为特殊部首"人"所属字。特殊部首字所属字的编码规则同其他合体字的编码规则相同首码(第一码)为特殊部首码;第二码据去掉部首后余下字形依一般字编码规则取码; 第三码取码规则(1)第二码是成字部首的,取其第二码成字部首的首 笔笔画,按其成字部首的首笔笔画"一""I"" j "" 、 " 分 别对应编码为"1""2""3""4"" 5")。 (2)第二码是取笔画码的, 取余下部分首笔笔画。按其笔画"一""I "" j ""、"分别对应编码为"1" "2" "3" "4" " 5")。
c.后半只有一笔的,按其 第二码笔画"一""I" " j ""、"编码为"1" "2""3" "4" "5"。如,"编"的编码为"ah4";"体"的编码为"vh2"; (3.1.2.5)特殊规定(3.1.2.5.1)部首字的变形一般不将其视为成字部首,如,"忝"的部 首为单笔画横,不为"心",但如下成字部首的变形亦算成字足(如"路" 的右半)、^ (如"采"的上半)、羊[如"盖"的上半"差"的上半](3. 1.2.5.2)成字部首字一律不再拆分,如,"麻鼻示" 一类字不再拆分。(3.1.2.5.3)上下、上中下结构的字编码规则特殊规定-上下、上中下结构的字编码规则在编码的过程中,体会到按本法规则 查字的难点在于,部分上中下结构字第一二码有时难以确定,个别上下结构 字的第二码有时也难以确定。现根据试编码实践,对上下、上中下结构的字 编码在遵循一般合体字编码规则的前提下,再作如下特殊规定-(a) 上中下结构不同分法可分为两个不同成字部首的就大不就小,如, "章"取"音"不取"立";"三)取"二"不取"一";(b) "衷亵" 一类字的部首为"工"不为"衣";(c) 上下或上中下结构的字仅从字形上看,既有相接处又有相离处,一般从相离处划分为两部分如"共"前半不取按后半取"八"编码。"盍" 按后半取"皿"编码。若无相离处,则可从相接处分为两部分。如"去"分 为"土"和"厶"两部分,"云亏"第一码均取"二",第二码分别取"厶"和在下面的特殊情况下可从相接处分为两半即在从相离处分为两半,两半均没有成字部首或两笔以上非成字部首, 而从相接处分为两半,下部有成字部首的特殊情况下,可从下部有成字部首 的相接处分为两半。如"党堂常"一类仅从字形上看可分成四部分的字按规 则应从相离处分为两半,但分成两半后,两半都不是独占一半的成字部首或两笔以上非成字部首,但其最下部为成字部首,故变通处理,第一码从下部 取成字部首码,第二码按规则从余下部分的上部或下部优先取成字部首码, 若上部与下部均无成字部首,则取余下部分的首笔笔画。"党堂常"的首码 分别取"儿土巾",其第二码均取"口";(d) 上中下结构的字其首码只能从上下取码,不能从中间取首码。取第 一码后,余下部分从形体上看仍为上中下结构的,第二码亦只能从上部或下 部取码。如,"拿"第一码取"人"后,余下部分从形体上看仍为上中下结构, 按规则第二码只能从余下部分的上部或下部取码,不能从中部取码,故只能 取"手"不能取"口"。若其首码取的是上部(或下部)的一个独占一半的成字部首或两笔以上 不成字部首,第二码仍同其他合体字一样按笔顺优先从余下部分的上部或下 部取成字部首码,余下部分无成字部首的取余下部分的首笔笔画码。若其上部和下部均无独占一半的成字部首或两笔以上不成字部首,第一、 二、三码则分别取第一、二、三笔画(如,"复囊亘" 一类字第一、二、三码 分别取第一、二、三笔笔画。(这样编码不用考虑从何处把要编码的字分为两半(左中右结构的字如 何分成两半一目了然),编码可更快捷)(e) 部分两半都无成字部首、也无明显界限(即上下相接)上下结构的 字,按独体字编码。如,"予表亡丧"第一、二、三码分别取其第一二三笔笔 画。(这样编码不用考虑从何处把要编码的字分为两半(左右结构的字自然分 成两半))(3.1.2.5.4)左中右结构的字其首码只能从左右取码,左右均为成字部 首或两笔以上非成字部首的按笔顺从左部取首码码。如"做树嬲" 一类字其 首码分别取'M木I ","嬲"的首码不取"女"。尾码根据余下部分仍按一般 规则取码。(3. 1. 2. 5. 5)个别难以确定编码的字可有两种编码这类似于"五笔输入 法"的容错码。难以确定编码的字有如下两种情况(a) 易混笔顺字,如"万"等字也可按两种笔顺编码。(b) 个别分成两半时可以有不同分法的的字(以上中下结构的字为多) 可按两种分法编码。如"丞"可编码为"fh"也可编码为"fl"。如"棼"可编码为"hp"也 可编码为"db"。如"毅"的第二码可取部首"立"也可取部首"豕"。(3.1.2.5.6)成字部首"二儿耳"以"r"为代码,"日"、"曰"因其在 合体字中难以区分,其编码均为"r"。上述规则取码例字"词垢司后" 一类字第二码取"口",理由是无论怎么分,除了 "口"之 夕卜,再没有两笔以上部首。"铜洞"等字的第二码取"门"不取"口",因"门"是两笔以上部首。"燮"第二码取"火";"叟"第二码取"〗";"爵奚叠"第二码分别取 "四幺"";"式区"第一码分别取"匚弋";"毅"的第二码可取部首"立"也可取部首"豕"; "死"第一码取"歹";"哀衷褒" 一类字第一码取"、"不取"衣";"坐" 一类字第一码取"人",第二码取"土"。"成咸戌" 一类字算合体字,"戊"部分为前半,余下部分为后半,第一 码均取"一"(即"戊"的首笔),第二码分别取""口一";"裁截" 一类字 亦算合体字,"衣隹"为前半,余下部分为后半,第一码分别取"衣隹",第 二码均取"一"。(3.1.3)前330高频字编码(包括",。/;"四个标点符号) 分别将30个一级重码字组中使用频率最高的前11个高频字的尾码分别 编为空格键、a、 e、 u、 i、 o、 v,。 /;。这样可以有330个高频字击键两次便 可输入(其中包括",。/;"四个标点)。为了有规律的记忆或寻找各个高频字所对应的键位,特规定每个一级重 码字组中使用频率最高的3个字分别对应空格、a和";"键,其他字按第一 码的首笔画"一l J 、""的顺序排列,第一码首笔画相同的按使用频率高 低的顺序排列。特别规定"纟山竹言(包括"i ")工^十木人(包括'M ")永(包括 " ")净^月鱼酉"15个部首各自所属的8个高频字按去掉部首后剩余部分 的首笔画"一 I j 、i"的顺序排列,其中属成字部首的高频字,即去掉部 首无剩余笔画的,排在有剩余笔画高频字的前面;为了保证330个高频字中排序在前200的高频字原则上都包括在内,可 作如下特殊规定把首码分别为"h、 d、 1"的高频字各选10个将其首码分 别编为"a 、 o、 /"把首码分别为"f、 v"的高频字各选8个将其首码分别 编为"e、 n"。(3.2)多字词语编码 为了减少击键次数,也为了提高首码准确率,三字以上常用词语(其中 特别是常用的四字成语、经常被引用的7字以内的名句-尤其是五言或七言古 诗中的名句,不用费心去想是几字名句,超过7字的名句一律按7字算)的 录入,可按一字一码(即单字首码)简码录入。具体有如下两种方案供选用(3. 2. 1).运用f键。要录入某三字以上词语,先击键盘上方f打头的 快捷键。要输入的是n字词语,就击fn。接着输入该词语简码以后,即可录 入该词语。如要录入"众志成城",先击f4键,再击这四字的单字首码后, 即可录入该成语;要录入"千里之堤溃于蚁穴",先击f7键,再击这八字的 单字首码后,即可录入该名句。要录入"先天下之忧而忧,后天下之乐而乐", 先击f7键,再击这14字的单字首码后,即可录入该名句。(3.2.2)运用上档键。要录入某三字以上词语,其首字首码与上档键构成组合键,同时击这两键,就像通用输入法录入"?"等标点一样,接着按 一字一码击该词语中间字的首码键,最后再同时击该词语最后一字的首码与 上档键,即可录入该词语。该方案不甚适合录入三字词语,更适合录入四字 以上词语。(四)、《方案一》和《方案二》的汉字录入1、 单字及双字词语采用"句段输入" "句段输入"具体内容如下用软件支持除了 300多个高频字击两码即可确认录入外,采用"句段 输入法"。其具体方法是除句段首字输入该字两码需再击一键从供选字提示框中选定要录入的字 确认录入(若句段首字是高频字则击两码即可确认录入)外,其余要录入的汉 字均只输入两个编码,由电脑自动选字(即不再需从提示框中选字词录入)。 该句段汉字编码输入完毕,接着输入标点符号码(用软件支持当所键入的 第二码是有标点符号和其他常用符号的二级重码字组的键位代码时,自动出 现供选符号提示框,需根据供选字提示框选定要录入的符号再击一键确认录 入 一因常用标点都纳入高频字编码,第二码是有标点符号和其他常用符号的 二级重码字组常用符号使用频率也不多,故需根据供选字提示框选定要录入 的符号这种情况不多,)该句段即录入完毕。接着再依次类推录入下一句段。 直至全部录完该自然段或几个自然段,乃至整篇文稿。再通过参考拼写语法 检査提示修改其不正确的地方(也可一句段录入完毕,就改正电脑自动选字 的错误)。这里所说的"句段"不是语法中的句子,特指每行首字或上一标点后首字 至下一标点中间的字即为一个句段。首字至顿号也是一个句段。这"句段" 可以是独字句段,也可以是长达几十字的句段。2、 多字词语录入 多字词语编码为了减少击键次数,也为了提高首码准确率,三字以上常用词语(其中 特别是常用的四字成语、经常被引用的7字以内的名句-尤其是五言或七言古诗中的名句,不用费心去想是几字名句,超过7字的名句一律按7字算)的 录入,可按一字一码(即单字首码)简码录入。具体有如下两种方案供选用(1) .运用f键。要录入某三字以上词语,先击键盘上方f打头的快捷键。要输入的是n字词语,就击fn。接着输入该词语简码以后,即可录入该 词语。如要录入"众志成城",先击f4键,再击这四字的单字首码后,即 可录入该成语;要录入"千里之堤溃于蚁穴",先击f7键,再击这8字的单字首码后,即可录入该名句。要录入"先天下之忧而忧,后天下之乐而乐",先击f7键,再击这14字的单字首码后,即可录入该名句。(2) 运用上档键。要录入某三字以上词语,其首字首码与上档键构合键,同时击这两键,就像通用输入法录入"?"等标点一样,接着按一字 一码击该词语中间字的首码键,最后再同时击该词语最后一字的首码与上档 键,即可录入该词语。该方案不甚适合录入三字词语,更适合录入四字以上 词语。3、个性化字词库以外字词的录入 3. 1建立个性化字词语句库本方案首先分别建立一个基本的单双字词语库(包括高频字)和一个多 字词语库,作为打字人的假定个性化的字词语句库,打字人以此为基础建立 适合自己使用的个性化的单双字词语库和多字词语库,其具体方法是打字人利用计算机wodr的学习记忆功能和微软操作系统的造字功能,在 汉字的输入过程中随时可以对机内基本的单双字词语库和多字词语库,进行 增删及次序重排。特殊规定使用本输入法输入文稿字数达到一定数量(如,达到10万字, 文稿字数可包括使用本输入法以前所存文稿)或几个月后,可对一级高频字 加以调整,即把其中自己使用频率低的字按单字编码划归到所属的二级重码 字组,另把该二级重码字组中自己使用频率高的字补充到高频字,高频字调 出和调入的字数相等,保持高频字总数不变。基本稳定后, 一般不再进行调 整。高频字的排序一般不变,只有在对高频字进行调整时才随之做排序调整。3. 2个性化字词库以外字词的录入打字时遇到基本的单双字词语库没有收入的单字,临时从微软操作系统 自带的"CJK统一汉字集"中用插入法录入,或利用微软操作系统的造字程序 自造字录入或采用ocr技术手写录入。并在录入文稿的同时自动加进单双字 词语库或多字词语库。对打字时录入的多字词语,在录入文稿的同时手动加入多字词语库。手动加入多字词语库条目的具体方法是写录入文稿时,用单字编码输 入某个多字词语后,随之选中并按f2键确认,接着按一字一码编码输入并显 示该多字词语,该多字词语即收进多字词语库。再者,对于已收进个性化的单双字词语库或字或双字词语在一定时间内 (如,可以半年为期)未重复使用就自动删去。4. 用软键盘或大触摸屏录入汉字。对只能用单手操作或十指不灵活的人还可设想用软键盘或大触摸屏录入 汉字。其具体方法如下把软键盘(或触摸屏)分为11行,第六行即中间一行为五种基本笔画键 及几个所属字多的不成字部首(如(S 3 卞丰L口夂等),第l行为读音首字母"abc"所对应的成字部首键位;第2行为读音首字母"def" 所对 应的成字部首键位;第3行为读音首字母"ghi"所对应的成字部首键位; 第4行为读音首字母"jko" 所对应的成字部首键位;第5行为读音首字 母"lmu" 所对应的成字部首键位;第7行为读音首字母"npv"所对应的成字部首键位;第8行为读音首字母"qr,"所对应的成字部首键位;第9 行为读音首字母"st。" 所对应的成字部首键位;第10行为读音首字母 "wx/"所对应的成字部首键位;第ll行为读音首字母"yz;"; 所对应 的成字部首键位。用鼠标点击所要输入字a的第一个部首,若字a在供选字显示框内,直 接点击a即可录入。若字a不在供选字显示框内,则点击字a的第二个部首, 若字a在供选字显示框内,直接点击a即可录入。若字a不在供选字显示框 内,则翻页点击字a即可录入。(五) 、电脑查字功能的实现方法当浏览网页和打字时遇到生字需要査阅去释义,可以直接用打字程序打 出该字再输入查字义编码符号键就可出现该字及其所包含词条的释义, 不必再启用査字程序,査字义编码符号键还可以使用其他规定的编码符号键。(六) 、《方案三》和《方案四》(每字三码)用于手机1、 编码规则手机输入设置32个编码符号(1) 一个査字义编码符号,用于打字时査字义用,用"*"作为外码。(2) —个多字词语简码编码符号用作为外码。参见多字词语录入(3) 30个汉字编码符号《方案三》和《方案四》的第一、二、三码编码规则与《方案一》完全 相同,用30个编码符号,只是要按字母顺序每三个编码符号共用一个键位。手机用键位与编码符号对应如下la纟山bc; 2-de竹f; 3-ghi言i ^丄;4—jko十;5—L m; u木;6-叩v;7-qr;, ? ; 8-stu矛;9-/卄wx; 0-yz。月鱼酉;2、 编制重码字组编制一级重码字组把6763字按其首码分为IO个一级重码字组(即首码相同的字的集合), 并将其按使用频率排序。 编制二级重码字组把上述10个一级重码字组在扣除前7个使用频率最高的字后(把这7个 字作为一级简码字),分别按照其第二码的笔形编制成100个二级重码字组。 并将其按使用频率排序。编制三级重码字组把上述100个二级重码字组在各扣除前7个使用频率最高的字后(把这7 个字作为二级简码字),再分别按照其第三码编制成810个三级重码字组(理 论上可组成1000个三级重码字组,由于按照编码规则编码有一些三级重码字 组无字,实际上只有810个三级重码字组)。并将按其使用频率排序3、 简码如前所述本方案的码长最多为三码,为了提高输入速度,减少击键次数, 我们对常用汉字采用简码输入,根据其使用频率高低可分别只输入一或两码, 简码字分为如下两级输入一码的为一级简码字;输入二码的为二级简码字。这样本方案可有一级简码字70 (10X7)个;二级简码字700 (100X7)个;共有一、二简码字770个。4、汉字录入(1) 简码字录入总体上是录入简码字时,每输入一个编码符号,屏幕上便显示出一个 一级(或二级或三级)重码字组的7个候选字。为了有规律的记忆或寻找各个简码字所对应的键位,特规定7个一级简码候选字的排列顺序是使用频率排在第1位的排在中间(并让光标将其选 中),将第一码首笔画为"一"的、第一码首笔画为"I "依次排在其左边; 将第一码首笔画为"j "的、将第一码首笔画为"、"、第一码首笔画为 的依次排在其右边。其具体录入方法如下输入第一个编码符号,屏幕上便显示出该编码符号所对应的一级重码字 组的7个候选字。若要录入的字正是光标所对应的字,直接按选择键确认录 入;若要录入的字在光标的左边则按上滚动键移动光标选中再按选择键确认 录入;若要录入的字在光标的右边则按下滚动键移动光标选中再按选择键确 认录入。若要录入的字不在这7个重码字中,则输入第二个编码符号,屏幕上便 显示出该编码符号所对应的二级重码字组的7个候选字。若要录入的字在这7 个重码字中,再依上述同样方式录入所要录入的字。(2) 三码字的录入 若要录入的字不在上述二级重码字组的7个候选字中,则输入第三个编码符号,屏幕上便显示出该编码符号所对应的三级重码字组的7个候选字。 确认所要录入的字再依上述同样方式录入所要录入的字。若要录入的字不在 这7个重码字中,则翻页选中后便直接录入。翻页键为光标的上下移动键(3) 联想词语录入每当输入一个单字,屏幕上便显示出一组能够与所输入单字组成常用词 的7个候选字(7个候选字的排列顺序与简码字的排列顺序相同)输入所要录 入的字后,就结束了本次联想词语录入。软件支持联想词语录入可以连续进行,即结束了一次联想词语录入后, 屏幕上便会再显示出一组能够与刚通过联想词语录入方式所输入单字组成常 用词语的7个候选字,可以直接从中选取并录入下一个字。若屏幕上显示出的一组能够与所输入单字组成常用词的7个候选字不是 所要录入的常用词的第二个字,则不再翻页选字而是直接输入所要录入的常用词的第二个字的编码。 (4)多字词语录入为了减少击键次数,也为了提高首码准确率,三字以上常用词语(其中 特别是常用的四字成语、经常被引用的7字以内的名句-尤其是五言或七言古 诗中的名句,不用费心去想是几字名句,超过7字的名句,中间一般有标点, 可作两句录入)的录入,可设想按一字一码(即单字首码)简码录入,要录 入三字以上词语,先点击tt号键,按一字一码简码输入以后,再点击tt号键, 如要录入"众志成城",先点击tt号键,击完这四字的首码后,再点击#号 键,即可录入该成语;要录入"千里之堤溃于蚁穴",先点击tt号键,击完这 八字的首码后,再点击#号键,即可录入该名句。手机三码方案的汉字录入还可采取如下方法除了一级简码字和多字词 语按一字一码录入以外,其余汉字都按三码句段输入法录入(即取消二级简 码字)。5、 手机增加多字词语库条目的实现方法实现手机增加多字词语库条目的具体方法是在写信息或输入通讯录人 名用字时,用单字编码输入某个多字词语后,按*号键,接着按一字一码编码 输入并显示该多字词语,再按确认键,该多字词语即收进多字词语库。通讯录中的人名为两字时,可在人名的前面(或后面)加上一个字,这 样通讯录中所用的人名都可用一字一码的方式査找。这样,可加快査找速度。 具体说,加在前面的字可以是手机机主对该人的称谓首字(如,哥、叔、舅 等一类字)。加在后面的字可以是"宅、办"等表示电话号码是办公电话还是 私人电话的一类字6、 手机査字功能的实现方法(1)实现手机査字功能的具体方法是在手机的功能表中加进一个"査 字"子功能菜单,要査字选中确认"査字"子功能菜单,即处于査字状态, 编码输入并显示要査的字选中确认即可显示该字的释义。或,(2)在写信息状态下输入要查字或词的编码并显示该字后,再连击 两次字义编码符号键#,即可显示该字或词的释义,査字义编码符号键还可 以使用其他规定的编码符号键。(七)、《方案三》和《方案四》(每字三码)用于电脑1、 编码规则方面的区别用于电脑与用于手机基本相同,相同处不再重复,不同处有如下两点(1) 每三个编码符号共用一个键位的代码由"1、 2、 3、 4、 5、 6、 7、 8、 9、 0"分别改为"a、 s、 d、 f、 g、 h、 j、 k、 1、;"(2) 电脑用键位与编码符号对应如下a:a纟山bc s:de竹f d:ghi言i ^丄 f:jko十 g:Lmu木 h:叩v 4j:qr, ? k:st。净l:wx /卄 ";,,yz;月鱼酉2、 录入汉字方面的区别具体区别是电脑的汉字录入与手机基本相同,其区别在显示框的候选字的个数及其 排列顺序方面。现将其录入方法具体介绍如下(1) 简码字录入总体上是录入简码字时,每输入一个编码符号,屏幕上便显示出一个 一级(或二级)重码字组的ll个候选字。为了有规律的记忆或寻找各个高频字所对应的键位,特规定每个一级重 码字组中使用频率最高的字对应空格键,其他字按第一码的首笔画"一 I J 、""的顺序排列,第一码首笔画相同的按使用频率高低的顺序排列。将其 分另树应qwertyulop键。特别规定"竹十木人(包括"4 ")水(包括"")t ^口月鱼酉言(包 括i ) "^^" 14个部首各自所属的高频字按去掉部首后剩余部分的首笔画"一 i J 、""的顺序排列,其中属成字部首的高频字(即去掉部首无剩余笔画 的)排在有剩余笔画高频字的前面。输入第一个编码符号,屏幕上便显示出该编码符号所对应的一级重码字 组的11个候选字,若要录入的字在这11个重码字中,便直接击其所对应的 键位录入。若要录入的字不在这10个重码字中,则输入第二个编码符号,屏 幕上便显示出该编码符号所对应的二级重码字组的11个候选字,若要录入的 字在这ll个重码字中,再依上述同样方式录入所要录入的字。(2) 三码字的录入A、 三码字的录入亦采取句段录入法。因与两码方案的句段录入基本相同, 区别仅在于输入的编码由两码变为三码。故其具体录入方法这里不再赘述。B、 《方案三》、《方案四》的三码字的录入在电脑上的汉字录入还可采用如下方式录入在10个一级重码字组中各选出21个高频字,为了有规律的记忆或寻找各个高频字所对应的键位,特规定每个一级重 码字组中使用频率最高的字对应空格键,其他字按第一码的首笔画"一 I J 、""的顺序排列,第一码首笔画相同的按使用频率高低的顺序排列。另外, 特别规定"竹十木人(包括"4 ")水(包括"?")矛^口月鱼酉言(包括 i )工^" 14个部首各自所属的高频字按去掉部首后剩余部分的首笔画"一I J 、""的顺序排列,其中属成字部首的高频字(即去掉部首无剩余笔画 的)排在有剩余笔画高频字的前面。将其第二码分别编为"Q、 w、 e、 r、 t、 y、 u、 i、 o、 p、 z、 x、 c、 v、 b、 n、 m、 , 。
/,,键。本发明与目前通用输入法比较1.本发明与各种纯形码相比,都有遇到不认识的字也会编码的优点,但 四个方案都可用手写板输入,而目前所有的纯形码都不能用手写板输入。与 各种纯拼音码相比,从根本上避免了 "纯音码使越来越多的人提笔忘字,甚至不会写字"的弊端,也消除了不适合说方言人使用的弊端。2. 将电子字典与手机和电脑的汉字录入融合在一起,输入法由单一的打 字功能变为既能打字又可学字的双重功能,打字的同时可以学字。其中尤其 是手机增加字典功能,由于其具有便携性,等于拥有手机的人随身携带一本 字典。更适合人们随时随地査字学字。考虑到目前国人手机已基本普及,等 于大多数识字之人都随身携带一本字典。3. 将上述本发明输入法的编码方案同时应用到纸质字典、电子字典、手 机中,使它们的编码规则相同,做到査字打字同码。査字打字同码,会查字就会打字,因凡识字之人都要会査字典,可以省 去人们学习并熟练掌握某种汉字输入法编码的过程(全拼法也可省略这一过 程,不过,全拼法是一种好学不好用的输入法)。从根本上解决了各种输入法 "速度快的难学,好学的速度慢"的通病。4. 查字法方面的创新继承了传统的部首査字和音序查字的优点,克服了其各自的缺点,把通用的部首査字法进行如下改进。(1) 所收部首与一般字典的部首基本相同,为每个部首按其读音首字母 设定一个代码(不成字部首根据其首笔画设一个假定读音代码,成字部首以 属于一般中小型字典所收有读音的字为准),把部首目录的排序由以笔画为序 改为以部首读音首字母为序,使记忆全部部首及部首代码及其容易。极便于 己会用传统的部首查字法查字的人改用笔者的査字法。(2) 在字典正文中把所收单字的排序由以整字读音为序改为以部首读音 首字母为序。(3) 査字步骤比通用的部首査字法减省。 通用的部首査字法在纸质字典中要查一个不认识字的一般步骤有如下5个l.为要査的字(假定为a)确定一个部首(假定为b); 2.在部首目录中査 到部首b所属字在检字表的起始页码;3.根据该部首所属字在检字表的起始 页码找到部首b所属字;4.在检字表中根据字a除去部首余下的笔画数和起 笔笔画査到字a在字典正文的页码;5.从字a在字典正文的页码找到字a并 阅读其释义。本发明所创设的"部首音形结合码查字打字同码方案"要查一个不认识 字的理论上的步骤有如下3个1.为要査的字a确定两个部首并根据这两个 部首的读音首字母为字a确定一个由汉语拼音字母或标点组成的两码编码; 2.根据这个编码在检字表中査到字a在字典正文的页码;3.从字a在字典正 文的页码找到字a并阅读其释义。实际査字过程中, 一般情况下应该省略其中的第二个步骤。按字a的编 码根据字典翻口处及字典正文页眉处的标记直接翻到字a所在的页码或字a所在页码附近再翻页找到字a并阅读其释义。这就如同用现在的字典要查知 道读音的字a,按字a的读音可直接翻到字a所在的页码或字a所在页码附近 再翻页找到字a并阅读其释义。且一般来说比现在要查认识的字a还要快捷。因为用现在的字典要査认识的字,对大多数人来说,是把"知道读音"定义 为"知道声母和韵母",并不包括声调。而且对全部所谓"知道读音的字" 中的大部分字的声调他们也不能确定,只能确定一小部分字的声调。由于不 知道字的声调,对同音字多的音节,往往要翻多页才能找到要査的字,有时 甚至可能要把该音节的同音字从头找到尾才能找到。而用我所创设的"部首 音形结合码査字打字同码方案"查不认识的字,虽然也有同码字,但同码字 数量少,且按使用频排序,很容易找到。可以省略其中的第二个步骤的理由在于,即使按第二个步骤在检字表査到字a在字典正文的页码c, 一下直接翻到字a的页码的几率也很少,多数情 况下是第一次只能翻到c页的附近,要经过至少两次的翻页才能翻到c页。 也就是说用与不用第二个步骤,第三个步骤所用时间基本相等,即使稍慢一 点,也不会比加上第二个步骤所用的时间还长。既然所用时间总和不长,就 完全应该省略第二个步骤。由于有以上三方面的改进,从而査不认识的字也可以直接翻页査字,无 论査认识的字还是査不认识的字比现在通用的部首査字法要快得多。本发明方案把35个非成字部首归并为5种基本笔画;把168个成字部首 按读音首字母归并为20种读音首字母,部首本身的归类及与键盘键位的对应 关系都极有规律,在很短时间内就可记牢。依据本查字法査字,比用了 1000 多年直至现在还通用的"部首查字法"和"笔画查字法"快许多。现在通用 的运用部首查字法的字典,其检字表中都有"难检字表",而其中的难检字几 乎全属于独体字和无成字部首或两笔以上非成字部首独占一半的合体字。若 按本方案査字,则难检字极少,加之本方案对难以确定编码的字可用两种编 码査字,因而取消了 "难检字表"5. 编码规则符合人们识记称说汉字字形的习惯人们在识记称说汉字字形时,通常采取如下模式独体字(包括非成字部首)l无字根的直接分成几个笔画;2有字根的, 先分解成字根与笔画,再把构件分别分解成几个笔画。合体字1先把汉字合体字分为两半,把部首分作一半,把其余笔形分作另一半(如人们称谓姓氏常说"古月胡、弓长张、言午许、双人徐"。2再把各半分别分为一个或几个成字部首字(或构件)-这里的构件特指非成字部首 独体字和两笔以上非部首笔形,如"申夫"非成字部首独体字、"釜"字的 后半的笔形、"敖"字左半的笔形、"复"字第一二笔的笔形等都称之为构件。该概念的外延大于通常所说的字根。下同-取该半的次笔笔画)3最后把构件分解为笔画。上述模式与本方案的编码顺序和编码特点相比,我们有充分的理由说本 方案的编码规则与人们识记称说汉字的习惯正相吻合。6. 《方案一》与王码五笔字型输入法(以下简称为"王码")相比 6.1比王码易学显而本方案把34个非成字部首归并为5种基本笔画;把173个成字部首按读 音首字母归并为20种读音首字母,极有规律与键盘键位的对应关系在很短时 间内就可记牢,而且本方案把査字与打字用同一种编码方式,由于要学打字 的人在学打字以前就已熟练掌握编码,可以使其在初学打字时,估计比新学 任何一种编码至少可以节省一天的熟练掌握编码的时间("全拼法"除外)。王码五笔是依据构件(字根)按笔顺编码,要牢记125个字根及其与键 盘键位的对应关系就要花费很多时间,再要熟练掌握编码打字则更需时日。6.2同样文稿输入,本方案总击键次数比王码少许多。文稿输入无非是单字输入和词简码输入两种方式。下面分别从单字输入和词简码输入两个方面进行比较。(1)同数量单字输入的总击键次数比王码少许多 据有关王码介绍资料统计,在王码86版中有 一级简码高频字25个,连击空格键录入计算在内每字两码 二级简码字589个,连击空格或数字键录入计算在内每字三码 三级简码字4000多个,连击空格或数字键录入计算在内每字四码,其它2000余字亦均为四码(个别四码重码字连击空格键或数字键计算在内每字五码,忽略不计)。据笔者手中摘录的《现代汉语频率词典》(北京语言学院研究所编纂,北 京语言学院出版社.1986版)对4574字的使用频率统计-前17个使用频率最高的字累计频率为21. 23649%;前40个使用频率最高的字累计频率为31. 76885%;前100个使用频率最高的字累计频率为47. 33584%;前200个使用频率最高的字累计频率为60. 6911%前300个使用频率最高的字累计频率为69. 20266%前600个使用频率最高的字累计频率为83. 21229%;前650个使用频率最高的字累计频率为84. 6566%;前3500字即达到使用频率最高的字累计频率为99. 86826%;上述数据说明王码的两码字累计使用频率在21. 23649%与31. 76885%之 间;王码的三码字累计使用频率在50%-60%之间;二码字和三码字累计为83% 左右;王码的四码累计使用频率约为17%。本方案击两码可录入高频单字322 (30X11-8个标点)个其余6400多单 字(按6763字库计算)由于采用"句段输入",亦均为击两码即可录入,由 于采用"句段输入法"所有单字都为两码,当然还要加上修改时的击键次数, 按修改率10%计算(搜狗拼音输入法修改率为20%,本方案估算低于10%),另 外,本方案还有多字词语一字一码即可录入,两相抵扣,平均输入一个汉字 击键肯定要少于2. l次,估计应在2.0次左右。这里需要说明的是虽然上述数据是根据4574字的统计所得出的,但根据 "汉字用字递减率",上述数据对6763字来说虽不甚准确,却也相差无几。对前述两组数据两相比较,不用计算即可看出同数量的单字输入本方案 总击键次数比王码少许多。(2) 王码有一些二字词不能以四码形式输入。笔者方案所有二字词都以 四码形式输入。二字词的输入方面,虽然王码和本方案比,二者码长均为四码(王码个 别重码词为5码-计击选字键位,忽略不计),但是在文稿输入过程中,二者 的单字输入和词的简码输入在全篇文稿所占的比例不同。王码有许多常用词 (特别双音常用词)不能用词的简码输入。如"但是、肯定、词语、采用、 语文"在王码98版中都不能以词的简码方式输入。这其中的原因在于王码的单字和词用同一套编码符号,这套编码符号 由5种基本笔划和125种字根组成,其首码平均五个多字根共用一个键位(不 像本方案的首码是一个编码符号对应一个键位-),且单字码长(不计击空格 键)以三四码为多,词的简码均为四码,这就必然会有一些单字与词的简码 相同,也有一些二字词的简码相同,而为了使每个单字都有一个唯一固定的 编码(容错码这里忽略不计),也为了避免单字与词的简码重码和词的简码与词的简码重码就必然要使一些常用词(特别双音常用词)不能用词简码输入。 如(l)按王码98版和86版词编码规则"雇主"、"词语"两词编码都是"ynyg", 在86版中"词语"可以用词的简码输入,"雇主"只能以单字编码输入;而 在98版中则相反,"雇主"以词的简码形式输入,而"词语"以单字编码形 式输入。(2)"鲜鱼"与"鲐鱼"的词编码都为"qgqg"在98版和86版中都 只有鲜鱼以词的简码方式输入,"鲐鱼"(虽然不是常用词但其在文稿中大都 连用)都只能以单字编码方式输入。(3) 98版中"语言"、"语文"的词的简 码都为"ygyy",贝U只有"语言"以词的简码方式输入,"语文"只能以单字 编码方式输入。(4)按98版词简码编码规则,常用词"但是"简码输入应为(wjjg),但当笔者输入时提示框内只出现了 "倡"字,即是说"但 是"不能以词的简码形式输入。这就需要删去"j"再击空格键录入"但"字;"采用"亦为常用词的简码应为"eset",但输入"ese",提示框只显示了"彩" 字,即表明"采用"不能以编码形式出现这就需要删去"e"再击空格键录入"采"字。如前所述,本方案不但不必避免重码,反而有意利用重码。且由于采用 "句段输入法"所有单字都为两码,实际上等于所有二字词都是四码。综上所述,本方案与王码在二字词输入方面虽都是四码,但王码有一些 二字词不能以简码形式输入,而本方案所有在文稿输入中二字词都是四码。 加之本方案同数量单字输入的总击键次数又比王码少许多;所以我们可以说 同样文稿输入,本方案总击键次数绝对比王码少许多。(3) 多字词语输入方面比王码更好。 王码有一些三字词或四字词及个别四字以上词语都是四码,表面上看起来比本方案码长短而相等,但在实际文稿输入过程中,王码中可用简码录入的三字词、四字词在文稿中所占比例毕竟很少。本方案把三字以上词语编码成为汉字编码母系统中的一个独立的子系统,不必考虑避免与双字词语重码,除了可可提高二字词语的首码准确率以外,更重要的是可大大提高三字以上词语库的容量,使大量的三字以上短语、 名言、名句都可以多字词语简码的形式录入。两相比较,有理由说在多字词语输入方面比王码更好。(4)王码在录入二、三级简码字时需根据提示框选字。本方案在输入过 程中除了 300多个高频字输入首码后要从提示框中选字以外(熟练后,就不 必再依靠提示框选字了),其他单字和二字词语只需击编码键,由电脑自动选 字录入不再需根据提示框选字录入。7.《方案一》与目前其它通用纯音码输入法的简单比较(1) 在简单易学方面的辩证比较对能熟练运用汉语拼音拼写汉字的人 来说,表面上在简单易学方面,与"双拼"大致相等,比"全拼、智能ABC、 微软拼音"等输入法要难一些,但也不是相差悬殊,不用多费很多时间。实 质上,《方案一》比目前其它通用纯音码输入法还要简单易学。理由在于,纯 音码的简单易学以能熟练运用汉语拼音拼写汉字为前提,《方案一》的简单易 学以会用本方案査字为前提。在都具备前提的情况下,二者都几乎不需要再 费时间学习;在都不具备前提的情况下,掌握纯音码所花费的时间则要比《方 案一》纯音码多几十倍甚至上百倍。(2) 输入同样文稿,《方案一》每字平均编码码长比全拼法少一码多。《方 案一》单字和二字词语的编码每字都是2码,多字词语编码为 一字一码。据 统计"全拼法"平均每字码长为3. 02码。(3) 《方案一》输入过程中不用根据提示框选字(词),而"双拼、全拼、 智能ABC"需要根据提示框选字(词),因而录入时比"双拼、全拼、智能 ABC"要便捷得多,录入速度也应稍快一些,至少不可能反而相对较慢。"双 拼输入法"虽也是两码确定1个二级重码字组,也利用重码字组,但它只有 400余个二级重码字组(汉语有字音节为400余个),在"GB2312字符集"范 围内平均每个音节汉字的平均数是15个多,且各个音节的字数相差悬殊,字 数最少的只有1个,字数最多的两个音节"ji"和"fu"分别为100个和83 个,字数在30字以上为数不少。因各重码字组的数字相差悬殊,给选字带来 不便,要经常用到翻页键选字。与本方案相比优劣自见。(4) 在首码准确率方面的比较(4.1)本方案提高汉字录入的首码准确率的主要措施 本方案由于在编码符号设置、编码规则、汉字录入方法上有独创之处, 起到了提高首码准确率的作用,散见于前述各部分内容的提高首码准确率的 措施主要有如下三点l.笔者方案采用句段输入法且句段的首字己确定,句 段输入的特点是输入的句段越长准确率越高;2.再者,笔者方案有322个高 频字两码即可准确录入(实际上还有办法将输入两码即可准确录入高频字的数量由322个增加到600多个,但综合考虑"汉字用字递减率"及其他因素 觉得确定300多个是最优方案);3.多字词语一字一码即可准确录入,4.笔者采用个性化的字库、词语库、多字词语库。以上四项措施可以大幅度提高首码准确率,其理由在于 二级重码字组平均字数比纯音码少各重码字组的字数是影响首码准确率的主要因素。重码字越少首码准确 率越高,按照笔者的两码编码方案和个性化字库3755字左右的设置标准,每 个二级重码字组的平均字数约为6个([3755-326]/577二5.94)个,与纯音码相比,若采用相同的字库,要比其他纯音码码长短1/3 (纯音码 的平均码长为3.02)且每个音节重码字组的平均字数少1/3,(实际上目前较 通用的纯音码的字库都超过了 1万字,按1万字计算,要比其他的纯音码每 个音节重码字组的平均字数少3/4),就此可以说笔者的编码方案首码准确率 肯定比通用的拼音方案高得多。至于各种形码多以无重码字为目标,单字码长一般为四码,与笔者的单 字一律为两码差别太大,不具有可比性。(4.2)确定录入字是其他方案的数倍就单字录入来说,目前通用的各种输入法输入两码(包括击空格键)就 可确定录入的单字一般不超过30个,而笔者的方案多达322个,是目前通用 的各种输入法的10倍。确定录入字的作用在于能降低计算机进行语句处理时计算的复杂度。据 《汉字频率表》中的的相关数据粗略概算,这322个高频字在文稿中的覆盖 率理论上应该能达到65%~68%。笔者随机选择了 IO万字的议论性文稿,就其 对初步确定的322个高频字覆盖率进行统计,统计结果是322个高频字的覆 盖率占59. 3%。若对322高频字根据个人用字特点进行几次调整,最终确定符 合个人用字特点的322个高频字(即保证使用频率最高的前200个高频字都 包括在这322个高频字以内)。其覆盖率至少应该能占64. 1%,另有多字词语 一字一码即可确定录入,还有许多二级重码字组中只有一个或两个字实际上 也可确定录入。这样实际的文稿录入过程中,这样可以保证绝大多数句段中间都可能有 一个或几个己确定录入的字。这一个或几个已准确录入字的作用在于表示一 定的语言环境信息,有了这些己确定的字作为语境,其两旁的字多数情况下 就会确定,至少与这些已确定的字所组成的词或固定短语肯定会确定。从而 降低计算机进行语句处理时计算的复杂度。而微软拼音输入法及其它拼音输 入法没有已确认的字作为附加的语言环境信息,因而仅从这个意义上说,其 首码准确率也要比目前通用的输入法方案都要高许多。再者,笔者方案采用把多字词语编码成为汉字编码母系统中的一个独立 的子系统, 一字一码即可确定录入,与双字词语及单字属于两个编码子系统, 避免了多字词语与单字和双字词语的重码,无疑也可提高文稿输入的首码准确率。综上所述,可以说笔者方案的首码准确率与目前的通用的数种允许有重码的输入法相比,若都采用两码句段输入是最高的。估计应达到90%左右。(4.3)本方案比纯音码的优越之处还表现在如下两点 一是遇到不认识 的字也能编码输入;二是更适合不懂普通话的人使用,且还可用手写板输入。8.《方案三》与其他手机输入法的简单比较8. 1由于《方案三》把同一数字键位所对应的三个声母首字母代码所组成 的三个一级或二级重码字组的字统一按使用频率排序,与通用的拼音输入法 比,(1)不用按*号键选择另一种拼音组合(估计平均每输入一字至少少击0. 5 键);(2)《方案三》有一级简码字和二级简码字两种简码,拼音方案只有一 级简码字一种简码。两项相加输入相同文字可减少许多按键次数(具体比例 待验证)。8.2由于《方案三》把标点符号、数字及其他常用符号纳入汉字体系统 一编码与通用的拼音和笔画输入法比,输入标点或数字或其他符号时不用按 输入法切换键至于首码准确率高,极少用翻页键,多字词语一字一码等优点在前已有 表述,这里不再赘述。
权利要求
1、一种查字打字同码输入法,其特征是,编码规则如下(1)按成字部首读音首字母及非成字部首首笔画编码;(2)每字最多三码,第一、二码,成字部首取读音首字母码,不成字构件取首笔笔画码,第三码均取笔画码;第三码或为显性码或为隐性码,为显性码时,主要用于手机及其他数字键盘的汉字录入;为隐性码时,主要用于查字和电脑的汉字录入;(3)编码时首先把汉字分为独体字和合体字两类,再按下列规则编码(3.1)独体字取码规则(3.1.1)成字部首独体字第一码为成字部首读音首字母,第二码为成字部首读音首字母;第三码成字部首首笔笔画,第三码按其首笔画“一”“丨”“丿”“丶”“乛”分别对应编码为“1”“2”“3”“4”“5”;(3.1.2)非成字部首独体字第一码首笔笔画,第二码次笔笔画,第三码为第三笔笔画,第三码按其首笔画“一”“丨”“丿”“丶”“乛”分别对应编码为“6”“7”“8”“9”“0”;(3.2)合体字编码规则(3.2.1)两半中均为成字部首或两笔以上非成字部首各自独占一半的第一码为独占一半的前半成字部首读音首字母或两笔以上非成字部首首笔画,第二码为独占一半的后半成字部首读音首字母或两笔以上非成字部首首笔画,第三码根据第二码取码,第二码是成字部首的,取成字部首首笔笔画,按其成字部首的首笔笔画“一”“丨”“丿”“丶”“乛”分别对应编码为“1”“2”“3”“4”“5”;第二码是两笔以上非成字部首首笔画的,笔画取该半次笔笔画,按其笔画““一”“丨”“丿”“丶”“乛”分别对应编码为“6”“7”“8”“9”“0”;(3.2.2)两半中有一个成字部首或两笔以上非成字部首独占一半的第一码为独占一半的前半或后半成字部首读音首字母,或两笔以上非成字部首首笔画;第二码(a)另一半只有一笔的,取该笔笔画码;(b)另一半中有成字部首构件位于该半前一部分或后一部分的,取成字部首读音首字母码;否则则取该半首笔码,成字部首构件位于该半中间的,亦取该半首笔码;第三码根据第二码取码,第二码是成字部首的,取其第二码成字部首的首笔笔画,按其成字部首的首笔笔画“一”“丨”“丿”“丶”“乛”分别对应编码为“6”“7”“8”“9”“0”;第二码是取笔画码的,取余下部分首笔笔画,按其笔画“一”“丨”“丿”“丶”“乛”编码分别对应为“6”“7”“8”“9”“0”;(3.2.3)两半都不是成字部首或两笔以上非成字部首的各自独占一半的按笔顺取第一、二码,第一码取前半的首笔画;第二码取后半的首笔画;第三码取后半的次笔笔画,后半只有一笔的,第三码与第二码同;第三码按其笔画“一”“丨”“丿”“丶”“乛”分别对应编码为“6”“7”“8”“9”“0”;(3.2.4)特殊部首字所属字的编码规则特殊部首字所属字的定义按编码规则其首码为特殊部首的;特殊部首字所属字的编码规则首码为特殊部首码;第二码据去掉部首后余下字形依一般字编码规则取码;第三码取码规则a.第二码是成字部首的,取其第二码成字部首的首笔笔画;按其成字部首的首笔笔画“一”“丨”“丿”“丶”“乛”分别对应编码为“1”“2”“3”“4”“5”;b.第二码是取笔画码的,取余下部分首笔笔画,按其笔画“一”“丨”“丿”“丶”“乛”编码为“1”“2”“3”“4”“5”;c.后半只有一笔的,按其第二码笔画“一”“丨”“丿”“丶”“乛”分别对应编码为“1”“2”“3”“4”“5”;(4)高频字包括“,。/;”四个标点,编码规则第一码相同字的集合组成一个一级重码字组,分别将30个一级重码字组中使用频率最高的前11个高频字的尾码分别编为空格键、a、e、u、i、o、v、“,”、“。”、“/”、“;”,高频字击键两次便可确定输入;为了有规律的记忆或寻找各个高频字所对应的键位,特规定每个一级重码字组中使用频率最高的3个字分别对应空格、“a”和“;”键,其他字按第一码的首笔画“一丨丿丶乛”的顺序排列,第一码首笔画相同的按使用频率高低的顺序排列;特别规定“纟山竹言亠宀忄木人水扌艹月鱼酉”15个部首,其中“言”包括“讠”,“人”包括“亻”,“水”包括“氵”,各自所属的8个高频字按去掉部首后剩余部分的首笔画“一丨丿丶乛”的顺序排列,其中属成字部首的高频字,即去掉部首无剩余笔画的,排在有剩余笔画高频字的前面;“,。/;”4个标点的编码分别为“,,”、“。。”“//”“;;”;为了保证330个高频字中排序在前200的高频字原则上都包括在内,规定把首码分别为“h、d、l”的高频字各选10个将其首码分别编为“a、o、/”;把首码分别为“f、v”的高频字各选8个将其首码分别编为“e、n”;(5)多字词语编码规则三字以上词语的录入,按一字一码的简码录入,编码规则如下(5.1)运用“三字以上词语简码编码功能键”f3、f4、f5、f6、f7,要输入的是n字词语,先击fn,接着输入该词语简码;或者(5.2)运用上档键要录入三字以上词语,其首字首码与上档键构成组合键,同时击这两键,接着按一字一码击该词语中间字的首码键,最后再同时击该词语最后一字的首码与上档键,即可录入该词语。
2、 根据权利要求l所述的一种查字打字同码输入法,其特征是,在上述 (3.1.2)非成字部首独体字编码规则中,非成字部首编码规则为非成字部首的第一、二、三码同为首笔画,第 三码按其首笔画"一""l" "j" "、" "i"分别对应编码为"l" "2"(3.2)合体字k码规则中,(1) 上中下结构的字按不同分法可分为两个不同成字部首的,成字部首 就大不就小;(2) 上下或上中下结构的字仅从字形上看,既有相接处又有相离处的, 一般从相离处划分为两部分,若无相离处,则可从相接处分为两部分;(3) 上中下结构的字其首码只能从上下取码,不能从中间取首码,取第 一码后,余下部分从形体上看仍为上中下结构的,第二码亦只能从上部或下 部取码;若其首码取的是上部或下部的一个独占一半的成字部首或两笔以上不成 字部首,第二码仍同其他合体字一样按笔顺优先从余下部分的上部或下部取 成字部首码,余下部分无成字部首的取余下部分的首笔笔画码;若其上部和下部均无独占一半的成字部首或两笔以上不成字部首,第一、 二、三码则分别取第一、二、三笔画;(4) 两半都无成字部首、也无明显界限的上下结构的字,按独体字编码;(5) 左中右结构的字其首码只能从左右取码,左右均为成字部首或两笔 以上非成字部首的按笔顺从左部取首码,尾码根据余下部分仍按一般规则取 码;(6) 难以确定编码的字可有两种编码的容错码。
3、 根据权利要求2所述的一种査字打字同码输入法,其特征是,包括建 立个性化字库、词库、多字词语库,首先,分别建立一个基本^J单、双字词语库和一个多字词语库,包括高 频字库,作为打字人的假定个性化的字词语句库,打字人以此为基础建立适 合自己使用的个性化的单双字词语库和多字词语库,其具体方法是其次,打字人利用计算机wodr的学习记忆功能和微软操作系统的造字功 能,在汉字的输入过程中随时可以对机内基本的单双字词语库和多字词语库, 进行增删及次序重排;当输入文稿字数达到一定数量或几个月后,可对一级高频字加以调整, 即把其中自己使用频率低的字按单字编码划归到所属的二级重码字组,另把 该二级重码字组中自己使用频率高的字补充到高频字,高频字调出和调入的 字数相等,保持高频字总数不变;对打字时新录入的多字词语,在录入文稿的同时手动加入多字词语库;手动加入多字词语库条目的具体方法是写录入文稿时,用单字编码输 入某个多字词语后,随之选中并按f2键确认,接着按一字一码编码输入并显 示该多字词语,该多字词语即收进多字词语库;再者,对于已收进个性化的单双字词语库或字或双字词语在一定时间内未重复使用就自动删去。
4、根据权利要求l所述的一种査字打字同码输入法,其特征是, 电脑的汉字录入方法如下(一) 句段录入A、 除句段首字输入该字两码需再击一键从供选字提示框中选定要录入的 字确认录入外,其余要录入的汉字均只输入两个编码,由电脑自动选字;B、 该句段汉字编码输入完毕,接着输入标点符号码,该句段即录入完毕, 接着再依次类推录入下一句段;直至全部录完该自然段或几个自然段,乃至 整篇文稿;再通过参考拼写语法检査提示修改其不正确的地方;C、 当所键入的第二码是有标点符号和其他常用符号的二级重码字组的键 位代码时,自动出现供选符号提示框,需根据供选字提示框选定要录入的符 号再击一键确认录入;D、 若句段首字是高频字则击两码即可确认录入;(二) 多字词语录入A、运用f键,要录入某三字以上词语,先击键盘上方f打头的快捷键; 要输入的是n字词语,就击fn;接着输入该词语简码以后,即可录入该词语;或者,B、运用上档键,要录入某三字以上词语,其首字首码与上档键构 成组合键,同时击这两键,就像通用输入法录入"?"标点一样,接着按一 字一码击该词语中间字的首码键,最后再同时击该词语最后一字的首码与上 档键,即可录入该词语;(三) 个性化字词库以外字词的录入 打字时遇到基本的单双字词语库没有收入的单字,临时从微软操作系统自带的"CJK统一汉字集"中用插入法录入,或利用微软操作系统的造字程序 自造字录入或采用ocr技术手写录入;并在录入文稿的同时自动加进单双字词语库或多字词语库。
5、根据权利i求i所述的一种査字打字同码输入法,其特征是,手机的汉字录入方法如下 (1)简码字录入总体上是录入简码字时,每输入一个编码符号,屏幕上便显示出一个 一级或二级或三级重码字组的7个候选字;为了有规律的记忆或寻找各个简码字所对应的键位,特规定7个一级简 码候选字的排列顺序是使用频率排在第1位的排在中间,并让光标将其选 中,将第一码首笔画为"一"的、第一码首笔画为"I "依次排在其左边; 将第一码首笔画为"j "的、将第一码首笔画为"、"、第一码首笔画为""" 的依次排在其右边;其具体录入方法如下输入第一个编码符号,屏幕上便显示出该编码符号所对应的一级重码字 组的7个候选字;若要录入的字正是光标所对应的字,直接按选择键确认录 入;若要录入的字在光标的左边则按上滚动键移动光标选中再按选择键确认 录入;若要录入的字在光标的右边则按下滚动键移动光标选中再按选择键确认录入;若要录入的字不在这7个重码字中,则输入第二个编码符号,屏幕上便 显示出该编码符号所对应的二级重码字组的7个候选字;若要录入的字在这7 个重码字中,再依上述同样方式录入所要录入的字;(2) 三码字的录入 若要录入的字不在上述二级重码字组的7个候选字中,则输入第三个编码符号,屏幕上便显示出该编码符号所对应的三级重码字组的7个候选字;确认所要录入的字再依上述同样方式录入所要录入的字,若要录入的字不在这7个重码字中,则翻页选中后便直接录入;翻页键为光标的上下移动键;(3) 联想词语录入每当输入一个单字,屏幕上便显示出一组能够与所输入单字组成常用词 的7个候选字输入所要录入的字后,就结束了本次联想词语录入;7个候选字的排列顺序与简码字的排列顺序相同;软件支持联想词语录入可以连续进行,即结束了一次联想词语录入后, 屏幕上便会再显示出一组能够与刚通过联想词语录入方式所输入单字组成常 用词语的7个候选字,可以直接从中选取并录入下一个字,;若屏幕上显示出的一组能够与所输入单字组成常用词的7个候选字不是 所要录入的常用词的第二个字,则不再翻页选字而是直接输入所要录入的常 用词的第二个字的编码;(4) 多字词语录入三字以上常用词语的录入,可按一字一码,即单字首码简码录入,要录 入三字以上词语,先点击#号键,按一字一码简码输入以后,再点击ft号键。
6、 根据权利要求1或2或3或4所述的一种查字打字同码输入法,其特 征是,把通用键盘的占据5个多编码键的位置空格键一分为二,或一分为三, 设定只在中文输入法状态下做两个或三个键位用,在其他场合下仍做一个键 位用。
7、 根据权利要求1或2或3或4所述的一种査字打字同码输入法,其特 征是,输入汉字过程中,直接实现査字;(1) 用电脑浏览网页和打字时遇到生字新词,用打字程序就可査字,不 必再启用查字程序,其具体实现方法是,先按编码规则打出该字或词,再击 规定的查字义编码符号键,即出现该字或词的释义;(2) 手机增加字典功能,生活中遇到生字新词,用手机打字程序就可査 字,方法是在手机的功能表中加进一个"査字"子功能菜单,要査字选中 确认"查字"子功能菜单,即处于查字状态,编码输入并显示要査的字选中 确认即可显示该字的释义;或,在写信息状态下输入要查字或词的编码并显示该字后,再连击两次 査字义编码符号键,即可显示该字或词的释义。
8、 根据权利要求1或2或3或4所述的一种査字打字同码输入法,其特 征是,用软键盘或大触摸屏录入汉字,具体方法如下把软键盘或触摸屏分为11行,第六行即中间一行为五种基本笔画键及几个所属字多的不成字部首,如IS 3lj卑f卑L口夂,第1行为读音首字母"abc"所对应的成字部首键位;第2行为读音首字母"def"所对应的成字 部首键位;第3行为读音首字母"ghi"所对应的成字部首键位;第4行为读 音首字母"jko"所对应的成字部首键位;第5行为读音首字母"lmu"所对 应的成字部首键位;第7行为读音首字母"npv"所对应的成字部首键位;第 8行为读音首字母"qr,"所对应的成字部首键位;第9行为读音首字母"st。" 所对应的成字部首键位;第10行为读音首字母"wx/"所对应的成字部首键 位;第ll行为读音首字母"yz;"所对应的成字部首键位;用鼠标点击所要输入字a的第一个部首,若字a在供选字显示框内,直 接点击a即可录入;若字a不在供选字显示框内,则点击字a的第二个部首, 若字a在供选字显示框内,直接点击a即可录入;若字a不在供选字显示框 内,则翻页点击字a即可录入。
9、权利要求1-7中任一权利要求所述的一种査字打字同码输入法的输入 装置,采用计算机通用键盘,其特征是,键位设置为-(1) 把"退格键"下移到","键位;(2) 把所有的标点符号纳入汉字系统,像汉字一样编为两码,腾出现在 的",。/ ;"四个键位另改作编码符号键位;(3) 5个基本笔划编码符号键 横(键位h): —包括匚升竖(键位l) 撇(键位P) 点(键位d) 折(键位f)I包括!j门口产"肖"字上一半J包括勺、"危,,的上一半、"番"的上一半、3 -久亇夂 、包括工Z 一^"、、丰卑L、"曾"的上面两点 "包括3IS卩〈〈〈、其中"横"包含"提","竖"包含"竖钩","点"包含"捺","折"包含除"竖钩"夕卜的单笔戈lj "折"笔;另外,上述部首中,有"1^';2个特殊部首仅限于作第二码时按其读音 首字母编码,作首码时,按其特殊部首代码编码; (4)音码键音码20个,采用现行汉字所用的20个声母读音首字母, 一字母一个键 位,与键盘上的20个英文字母键位相同; 20个音码键分别对应的成字部首如下b八白贝匕比鼻髟广;C厂长虫车辰臣齿赤《寸*; d大刀歹斗豆;f方 风缶父非;g工干甘艮弓高革戈骨谷瓜鬼广鬲;h禾户黑火黄;j己几见角金 ,巾斤臼,"几"包括"风字框";k 口; L老力立里鹿卤龙耒隶;m马麻麦毛 矛门米糸皿木目母面;n鸟牛女;P爿皮片支疋;q气其欠青犬;r人4日肉 二儿耳,"曰"并入"日";s山手净舌生氏色首身石十士巳尸示矢豕食四厶殳 鼠水纟;t 土田;W王无尤瓦文毋韦;X小西心十辛穴血夕香;y言羊用幺酉 又尤页业弋衣音雨羽聿月牙,"羊"包括"差"的上半、"羔"的上半;z舟走 止豸支至子自竹"竹字头"足"足字旁"隹爪w;另外,上述部首中,有"纟山竹木言i十人4 矛^月鱼酉"特殊部首仅限于作第二码时按其读音首字母编码,作首码时,按其特殊部首代码编码。(5) IO个特殊部首字首码键位包括",""。""/" "; " 4个标点符号键位和a、 e 、 u、 i、 o、 v 6个字 母键位,其对应的特殊部首如下a—纟山;e—竹;U—木;i一言、丄^;0—十;V—人^f ; ,_ ; 。 _才;/ -卄;;-月、鱼、酉;(6) ll个高频字尾码键位;包括空格键、a、 e、 u、 i、 o、 v、 ","、 "。"、 "〃,、 ";" ll个键位;(7) 1个常用符号(包括部分标点符号)首码键位"q"或"新增加的空 格键";(8) l个査字义编码符号键位"二";(9) 2个选字光标左右移动键"["和"]";(10) 三字以上词语简码编码功能键三字词语编码键为f3;四字词语编码键为f4;五字词语编码键为f5;六 字词语编码键为f6;七字及七字以上词语编码键为f7;(11) 功能键位设置两个功能键位fl和f2, fl为启动自造字程序键位;f2为启动个性 化多字词语库增加程序键位;
10、权利要求1-7所述的一种査字打字同码输入法在纸质字典或电子字 典或手机编码输入中的应用。
全文摘要
本发明涉及一种查字打字同码输入法及其输入装置和应用,属电脑和数字化键盘汉字编码技术。本发明依据字典查字通用部首,把34个不成字部首归类为5种基本笔画,把173个成字部首按读音首字母归类为20种读音首字母,设置个性化字词库。为汉字录入设计四种具体编码方案供人们选用,方案一为简体字版,方案二为繁体字版,二者用于电脑。方案三为简体字版,方案四为繁体字版,二者主要用于手机的汉字录入。方案一、二一字两码,每码确定该字的一个部首的读音首字母或一个基本笔画;方案三、四一字三码,第一、二码与方案一、二的编码规则相同,第三码是每码确定该字的一个成字部首的首笔画或一个基本笔画。方案一和方案三均既可用于电脑打字又可用于电子字典和纸质字典的查字学字。
文档编号G06F3/023GK101226430SQ20081001376
公开日2008年7月23日 申请日期2008年1月11日 优先权日2008年1月11日
发明者徐洪常 申请人:徐洪常
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1