核心码计算机高效输入法的制作方法

文档序号:6330730阅读:209来源:国知局
专利名称:核心码计算机高效输入法的制作方法
技术领域
本发明属于计算机键盘和手写输入。经过二十多年的研究,基于编码的中文计算机键盘输入方法已有上千种,这些方法地差异主要是选取的码元不同和码元的归类方式不同,而码长目前普遍采用四位,如“王码”、“郑码”等。也有采用三位码长的方案,如早期的“钱码”和近几年的“飞两笔码”、“五分钟码”和“三键码”等,由于三位码长编码空间较小,这些方案着重于对字库进行编码,尽管对I、II级汉字范围而言重码率较低,但由于只能带数量较少的词库,特别是用户自造词会与系统词库之间发生较多的重码,因而有的方法又把词的码长扩展为四位,从而未能在三位码长编码空间内实现以词为主导的高效输入。目前手写识别技术有了较大的提高,手写输入的优点是自然、方便,但目前按逐笔或部分连笔书写的效率不够高,还没有实现与键盘编码兼容的高效手写输入方法。目前中文的键盘输入速度总体上高于英文,原因是中文以词和词组为输入单元,而英文是逐个字母的录入,英文等拼音文字也完全可以以整词和词组为录入单位,但目前还没有实现与中文输入效率相当的英文高效键盘输入法和相应的手写方法。
本发明的目的在于克服现有三位码长编码方案只能以字为主的局限,提出在三位码长编码空间内实现以词为主导的高效输入方法,这种方法适用于多种文字、大小键盘及快速手写兼容又相对易学。
达到这一目的方法及其该方法的特点、实现方式如下
(一)编码方法
(1)核心词汇
词汇是随着社会的发展而逐步增长的一个开放系统。现代常用的语言(如英语和汉语)的词汇总量已超过千万,据有关英语词汇的资料,化学的词汇超过40万,医学的词汇超过30万,生物学词汇超过20万。尽管词汇的总量很大,但使用频度高的通用词汇的数量并不大,根据汉语词频的统计资料,I级汉字(3755个)的累计使用频度占现代文献中字使用频度的99.9%,8000高频词(包括单字)的使用频度达当代文献中词使用频度的90%。另外,就某个专业领域而言,英国词典编纂学家霍夫曼指出一门学科最常用的1000个词汇的出现率覆盖了该学科的82%,最常用的2000个词汇的出现率覆盖了该学科91%,最常用的3000个词汇的出现率覆盖了该学科95%。由此,我们把12000左右的高频通用词汇和3000左右的高频专用词汇叫针对某使用者的某类文稿的核心词汇。本方法的基本原理就是把有限的三位码长编码空间对准使用频度高的核心词汇,即尽可能使核心词汇之间降低重码,而使用频度较低的非核心词汇允许与核心词汇重码,按“高频先见”技术,对核心词汇的输入效率没有影响。
为了实现将三位码长编码空间对准核心词汇,我们把使用者当前所要输入的词汇分成以下4个词库
①通用词库A;
②通用词库B;
③通用词库C;
④专用词库。
以上A、B、C三个通用词库可以用文字中易于区分的特征来划分。如本方法实施方案A(中文)和实施方案B(中文),是按照“单字、双字词、三字及以上词”来划分。本方法实施方案C(英文),是按照“7个及以下字母组成的词、8个及以上字母组成的词、词组和短语”来划分。通用词库是由相对稳定的基本词汇组成,但也允许使用者在使用过程中增删。专用词库一般由用户在使用过程中逐步建立,也可以按专业领域事先建立。专用词库在使用过程中是“动态词库”,也即根据使用者的不同或所要输入的文稿的类别不同,可以随时选择不同的专用词库。以上每个词库包含的核心词汇在3000~5000左右,其配置的方式可以随用户作不同的选取。例如,对于简体中文系统,单字取I级汉字为核心词汇;对于繁体中文系统,则要取相应的繁体汉字为核心词汇;而对于经常需要输入古汉语的用户,则可以把他常用但一般人稀用的字纳入一个专用词库。
(2)码元
码元是编码方案规定的一组用以代表词(字)音、词(字)形或词(字)义等信息特征的符号,如字母、注音符号、笔画、构字部件、字等。本方法将码元分为基本码元和辅助码元。基本码元是决定词(字)编码的最低层次,是必须有的。辅助码元是介于词(字)和基本码元之间的中间层次,可以根据文字的结构层次作选择,可有可无。所有的基本码元归类为15类,用十五个符号作为类别符,简称“码符”,码符也就是该类基本码元自身编码的首码(编码第一位)。本方法实施方案A(中文)和实施方案C(英文)用“1、2、3、4、5、6、7、8、9、0、+、-、×、÷、·”作为码符,本方法实施方案B(中文)用“一、二、三、四、五、六、七、八、九、十、口、土、木、艹、水”作为码符。
例如,本方法实施方案A(中文),用汉字的“声母”、“韵母”和“部首”作为基本码元,并分为十五类,如表一所示。
实施方案A基本码元归类表
表一
例如,本方法实施方案B(中文),用组字频度高的部件(称主元)和书写中连续的两笔(称笔元)作为基本码元,以常用字(I级汉字)作为字编码的辅助码元。“横、竖、撇、点、折”这五种单笔按代号“一、二、三、四、五”归类,连续两笔按其代号之和归类,如“横撇”归类为“四”等。主元分为十五类,如表二所示。
实施方案B基本码元归类表
表二
例如,本方法实施方案C(英文),用26个英文字母及它们任意两个字母的组合(称双字母)作为码元,26个英文字母分为十五类,如表三所示。
双字母按两个字母的序号之和(超过15取与15的差)归类。如“a”的序号是4,“b”的序号是3,故“ab”归类为7;又如“e”和“f”的序号之和是20,与15的差是5,故“ef”归类为5。
实施方案C基本码元归类表
表三
(3)取码
从一个词(字、码元)中按某些规则依次取出码元形成码元串的过程叫取码。本方法规定码元串由三个或两个码元组成。码元自身也可以取码,基本码元的第一个码元规定为自身,再取出一、二个码元组成码元串。
例如,本方法实施方案A(中文),单字的码元串可表示为声母+韵母+部首。
例如,本方法实施方案B(中文),单字的取码规则为
(1)优先取出最大(笔划数最多)的码元。
(2)相同大小时优先取主元、离散的码元或书写在先的码元。
(3)取过的部分不能再取,最多取三次。
(4)取出的码元按书写时出现的顺序组成码元串。
如“提”分别取出码元“是”和“扌”,码元串是“扌是”。“字”分别取出码元“宀”和“子”,码元串是“宀子”。“中”为基本码元,第一个码元为其自身“中”,第二个码元在码元归类表中规定为“木”,取出第三个码元“口”,码元串是“中 木 口”。
例如,本方法的实施方案A(中文)和实施方案B(中文),多字词取码以字为辅助码元,并规定可以有两种可能的取码的方式。
取码方式如下
①两字词
码元串=第一字+第二字
②三字词
码元串1=第一字+第二字+第三字
码元串2=第一字+第三字
③多字词(四字及以上词)
码元串1=第一字+第二字+最末字
码元串2=第二字+第三字+最末字
例如,本方法实施方案C(英文),其取码方式如表四所示。
实施方案C取码表
表四
上表中下划线表示取定的码元,码元按从左到右的顺序组成码元串。去掉词组中的空格后,词组的取码与单个词相同。
(4)编码
本方法是按词库对词汇进行管理,并对各个词库分别独立进行编码。采用三位等长编码,编码都用“递推法”来获得,即用该词(字)码元串中的码元的编码组合成本字(词)的编码。当码元串中有三个码元时,取各码元的首码。当码元串只有两个码元时,则有两种可能的组合方式,一种方式取第一个码元的首码和第二个码元的前两码,另一种方式取第一个码元的前两码和第二个码元的首码。按此递推关系,所有的编码最终都归结为基本码元的首码,而基本码元的首码规定为其归类的码符。
如上所述,为降低重码,在取码或从码元串组合得到编码时,允许有两种可能的方式,究竟取那一种由输入系统优化。优化的方法按照以下几条规则
①按词的使用频度从高到低对词库排序,动态造词则按造词先后。
②排序在先的词(即核心词汇)优先编码。
③编码取与已经存在的编码不发生重码的方式。
④其它的情形,优先取第一种方式。
按以上规则,词库中除部分核心词汇取第二种方式外,一般取第一种方式为主。学习者可先假定编码都取第一种方式,通过尝试错误来逐步掌握部分取第二种方式的词的编码。
编码举例
如本方法实施方案A(中文),字“编”的码元串为“b ian纟”,查上述实施方案A(中文)的码元归类表,“编”的编码为“1÷3”。词“编码”的码元串为“编码”,“编”和“码”都是辅助码元,分别取“编”的首码、“码”的前两码,“编码”的编码为“162”。
如本方法实施方案B(中文),字“编”的码元串为“纟扁”,取基本码元“纟”的首码、辅助码元“扁”的前两码,“编”的编码为“三四七”。词“计算机”的码元串为“计算机”,分别取“计”、“算”、“机”的首码,“计算机”的编码为“九土木”。
如本方法实施方案C(英文),词“four”的码元串为“fo ur”,将“fo”、“u”、“r”用其归类的码符表示,得“four”的编码“676”;词组“a lot of”的码元串为“al ot of”,用码符表示得编码“356”。
(5)词类
除了将当前所要输入的词分成以上所述四个词库外,还将所有的词分成数量接近相等的两大类,称作“左类”和“右类”。一般容易找到用于分类的文字特征,如本方法的实施方案A(中文)和实施方案B(中文),用末笔分类,末笔为“横、竖、撇”的字(词)作为“左类”,末笔为“点(捺)、折”的字(词)作为“右类”。如本方法的实施方案C(英文),用末字母分类,末字母为“a~m”的词(词组)作为“左类”,末字母为“n~z”的词(词组)作为“右类”。
(二)键位布置
(1)标准键盘
核心码将十五个码符按左右对称的方式布置在键盘的中心区域,每一个码符都对应左右两个键。如本方法实施方案A(中文)和实施方案C(英文)的键位如图一所示。
如本方法实施方案B(中文)的键位如图2所示。
(2)微型键盘
十五个码符与通常计算器上相应的符号对应,如本方法实施方案A(中文)和实施方案C(英文)的键位如图3所示。
如本方法实施方案B(中文)的键位如图4所示。
(三)输入方法
(1)标准键盘
本方法编码中的每一位都对应键盘上左、右两个键,究竟是用左手还是用右手击键,是根据输入词所属的词库及该词的词类来决定(见表五)。
标准键盘输入按键表
表五输入口诀通用词A起右手,第二键要换手,下一手按词类通用词B起左手,第二键要换手,下一手按词类通用词C起左手,第二键不换手,下一手按词类
专用词起右手,第二键不换手,下一手按词类(2)微型键盘
微型键盘相当于将标准键盘左右两区合二为一,为此在原编码后加一识别符,码长扩展为四位。识别符如表六所示。
微型键盘加识别符表
表六
(3)规则变化各词形的输入
有些文字有词形的变化,如英语的名词复数、动词的过去式和过去分词等。凡是规则变化的词一般不加入词库中,输入这些词只要在原型词的编码中增加一附加键。对标准键盘附加键是最后一键,取编码键位和数字键以外的键,如“’”、“[”、“]”等键。微型键盘附加键在识别符之前,取“+”、“-”、“×”、“÷”等键。如本方法实施方案C(英文)的附加键如表七所示
实施方案C加附加键表
表七
(4)简码和重码处理
核心码是三位码长的输入方法,所以只有二键简码。简码是输入第一码后以空格键或数字键作为结束键。数字键一般通过输入第一码后以逐渐提示的方式来给出。本方法实施方案A,以空格键作为结束键的高频词如图5所示,其中标点“,。、;”作为简码二键输入。
对重码的处理一般有两种方式,一是将第三码改为空格键;二是作简码处理。
(5)快速手写
用“→、
←、
↓、
↑、
”代替“1、2、3、4、5、6、7、8、9、+、0、-、×、÷、.”或代替“一、二、三、四、五、六、七、八、九、十、口、土、木、艹、水”作为“手写码符”,用
作为“空格键”。按起笔点落在一垂直线的两侧(或水平线上下)作为“左区”和“右区”,如标准键盘那样按三位编码写入。也可以象微型键盘那样不分区,增加写入一识别符。
手写码符的识别特征是长短和方向,识别计算要点如下
1.长短按起点和终点座标计算直线长度L,L>b作为长线,a<L≤b作为中线,L≤a作为短线。长线和中线用作编码码符,短线用于表示常用符号和同方向码符连续书写的过渡。这里a、b是两个参数,需根据输入界面的尺寸来选择,如PC机的鼠标输入,取a=10mm,b=30mm;掌上型输入界面取a=4mm,b=10mm等。
2.方向计算起点与终点的连线与水平线或垂直线的夹角θ,|θ|≤10°范围内作为水平方向或垂直方向,其它都作为倾斜方向。再计算终点与起点的座标差△X和△Y,根据△X和△Y的正负和θ的范围,判别“水平向左、水平向右、垂直向下、垂直向上、右上—左下、左下—右上、左上—右下、右下—左上”共八个方向。
3.连续书写当书写方向发生转折时,判别前一码符书写结束,后一码符书写开始。
(四)特点和技术指标
1.编码数量少。本方法最多只有3375(15×15×15)个不同的编码,与中文常用字的数量相当,符合多数人的记忆负担。
2.取码规范、易学。两个中文实施方案完全符合汉字的拼音、笔顺规范,基本符合汉字的部首和部件规范。由于引进了“辅助码元”和采用完全的“递推法”,使得绝大部分汉字只要一分为二,与识字习惯一致。
3.输入效率高。在三位码长的条件下,各词库任意3000左右核心词汇的静态重码率一般控制在10%之内,任意5000左右核心词汇的静态重码率一般控制在20%之内。另外键位布置考虑了词频的合理分布,使用频度高的通用词充分利用了标准键盘输入效率较高的左右手交替击键。如果充分利用专用词库,可达到中文平均码长(平均每字击键数)接近于1、英文相比于逐个字母输入减少击键约一半的效率。如果配合输入软件基于词关连和语法规则的整句变换功能,则可减少非核心词汇的重码选择,输入效率更高。
4.多种文字输入法的统一。本方法的规则对多种文字有通用性,反映了词的构成、词汇使用频度的分布、键盘的特征等客观规律。
5.各类终端输入法的统一。标准键盘、微型键盘与快速手写的输入方法的兼容,可以达到“一次学习、各处适用”的效果。
(五)实现方式
按本方法获得词(字)的编码表后,在计算机上的实现原理与现有的键盘编码输入方法相同,一般都是由键盘处理模块通过查找输入码对照表实现。目前一般有三种实现方式,一种是利用WINDOWS-9X中文版操作系统附件中所带的“输入法生成器”,生成现有操作系统的一种输入方法,缺点是对本方法而言,不适用于英文且词库只能固定。第二种方式是在普通应用程序中实现,可实现本方法即时造字、编码优化、动态词库等特点,缺点是只能在该程序中使用。第三种方式是作为操作系统外挂输入法,这种方法扩展操作系统相关键盘处理模块的功能,既可作为操作系统输入法,又可实现自身特定功能,是最理想的方式。
本方法的快速手写输入的实现,首先是利用鼠标或手写板等获得书写时笔划轨迹座标,再按上述识别计算法对十余个“手写码符”的识别,其它实现原理与键盘编码输入方法相同。显然,这种手写方法不但高效,而且识别软件的计算工作量小,识别速度快、正确性高,特别适合于制作低成本的手写掌上数字产品。
权利要求
1、核心码计算机高效输入法,其特征是将当前所要输入的词按通用词和专用词分成四个词库,各个词库独立编码,降低重码率的重点是使用频度高的核心词汇。
将码元分成基本码元与辅助码元,基本码元分成十五类,并用十五个码符表示。任何的词(包括码元自身)都通过取码用不超过三个的码元表示。采用码长为三的等长编码,所有编码都通过“递推法”获得,即用该词码元的首码或首两码组合而成,从而最终使所有编码用基本码元的首码即十五个码符表示。
允许某些词有两种可能的取码或组合编码的方式,实际编码由输入系统优化,使三位码长的编码空间尽可能对准每个词库中使用频度高的核心词汇。
将标准键盘的中心区域30个键分成左右两个分区,15个码符按左右对称方式布置在两个区,编码前两位在左区或右区按键的4种组合与四个词库对应,由此保证词库之间不发生重码。编码的第三位是左区还是右区是将所有词分成两类来规定。
在包括15个键的微型键盘输入时,看作是上述标准键盘的左右两区合二为一,在原有的编码后加一识别符,码长扩展为四。
在手写(或鼠标)输入时,以书写“手写码符”作为按键,以起笔点落在垂直线两侧(或水平线的上下)作为两个分区,如标准键盘那样按三位编码写入。也可以象微型键盘那样不分区,增加写入一识别符。
2、如权利要求1所述的输入法,其特征是实施方案A(中文)和实施方案B(中文)按单字、两字词、三字及以上词划分成通用词库A、通用词库B、通用词库C。
3、如权利要求1所述的输入法,其特征是实施方案A(中文)和实施方案B(中文)所有词(字)按末笔为“横、竖、撇”与末笔为“点(捺)、折”分成“左类”与“右类”。
4、如权利要求1所述的输入法,其特征是实施方案A(中文)用汉字的“声母”、“韵母”和“部首”作为基本码元,单字的码元串是“声母+韵母+部首”。
5、如权利要求4所述的输入法,其特征是实施方案A(中文)的基本码元按码符“1、2、3、4、5、6、7、8、9、0、+、-、×、÷、·”分为如下十五类
6、如权利要求1所述的输入法,其特征是实施方案B(中文)用组字频度高的汉字部件(称主元)和书写中连续的两笔(称笔元)作为基本码元,以常用字(I级汉字)为字编码的辅助码元。
7、如权利要求6所述的输入法,其特征是实施方案B(中文)单字的取码规则为
(1)优先取出最大(笔划数最多)的码元。
(2)相同大小时优先取主元、离散的码元或书写在先的码元。
(3)取过的部分不能再取,最多取三次。
(4)取出的码元按书写时出现的顺序组成码元串。
8、如权利要求6所述的输入法,其特征是实施方案B(中文)的五种单笔“横、竖、撇、点、折”按代号“一、二、三、四、五”归类,连续两笔按其代号之和归类。
9、如权利要求6所述的输入法,其特征是实施方案B(中文)的主元按码符“一、二、三、四、五、六、七、八、九、十、口、土、木、艹、水”分类如下
10、如权利要求1所述的输入法,其特征是实施方案A(中文)和实施方案B(中文),多字词取码以字为辅助码元,并规定可以有两种可能的取码方式,取码方式如下
①两字词
码元串=第一字+第二字
②三字词
码元串1=第一字+第二字+第三字
码元串2=第一字+第三字
③多字词(四字及以上词)
码元串1=第一字+第二字+最末字
码元串2=第二字+第三字十最末字
11、如权利要求1所述的输入法,其特征是实施方案C(英文)按7个字母及以下词、8个字母及以上词、词组和短语分成通用词库A、通用词库B、通用词库C。
12、如权利要求1所述的输入法,其特征是实施方案C(英文)按末字母为“a~m”与末字母为“n~z”分成“左类”与“右类”。
13、如权利要求1所述的输入法,其特征是实施方案C(英文)用26个英文字母及它们任意两个字母的组合作为码元。
14、如权利要求13所述的输入法,其特征是实施方案C(英文)的26个英文字母分为如下十五类
15、如权利要求13所述的输入法,其特征是26个英文字母的任意两个字母的组合(称双字母),按两个字母的序号之和(超过15取与15的差)归类。
16、如权利要求1所述的输入法,其特征是实施方案C(英文)的词组(或短语)去掉中间的空格后,取码与单个词相同,取码方式如下
17、如权利要求1所述的输入法,其特征是用词(字)码元串中的码元的编码组合成本字(词)的编码时,当码元串中有三个码元时,取各码元的首码。当码元串只有两个码元时,则有两种可能的组合方式,一种方式取第一个码元的首码和第二个码元的前两码,另一种方式取第一个码元的前两码和第二个码元的首码。基本码元的首码规定为其归类的码符。
18、如权利要求17所述的输入法,其特征是当取码或从码元串组合编码时若有两种可能的方式,由输入系统优化选取一种方式。优化的方法按照以下几条规则
①按词的使用频度从高到低对词库排序,动态造词则按造词先后。
②排序在先的词(即核心词汇)优先编码。
③编码取与已经存在的编码不发生重码的方式。
④其它的情形,优先取第一种方式。
19、如权利要求1所述的输入法,其特征是实施方案A(中文)和实施方案C(英文)的码符和标准键盘的键位的对应关系如下
20、如权利要求1所述的输入法,其特征是实施方案B(中文)的码符和标准键盘的键位的对应关系如下
21、如权利要求1所述的输入法,其特征是实施方案A(中文)和实施方案C(英文)的码符与微型键盘的键位的对应关系如下
22、如权利要求1所述的输入法,其特征是实施方案B(中文)的码符与微型键盘的键位的对应关系如下
23、如权利要求1、2、3或1、11、12所述的输入法,其特征是标准键盘输入按键是根据输入词所属的词库及该词的词类规定如下
24、如权利要求1、2、3或1、11、12所述的输入法,其特征是微型键盘的码长扩展为四位,即原编码后加一识别符,识别符规定如下
25、如权利要求1所述的输入法,其特征是对输入词型规则变化的词,只要在原型词的编码中增加一附加键。对标准键盘附加键是最后一键,取编码键位和数字键以外的键,如“’”、“[”、“]”等键。微型键盘附加键在识别符之前,取“+”、“-”、“×”、“÷”等键。实施方案C(英文)的附加键如下
26、如权利要求1所述的输入法,其特征是快速手写用“→、←、
↓、
↑、
”作为“手写码符”,用
作为“空格键”。手写码符的识别特征是长短和方向。
27、如权利要求26所述的输入法,其特征是手写码符长短识别是按起点和终点座标计算直线长度L,L>b作为长线,a<L≤b作为中线,L≤a作为短线。长线和中线用作编码码符,短线用于表示常用符号和同方向码符连续书写的过渡。这里a、b是两个参数,需根据输入界面的尺寸来选择,如PC机的鼠标输入,取a=10mm,b=30mm;掌上型输入界面取a=4mm,b=10mm等。
28、如权利要求26所述的输入法,其特征是手写码符的方向识别是计算起点与终点的连线与水平线或垂直线的夹角θ,|θ|≤10°范围内作为水平方向或垂直方向,其它都作为倾斜方向。再计算终点与起点的座标差△X和△Y,根据△X和△Y的正负和θ的范围,判别“水平向左、水平向右、垂直向下、垂直向上、右上—左下、左下—右上、左上—右下、右下—左上”共八个方向。
29、如权利要求26所述的输入法,其特征是当书写方向发生转折时,判别前—码符书写结束,后一码符书写开始。
全文摘要
本发明提出了适用于多种文字和多种界面的计算机高效输入方法。其特点是:将当前所要输入的词分成四个词库,每个词库独立编码,使词库中使用频度高的核心词汇达到较低的重码率。采用三位等长码,通过码元的编码来递推定义,仅用十五个码符表示。利用左右手的击键顺序或识别码,使得各词库之间不发生重码,实现了三位码长下以词为主导的高效输入。适用于中英文等文字的标准键盘、微型键盘以及手写(鼠标)输入。
文档编号G06F3/023GK1350221SQ00131918
公开日2002年5月22日 申请日期2000年10月20日 优先权日2000年10月20日
发明者过侣平 申请人:过侣平
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1