计算机汉字键盘输入法的制作方法

文档序号:6410739阅读:525来源:国知局
专利名称:计算机汉字键盘输入法的制作方法
技术领域
本发明是一种汉字键盘输入法,属于计算机中文信息处理系统。现在的汉字键盘输入法相当多,如中国专利90104322、90105471、911066976、91103533等,但迄今为止还没有任何一种输入法可以同时满足下述八点要求
(一)可处理字集足够大,凡是现代人可能用到的字(包括简体字、繁体字、异体字、别体字和比较常用的非字符号)都应该入选;根据文献〔1〕,可处理字集应在3万字以上。但是为了尽量节省内存,可处理字集应可分为若干子集,以适应于不同要求的用户。
(二)拆字和编码规则应具有易学性和通用性,即应符合汉字的各种规范、人们对汉字的认知习惯(即国民教育背景),应能为中国大陆、台港澳地区和世界上其他华语地区所接受。根据文献〔2〕,中国大陆地区地国民教育背景(即中小学语文教材内容)为认识3000字左右、掌握汉语拼音方法拼写汉语的字、词,会使用部首检字法查字典,按正确的笔顺书写汉字。
(三)字的拆分和编码规则应适用于整个可处理字集(包括各个子集)而无任何例外规定,不应由用户来记忆和分辨高频、一、二级和冷僻字词,读不准音、调和不认识的字也可以正常输入,对非字符号有输入手段。
(四)有一个能将目前惯常分类成的通用、专业和个人词库三者合并的词库,词库应能有效地降低动态码长,满足所有使用者的需要,即为适用于所有使用者的通用词库。应有一个对词库进行增删优化的极为简易快捷的方法,可以即改即用,使得用户可以方便地将输入法本身提供的较通用的词库转化为适合于该用户的专用词库。
(五)动态码长、重码率和输入速度能同时为非专业人员(包括大、中小学学生和教师、科技工作者、政府官员、管理人员、文秘人员、作家、记者等)和专业打字人员所接受。每个用户应可根据自己的情况自行调整字的动态码长、重码率和输入速度,去除冗余编码,最大限度地减轻输入字的工作量。
(六)由于用户的电脑硬件配置情况不同(尤其是大陆地区尚有相当数量的286以下的低档电脑),汉字系统也各式各样,而词库占用内存通常比较大,因此,词库应可分为若干子库,由用户自行选择和调整占用的内存量。
(七)进入和退出该输入法操作方便。用户操作使用方便,提示行有较全面的提示信息,具体地讲大体上应和全拼输入法的使用规则相一致。
(八)从总体上讲,应能融合字根码、字形码、拼音码和数码的优点而摒弃其缺点,尽可能与国民教育背景一致,充分利用计算机资源,让用户尽可能省心、省力、省时。
本发明提到的文献〔1〕~〔9〕分别为
〔1〕《袖珍字海》,赵所生,缪咏禾主编,江苏教育出版社,1994年1月
〔2〕《汉字键盘输入技术与理论基础》,陈一凡、胡宣华著,清华大学出版社,1994年6月
〔3〕《新华字典》(1992年重排本)商务印书馆,1994年3月
〔4〕《学生四用字典》,耿发友、李屹立、张毅丁、阮恒辉,国际文化出版公司,1992年6月
〔5〕《香港小学生中文词典》(增订本),刘宁甫、夏雨、黄东月,明华出版公司出版,1988年11月
〔6〕《新编汉语词典》,李国炎、莫衡、单耀海、吴崇康编著,湖南出版社,1988年8月
〔7〕《电子爱好者实用资料大全》,赵大和主编,电子工业出版社,1989年7月
〔8〕《现代汉语词典》,中国社会科学院语言研究所词典编辑室编,商务印书馆,1983年1月
〔9〕《现代汉语词典》(补编),中国社会科学院语言研究所词典编辑室编,商务印书馆,1989年4月
本发明的目的在于克服现有的各种汉字键盘输入法不能兼顾易学性、通用性与较短的动态码长、较低的重码率和较高的输入速度等性能指标的弊病,提供一种既简单易学,又有较高性能指标的通用汉字键盘输入法。本输入法称为蓝月亮输入法,简记为BM输入法。
本发明的计算机汉字键盘输入法,包含了简体字、繁体字、异体字、别体字、偏旁部首和比较常用的非字符号;使用了标准键盘上的0~9共10个数字键、A~Z共26个英文字母键、Alt键、回车键、退格键、空格键、分号键、大小写字母转换键Capslock;采用拼音、字根、字形和数码相结合且字词合一的编码方式并配置有相应的词库;其特征在于词库的结构形式为软词库,软词库为一个二维词库,每个坐标点表示一个双字词,软词库的横标由字码表中码长大于2的常用字组成,软词库的纵标宜入选7000通用字,并按使用频度排序,分为56段,每段125字,每段占用64KB空间,依次对每一个纵标软词字与整个横标软词表中的每一个字考虑能否组成词,或者说有无较多机会在文字和口语中相连出现,由此组成软词段数据文件;字的输入以1~4个代码的形式依次通过键盘上的字母键和数字键完成;将字按部首拆分,部首分为成字部首和非字部首,成字部首又分为正字部首和类字部首,正字部首以标准读音的首字母作代码,类字部首分别用0~9的单个数字或字母作为代码,非字部首以首笔划分别用单个数字作代码,笔划分为横、竖、撇、点和折;字的拆分部首依其首笔划在该字中的笔顺,依次定为第一、次、末部首,字按照拆分部首的数目分为单部首字、双部首字和三部首字;单部首字编码字的读音首字母+字首笔划代码+字次笔划代码+字末笔划代码,笔划数不足时,先取首笔划,次取末笔划,不足的用字母V补齐;双部首字编码第一部首代码+末部首代码+末部首首笔划代码+末部首末笔划代码,当末部首非字时第3码改为末部首次笔划代码,其余同单部首字规定;三部首字编码第一部首代码+次部首代码+末部首代码+末部首末笔划代码。
以下对本发明的技术方案进行详细的描述,

图1a、1b为本发明的类字部首一览表,图2为笔划代码表,图3为拆字编码规流程图,图4a、4b为本发明的输入法使用流程图。
1.确定BM输入法可处理字集,以现代人可能使用到的字和符号为入选原则,包括简体字、繁体字、异体字、别体字、偏旁部首和比较常用的非字符号;包括现代汉语通用字表的7000个汉字、GB2312-80中的6763个汉字和687个非字符号;ISO-10646中的20992个汉字,等,总计入选30865个汉字和非字符号。为适应不同行业、地区和使用者的情况,BM输入法的可处理字集又分为下述四个子集,由此形成四个版本
(一)BM100版本,入选7862个汉字和非字符号,包括现代汉语通用字表的7000个汉字、GB2312-80中的6763个汉字和687个非字符号;适用于使用简体字的绝大多数用户。
(二)BM110版本,入选7891个汉字和非字符号,其取字范围与BM100版本完全相同,只是将具有繁体字的简体字置换为对应的繁体字;适用于使用繁体字的绝大多数用户。
(三)BM120版本,入选10137字,包括BM100和BM110两个版本的所有字;适用于混用简、繁体字的绝大多数用户。
(四)BM130版本,入选30865字,即包括BM输入法的整个可处理字集,适用于包括作家、古籍整理者、户籍管理人员在内的几乎所有用户。
2.BM拆字和编码规则适用于整个可处理字集的30865个汉字和非字符号,由八条拆字规则、九条补充说明和图3所示的拆字编码规则流程图所组成。
八条拆字规则为
(一)拆分的部首尽可能达到三个,但不得多于三个;依其首笔划在该字中的笔顺,依次定为第一、次、末部首。
(二)字或部首中的相交笔划一律不准拆分。
(三)由一个部首分隔另一个部首而构成的较大部首不准拆分。例如心、木、禾、业、本、、亘、鬲、画、少等;而不=丆+卜≠丁+八,胤=
+厶+月≠儿+幺+月等。
(四)按整体左右、上下、内外的优先顺序拆分;只有当这样拆分无成字部首时,才允许按其它方式拆分。例如倏=亻+
+犬,高=亠+口+冋,而彭=十+彡+豆等。
(五)内外结构必须内外彻底拆分。内外结构包括口、匚、、凵、冂、

、山、
、几、门、乃、
、工、王、土、干、
、門等(内外结构其外部还可以附加笔划,这不影响内外结构的属性,如
、咼均归类于冂,
归类于巾等)。例如周=

+口;而下列字不可拆分日、日、岡、同、网、鬲、旦、亘、肉等。
(六)类同于内外结构的字或部首,优先考虑按内外结构方式拆分;只有这样无成字部首时,才允许按其它方式拆分。类同于内外结构包括勹、弋、戈、尸、
、厂(广)、
(
、)、
、辶(
)、廴、
、弓、
等。例如臧=戈+
,弱=
+冫;但
+几等。
(七)食、
、、疒、糸这五个部首本身应尽量不要再拆分,除非不拆分时部首数不足三个。
(八)应拆分出尽可能多的成字部首,并尽可能使后面的部首成字,且使后面部首的笔划数尽可能多。
九条补充说明为
(一)八条拆分规则,应按其叙述的先后优先运用。
(二)字形以文献〔3〕为准,文献〔3〕没有的字则以文献〔1〕为准。字及部首的笔顺基本上以文献〔4〕为准(只对以下两个字作了改动彖4S03,套D0S3),文献〔4〕没有的字及部首,则以文献〔5〕为准。
(三)部首由至少两个笔划组成,但单笔划字的本身以及非字符号则不受此规定所限,例如乙Y4VV,艺Y569,(1)4Y1V等。部首中只要有笔划相交即为相交部首,反之为非相交部首。由不少于三个方向的笔划包围一个部首而构成一个内外结构的字或部首;若只有两个方向的笔划包围,则为类同于内外结构的字或部首。应尽可能将字拆分为三个部首,但不得超出三个,即不足三个时部首取小不取大,可以超过时则取大不取小,例如将3XC8,蒋53C8。
(四)部首分为成字部首和非字部首两类。成字部首又分为正字部首和类字部首两种,正字部首以文献〔3〕列有字头(包括简体字、繁体字、异体字和别体字)的字为准,一律用文献〔3〕标注读音时首字母做代码;文献〔3〕中查不到的单部首字,以文献〔1〕标注读音的首字母做代码(但仅限于对该单部首字本身的编码,对于出现在双、三部首字的场合,仍视为非字部首);BM130版本正字部首计有1478个。类字部首实际上是非字部首,但在拆字和编码时将其视为类同于正字部首;类字部首入选41个,其中10个用阿拉伯数字0~9做代码,有5个用字母A、0、I、U、V做代码;单部首非字符号则一律用字母E做代码;另外25个类字部首用文献〔6〕附表《汉字部首名称表》中注音的首字母做代码(其中部首阝无注音,以人们的习惯读法用字母E做代码),详见图1。非字部首一律以其首笔划的代码表示,详见图2。
(五)基本笔划有横(一)、竖(丨)、撇(丿)、捺(丶和)、折(、
)五个。规定、和同视为标准笔划;而
归于横,亅归于竖,

归于撇,
、、和乛等均归于折。由此约定,
等同于金,等同于土,
等同于电等,均视为正字。但不可反过来将一归于
,丨归于亅等,例如
不等同于“丁”
为非字,又如“尺”字中的
不等同于八,尺≠八+等。
(六)笔划可以沿笔划方向做直线伸缩(但垂直方向除外,例如“青”字的字头不作“丰”字)或移动,相沾笔划可以沿所沾的笔划移动(但不能移为两个部首),以尽量成为正字,但以不违反人们对字的认知习惯为限;例如“成”字中的
不作“力”字,“尺”字不能移为和“人”字;但“最”字中的
可等同于“耳”字,“周”字中的
字可等同于“吉”字(但“吉”字的编码仍为SK10),“躺”字中的
可等同于“身”字,“好”字中的
可等同于“女”字,“乘”字中的
可等同于“禾”字(但不能移为“千”和“八”)等。
(七)一个正字部首在文献〔3〕中有多个比较常用的读音时,取其读音首字母按字母A~Z排序在前面的读音,但生僻读音则不在此规定之列。例如“重”取C,“长”取C,“率”取L,“剡”取S等,但“合”取H不取G(“合”字有读音GE)等。
(八)笔划组成相同的不同正字,除了需要有明显分别的场合,都可以只取其较常用读音。例如日(YUE)和(日),由日(YUE)组成的字,除极个别场合(例如日Y140、汩6Y10,因为有日R140、汨6R10需要与之区别)用字母Y做代码以外,其余时候均可用字母R做代码(例如暴RG13,媪NRMO等);再如
(DUN)和不(BU),除了
(DUN)本身的编码为D023以外,其余场合均用字母B做代码(例如
BRR3等)。
(九)非字符号分为有标准读音(计有10个阿拉伯字、52个大小写英文字母、12个罗马数字、l69个日文平假名和片假名、48个大小写希腊字母、66个大小写俄文字母和若干汉字偏旁部首)和无标准划一的读音(例如+、一、*、/等)两类,前者采用其标准读音的汉语读音首字母做代码(以文献(6)和文献(71为准),后者则一律用字母E做代码。非字符号的拆分有如下10点规定①29个基本数字0~9、一~九和I~X可在非字符号中视为成字部首,而且单笔划也可视为部首(例如3.=3+.),其余非字符号一律视为非字部首。②非字符号的书写顺序如有歧义,应比照类似汉字部首的书写笔顺确定。③除
(含乚)、
(含乛、
)这两个笔划以外,其余直线笔划凡有转折,一律视为两个笔划,例如∠、(等均视为两个笔划组成。④笔划凡有重复,即视为两个笔划,例如n=|+n。⑤从左下至右上书写的笔划,归于横,例如字母V的编码为W3V0。⑥·归于丶,注意“,”=·+,,编码为E3V4,即笔划有重复。⑦O视为三个“(”(折)相沾而成(非相交),其余全由半圆组合成的非字符号均以半圆为笔划单位进行拆分,例如3、∽、ε、S、§和8、∞等由2~4个半圆构成非相交或相交部首;但不完全由半圆组成的非字符号,例如%、‰、6、9、∝、U等,圆圈仍视为单个笔划。⑧加粗笔划视为该笔划的非相交重复,而且加粗笔划一律后写,并且优先提取出
笔划,例如制表符
,编码为E569;加黑面则视为一个归于折的相交笔划,也是最后写。⑨单笔划自身构成相交的,无论是否可以拆分为多个半圆,均视为相交部首(例如8和∞)。⑩字母中的I视为三个笔划,其余情况均视为丨,例如罗马数字I编码为Y1VV;各种符号中的修饰笔划(可有可无的笔划)均可忽略不计,例如字母A为3个笔划而非5个笔划;注意J和τ的“-”笔划不属于修饰笔划,故编码应为J0V4和T0V4。
拆字和编码规则流程图如图3所示。流程图规定了汉字或非字符号的拆分过程和编码规则。任何一个属于可处理字集的汉字和非字符号,均可以编出四个码。
3.BM输入法使用流程图如图4所示。六条补充说明是
(一)装配BM输入法的格式ZBM〔.EXE/?/?/?/?/??〕。符号?代表选择参数;参数1为入口键,可任选Alt+F1~Alt+F10,但如该口已被占用或重复安装时,会给出提示信息并中止命令的执行;参数2为所用的汉字系统类型;参数3为字表的装配位置,可以选择装入常规内存、扩展内存或扩充内存;参数4为软词库的装配位置,也可以选择装入常规内存、扩展内存或扩充内存;毵数5为软词库的装入段数,视其所用版本,以及微机内存的配置情况,用户可以选择装入比较常用的一部分软词段(各个版本均为56段,每段占用64KB内存),或全部装入,或全部不装入;但如装入常规内存,则最多允许装入3段。如字表装入扩展内存或扩充内存,则软词库也必须装入扩展内存或扩充内存;同样,如软词库装入常规内存,则字表也必须装入常规内存。
如直接键入ZBM回车,即为缺省设置入口键Alt+F4、金山系统、字表装入常规内存、不装入软词库。
对于只有1MB以下内存的低档机用户,也可以将字表和软词库装入软盘或硬盘运行,即1.2MB软盘可装入18~19段,1.44MB软盘可装入22段,硬盘视情况可装入1~56段;但不推荐这样做,因为会对硬件的寿命造成一定的影响。
(二)运用BM拆字和编码规则,对每个属于可处理字集的汉字和非字符号,均可以编出4个码,但绝大多数汉字和符号都不需要全部用上这些编码。在输入汉字时,依次键入该字的编码字符,当可选择的字(称为预报字)不多于10个时,即在提示行按高频先见方式显示这1~10个预报字,如果只有1个预报字则直接上屏。以BM100版本为例,键入2码即显示的有4982字,3码有2713字,4码仅167字(占BM100版本可处理字集的2.12%,而且均为不常用字)。键入误码时则鸣响警示。当1~10个预报字中有〔〕符号出现时,表明该版本留有此字的编码,但暂时未确定该字的机内码;这一点是基于如下考虑BM100版本入选7862个汉字和非字符号,包括现代汉语通用字表的7000个汉字、G82312-80中的6763个汉字和687个非字符号,但目前绝大多数用户的电脑暂时只能处理GB2312-80字集,在这个字集之外的汉字和符号,目前只能利用各个汉字系统提供的自造字功能解决,缺乏通用性,这也不是本发明要解决的问题;为了使本输入法能符合将来的行业规范,所以暂时做了这样的处理,而留待版本升级时加以完善。
(三)提示行有〔?词〕显示时才可以进行修改。显示〔1词〕表示上一字和本字组成软词,显示〔0词〕时即为非软词。
(四)当用户修改过软词库,而本次预报字不多于9个时,键入Alt+O组合键,即询问用户是否保存修改过的软词信息?键入“Y”〔时保存,键入“N”时不保存。
本发明的一个输助软件CL.EXE也可以在汉字系统提示符状态下根据用户的意愿保存修改过的软词信息,而且回存速度要快得多(当有些字处理软件和本输入法的回存软词功能产生冲突时,则只能用本软件的回存功能)。CL.EXE还用于将本输入法从汉字系统中撤消,以及检查是否已装入本输入法。
(五)在提示行尚未显示预报字时,退格键每按一次删除最末一个编码字符,回车键则一次删除所有已键入的编码字符,注意如果用退格键将上一个字也删除了,则本字将作为新一轮输入的首字处理,由于首字不能利用软词库信息,因此码长将较长。在提示行已显示预报字后,退格键用于调出非横标软词字(不常用字)。在已选择字后,退格键则用于删除此字和提示行显示。注意当提示行尚未显示预报字,未键入误码而鸣响时,说明此编码无横标软词字(常用字),此时可以键入“;”键,直接调出非横标软词字。
在必要时,可以利用Alt+空格键组合强制将本字输入设置为新一轮输入的首字。
(六)本输入法使用了键盘上的下列42个键0~9、A~Z、Alt键、回车键、退格键、空格键、分号键、大小写字母转换键Capslock。
4.本发明的拆字编码和使用规则主要着眼于易学性与通用性,码长、重码率和输入速度等性能指标不高,(以BM100版本为例,平均码长3.65,动态码长3.18)。性能指标的提高,是靠软词库来实现的。软词库为一个二维的词库,每个坐标点表示一个双字词(任何多字词均可以分解为双字词,即软词库可以容纳所有的词汇),横标入选码长超过2的字(规定码长为输入一个字或符号时所需的按键次数,包括必要的退格键和数字选择键),纵标则按汉字的使用频度排序,入选现代汉语通用字表的全部7000个汉字(分为56段,每段125字),用户可以自行决定装入多少段(不装入也可以用,但性能指标不高)。通常,装入1段时可以覆盖43.9%的汉字,2段覆盖率为60.6%,3段覆盖率为70.7%,18段覆盖率达98.6%。通过软词库可以舍弃哪些不大可能成为“词”的组合,即非软词字,从而有效地缩短码长、降低重码率和提高输入速度。由于用户勿须对任何一个词进行专门的编码和记忆(或者说字词编码合一),只需用一个起开关作用的分号键向词库添加或删改词即可,而且即改即用,因此本发明将这个词库称之为软词库。由于软词库中每个坐标点可表示一个双字词,因此软词库的容量是十分巨大的,BM100版本可有效容纳约680万双字词,这是目前任何一种输入法所难以企及的。当然,由于软词库舍弃功能,在汉字输入时,会有预报失败的情况,即1~10个预报字中没有所想要的字,则应键入退格键,再键入该字剩余的编码,直至提示行重新显1~10个预报字。因此,预报失败时将使码长比未挂软词库时至少还要多一码。故为了减少预报失败应加大软词量,当软词量为最大时,预报成功率为1,不过也等于未挂软词库了;为了降低动态码长,应尽可能减少软词量,因此预报成功率与动态码长之间存在一个最佳取值范围。BM输入法已预先入选了15余万双字词,囊括了文献〔3〕、〔6〕、〔8〕、〔9〕中涉及纵横标软词字的全部词汇和比较常用的熟语,每个用户可以在此基础上根据自己的行业、习惯等特点对软词库逐步进行增删优化,使动态码长尽可能短而成功率尽可能高,从而将我们提供的较通用的软词库逐步转化为适合于每个用户的专用词库,即充分适应于每个用户的情况,充分发挥每一个用户的智慧;具体地就每一个用户而言,动态码长可以降到1.5码以下,甚至接近一码一键,大大地减轻了用户的工作量,但BM输入法的易学性却丝毫不受影响。
5.本发明的BM120和BM130版本,由软件自动判断是简体字用户还是繁体字用户,如果是简体字用户,则自动舍弃繁体字,反之则自动舍弃简体字;但是如果发现是简、繁体字混合输入的用户,则不作舍弃。由于绝大多数用户是单纯的简体字用户或繁体字用户,这一智能处理可以有效地降低BM120和BM130版本的动态码长。
本发明的BM130版本,软件首先只考虑属于BM120字集的字第一次预报(软词预报)失败即考虑除横标软词字以外的所有BM120字集字,再次预报失败时才考虑不属于BM120字集的BM130字集字;有舍弃简/繁体字的情形时,留待第三次预报失败时才考虑舍弃了的简/繁体字,而且,凡有舍弃,必定一并舍弃异体字和别体字,因此BM130版本的最大码长为8。由于BM120字集之外的字均为极少用到的冷僻字,因此,这一处理可以确保本输入法的动态码长不因可处理字集的增大而变差。具体地讲,BM130版本中,未有舍弃时,码长为5、6、7的字依次有9781、9506和629个,其中属于BM120字集的字只有225个5码字。
本发明与现有各种汉字输入法相比具有如下的优点和有益效果
1.BM输入法对于1478个正字部首(其中29个只用于非字符号,202个不属于BM100可处理字集且只用于该字本身的编码,因此,也可以说只有1247个正字部首)和25个类字部首,均采用标准读音的首字母做代码,只有16个类字部首的代码由本发明自行规定(图1中给出了谐音,有助于记忆),非字部首则一律取其笔划的代码。正字部首数量不大(一般小学生已有这个识字水平),因此,BM输入法基本上具有全拼输入法易学易记的优点,而且由于不用翻页选字,码长较短,重码率较低,保证了较快的输入速度,基本上克服了拼音码重码多、翻页多、码长较长、输入速度慢、读音声调不准以及不认识的字(包括非字符号)难于输入等一系列缺点。
2.可处理字集达30865字,基本上能够满足所有人的需要(以后还可以进一步扩大至5万余字,本发明在编写软件时已预留了处理空间),此时具体对每一个用户而言,仍然可以做到较短的动态码长(挂上56段时,可达约1.84码)、较低的重码率和较快的输入速度。由于BM拆字和编码规则只有十数条,只规定了41个类字部首,使用了(基本上勿须记忆的)1478个正字部首和若干非字部首,部首与键元的映射基本上与全拼输入法一致,因此BM输入法既具有字根码的优点,又克服了字根码需要记忆上百个人为优选出的字根和繁琐的规则、以及由用户区别高频、一、二级字词等难学难记的缺点。
3.BM输入法用到了字或部首的五个基本笔划、笔顺和字的笔划是否相交的字形特征信息,因此又具有字形码简易的优点。由于40个类字部首均属于国家语言文字工作委员会推荐的201规范化部首,字形特征信息也只用了人们极易掌握的部分,基本上符合国民教育背景,故记忆量极小。
4.BM输入法有十个部首用阿拉伯数字0~9作代码,非字部首则按书写笔顺用部首的第一(次、末)笔划用阿拉伯数字0~9做代码,因此可以说具有数码的特点,但使用规则极为简单,无须繁琐记忆。
5.BM输入法的软词库将目前各种输入法的通用、专业和个人词库有机地集于一身。在占用相同内存的情况下,目前各种输入法通常采用的两种数据结构的词码表(据文献〔2〕介绍,一种是独立于字码表的固定词码表,另一种是以字码表作为索引,形成树形结构词码表),可容纳的词汇量分别不及本输入法的2%和5%,例如BM100版本可容纳不小于680万双字词,但用户却不用专门为词编码,因为字词编码合一,用户只须掌握BM拆字和编码规则对字进行编码,用起开关作用的分号键向软词库增删词汇即可,而且即改即用,随心所欲,简易快捷,其余工作完全交由软件进行智能化处理,避免了目前各种输入法个人词库编码冲突和难于记忆、容量小等一系列缺点。对于“通用”词库而言,由于每个用户的情况是千差万别的,所谓词汇也是因人而异、因地而异和因时而异的,无论这个词库有多大,总会有人觉得还是不通用,或者说不存在一个放之四海而皆准的标准通用词库;BM输入法预先在软词库里存放了15余万条比较通用的双字词汇,让用户用极其简捷的手段对软词库进行增删优化,充分发挥每一个用户的智慧和创造力,使得动态码长尽可能短,重码率尽可能低,输入速度尽可能高,从而泯灭了通用、专业和个人词库的界限,真正做到适用于每一个使用者。
6.BM输入法的BM120和BM130版本可处理字集比BM100和BM110版本大得多,四个版本的拆字和编码规则也完全相同,但由于软词库和软件智能化处理,四个版本无任何冗余编码,动态码长相差也不大。这是目前各种输入法所难以企及的。
7.虽然BM输入法四个版本均要求3.6~3.75MB的内存,但286以下的低档机也不用担心内存不够,因为BM100和BM110版本只要求64KB内存(BM120约为80KB,BM130约为240KB)就可以正常运行,此时,BM100版本的动态码长为约3.18(BM110版本为约3.2,BM120版本为约3.28,BM130版本为约3.31),性能不算差,不过可用内存越多,BM输入法的性能就越好(具有1MB以上内存的微机,可以不将软词库和字表放入常规内存,则本输入法BM108和BM110版本在常规内存只占用约33.3和33.7KB的空间),或者说BM输入法性能的提高不是靠优选字根或增加、改进拆字和编码规则等手段来达到的,从而彻底解决了目前汉字键盘输入法“好学的不好用,好用的不好学”的痼疾。当然,为了使只有1MB(甚至512KB)内存的低档机用户也可以使用本输入法,在拆字、编码和类字部首的选择等方面也做了一些有记忆量的规定,其易学性比全拼输入法稍差,但远比目前的其它的输入法为好。
8.总的来讲,BM输入法科学(基本上符合有关汉字规范和人们对汉字的认知习惯,具有较短的动态码长,较低的重码率和较快的输入速度)、简明(只具有小学文化程度的人,对绝大多数汉字,一望而知其编码,也可以听打和想打)、严谨(可处理字集中的每一个字,运用BM拆字和编码规则,都只有一种拆分方案,极少有歧义)。具有识字1500个(对于BM100版本而言,为1200个)、略识汉语拼音(即知道字的读音首字母)、识用文献〔3〕的部首查字法和按正确笔顺书写字的人,一般可以在1~3小时内学会拆字和编码,一个星期可以熟练掌握和运用。总而言之,BM输入法是本着易学、通用和好用的宗旨研制出来的,基本上符合国民教育背景和人们对汉字的认知习惯,其原理还可以适用于包括日文、韩文等在内的其它方块文字的键盘输入法;在软件编写方面,尽可能利用电脑软、硬件的新功能,新技术,为方块字的键盘输入技术的发展开辟了一条新路。
下面对说明书附图进一步说明如下
1.图1为41个类字部首及其代码表。分为四类第一类计25个,采用文献〔6)附表《汉字部首名称表》中注音的首字母做代码;第二类计10个较常用部首,第三类计5个较特殊的部首,第四类计1个用于非字符号的部首,均由本发明规定其代码。
2.图2为笔划代码表。规定了5个基本笔划在相交和非相交部首中的代码。
3.图3为BM拆字编码规则流程图。规定了每个字具体的拆分步骤和编码规则。
4.图4为BM输入法使用流程图。规定了利用本输入法在键盘上输入汉字和非字符号时的具体使用方法。
本发明的实施方式如下
1.分别对四个版本可处理字集按BM拆字和编码规则进行编码,并按阿拉伯数字0~9和字母A~Z的顺序排列,由此组成字码表。以下是主要统计数据
各个版本的单、双和三部首字分别约占该版本可处理字集的百分比BM100版本为12.12%、18.52%和69.36%,BM110版本为11.39%、13.90%和74.71%,BM120版本为9.53%、15.37%和75.10%,BM130版本为3.91%、11.90%和84.19%。
BM130字集计有1478个正字部首,其中属于国标2500个常用字的有864个,属于国标1000个次常用字的有114个,属于国家语言文字工作委员会颁布的7000通用字但不属于3500常用字的有226个,属于7000通用字之外的冷僻字有16个,单部首非正字部首字(即只用于输入该字本身)有229个(其中27个属于7000通用字),只用于非字符号的有29个。在这1478个正字部首中,有190个属于繁体字、异体字或别体字(主要用于BM120、BM130版本)。而BM100字集的正字部首数为1123个。
不挂软词库时用到编码的前2、3、4码(注意不等同于码长,因为未计及数字选择键和退格键)的分别约占该版本可处理字集的百分比,BM100版本为63.37%、34.51%和2.12%,BM110版本为60.52%、37.36%和2.12%,BM120版本为53.52%、44.84%和1.64%,BM130版本为29.25%、67.48%和3.27%。
2.从四个版本字码表的常用字中分别挑选出码长大于2的字组成各自版本的横标软词字表,纵标软词字宜入选7000通用字,并按使用频度排序,分为56段;每段125字,占用64KB空间。依次对每一个纵标软词字与整个横标软词表中的每一个字考虑能否组成词,或者说有无较多机会在文字和口语中相连出现,由此组成软词段数据文件。以下是各个版本码长的主要统计数据
①未挂软词库时各个版本的平均码长,BM100版本约为3.648、BM110版本约为3.666、BM120版本约为3.719、BM130版本约为4.857。
②未挂软词库时各个版本的动态码长,BM100版本约为3.18、BM110版本约为3.2、BM120版本约为3.28、BM130约为3.31。
③挂上56段软词库时各个版本的动态码长,一般来讲,BM100版本约为1.78、BM110版本约为1.78、BM120版本约为1.80、BM130版本约为1.84。
④挂上2段软词库时各个版本的动态码长,一般来讲,BM100版本约为2.33、BM110版本约为2.34、BM120版本约为2.38、BM130版本约为2.42。
3.依据字码表、软词段文件和BM输入法使用规则即可进行程序编制、汇编、链接和调试,通过后挂接到汉字系统上。由于本输入法数据繁多,软件较长,为了尽可能节省内存,使得低档机用户可以使用本输入法,宜采用汇编语言进行程序编制。以下是各个版本占用内存的主要统计数据
BM100版本程序正常运行时,最少占用64KB内存(其中最少需要33.3KB常规内存),最多占用3.6MB内存。
BM110版本程序正常运行时,最少占用64KB内存(其中最少需要33.7KB常规内存),最多占用3.6MB内存。
BM120版本程序正常运行时,最少占用80KB内存(其中最少需要43.3KB常规内存),最多占用3.65MB内存。
BM130版本程序正常运行时,最少占用240KB内存(其中最少需要128KB常规内存),最多占用3.75MB内存。
4.软件应允许用户进行下述选择组合
①用户可以任选Alt+F1~Alt+F10作为入口定义键。
②用户可以任选汉字系统。
③用户可以任意将字码表装入常规内存、扩展内存或扩充内存。
④用户可以任意将软词库装入常规内存、扩展内存或扩充内存。
⑤用户可以任选装入0~56段软词库。
⑥用户可以方便地保存修改过的软词信息,方便地将本输入法从汉字系统中撤消,以及检查是否己将本输入法装入汉字系统。
权利要求
1.一种计算机汉字键盘输入法,包含了简体字、繁体字、异体字、别体字、偏旁部首和比较常用的非字符号,使用了标准键盘上的0~9共10个数字键、A~Z共26个英文字母键、Alt键、回车键、退格键、空楀键、分号键、大小写字母转换键Caps lock,采用拼音、字根、字形和数码相结合且字词合一的编码方式并配置有相应的词库,其特征在于词库的结构形式为软词库,软词库为一个二维词库,每个坐标点表示一个双字词,软词库的横标由字码表中码长大于2的常用字组成,软词库的纵标宜入选7000通用字,并按使用频度排序,分为56段,每段125字,每段占用64KB空间,依次对每一个纵标软词字与整个横标软词表中的每一个字考虑能否组成词,或者说有无较多机会在文字和口语中相连出现,由此组成软词段数据文件,字的输入以1~4个代码的形式依次通过键盘上的字母键和数字键完成,将字按部首拆分,部首分为成字部首和非字部首,成字部首又分为正字部首和类字部首,正字部首以标准读音的首字母作代码,类字部首分别用0~9的单个数字或字母作为代码,非字部首以其首笔划分别用0~9的单个数字作代码,笔划分为横、竖、撇、点和折;字的拆分部首依其首笔划在该字中的笔顺,依次定为第一、次、末部首,字按照拆分部首的数目分为单部首字、双部首字和三部首字,单部首字编码字的读音首字母+字首笔划代码+字次笔划代码+字末笔划代码,笔划数不足时,先取首笔划,次取末笔划,不足的用字母补齐;双部首字编码第一部首代码+末部首代码+末部首首笔划代码+末部首末笔划代码,当末部首非字时第3码改为末部首次笔划代码,其余同单部首字规定;三部首字编码第一部首代码+次部首代码+末部乎代码+末部首末笔划代码。
2.如权利要求1所述的计算机汉字键盘输入法,其特征在于字的拆分有八条规则
(一)拆分的部首尽可能达到三个,但不得多于三个;
(二)字或部首中的相交笔划一律不准拆分;
(三)由一个部首分隔另一个部首而构成的较大部首不准拆分,包括心、木、禾、业、本、亘、鬲、画、少等;
(四)按整体左右、上下、内外的优先顺序拆分,只有当这样拆分无成字部首时,才允许按其它方式拆分;
(五)内外结构必须内外彻底拆分。内外结构包括口、匚、、凵、冂、

山、
、、门、乃、
、工、王、土、干、
門等,内外结构其外部还可以附加笔划,这不影响内外结构的属性,
、咼均归类于冂,
归类于
,而下列字不可拆分日、日、同、网、鬲、旦、亘、肉等;
(六)类同于内外结构的字或部首,优先考虑按内外结构方式拆分,只有这样无成字部首时,才允许按其它方式拆分,类同于内外结构包括勹、弋、戈、尸、
、厂(广)、
(
、)、
、辶(
)、廴、
、弓、
等;
(七)食、
、、疒、糸这五个部首本身应尽量不要再拆分,除非不拆分时部首数不足三个;
(八)应拆分出尽可能多的成字部首,并尽可能使后面的部首成字,且使后面部首的笔划数尽可能多;
3.如权利要求1所述的计算机汉字键盘输入法,其特征在于八条拆字规则有九条说明细则
(一)八条拆分规则,应按其叙述的先后优先运用;
(二)字形以文献为准,只对以下两个字作了改动彖4S03,套D0S3;
(三)部首由至少两个笔划组成,但单笔划字的本身以及非字符号则不受此规定所限,包括一、乙、(1)等,部首中只要有笔划相交即为相交部首,反之为非相交部首,由不少于三个方向的笔划包围一个部首而构成一个内外结构的字或部首,若只有两个方向的笔划包围,则为类同于内外结构的字或或部首,应尽可能将字拆分为三个部首,但不得超出三个,即不足三个时部首取小不取大,可以超过时则取大不取小;
(四)正字部首包括简体字、繁体字、异体字和别体字,以标准读音的首字母做代码,正字部首计有1478个;类字部首是非字部首,但在拆字和编码时将其视为类同于正字部首,类字部首入选41个,其中有l0个用阿拉伯数字0~9做代码,有5个用字母A、0、I、U、V做代码,单部首非字符号则一律用字母E做代码,有24个类字部首用标准读音的首字母做代码,有1个部首阝以人们的习惯读法用字母E做代码,非字部首一律以其首笔划的代码表示;
(五)基本笔划中,丶和同视为标准笔划;而
归于横,亅归于竖,

归于撇, 丶
、和乛等均归于折,以此类推,
等同于金, 等同于土,
等同于电,均视为正字;
(六)笔划可以沿笔划方向做直线伸缩,但垂直方向除外,笔划可以沿笔划方向做直线移动,相沾笔划可以沿所沾的笔划移动,但不能移为两个部首,以尽量成为正字,但以不违反人们对字的认知习惯为限,包括“成”字中的
不作“力”字,“尺”字不能移为和“人”字;但“最”字中的
可等同于“耳”字,“周”字中的
字可等同于“吉”字,“躺”字中的
可等同于“身”字,“好”字中的
可等同于“女”字,“乘”字中的
可等同于“禾”字等;
(七)一个正字部首有多个比较常用的读音时,取其读音首字母按字母A~Z排序在前面的读音,但生僻读音则不在此规定之列,包括“重”取C,“长”取C,“率”取L,“剡”取S,但“合”取H而不取G等;
(八)笔划组成相同的不同正字,除了需要有明显分别的场合,都可以只取其较常用读音;
(九)非字符号分为有标准读音和无标准读音两类,有标准读音的包括10个阿拉伯数字、52个大小写英文字母、12个罗马数字、169个日文平假名和片假名、48个大小写希腊字母、66个大小写俄文字母和若干汉字偏旁部首,无标准读音的包括+、-、*、/等,前者采用其标准读音的汉语读音首字母做代码,后者则一律用字母E做代码,非字符号的拆分有如下10点规定①29个基本数字0~9、一~九和I~X可在非字符号中视为成字部首,而且单笔划也可视为部首,其余非字符号一律视为非字部首,②非字符号的书写顺序如有歧义,应比照类似汉字部首的书写笔顺确定,③除
(含)、
(含乛、
)这两个笔划以外,其余直线笔划凡有转折,一律视为两个笔划,④笔划凡有重复,即视为两个笔划,包括n=|+n等,⑤从左下至右上书写的笔划,归于横,包括字母V的编码为W3V0等,⑥.归于、,“,”=·+,,编码为E3V4,即笔划有重复,⑦○视为三个“(”,即折笔划相沾而成,其余全由半圆组合成的非字符号均以半圆为笔划单位进行拆分,3、∽、ε、S、§和8、∞等由2~4个半圆构成非相交或相交部首,但不完全由半圆组成的非字符号,包括%、‰、6、9、∝、U等,圆圈仍视为单个笔划,⑧加黑面视为一个归于折笔划的相交笔划,而且加黑面最后写,加粗笔划则视为该笔划的非相交重复,加粗笔划也一律后写,并且优先提取出
笔划,包括制表符
编码为E569等,⑨单笔划自身构成相交的,无论是否可以拆分为多个半圆,均视为相交部首,包括8和∞等,⑩字母中的I视为三个笔划,其余情况均视为|,包括罗马数字I编码为Y1VV等,各种符号中的修饰笔划均可忽略不计,包括字母A视为3个笔划等。
4.如权利要求1所述的计算机汉字键盘输入法,其特征在于数字键0~9和空格键用于重码字的选择,Alt+O键组合用于回存修改过的软词库,分号键用于向软词库增删词汇,退格键和回车键用于修正错误,Capslock键及Alt+空格键组合用于结束或开始一轮汉字和符号的输入。
5.如权利要求1所述的计算机汉字键盘输入法,其特征在于可处理字集的第一子集为7862个简体字,其中包括687个非字符号,软词库有效容量为不小于680万双字词,程序正常运行时,最多占用3.6MB内存,最少占用64KB内存,其中常规内存最少占用33.3KB,平均码长约为3.18,动态码长约为1.78~3.18。
6.如权利要求1所述的计算机汉字键盘输入法,其特征在于可处理字集的第二子集为7891个繁体字,其中包括687个非字符号,软词库有效容量为不小于680万双字词,程序正常运行时,最多占用3.6MB内存,最少占用64KB内存,其中常规内存最少占用33.7KB,平均码长约为3.20,动态码长约为1.78~3.20。
7.如权利要求1所述的计算机汉字键盘输入法,其特征在于可处理字集的第三子集为10137个简体字和繁体字,即为可处理字集的第一子集与第二子集之和,软词库有效容量为不小于1100万双字词,程序正常运行时,最多占用3.65MB内存,最少占用80KB内存,其中常规内存最少占用43.3KB,平均码长约为3.28,动态码长约为1.80~3.28。
8.如权利要求1所述的计算机汉字键盘输入法,其特征在于整个可处理字集为30865字,软词库有效容量为不小于1800万双字词,程序正常运行时,最多占用3.75MB内存,最少占用240KB内存,其中常规内存最少占用128KB,平均码长约为3.31,动态码长约为1.84~3.31。
9.如权利要求1所述的计算机汉字键盘输入法,其特征在于所述整个可处理字集的拆分部首为41个类字部首,1478个正字部首和若干非字部首。
10.如权利要求1所述的计算机汉字键盘输入法,其特征在于正字部首和25个类字部首的代码取其标准读音的首字母,另外16个类字部首的代码为0~9的单个数字或字母。
全文摘要
一种计算机汉字键盘输入法,采用字根、字形、拼音和数码结合且字词合一的编码方式并配置巨大容量的软词库;软词库为一个二维词库,将通用、专业和个人词库融为一体,每个用户因此可使动态码长降至1.5~1.2甚至更低;字的输入以数字和字母组合的1~4个代码的形式来完成,拆字编码规则基本上符合国民教育背景;勿须记忆分辨高频、一、二级字词,读不准音、调或不认识的字也无妨;是一种易学好用的通用输入法。
文档编号G06F3/023GK1161495SQ9611906
公开日1997年10月8日 申请日期1996年5月3日 优先权日1996年5月3日
发明者朱亮 申请人:朱亮
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1