以词为单位的音形意汉字编码及中西文兼容键盘的制作方法

文档序号:6407712阅读:256来源:国知局
专利名称:以词为单位的音形意汉字编码及中西文兼容键盘的制作方法
技术领域
本发明是一种用于计算机汉字信息处理的以词为单位的音形意汉字编码及与之相适应的中西文兼容键盘。本发明的音形意汉字编码以词为主要编码对象。
汉字数量极多,字形复杂,同音字、同音词非常多,而且在实际生活中,不但存在着标准的简化字,而且还存在着大量的繁体字、异体字等不规范的汉字,这使得汉字编码成为计算机汉字信息处理中的一大难题。目前很多汉字编码方法,在解决专业人员的录入问题上取成了很大的突破,基本上满足了这部分人的需要。但是广大非专业人员在使用计算机输入汉字(不仅仅是录入汉字)时却依然困难重重。
目前在计算机汉字信息处理中被广泛使用的汉字编码主要有两大类,一类是拼音码,另一类是以五笔字型为代表的字型码。
目前在计算机上使用的字型码,大多都是根据所选择的字符集(一般都采用GB 2312-80)中的汉字,筛选出一个“字根”子集,再把这些“字根”依某种规律安排在西文键盘的键位上,输入汉字时依照定义的组字规则逐个取码。这种方式,所筛选的“字根”很多都不是传统意义上的偏旁部首,而是所选字符集中“组字能力最强”的一种笔划组合;同时“字根”在键盘上的分布及汉字的编码规则也大多是设计者人为设定的,这些与人们所掌握的普通汉字和汉语知识相去甚远,大都需经过专门的训练和学习以及长期的、经常性的使用方能运用自如。因而字型码主要适用于专业人员使用计算机录入汉字的工作,对广大的非专业人员并不适合。
由于汉字的同音字和同音词非常多,所以拼音码的重码率很高,拼音码汉字输入的效率很低。现用的一些拼音码为缩短编码长度,作了一些硬性规定,如用a代替zh、用u代替sh、用s代替ong等等,使得这些拼音码与规范的汉语拼音相去甚远,给使用带来很多不便。在现用的所有拼音码中,全拼拼音法最适合于非专业人员使用,它的最大好处是不用学习和记忆就可以使用。不过这种方法重码率很高,选字非常麻烦,输入速度很慢,随着社会的进步,它越来越不适于时代的要求。
本发明的目的即在于根据《汉语拼音方案》、《汉语拼音正词法基本规则》、《现代汉语词典》部首检字表、《标点符号用法》以及汉字的音、形、意三大特征等规范的汉语知识设计一种音形意汉字编码,及与之相适应的中西文兼容键盘,使人们稍经学习便可以依靠所掌握的汉语及汉字的知识在计算机上实现快速的汉字输入。
本发明对标准的西文键盘键位进行了调整,重新定义了各键位,设计出一个中西文兼容的计算机键盘。在中文状态下定义了包括全部声母(共23个,即b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s以及y、w)和全部韵母字母(共9个,即a、e、i、o、u、ü、ng、r、n)在内的30个拼音码键位(其中声母n与韵母字母n、声母r与韵母字母r占用同一键位),16种共计32个标点符号键位,容纳188个汉字部首的40个汉字部首码键位(K键特殊,不对应任何汉字部首)及一组辅助键位;在西文状态下定义了52个英文大小写字母、10个阿拉伯数字、30个西文符号及一组辅助键位。在该键盘的基础上,本发明对标准的汉语拼音进行了符合《汉语拼音方案》的标准代换,省去了声调符号,并将所有双字母(即zh、ch、sh、ng)都用其省写形式(即 、)来代替,构成汉字的拼音码。将汉字的部首定义在各部首码键位上;定义汉字除部首之外的部分为字身,用构成字身的前三个部首的部首码构成字身码(当构成字身的部首不足三个时有几个取几个)。用部首码+字身码构成汉字的笔形码。用拼音码+笔形码(或笔形码)构成单个汉字的编码。各单个汉字的编码连在一起,加词尾(或略语)即为词的编码。
与现有技术相比,本发明具有下列显著优点1、本发明通用性强,可编码所有汉字(包括简体字、繁体字、异体字甚至自造字),不仅可用于中国大陆,而且可供全世界的华人及使用汉字的非华人使用,有助于普通话的广泛推行和传播,有助于汉语文化的广泛传播。
2、汉字的编码由汉字的拼音码+笔形码或仅由其笔形码所构成,完全符合人们所掌握的汉语和汉字的传统知识,且汉字的部首是《现代汉语词典》所选用的188个传统意义上的部首,笔形码也有明确的规定,符合人们的自然习惯,因而编码自然,容易掌握。
3、本发明以词为编码对象,输入时可以完全实现按词为单位进行输入,不但能有效地减少重码,而且有助于纠正错别字和一些常见的习惯性错误(如读音不准确、对汉字部首认识不准确、书写汉字笔顺不对等等),有助于推广普通话,促进汉语规范化,以及有效地提高使用者自身的汉语水平。
4、本发明充分利用了汉字的音(拼音)、形(笔形)、意(词)三大特征,不仅符合汉字和汉语传统的知识,科学、合理、系统,易学易用,而且重码率很低,输入汉字的效率高。
5、本发明利用自行设计的中西文兼容键盘,全面地实现了全部中文标点符号编码,键位安排合理、易于记忆,大大方便了使用者。
6、本发明采用自行设计的中西文兼容键盘,使除了“r”、“n”之外的每个声母及每个韵母字母都占用一个唯一的键位,不仅符合《汉语拼音方案》的规定,而且有助于缩短汉字编码的码长,减少隔音符号的使用次数。
7、本发明利用自行设计的中西文兼容键盘,科学、合理地解决了汉语拼音、汉字部首、中文标点符号等中文信息与英文字母、阿拉伯数字、西文符号等西文信息的兼容。


图1是中文键盘键位示意图。
附图2是西文键盘键位示意图。
下面对本发明作进一步详细的描述。
(一)中西文兼容键盘a、该键盘共有56个键位,其中有3个键位为状态键位,40个键位为基本键位,13个键位为辅助键位换档键(共2个)、命令键为状态键位;11-10、21-20、31-30、41-40共40个键位为基本键位;(1)-(13)共13个键位为辅助键位;
中文状态为该键盘的主状态,一开机或从西文状态中退出,键盘就处于中文状态下;西文状态为该键盘的次状态,在中文状态下按住命令键(或同时按下命令键及换档键),同时击(12)键位,系统就进入西文状态,在西文状态下无论何时击(10)键位,或按住SHIFT键(即换档键)的同时击(10)键位,系统就退出西文状态并返回中文状态b、中文键盘根据“换档”、“命令”两种状态组合为下列4种状态
c、中文状态I的各键位定义该状态下21-20、31-30、41-40的30个键位定义为拼音码键位,即汉语拼音的声母或者汉语拼音的韵母字母键位 键名 对应拼音码 类型 说明21 欺 q 声母22 乌 w 声母23 鹅 e 声母
24 日 r 声母或韵母字母25 特 t 声母26 衣 y 声母27 乌 u 韵母字母28 衣 i 韵母字母29 喔 o 韵母字母20 坡 p 声母31 啊 a 韵母字母32 诗 声母为sh(诗)的省写形式33 得 d 声母34 佛 f 声母35 哥 g 声母 不作韵母字母36 喝 h 声母 不作zh、ch、sh中的h37 基 j 声母38 科 k 声母39 勒 l 声母30 思 s 声母41 知 声母为zh(知)的省写形式42 希 x 声母43 蚩 声母为ch(蚩)的省写形式44 迂 ü 韵母字母45 玻 b 声母46 讷 n 声母或韵母字母47 摸 m 声母48 雌 c 声母49 韵母字母为ng的省写形式40 资 z 声母《汉语拼音方案》中的zh(知)、ch(蚩)、sh(诗)三个声母在拼音码中能且仅能以其省写形式 表示出来;同时《汉语拼音方案》中的ang(昂)、iang(央)、uang(汪)、eng(亨的韵母)、ing(英)、ueng(翁)、ong(轰的韵母)、iong(雍),八个韵母在拼音码中能且仅能以其省写形式 表示出来;
该状态下11-10的10个键位定义为汉字部首码键位键位 键名 部首码 对应部首11 横 1 一 示 礻(示)髟12 垂 2 丨 丿 彡 攴 采13 点 3 丶 冫 氵 灬 水(氺)14 十 4 十15 手 5 手 扌16 口 6 口17 折 7 乙 ( ) 巛彐(彐彑)屮18 八 8 八(丷) 人(入) 亻 彳19 小 9 小() 忄()10 亠 0 亠 衣 衤 言 讠(訁)注垂包括直(丨)、撇(丿);乙包括 、亅、、 、く等笔形。
该状态下(1)-(13)的13个键位定义为辅助键位键位键名定义(1)半连写短横《汉语拼音正词法基本规则》中的半连写短横“ -”(2)下页用于选择重码提示行下翻一页(相当于一般西文键盘中的↓键)(3)上页用于选择重码提示行上翻一页(相当于一般西 文键盘中↑键)(4)修改即一般西文键盘中的BACKSPACE键(5)制表即一般西文键盘中的TAB键(6)下一用于选择重码;提示行中光标向右移一词(相当于一般西文键盘中的→键)(7)上一用于选择重码提示行中光标向左移一词(相当于般西文键盘中的←键)(8)大写锁定按下该键后,中文状态Ⅰ的30个拼音码键位全部被锁定为中文状态Ⅱ的30个汉字部首码键位,即击a输入A等,再按一次烣复原状态,即击a输入a等。该键位对中文状态Ⅰ的30个拼音码键位以外的任何中文键位不起作用(类似于一般西文键盘中的CapsLock键,但CapLock键仅对26个英文小写字母键起作用,大写锁定键则对30个拼音码键位起作用)(9)学习笔形码万能替换键。对汉字进行编码时,如果记不清任何一个汉字的笔形码中的任何一码,可以击该键代替(10)略语传统词的词尾标记(11)隔音符号《汉语拼音方案》中的隔音符号“'”如pi' ao(皮袄)的“'”。不过,本发明中隔音 符号用处很广,用于所有的两个汉字的编码 的界限可能发生混淆的情况(12)词尾标准词的词尾标记(13)隔音符号与(11)键位完全相同d 中文状态Ⅱ的各键位定义该状态下11-10的10个键位定义为中文数字键位键位 11 12 13 14 15 16 17 18 19 10键名 一 二 三 四 五 六 七 八 九 ○定义 一 二 三 四 五 六 七 八 九 ○该状态下21-20、31-30、41-40的30个键位定义为汉字部首键位键位键名部首码对应部首21 犬 Q 犬 犭 气 欠 其 青22 王 W 王 文 攵 夂 韦(韋) 瓦 毋(母)23 二 E 二儿 耳卩( )阝(在左)阝(在右)
24 日 R 日 曰(曰)25 土 T 土 士 田 冖26 又 Y 又( ) 尢弋 月(月)业用 疋 ()幺 页(頁) 羊()酉 音27 纟 U 纟(糹)糸 廴 丬(爿)28 疒 I 疒 宀29 口 O 口 冂 匚 凵20 片 P 片 皮31 艹 A 艹 廾(在下)32 食 食饣(食) 山石 尸身 豕鼠 矢舌 殳33 刀 D 刀( )刂大 豆歹 斗34 父 F 父 风 (風) 方 缶35 工 G 工广 弓戈 艮 ( )瓜革 骨鬼36 火 H 火户 禾黒 37 金 J 金 钅(釒)几(几) 己(巳) 巾 见(見)斤 臼 角38 k K (不对应任何部首)39 力 L 力 立 里 龙(龍) 耒 老 卤(鹵) 鹿30 厶 S 厶 四41 竹 竹() 爪(爫) 舟止 豸隹42 心 X 心 血 西 (覀) 夕 穴 辛43 厂 厂车(車) 臣虫 赤辰 齿(歯)44 鱼 ü 鱼(魚) 雨( ) 羽肀(聿聿)45 卜 B 卜(卜 )比 贝(貝) 白 鼻46 女 N 女 牛 (牜) 鸟 (鳥)47 木 M 木 马(馬) 米 麦 (麥) 麻 毛 目 门(門) 矛 皿 黾(黽)48 寸 C 寸49 勹 勹40 走 Z 走辶( ) 子(孑) 自足()
该状态下(1)-(13)的13个辅助键位与中文状态Ⅰ完全相同;
e、中文状态Ⅲ的各键位定义该状态下11-15、21-25、31-35、41-45的20个键位无定义;
该状态下16-10、26-20、36-30、46-40的20个键位定义为中文标点符号键位键位 键名 标点符号 说明16 连接号Ⅰ -17 破折号 -- (占两个中文字符位置)18 省略号 …… (占两个中文字符位置)19 左方括号 [10 右方括号 ]26 间隔号 .
27 顿号 、28 问号 ?29 左圆括号 (20 右圆括号 )36 冒号 37 逗号 ,38 句号Ⅰ39 左双引号 “30 右双引号 ”46 专名号 -47 分号 ;48 叹号 !49 左双书名号 《40 右双书名号 》该状态下(1)-(13)的13个辅助键位中(10)和(12)两个键位定义如下键位 键名 定义(10) 回车 即一般西文键盘中的RETURN键(或ENTER键)(12) 西文 中文状态下一旦击该键即进入西文状态。
其他11个辅助键位定义与中文状态Ⅰ下完全相同;
f、中文状态Ⅳ的各键位定义该状态下16、19、10、26、29、30、38、39、30、46、49、40共12个键位被定义为中文标点符号键位键位 键名 标点符号16 连接号Ⅱ ~19 左方头括号 10 右方头括号 26 着重号 .
29 左六角括号 〔20 右六角括号 〕38 句号Ⅱ .
39 左单引号 ‘30 右单引号 ’46 浪线 ~~~49 左单书名号 〈40 右单书名号 〉该状态下17、18、27、28、36、37、47、48的八个键位无定义,其它所有键位与中文状态Ⅲ完全相同;
j、西文键盘的各键位定义西文状态下的键盘被称为西文键盘。中文状态的命令键及(11)、(13)两个辅助键位在西文状态下无定义;辅助键位(10)有特殊定义在西文状态下,击(10)键(或按下SHIFT键的同时击(10)键),键盘就退出西文状态并返回中文状态,26个大写字母键、26个小写字母键、10个阿拉伯数字键、30个西文标点符号键及辅助键的字义与普通西文键盘相同。
(二)、汉字编码a、定义汉字,通用汉字,常用汉字,“言文一致”的原则,汉字的分类,拼音,部首,分词连写法,《汉语拼音正词法基本规则》。
a、1汉字,就是传统意义上的汉字,包括所有的简体字、繁体字、异体字甚至自造汉字。
a、2通用汉字,就是国家语言文字工作委员会、中华人民共和国新闻出版署于1988年3月25日联合发布的《现代汉语通用字表》所收的7000个汉字,以及这7000个汉字在《简化字总表(1986年新版)》中的繁体字形式。
a、3常用汉字,就是国家语言文字工作委员会、国家教育委员会于1988年1月26日联合发布的《现代汉语常用字表》所收的3500个汉字,以及这3500个汉字在《简化字总表(1986年新版)》中的繁体字形式。
a、4“言文一致”的原则任何一个汉字,在书面上印是一个字,口头上说的也是单音,该字就符合“言文一致”的原则;反之,任何一个汉字,在书面上印是一个字,口头上说的却是双音或双音以上的多音,该字就不符合“言文一致”的原则。
a、5汉字的分类。所有的汉字分类如下a、5、1使用者知道这个汉字的标准汉语拼音;
a、5、1、1该汉字符合“言文一致”的原则;
a、5、1、1、1使用者知道这个汉字是一个通用汉字;
a、5、1、1、1、1使用者知道这个汉字是一个常用汉字;
a、5、1、1、1、2使用者虽然知道该汉字是一个通用汉字,但是并不知道该汉字是否是一个常用汉字;
a、5、1、1、2使用者并不知道这个汉字是否是一个通用汉字a、5、1、2、该汉字不符合“言文一致”的原则;
a、5、2使用者并不知道这个汉字的标准汉语拼音。
a、6拼音,就是规范的汉语拼音,也就是我国现在通用的标准的汉语拼音;本发明中凡提到一个汉字的拼音,指的就是该汉字标准的汉语拼音。
a、7部首,就是传统意义上的汉字部首,即《现代汉语词典》中的188个部首。另外,这188个部首凡是属于《新旧字形对照表》中的新字形的(共涉及10个部首,即艹、辶、瓦、耒、、角、黾、食、骨、鬼),还包括其新字形所对应的旧字形,并且将新旧字形看成同一个部首。本发明中提到一个汉字的部首,凡该汉字属于《现代汉语词典》收字范围的,就按照《现代汉语词典》部首检字表中的方式确定其部首;否则按照传统确定该字的部首是188个部首中的哪一个。
a、8《汉语拼音正词法基本规则》,就是用《汉语拼音方案》拼写现代汉语的规则。该规则是由国家教育委员会、国家语言文字工作委员会于1988年7月1日联合公布的。本发明中仅采用该基本规则中的分词连写法以及该规则中提出的可供技术处理的变通方式。
a、9分词连写法,指1988年7月1日由国家教育委员会、国家语言文字工作委员会联合公布的《汉语拼音正词法基本规则》中的分词连写法。
b、拼音码,部首码,字身,无字身的汉字,有字身的汉字,字身码,笔形码,单个汉字的编码。
b、1拼音码,是由拼音同时经过下述两种标准代换得来的(a)拼音中的所有声调符号在拼音码中全部省去;
(b)拼音中的声母zh(知)、ch(蚩)、sh(诗)在拼音码中全部以 来代替,拼音中的韵母ang(昂)、iang(央)、uang(汪)、eng(亨的韵母)、ing(英)、ueng(翁)、ong(轰的韵母)、iong(雍)在拼音码中全部以 来代替。
b、2部首码,是由部首变化而来的;每一个部首均对应一个部首码,其对应关系见本说明书中西文兼容键盘部分中文状态Ⅰ及中文状态Ⅱ下的汉字部首码键位定义表。
b、3字身,是相对于部首而言的;汉字除去部首之外的部分,就是该汉字的字身。
b、4无字身的汉字是指以下179个汉字一、乙、二、十、厂、卜、八、人、入、儿、几、厶、又、刀、力、爿、广、门、(門)、工、土、士、大、(尢)、寸、弋、小、口、O、巾、山、彳、夕、尸、己、已、(巳)、( )、弓、女、幺、乡、子、孓、孑、马、(馬)、斗、文、方、火、(火)、心、户、王、韦、(韋)、木、犬、歹、车、(車)、戈、比、瓦、止、日、曰、贝、(貝)、见、(见)、(見)、父、牛、手、毛、气、片、斤、爪、月、欠、风、(風)、殳、聿、毋、母、水、穴、立、示、石、龙、(龍)、业、目、田、甲、申、由、电、四、皿、矢、禾、白、瓜、鸟、(鳥)、用、 、甩、矛、疋、(疋)、皮、衣、羊、米、耒、老、考、耳、臣、西、页、(頁)、虫、缶、舌、竹、臼、自、血、舟、羽、艮、辛、言、麦、(麥)、走、赤、豆、酉、辰、豕、卤、(鹵)、里、足、豸、谷、身、角、青、其、雨、齿、(歯)、黾、(黽)、金、隹、鱼、(魚)、音、革、骨、食、鬼、( )、麻、鹿、黑、鼠、鼻。
注带圆括号的字是繁体字或异体字。
另外,有9个无字身的汉字是有条件的。“乡”取“幺”为部首时为无字身的汉字,取“乙”为部首时则是有字身的汉字;“孑”、“孓”取“子”为部首时均为无字身的汉字,取“乙”为部首时则都是有字身的汉字;“甲”、“申”、“由”、“电”、取“田”为部首时均为无字身的汉字,取“丨”为部首时则都是有字身的汉字,“甩”取“用”为部首时为无字身的汉字,取“丿”为部首时则是有字身的汉字。“考”取“老”为部首时是无字身的汉字,取“十”为部首时是有字身的汉字参见《现代汉语词典》部首检字表。
b、5有字身的汉字,是相对于无字身的汉字而言的。一个汉字不是无字身的汉字,就一定是一个有字身的汉字。
b、6字身码,是由有字身的汉字的定义派生出来的。有字身的汉字一定有字身码。反之,无字身的汉字一定没有字身码。一个有字身的汉字(为叙述方便起见以下称之为汉字α,下同)的字身码的码长为一至三码,取码规则如下b、6、1使用者知道汉字α的字身本身能够成为一个通用汉字β;
b、6、1、1汉字β是一个无字身的汉字,则汉字α的字身码有且仅有一码,即汉字β的部首码b、6、1、2汉字β是一个有字身的汉字b、6、1、2、1汉字β的字身码有且仅有一码,则汉字α的字在码有且仅有两码,第一码为汉字β的部首码,第二码为汉字β的字身码b、6、1、2、2汉字的β的字身码有两码或两码以上,则汉字α的字身码有且仅有三码,第一码为汉字β的部首码,第二码为汉字β的字身码的第一码,第三码为汉字β的字身码的第二码;
b、6、2使用者并不知道汉字α的字身能否成为一个通用汉字;成的,则汉字α的字身码有且仅有两码;按照汉字α的书写顺序依次取前三个部首,取每个部首的部首码依次构成汉字α的字身码的第一码、第二码、第三码;
b、6、2、2汉字α的字身是由两个不相交的部首构成的,则汉字α的字身码有且仅有两码;按照汉字α的书写顺序取第一个部首的部首码作为汉字α的字身码的第一码,取第二个部首的部首码作为汉字α的字身码的第二码;
b、6、2、3汉字α的字身本身为且仅为一个部首,则汉字α的字身码有且仅有一码,即该部首的部首码b、6、2、4其他情况;
b、6、2、4、1汉字α的字身是由三个或三个以上既不相连又不相交的部分构成的,则汉字α的字身码有且仅有三码;按照汉字α的书写顺序依次取它的字身的前三部分,每部分按下述规则取一码,依次构成汉字α的字身码的第一码、第二码、第三码(a)该部分本身为且仅为一个部首时,该部首的部首码即为该部分的代码,(b)其他任何情况取K为该部分的代码;
b、6、2、4、2汉字α的字身是由两个既不相连、又不相交的部分构成的,则汉字α的字身码有且仅有两码;按照汉字α的书写顺序依次取这两部分,每部分按下述规则取一码,依次构成汉字α的字身码的第一码、第二码(a)该部分本身为且仅为一个部首时,该部首的部首码即为该部分的代码,(b)其他任何情况取K为该部分的代码;
b、6、2、4、3其他任何情况,汉字α的字身码有且仅有一码,即K。
b、7笔形码的定义如下无字身的汉字的笔形码,就是该汉字的部首码;有字身的汉字的笔形码,由其部首码+其字身码构成。
b、8单个汉字的编码定义如下b、8、1使用者知道该汉字的标准汉语拼音
b、8、1、1该汉字符合“言文一致”的原则b、8、1、1、1中文数字“一”、“二”、“三”、“四”、“五”、“六”、“七”、“八”、“九”、“O”的10个汉字的编码为其自身;
b、8、1、1、2其他汉字的编码由其拼音码+笔形码构成;
b、8、1、2该汉字不符合“言文一致”的原则,则该汉字的编码由其笔形码构成。
b、8、2使用者并不知道该汉字的标准汉语拼音,则该汉字的编码由其笔形码构成。
c、词,词的分类(标准词、传统词、其他词),单字词,双字词,多字词,隔音符号,加隔音符号的规则,词的编码;
c、1“词”是现代汉语的一个新名词,这个新名词直到今天还没有完全定形。本发明中所说的“词”的定义比传统意义上的“词”的定义要宽得多。词的定义如下单个汉字或者符合下列条件的连在一起的N个汉字(N为大于或等于2的正整数),只要使用者认为是一个词,就被定义为一个词(a)N=2时(即该词是由2个汉字构成的),则第一个汉字和第二个汉字紧密相连,中间不存在其他任何文字符号(如中文标点符号、西文字符等等);(b)N≥3时(即该词是由3个或3人以上的汉字构成的),任取一个大于1并且小于N的正整数m(即1<m<N),则第m-1个汉字和第m个汉字、第m个汉字和第m+1个汉字全都紧密相连,它们中间都不存在其他任何文字符号(如中文标点符号、西文字符等等)。
c、2传统词,就是传统意义上的汉语词汇。
c、3标准词,是由分词连写法所决定的。任何一个词,凡是用《汉语拼音方案》拼写为汉语拼音时,按照分词连写法能够构成一个拼写单位的,就被定义为一个标准词。
c、4词的分类。所有的词分类如下c、4、1使用者知道这个词是一个标准词;
c、4、2使用者不知道这个词是否是一个标准词,但知道这个词是一个传统词;
c、4、3其他情况,即使用者既不知道这个词是否是一个标准词,同时又不知道这个词是否是一个传统词;
c、5单字词,指仅由一个汉字(即单个汉字)所构成的词。
c、6双字词,指仅由两个单个汉字所构成的词(即N=2的词)。
c、7多字词,指由三个或三个以上的单个汉字所构成的词(即N≥3的词)。
c、8隔音符号,就是《汉语拼音方案》中的隔音符号。不过,本发明中隔音符号用的很广,可用于所有的两个单个汉字的编码的界限可能发生混淆的情况。加隔音符号的规则如下c、8、1单字词的编码中不加隔音符号;
c、8、2双字词或多字词的首字的编码之前不加隔音符号;
c、8、3双字词或多字词的除首字外的其他任何一个汉字,只要符合下列条件之一的,就必须在该字的编码前加隔音符号;
c、8、3、1使用者并不知道该字的拼音,或者虽然知道该字的拼音,但该字不符合“言文一致”的原则(这两种情况下该字的编码是由其笔形码构成的);
c、8、3、2使用者知道该字的拼音,而且该字符合“言文一致”的原则,同时,使用者还知道该字前的那个汉字的拼音,而且该字前的那个汉字也符合“言文一致”的原则,并且(a)该字的编码的第一码为a,且该字前面的那个汉字的编码的最后一码为b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、ü、w、y、z、 之中的任何一个;(b)或者该字的编码的第一码为e,且该字前面的那个汉字的编码的最后一码为b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、ü、w、y、z、 之中的任何一个;(c)或者该字的编码的第一码为o,且该字前面的那个汉字的编码的最后一码为a、b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、w、y、z、 之中的任何一个;(d)或者该字的编码的第一码为n,且该字前面的那个汉字的编码的最后一码为a、e、i、u、ü之中的任何一个;(e)或者该字的编码的每一码为r,且该字前面的那个汉字的编码的最后一码为e。
c、8、4其他任何情况,可以不加隔音符号。(注这种情况下不加隔音符号并不会使各单个汉字的编码的界限发生混淆,因此不加隔音符号是最标准的处理方式。不过,使用者有时候可能弄不清楚到底该不该加隔音符号,因而加上隔音符号也被认为是正确的。
c、9词的编码c、9、1使用者知道该词是一个标准词c、9、1、1单字词“的”、“地”、“得”的编码分别为d+词尾、di+词尾、de+词尾c、9、1、2其他单字词的编码由构成该单字词的那个单个汉字的编码+词尾构成c、9、1、3双字词或多字词c、9、1、3、1组成该词的最后一个单个汉字为注音作r的后缀“儿”,则该词的编码由该词的最后一个汉字外的各单个汉字的编码+r+词尾构成。其中按照加隔音符号的规则应该加隔音符号的单个汉字还必须在其编码前加隔音符号,此处还特别指出,后缀“儿”前面的那个汉字的编码的最后一码为e时,也必须在“儿”的编码(即r)前加隔音符号c、9、1、3、2其他情况下该词的编码由构成该词的各单个汉字的编码+词尾构成;其中按照加隔音符号的规则应该加隔音符号的单个汉字还必须在其编码前加隔音符号。
c、9、2使用者并不知道该词是否是一个标准词,但知道该词是一个传统词;
c、9、2、1该词是一个单字词,则该词的编码由构成该单字词的那个单个汉字的编码+略语构成;
c、9、2、2双字词或多字词;
c、9、2、2、1组成该词的最后一个单个汉字为注音作r的后缀“儿”,则该词的编码由该词的最后一个汉字以外的各单个汉字的编码+r+略语构成;其中按照加隔音符号的规则应该加隔音符号的单个汉字还必须在其编码前加隔音符号,此处还特别指出,后缀“儿”前面的那个汉字的编码的最后一码为e时,也必须在“儿”的编码(即r)前加隔音符号;
c、9、2、2、2其他情况下该词的编码由构成该词的各单个汉字的编码+略语构成;其中按照加隔音符号的规则应该加隔音符号的单个汉字还必须在其编码前加隔音符号。
c、9、3其他任何情况,必须把这个词全部拆为单个汉字,每个单个汉字都作为一个单字词进行输入,每个单字词的编码为该汉字的编码+词尾构成。
此外,为了进一步提高汉字输入的效率,本发明还可作如下改进a、专有名词在该词的编码前加i(即中文状态Ⅰ下的“28”键位);专有名词和普通名词连在一起构成的词也在该词的编码前加i(即中文状态Ⅰ下的“28”键位)。
b、由拼音码+笔形码所构成的有字身的单个汉字的编码由其拼音码+部首码+字身码的第一码所构成。(注有字身的单个汉字一定有字身码。)c、如b、所述的汉字编码方法,其特征在于(一)以下142个单个汉字的编码由其拼音码所构成厂,卜,儿,几,厶,又,刀,力,广,门,(門),工,土,大,(尢),寸,弋,巾,山,夕,尸,己,弓,女,幺,子,马,(馬),斗,文,方,火,心,户,王,韦,(韋),木,犬,歹,车,(車),戈,比,瓦,止,日,贝,(貝),见,(見),父,牛,毛,气,片,斤,爪,月,欠,风,(風),殳,聿,毋,穴,立,石,龙,(龍),业,目,田,皿,矢,禾,白,瓜,鸟,(鳥),用,矛,疋,皮,羊,米,耒,老,耳,臣,西,页,(頁),虫,缶,舌,竹,臼,自,血,舟,羽,艮,辛,麦,(麥),走,赤,豆,酉,辰,豕,卤,(鹵),里,足,豸,谷,身,角,青,其,齿,(歯),黾,(黽),金,隹,鱼,(魚),雨,音,革,骨,食,鬼,( ),麻,鹿,黑,鼠,鼻(注带圆括号的字是繁体字或异体字。)(二)符合以下条件的由拼音码+笔形码所构成的有字身的单个汉字的编码由其拼音码+部首码所构成该汉字的字身本身能且仅能成为一个由拼音码+笔形码所构成的单个汉字,并且该汉字的拼音码与该汉字的字身所能成的那个由拼音码+笔形码所构成的单个汉字的拼音码完全相同。
d、如b、所述的汉字编码方法,被称为本发明的标准码。标准码的特点是重码率很低,但码长比较长(最长时一个汉字的编码长达六码)。为了解决这一问题,本发明允许对标准码进行简化。不过,简化将会大大增加重码,因此一般只用于比较常用的词的输入;但是,简化后编码的码长可以是最简单的形式,比如说一个单字词的编码码长最短时仅一码,一个N字词(N≥2)的编码码长最短时仅有N码,这就使输入效率大大提高。对标准码进行简化的总原则如下(a)能且仅能对由拼音码+笔形码所构成的汉字的编码进行简化;
(b)拼音码的第一码不可省去,同时若拼音码的长度为三码,则省去其第二码,必须同时省去其第三码,反之亦然;拼音码的码长若为四码,则省去其第二码,必须同时省去第三码及第四码,省去第三码,必须同时省去第二码及第四码,省去第四码,也必须同时省去第二码及第三码;
(c)有字身的汉字省去其部首码,必须同时省去其字身码;
(d)简化往往会引起隔音符号的变化,必须根据加隔音符号的规则重新考虑是否应该在该汉字后的那个汉字的编码前加隔音符号。
只要符合上述总原则,可对词中的任何一个汉字的编码随意进行简化。下面特别指出几种有代表性的简化方式d、1由拼音码+笔形码所构成的单个汉字的编码由其拼音码+部首码所构成。(即该汉字如果有字身码,则该汉字的编码中的字身码被省去。)d、2由拼音码+笔形码所构成的单个汉字的编码由其拼音码的第一码+笔形码所构成。(即该汉字的拼音码如果为二至四码,则该汉字的编码中拼音码除第一码之外的部分被省去。)d、3由拼音码+笔形码所构成的单个汉字的编码由其拼音码的第一码+部首码所构成。(即该汉字的编码有且仅有两码,第一码为该汉字的拼音码的第一码,第二码为其部首的部首码。)d、4由拼音码+笔形码所构成的单个汉字的编码由其拼音码的第一码所构成。(即该汉字的编码有且仅有一码,即该汉字的拼音码的第一码。)
d、5双字词或多字词,首字为标准码,首字外的其他所有由拼音码+笔形码所构成的单个汉字的编码由其拼音码的第一码所构成。
d、6双字词或多字词,最后一字以外的其他所有由拼音码+笔形码所构成的单个汉字的编码由其拼音码的第一码所构成,最后一字的编码为该字的标准码。
d、7双字词或多字词,最后一字以外的其他所有由拼音码+笔形码所构成的单个汉字的编码由其拼音码的第一码所构成;最后一字如果是一个由拼音码+笔形码所构成的单个汉字,则最后一字的编码由其拼音码+其部首码所构成。
d、8双字词或多字词,最后一字以外的其他所有由拼音码+笔形码所构成的单个字的编码由其拼音码+笔形码的第一码所构成;最后一字如果是一个由拼音码+笔形码所构成的单个汉字,则最后一字的编码由其拼音码所构成(或由其拼音码的第一码+其部首码所构成)。
以上八种简化方式仅仅是可能的简化方案中最具代表性的八种,实际上,一个词可以有许多种符合简化总原则的输入方法,任凭推演变化。
另外,对于标准码来说,还有一种编码方案,其重码率更低,其特征在于半连写短横的用法(a)单字词不用半连写短横(b)双字词或多字词如果是一个标准词,该词拼成汉语拼音后,按照《汉语拼音正词法基本规则》中的规定需在该词的拼音中加半连写短横的,如“陆海空军”的拼音为“lù-hǎi-kōngjǖn”、“环保”的拼音为“huán-bǎo”等,还需在该词的编码中的对应位置加半连写短横。
如“陆海空军”的编码为“陆”的标准码+半连写短横+“海”的标准码+半连写短横+“空”的标准码+“军”的标准码+词尾;又如“环保”的编码为“环”的标准码+半连写短横+“保”的标准码+半连写短横+词尾,等等。
下面称上述编码方案为标准码Ⅱ。标准码Ⅱ也适用于对标准码进行简化的总原则,即也可以用该总原则对标准码Ⅱ进行简化例如“陆海空军”的编码可以简化为l-h-kj,或简化为l-h-kjun等等;“环保”的编码可以简化为huan-bao,或简化为h-b等等。
本发明主要用于计算机汉字信息处理,但也可用于字典或词典的检索和其他中文(或汉字)信息处理领域。本发明还可用于日文汉字等汉字的输入(注这些汉字读音不同于汉语拼音方案,因此这些汉字的编码是由其笔形码所构成的),如中文中“价格”的“价”字,在日文中为“ ”字,该字也可用本发明进行编码,其编码为8X。这正是本发明对中文信息处理技术的最大突破,即可以输入所有汉字,无论它是一个简体字,还是一个繁体字,或者是一个异体字或自造字,或者是一个汉语中根本不存在的日文汉字或其他类型的汉字。
上述编码方法还可作下述改进,以使一些比较特殊的词(如“芙蓉”、“嵯峨”、“机械”、“纺织”、“钢铁”等等)的编码大为简化,且重码率大大下降标准词中的双字词,若组成该双字词的两个汉字的部首完全相同,且该部首在这两个汉字中的位置完全相同,则该双字词的编码由第一个汉字的拼音码+第二个汉字的拼音码+半连写短横+两个汉字共同的部首的部首码+词尾构成。该方法也适用于对标准码进行简化的总原则;此外,还可将两个汉字共同的部首的部首码也一并省去。
权利要求
1.以词为单位的音形意汉字编码及中西文兼容键盘,其特征在于(一)中西文兼容键盘a、该键盘共有56个键位,其中有3个键位为状态键位,40个键位为基本键位,13个键位为辅助键位,换档键(共2个)、命令键为状态键位;11-10、21-20、31-30、41-40共40个键位为基本键位;(1)-(13)共13个键位为辅助键位;b、中文键盘根据“换档”、“命令”两种状态组合为下列4种状态<
c、中文状态Ⅰ的各键位定义该状态下21-20、31-30、41-40的30个键位定义为拼音码键位,即汉语拼音的声母或者汉语拼音的韵母字母键位 键名 对应拼音码 类型21欺q 声母22乌w 声母23鹅e 声母24日r 声母或韵母字母25特t 声母26衣y 声母27乌u 韵母字母28衣i 韵母字母29喔o 韵母字母20坡p 声母31啊a 韵母字母32 诗 声母33得d 声母34佛f 声母35哥g 声母36喝h 声母37基j 声母38科k 声母39勒l 声母30思s 声母41 知 声母42希x 声母43 声母44 迂 韵母字母45玻b 声母46讷n 声母或韵母字母47摸m 声母48雌c 声母49 韵母字母40资z 声母该状态下11-10的10个键位定义为汉字部首码键位键位 键名 部首码 对应部首11横1 一示礻(示)髟12垂2 |丿彡攴采13 点 3 丶冫氵灬水( )14十4 十15手5 手扌16口6 口17 折 7 乙( )巛彐( ) 18 八 8 八( )人(入)亻彳19 小 9 小( )忄( )10亠0 亠衣衤言讠(言)该状态下1-13的13个键位定义为辅助键位键位 键名 定义(1) 并连写短横 《汉语拼音正词法基本规则》中的半连写短横“一”(2) 下页 用于选择重码提示行下翻一页(3) 上页 用于选择重码提示行上翻一页(4) 修改 即一般西文键盘中的BACKSPACE键(5) 制表 即一般西文键盘中的TAB(6) 下一 用于选择重码提示行中光标向右移一词(7) 上一 用于选择重码提示行中光标向左移一词;(8) 在写锁定 按下该键后,中文状态Ⅰ的30个拼音码键位全部被锁定为中文状态Ⅱ的30个汉字部首码键位, 再按一次恢复原状态,该键位对中文状态Ⅰ的30 个拼音码键位以外的任何中文键位不起作用(9) 学习 笔形码万能替换键(10) 略语 传统词的词尾标记(11) 隔音符号 隔音符号“′”(12) 词尾 标准词的词尾标记(13) 隔音符号 与(11)键位完全相同d 中文状态Ⅱ的各键位定义该状态下11-10的10个键位定义为中文数字键位键位 11 12 13 14 15 16 17 18 19 10键名 一 二 三 四 五 六 七 八 九 ○定义 一 二 三 四 五 六 七 八 九 ○该状态下21-20、31-30、41-40的30个键位定义为汉字部首键位键位 键名 部首码 对应部首21犬Q 犬 犭 气 欠 其 青22 王 W 王 文 攵 夂 韦( )瓦 毋(母)23二E 二 儿 耳卩()阝(在左)阝(在右)24日R 日 曰(曰)25土T 土 士 田 冖26又Y 又(ヌ)尢 弋 月(月) 业 用 疋()幺 页(頁)羊() 酉 音27 纟 U 纟( )糸 廴 丬(爿)28疒I 疒 宀29囗O 囗 冂 匚 凵20片P 片 皮31艹A 艹 廾(在下)32 食 食 饣(食) 山 石 尸 身 豕 鼠 矢舌 殳33刀D 刀()刂 大 豆 歹 斗34父F 父 风(風) 方 缶35 工 G 工 广 弓 戈 艮( )瓜 革 骨 鬼36火H 火 户 禾 黑 虍37金J 金 钅 (金)几(几) 已(巳)巾 见(見)斤 臼 角38k K (不对应任何部首)39力L 力 立 里 龙(龍)耒 老 卤(鹵) 鹿30厶S 厶 四41 竹 竹()爪(爫) 舟 止 豸 隹42心X 心 血 西(覀) 夕 穴 辛43 厂 厂 车(車)臣虫 赤 辰 齿(齒)44 鱼 ü 鱼(魚)雨( )羽 肀 ( 聿)45 卜 B 卜( ) 比 贝(貝) 白 鼻46 女 N 女 牛(牜)鸟( )47 木 C 木 马(馬)米 麦( )麻毛目门(鬥)矛 皿 黾( )48寸C 寸49勹 勹40 走 Z 走 辶( )子(孑)自 足()该状态下(1)-(13)的13个辅助键位与中文状态Ⅰ完全相同;e、中文状态Ⅲ的各键位定义该状态下11-15、21-25、31-35、41-45的20个键位无定义;该状态下16-10、26-20、36-30、46-40的20个键位定义为中文标点符号键位键位 键名 标点符号说明16连接号Ⅰ -17破折号--(占两个中文字符位置)18省略号…… (占两个中文字符位置)19 左方括号[10 右方括号]26 间隔号 ·27 顿号、28 问号 29 左圆括号(20 右圆括号)36 冒号37 逗号,38 句号Ⅰ 。39 左双引号“30 右双引号”46 专名号 -47 分号;48 叹号!49 左双书名号 《40 右双书名号 》该状态下(1)--(13)的13个辅助键位中(10)和(12)两个键位定义如下键位 键名 定义(10) 回车 即一般西文键盘中的RETURN键(或ENTER键)(12) 西文 中文状态下一旦击该键即进入西文状态。其他11个辅助键位定义与中文状态Ⅰ下完全相同;f、中文状态Ⅳ的各键位定义该状态下16、19、10、26、29、30、38、39、30、46、49、40共12个键位被定义为中文标点符号键位键位 键名标点符号16连接号Ⅱ~19左方头括号 10右方头括号 26着重号 ·29左六角括号 〔20右六角括号 〕38句号Ⅱ 。39左单引号 ‘30右单引号’46浪线~~~49左单书名号 &lt;40右单书名号 &gt;该状态下17、18、27、28、36、37、47、48的八个键位无定义,其它所有键位与中文状态Ⅲ完全相同;(二)、汉字编码b、拼音码,部首码,字身,无字身的汉字,有字身的汉字,字身码,笔形码,单个汉字的编码b、1拼音码,是由拼音同时经过下述两种标准代换得来的(a)拼音中的所有声调符号在拼音码中全部省去;(b)拼音中的声母zh(知)、ch(蚩)、sh(诗)在拼音码中全部以 、 来代替,拼音中的韵母ang(昂)、iang(央)、uang(汪)、eng(亨的韵母)、ing(英)、ueng(翁)、ong(轰的韵母)、iong(雍)在拼音码中全部以a 、ia 、ua 、e 、i 、ue 、o 、io 来代替;b、2部首码,是由部首变化而来的;每一个部首均对应一个部首码,其对应关系见本说明书中西文兼容键盘部分中文状态Ⅰ及中文状态Ⅱ下的汉字部首码键位定义表;b、3字身,是相对于部首而言的;汉字除去部首之外的部分,就是该汉字的字身;b、4无字身的汉字是指以下179个汉字一、乙、二、十、厂、卜、八、人、入、儿、几、厶、又、刀、力、爿、广、门、(門)、工、土、士、大、(尢)、寸、弋、小、口、○、巾、山、彳、夕、尸、己、已、(巳)、(巳)、弓、女、幺、乡、子、孓、孑、马、(馬)、斗、文、方、火、(火)、心、户、王、韦、( )、木、犬、歹、车、(車)、戈、比、瓦、止、日、曰、贝、(貝)、见、(见)、(見)、父、牛、手、毛、气、片、斤、爪、月、欠、风、風、殳、聿、毋、毌、母、水、穴、立、示、石、龙、(龍)、业、目、田、甲、申、由、电、四、皿、矢、禾、白、瓜、鸟、 、用、甩、矛、疋、(疋)、皮、衣、羊、米、耒、老、考、耳、臣、页、(頁)、虫、缶、舌、竹、臼、自、血、舟、羽、艮、辛、言、麦、( )、走、赤、豆、酉、辰、豕、卤、(鹵)、里、足、豸、谷、身、角、青、其、雨、齿、(齒)、黾、( )、金、隹、鱼、(魚)、音、革、骨、食、鬼、(門)、麻、鹿、黑、鼠、鼻;b、5有字身的汉字,是相对于无字身的汉字而言的;一个汉字不是无字身的汉字,就一定是一个有字身的汉字b、6字身码,是由有字身的汉字的定义派生出来的;有字身的汉字一定有字身码;反之,无字身的汉字一定没有字身码;一个有字身的汉字(为叙述方便起见以下称之为汉字α,下同)的字身码的码长为一至三码,取码规则如下b、6、1使用者知道汉字α的字身本身能够成为一个通用汉字β;b、6、1、1汉字β是一个无字身的汉字,则汉字α的字身码有且仅有一码,即汉字β的部首码;b、6、1、2汉字β是一个有字身的汉字;b、6、1、2、1汉字β的字身码有且仅有一码,则汉字α的字在码有且仅有两码,第一码为汉字β的部首码,第二码为汉字β的字身码;b、6、1、2、2汉字的β的字身码有两码或两码以上,则汉字α的字身码有且仅有三码,第一码为汉字β的部首码,第二码为汉字β的字身码的第一码,第三码为汉字β的字身码的第二码;b、6、2使用者并不知道汉字α的字身能否成为一个通用汉字;b、6、2、1汉字α的字身是由三个或三个以上不相交的部首构成的,则汉字α的字身码有且仅有三码;按照汉字α的书写顺序依次取前三个部首,取每个部首的部首码依次构成汉字α的字身码的第一码、第二码、第三码;b、6、2、2汉字α的字身是由两个不相交的部首构成的,则汉字α的字身码有且仅有两码;按照汉字α的书写顺序取第一个部首的部首码作为汉字α的字身码的第一码,取第二个部首的部首码作为汉字α的字身码的第二码;b、6、2、3汉字α的字身本身为且仅为一个部首,则汉字α的字身码有且仅有一码,即该部首的部首码;b、6、2、4其他情况;b、6、2、4、1汉字α的字身是由三个或三个以上既不相连又不相交的部分构成的,则汉字α的字身码有且仅有三码;按照汉字α的书写顺序依次取它的字身的前三部分,每部分按下述规则取一码,依次构成汉字α的字身码的第一码、第二码、第三码(a)该部分本身为且仅为一个部首时,该部首的部首码即为该部分的代码,(b)其他任何情况取K为该部分的代码;b、6、2、4、2汉字α的字身是由两个既不相连、又不相交的部分构成的,则汉字α的字身码有且仅有两码;按照汉字α的书写顺序依次取这两部分,每部分按下述规则取一码,依次构成汉字α的字身码的第一码、第二码(a)该部分本身为且仅为一个部首时,该部首的部首码即为该部分的代码,(b)其他任何情况取K为该部分的代码;b、6、2、4、3其他任何情况,汉字α的字身码有且仅有一码,即K;b、7笔形码的定义如下无字身的汉字的笔形码,就是该汉字的部首码;有字身的汉字的笔形码,由其部首码+其字身码构成;b、8单个汉字的编码定义如下b、8、1使用者知道该汉字的标准汉语拼音;b、8、1、1该汉字符合“言文一致”的原则;b、8、1、1、1中文数字“一”、“二”、“三”、“四”、“五”、“六”、“七”、“八”、“九”、“○”的10个汉字的编码为其自身;b、8、1、1、2其他汉字的编码由其拼音码+笔形码构成;b、8、1、2该汉字不符合“言文一致”的原则,则该汉字的编码由其笔形码构成;b、8、2使用者并不知道该汉字的标准汉语拼音,则该汉字的编码由其笔形码构成;c、词,词的分类(标准词、传统词、其他词),单字词,双字词,多字词,隔音符号,加隔音符号的规则,词的编码;c、1词的定义如下单个汉字或者符合下列条件的连在一起的N个汉字(N为大于或等于2的正整数),只要使用者认为是一个词,就被定义为一个词(a)N=2时(即该词是由2个汉字构成的),则第一个汉字和第二个汉字紧密相连,中间不存在其他任何文符号(如中文标点符号、西文字符等等);(b)N≥3时(即该词是由3个或3个以上的汉字构成的),任取一个大于1并且小于N的正整数m(即1<m<N)则,第m-1个汉字和第m个汉字、第m个汉字和第m+1个汉字全都紧密相连,它们中间都不存在其他任何文字符号(如中文标点符号、西文字符等等)c、8加隔音符号的规则如下c、8、1单字词的编码中不加隔音符号c、8、2双字词或多字词的首字的编码之前不加隔音符号c、8、3双字词或多字词的除首字外的其他任何一个汉字,只要符合下列条件之一的,就必须在该字的编码前加隔音符号c、8、3、1使用者并不知道该字的拼音,或者虽然知道该字的拼音,但该字不符合“言文一致”的原则;c、8、3、2使用者知道该字的拼音,而且该字符合“言文一致”的原则,同时,使用者还知道该字前的那个汉字的拼音,而且该字前的那个汉字也符合“言文一致”的原则,并且(a)该字的编码的第一码为a,且该字前面的那个汉字的编码的最后一码为b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、 、w、y、z、 之中的任何一个;(b)或者该字的编码的第一码为e,且该字前面的那个汉字的编码的最后一码为b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、ü、w、y、z、 之中的任何一个;(c)或者该字的编码的第一码为o,且该字前面的那个汉字的编码的最后一码为a、b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、w、y、z、 之中的任何一个;(d)或者该字的编码的第一码为n,且该字前面的那个汉字的编码的最后一码为a、e、i、u、ü之中的任何一个;(e)或者该字的编码的每一码为r,且该字前面的那个汉字的编码的最后一码为ec、8、4其他任何情况,可以不加隔音符号c、9词的编码c、9、1使用者知道该词是一个标准词c、9、1、1单字词“的”、“地”、“得”的编码分别为d+词尾、di+词尾、de+词尾;c、9、1、2其他单字词的编码由构成该单字词的那个单个汉字的编码+词尾构成;c、9、1、3双字词或多字词;c、9、1、3、1组成该词的最后一个单个汉字为注音作r的后缀“儿”,则该词的编码由该词的最后一个汉字外的各单个汉字的编码+r+词尾构成。其中按照加隔音符号的规则应该加隔音符号的单个汉字还必须在其编码前加隔音符号,此处还特别指出,后缀“儿”前面的那个汉字的编码的最后一码为e时,也必须在“儿”的编码(即r)前加隔音符号;c、9、1、3、2其他情况下该词的编码由构成该词的各单个汉字的编码+词尾构成;其中按照加隔音符号的规则应该加隔音符号的单个汉字还必须在其编码前加隔音符号;c、9、2使用者并不知道该词是否是一个标准词,但知道该词是一个传统词;c、9、2、1该词是一个单字词,则该词的编码由构成该单字词的那个单个汉字的编码+略语构成;c、9、2、2双字词或多字词c、9、2、2、1组成该词的最后一个单个汉字为注音作r的后缀“儿”,则该词的编码由该词的最后一个汉字以外的各单个汉字的编码+r+略语构成;其中按照加隔音符号的规则应该加隔音符号的单个汉字还必须在其编码前加隔音符号,此处还特别指出,后缀“儿”前面的那个汉字的编码的最后一码为e时,也必须在“儿”的编码(即r)前加隔音符号;c、9、2、2、2其他情况下该词的编码由构成该词的各单个汉字的编码+略语构成;其中按照加隔音符号的规则应该加隔音符号的单个汉字还必须在其编码前加隔音符号c、9、3其他任何情况,必须把这个词全部拆为单个汉字,每个单个汉字都作为一个单字词进行输入,每个单字词的编码为该汉字的编码+词尾构成。
2.如权利要求1所述的以词为单位的音形意汉字编码及中西文兼容键盘,其特征在于专有名词在该词的编码前加i;专有名词和普通名词连在一起构成的词也在该词的编码前加i。
3.如权利要求1或2所述的以词单位的音形意汉字编码及中西文兼容键盘,其特征在于由拼音码+笔形码所构成的有字身的单个汉字的编码由其拼音码+部首码+字身码的第一码所构成。
4.如权利要求3所述的以词为单位的音形意汉字编码及中西文兼容键盘,其特征在于由拼音码+笔形码所构成的单个汉字的编码由其拼音码+部首码所构成。
5.如权利要求3所述的以词为单位的音形意汉字编码及中西文兼容键盘,其特征在于由拼音码+笔形码所构成的单个汉字的编码由其拼音码的第一码+笔形码所构成。
6.如权利要求3所述的以词为单位的音形意汉字编码及中西文兼容键盘,其特征在于由拼音码+笔形码所构成的单个汉字的编码由其拼音码的第一码+部首码所构成。
7.如权利要求3所述的以词为单位的音形意汉字编码及中西文兼容键盘,其特征在于由拼音码+笔形码所构成的单个汉字的编码由其拼音码的第一码所构成。
8.如权利要求3所述的以词为单位的音形意汉字编码及中西文兼容键盘,其特征在于(一)以下142个单个汉字的编码由其拼音码所构成厂,卜,儿,几,厶,又,刀,力,广,门,(門),工,土,大,(尢),寸,弋,巾,山,夕,尸,己,弓,女,幺,子,马,(馬),斗,文,方,火,心,户,王,韦,(韋),木,犬,歹,车,(車),戈,比,瓦,止,日,贝,(貝),见,(見),父,牛,毛,气,片,斤,爪,月,欠,风,(風),殳,聿,毋,穴,立,石,龙,(龍),业,目,田,皿,矢,禾,白,瓜,鸟,(鳥),用,矛,疋,皮,羊,米,耒,老,耳,臣,西,页,(頁),虫,缶,舌,竹,臼,自,血,舟,羽,艮,辛,麦,(麥),走,赤,豆,酉,辰,豕,卤,(鹵),里,足,豸,谷,身,角,青,其,齿,(歯),黾,(黽),金,隹,鱼,(魚),雨,音,革,骨,食,鬼,( ),麻,鹿,黑,鼠,鼻(二)符合以下条件的由拼音码+笔形码所构成的有字身的单个汉字的编码由其拼音码+部首码所构成该汉字的字身本身能且仅能成为一个由拼音码+笔形码所构成的单个汉字,并且该汉字的拼音码与该汉字的字身所能成的那个由拼音码+笔形码所构成的单个汉字的拼音码完全相同。
9.如权利要求3所述的以词为单位的音形意汉字编码及中西文兼容键盘,其特征在于双字词或多字词如果是一个标准词,该词拼成汉语拼音后,按照《汉语拼音正词法基本规则》中的规定需在该词的拼音中加半连写短横的,还需在该词的编码中的对应位置加半连写短横。
10.如权利要求3所述的以词为单位的意形意汉字编码及中西文兼容键盘,其特征在于标准词中的双字词,若组成该双字词两个汉字的部首完全相同,且该部首在这两个汉字中的位置完全相同,则该双字词的编码由第一个汉字的拼音码+第二个汉字的拼音码+半连写短横+两个汉字共同的部首的部首码+词尾构成。
全文摘要
本发明是一种用于计算机汉字信息处理的以词为单位的音形意汉字编码及中西文兼容键盘。本发明重新字义了标准西文键盘的键位,生成一个含有56个键位,能包容23个声母、9个韵母字母、32个中文标点符号、188个汉字部首及92个西文字符的中西文兼容键盘。单个汉字的编码由其拼音码+笔形码或由其笔形码构成,词的编码由构成该词的各单个字汉字的编码+词尾(或略语)构成。本发明通用性强、重码率低、易学易用,可编码所有汉字。
文档编号G06F3/023GK1108774SQ9410257
公开日1995年9月20日 申请日期1994年3月14日 优先权日1994年3月14日
发明者刘向东 申请人:刘向东
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1