汉字部件按表形的五种笔画分类的编码法的制作方法

文档序号:6409222阅读:479来源:国知局
专利名称:汉字部件按表形的五种笔画分类的编码法的制作方法
技术领域
本发明涉及一种计算机的汉字编码输入法及其键盘,特别是一种汉字部件按表形的五种笔画分类的计算机汉字编码输入法及其键盘。所属技术领域是中文信息处理。
将近二十年来,尽管已经出现了上千种汉字编码,但是“万变不离其宗”。这许多编码方案,基本上仍然离不开数码、音码、形码这三大范畴,或是音、形、数码的结合体。
数码,就是用数字对汉字编码,典型的“有理序号数字编码方案”是电报码和区位码,基本上可以做到每个汉字和符号只有一个码没有重码。
从理论上说,如果按照汉字的使用频率进行编码,频率越高的码长越短,并且安排在键盘的最佳输入位置上,无疑将会大大提高汉字的输入速度。但是这种被称为“无理序号数字编码方案”设计困难,至今只有广西省肖水清的“肖码”一家,至少在目前还无法比较这一类编码哪家的最好。
音码,就是根据汉字的读音来编码,典型的音码方案是汉语拼音输入法,山东省唐樊宽的“中文声数码”,四川省钱玉趾的“未来码”也属于这一类。
音码的优点是容易学。五十年代以后,汉语拼音已经相当普及,至少在北方地区的中小学毕业生大都会用。因此拼音输入法在广大的北方地区,特别是非专业录入人员中拥有相当众多的用户。缺点是重码多,难以达到盲打和快速这两条要求。二是南方人普通话读不准,在方言区使用比较困难,三是不认识的字就无法输入,除了翻字典查读音之外仍不得不借重区位码,笔画或部首等输入法作为补充。
形码就是根据汉字的字形来编码。典型的形码输入方案,可以河南省王永民的“五笔字型”为代表,刘国斌的“层次四角”和江西省万仁芳的“前三末一”也属于这一类。形码输入方案的优点是重码率低,码长大都比较短,不认识的字也能够输入,缺点是各有一套拆分汉字进行编码的方案,要记住一百多个字根在键盘上的分布位置,规则多达一二百条,还有许许多多的例外,即便是智商高、年纪轻的人,没有一两个月时间的专门训练,大都很难熟练掌握,就是完全掌握了,每天上机工作时间也不能太长,不然,由于精神过分集中,脑力过于疲劳,会影响操作人员的身体健康。形码还有一个缺点,那就是不能放。一旦放下,就会忘得精光,再要“拣”回来,虽然不象新学那样困难,也还是要花费许多精力和时间的。
音形码是既根据汉字读音,又兼顾汉字字形的输入方案,这一类方案已经很多,例如四川省陈代于的“大众码”,北京市郭淑珍的“声韵声声”,扶良文的“智能码”,周志农的“自然码”等,由于汉字本身具有“同音不同形,形似不同音”的内在规律,编码兼顾音形,在一定程度上可以降低重码率,但是,每个汉字都根据音形编码,码长必然累赘;某些字只根据读音编码,某些字则结合音形编码,则又打乱了体系,缺乏严格的准则,最后只能依靠死记硬背来使用编码,增加了学习的困难。
经过将近二十年时间的研究和思考,人们发现作为中文信息处理最基本最重要手段之一的汉字键盘输入技术,虽然已经解决了有无的问题,但离实际需求还差得很远,真正适合于各类人员使用的规范化、通用型汉字键盘输入系统还没有产生,汉字键盘输入技术的研究还没有结束。因此,目前除了普及之外,关键在于进一步提高。
所谓普及,就是充分发挥现有汉字键盘输入的效益,扩大汉字键盘输入系统的应用。所谓提高,就是在规范化、智能化的基础上,在系统化国际化的前提下研制出一种或几种既容易学又打得快的综合集成型汉字键盘输入系统。
研制规范化、智能化、系统化、国际化的综合集成型汉字键盘输入系统不仅是计算机工业生产和广大用户的迫切要求,也是汉字键盘输入发展的必然结果。在“八五”期间,我国的汉字键盘输入技术首先必须相对集中,逐步统一,形成规范。数码、音码、形码三大体系及其混合形式不妨先综合出一两种最佳或较佳方案来,进而对三大体系加以综合集成,扬长避短,互为补充,使之融为一体,最后形成规范化的汉字键盘输入系统。其次要使目前存在的“专业高速型”和“普及易学型”两大类型汉字键盘输入法有机地结合起来,真正做到从“易学”到“高速”,从“普及”到“专业”的自然过渡,形成既容易学又打得快的二者兼优的汉字键盘输入系统。第三要对繁简汉字、中外汉字、今古汉字以及单字与词语的编码作统一的考虑有机地结合,包容在一个汉字键盘输入系统之内。
一、规范化汉字编码的基础是语言文字。要使汉字键盘输入系统规范化,首先必须对语言文字的成份、结构、语法、语义等有关规律进行研究,逐步加以规范化和标准化。规范化方面的工作有(1)进行汉语字词读音规律的研究,使双拼法的声韵母替代及其键位安排合理化、规范化,字词及短语的拼写与标调规范化。
(2)进行汉字字型结构及其演变规律的研究,使各种字体的汉字字形规范化,笔画、笔顺规范化,偏旁、部首、字根规范化,汉字结构图形规范化以及汉字字型分解合成规则和步骤等的规范化。
(3)进行汉字(包括笔画、字根)和词语频度的研究,建立字词流通频度统计系统,定期公布统计结果,进行使用词语规范化,建立标准的通用词语库。
(4)进行汉语语法、语义和句型的研究,使常用句型规范化。
(5)进行汉语字、词、语句其他属性的研究,建立标准的汉语字词属性库和知识库。
二、智能化汉字键盘输入与计算机交互的界面,汉字编码的实质是把人所能认识和识别的自然语言符号体系(汉字)唯一地、正确地转换成计算机能够识别和处理的符号体系(ASCII字符),这种转换要求做到唯一性(无重码)、正确性(无差错)、一致性(规律一贯)、快速性(高效)、简易性(学用容易)。但是由于汉字本身的复杂性,使得这些要求很难在同一方案中完美地兼容,长期以来一直困扰着编码专家们。
从用户角度看,目前的汉字键盘输入方法不外乎两大类一类是适合于普通用户的普及型方案。编码规则简单且多数方案是建立在国民文化教育背景基础之上的,所以学用大都比较容易。但是码长比较长,重码比较多,输入速度普遍不高。另一类是适合于专业操作人员使用的高速型方案,编码规则大都比较复杂,而且还有许多特殊的例外约定(即一致性较差),因此需要经过专门学习特殊训练和较长时间的熟练以后才能掌握。如果集中这两类方案的优点,把汉字键盘输入方案建立在国民文化教育背景知识的基础上,并把编码过程中需要人脑记忆的规则交给电脑去完成,充分发挥计算机的智能作用,从而产生一种既容易学,又打得快的通用型汉字键盘输入方案,那就理想了。
三、系统化当前汉字输入方案需解决的问题(1)数码、音码、形码三大编码体系的共容互补、有机结合。
(2)简繁汉字、中外汉字、今古汉字的统一处理和自然过渡。
(3)汉字键盘输入方法与计算机系统软件、常用办公软件的有机结合,使之成为功能完善的集成办公软件。
四、国际化当今世界是一个信息世界,各国和各地区之间的信息交换日益频繁,由于中文信息处理所使用规范、标准和系统没有统一,严重影响了亚洲国家和地区之间的信息交换。所以,汉字键盘输入系统虽然主要是为中国人服务的,但是不能不考虑到还有许多亚洲国家和地区也在使用汉字,所以国际化问题是存在的,其主要内容是(1)亚洲国家和地区所使用的汉字内码、交换码之间转换。
(2)简繁体之间的互相转换。
(3)常用词语的转换。
(4)各中文信息处理系统之间兼容问题的研究。
(5)研究完成"中文大字符集"并据此完成新的汉字键盘输入系统。
根据以上所述,可以得出如下简短的结论规范化是使汉字键盘输入技术取得突破性进展的基础;智能化是具体实现的技术方法;系统化是使汉字键盘输入技术更完善、更适用,并产生更大效果的有利措施;而国际化则是使汉字键盘输入系统适应国际信息交流的需要,为使用汉字的国家、地区和全体华人服务。(以上资料摘自《电脑打字普及教材》----吴越编著----群言出版社)本发明的目的在于提供一种汉字部件按表形的五种笔画进行分类,并据其对汉字、词汇进行编码的汉字输入法及其键盘。主要解决的技术课题是中文计算机汉字输入技术中编码方案的易学、易记、易用同汉字快速输入之间的矛盾以及现有技术中存在的编码规则繁杂和编码的歧义性等问题。
汉字部件按表形的五种笔画分类的编码法,是周伟平先生根据汉字的内在规律,参照大多数人的拆字习惯,引进了五笔字型按五种笔画分区设计的思想,借鉴了表形码汉字部件同表形符号相联系易记的优点,参阅了音码方案易学的特点,以及郑码方案中选取大家熟悉的规范部首笔画作为构成汉字的基本字根的设计思路,在系统分析研究中文信息同计算机汉字编码技术的基础上发明的。它将汉字的笔画重新定义为五种笔画(见图一),并将构成汉字的部件按这五种表形的笔画(横、竖、撇、点、折)分成五大类,从而将具有26个英文字母键(A-Z键)的国际通用标准西文键盘(以下简称标准键盘)划分成五个区(横区A、S、D、F、G;竖区H、J、K、L、M、N;撇区Q、W、E、R、T;点区Y、U、I、O、P;折区X、C、V、B,见图二),以便于计算机操作者学习记忆,实现快速输入汉字,同时也有利于和西文字符的输入设备有更好的兼容性及降低造价。在每个区中(或每一类中),又根据汉字部件(基本字根)特有的规律(汉字部件形态相近、形状相似或各基本字根间直接间接的联系)再进行逐一分组,使字根的归并组合规律性强,使每组有内在联系的基本字根同A-Y键一一对应,形成一种中文输入的基本字根键盘,从而达到易学、易记、易用和过后不易遗忘的目的。本编码方案中的基本字根是指发明人在标准键盘的26个英文字母键(A-Z键)上所定义的所有字根的总称。基本字根中包括我们大家熟悉的规范的偏旁部首笔画、不便于拆分的构成汉字的部件(如天可拆为“一”、“大”,又可拆为“二”、“人”)以及有利于使汉字拆分简洁直观而定义的字根,有利于解决编码的歧义性,使汉字编码简洁、直观,达到易学、易用的目的。基本字根可分为成字字根和非成字字根,都属于构成汉字的部件。所有汉字均以基本字根为单位进行编码。本发明的每组基本字根所对应的键盘代码总表见图三,键盘基本字根总图—简繁体混合字根总图,简体字字根总图、繁体字字根总图分别见图四、图五、图六。
为了使计算机操作者使用方便,可以用印有如图四、图五、图六所示本发明基本字根的平面不干胶标签粘在标准键盘相应的键帽上来实现。另外也可直接生产印有本发明基本字根的键盘(包括大、中、小型计算机)来实现。利用本发明的基本字根及其键盘代码可以同写汉字一样,方便地对全部简繁汉字、词汇进行拼形编码,从而实现不同型号计算机,不同使用要求的汉字、词汇的易学易用的高效率输入。
本发明在标准键盘中“Z”键留作机动,称为查询键(或万能键、模糊键),可代替操作者一时不知道的任何字根,进行人机对话式的输入法学习。本发明适用于一切大、中、小微型计算机中文信息处理系统、通讯系统和字词典编纂,并将在汉字终端、汉字电传、电报、电脑打字和计算机汉字排版印刷等方面获得广泛的应用。
本发明按照汉字“同音不同形、形似不同音”的内在规律,用音码作为识别码,以降低重码率(音码取拼音头,可克服音码的韵母难发音的缺点),并根据本发明的基本字根总图中每组基本字根所对应的键盘代码(英文字母A—Z)对汉字、词汇进行编码输人,并通过计算机的中央处理单元和转换装置,将其转化为一个内码序列,计算机据此从一个汉字库中选出该汉字、词汇,并执行显示、打印、传输或存贮指令。
本发明汉字编码规则1.按书写顺序,自上而下,从左到右,由外至内取码。
2.以基本字根为单位取码,汉字拆分力求简洁、直观。
3.按一、二、三、末字根取码,最多只取四码。
4.键盘上的成字字根取码 + +音码+末笔 —成字字根键。
音码——级识别码,取每个汉字的拼音头。
例“Hao”取“H”;“Chao”取“c”;“an”取“A”。
末笔—二级识别码,取每个汉字的最末一笔。
例“好”取“一”。
5.不足四码的汉字先加打音码。
6.为减少重码,仍不足四码的汉字再加打末笔。
为便于读者理解该发明汉字编码规则,可参阅本发明的汉字编码流程图(见图七)。
本发明词汇编码规则1.双字词分别取两个字的单字全码中的第一、第二码。
例“科学”取“禾”、“ ”、“ ”、“冖”,编码为WUIL。
2.三字词前两个字各取其第一码,最后一个字取其第一、第二码。例“计算机”取“讠”、“”、 编码为YWSM。
3.四字词每字各取其第一码。
例“汉字编码”取“氵”、“宀”、“纟”、 ,编码为ILCG。
4.多字词按“一、二、三、末”的原则,取第一、第二、第三及最末一个字的第一码。例“中华人民共和国”,取 、“亻”、 编码为NTTK。
本发明为提高汉字输入速度,在每一个字根键上,都安排了一个使用频率特别高且经常单独存在的汉字,其输入码为所在键打一下加打空格,称为一级简码;约有650个汉字采用只取其编码的第一、第二码加打空格键输入,称为二级简码;有几千个汉字采用其编码的第一、第二、第三码加打空格键输入,称为三级简码;同时具有简码的汉字且不影响输入的情况下的编码输入方式仍然保留。
本发明在键盘输入汉字的过程中,可出现两种报警信号短声表示输入码无字与之对应,即所谓空码,同时光标在原处不动;长声表示键入码是重码,此时使用频率高且经常单独存在的汉字(常用字)首先显示。在显示行的正常编辑位置上,若用这个常用字,可继续键入下文,此字便自动显示在正常编辑位置上;若用到不常用的那些字,只需按与该字在提示行中的序号相同的数字键,所要的字即显示在现行编辑位置上。为了防止汉字同词汇出现重码,影响输入速度,可将所有汉字取第一、第二、第三码加打空格键。
本发明的几点说明1.本发明中"Z"键为查询键而非基本字根的代码(码元),造成了汉字在输入识别码"Z"时,造成编码范围超出码元的情况,在这种情况下的汉字编码可省去"Z"识别码,直接打空格键,这样在使用时并不影响"Z"键的使用。
2.本发明定义的五种笔画中, 笔画不属于任何一种笔画,而据其同"A"键上的字根有类似之处,而将其定义在"A"键上。
3.为进一步提高汉字输入速度,可对用户定义的词汇进行记忆或自动记忆。
4.本发明属于"形音结合码"(形为主,音为辅),但是又考虑到计算机操作者在用电脑打字的过程中存在"看打、听打、想打"的区别,特在本发明的基础上又增补了"音形结合码"方案,即将本发明汉字编码中的音码提前,并主要趋于以词汇输入为主。根据本发明所提供的基本字根及其键盘代码按以下规则对汉字、词汇进行编码汉字编码规则1.按书写顺序,自上而下,从左到右,由外自内取码。
2.以基本字根为单位取码,汉字拆分力求简洁、直观。
3.按音码、一、二、末字根取码,最多只取四码。
4.键盘上的成字字根取码音码+ + +末笔。
5.不足四码的汉字加打末笔。
词汇的编码规则1.双字词先取每个字的第一码再取每个字的第二码。例“科学”取“K”、“X”、“禾”、 ,编码为KXWI。
2.三字词取三字的第一码再取最后一个字的第二码。
例“计算机”取“J”、“S”、“J”、“木”,编码为JSJS。
3.四字词每字各取其第一码。
例“汉字编码”取“H”、“Z”、“B”、“M”,编码为HZBM。
4.多字词取第一、第二、第三及最末一个字的第一码。
例“中华人民共和国”取“Z”、“H”、“R”、“G”,编码为ZHRG。本发明与现有技术相比所具有的有益效果1.采用26键国际通用标准西文键盘,有着较好的价格性能比和同西文字符输入设备有较好的兼容性。
2.本编码方案编码及编码规则简洁直观,字根布局规律性强,码长短,记忆量小,在编码的唯一性、正确性、一致性、快速性、简易性等方面兼容。
3.编码范围小,有利于计算机存贮,覆盖面大,可对全部繁简汉字词汇进行编码。
4.适用于各类人员使用,可实现从“易学”到“高速”的自然过渡。
5.简繁体汉字、中外汉字、古今汉字、字词兼容,以及同现有编码技术兼容。


图一汉字五种笔画定义表及其键盘代码;图二标准键盘五区示意图;图三每组基本字根所对应的键盘代码总表;图四简繁体混合字根总图及其键盘;图五简体字字根总图及其键盘;图六繁体字字根总图及其键盘图七汉字编码流程图。
发明人认为实现本发明的最好方式是使用美国微软公司设计的中文WINDOWS下的码表生成器一汉字输入法自动生成系统。
1.建立码表文件任何汉字编码系统都是汉字编码到汉字/词(或符号)的映射过程。利用本发明所提供的汉字基本字根总图(包括简繁体混合字根总图、简体字字根总图、繁体字字根总图)及编码规则对汉字、词汇进行编码,建立码表文件。码表文件是以.TXT为后缀的文本文件。具体格式 Name=输入法名称 (本发明在推广中的输入法名称定为ZWP码)MaxCodes=最大码长 (本发明最大码长为4)UsedCodes=码元 (本发明码元为abcdefghijklmnopqrstuvwxy)WildChar=查询键 (本发明的查询键为Z)Sort=排序标志 (当排序标志置1时,编译程序…… 在编译时对码表中的编码进…… 行排序;若置为0则不排序)啊nvgn (根据本发明的基本字根总图…… 及编码规则对汉字词汇进行…… 编码,中文字串和编码字串我们tetl 之间没有任何字符)2.编译码表文件运行主群组中的码表生成器,在码表源文件中输入所要编译的码表文件名(包括路径),然后选择转换码表生成器将产生码表编译文件。
3.安装及使用码表输入法用户只有在编译完第一个码表文件后,方可安装码表输入法,否则会干扰其他输入法的正常使用。在“控制面板”中选择“输入方法”并选择“安装”,即能使用由“码表生成器”所生成的码表输入法了。用户也可以直接使用码表编译文件,而不需要有码表源文件。只要用户成功地编译完第一个码表源文件,并正确安装完以后,在“输入方法”中将“所选输入方法”设置为“通用码表输入法”并选用“设置”,将出现“通用码表输入法”对话框,再选用“安装”,选中所需要的码表编译文件(后缀为.mb),便可使用该输入法了。
权利要求
1.一种汉字部件按表形的五种笔画分类的编码法及其输入键盘,其特征是将汉字部件按表形的五种笔画(横、竖、撇、点、折)分成五大类,从而将国际通用的标准西文键盘划分成五个区,每个区(或每一类)中构成汉字的部件(基本字根)又据汉字部件的特有规律(汉字部件形态相近,形状相似,或各部件间直接间接的联系)逐一分组,使每组基本字根同A-Y键一一对应,Z键为查询键,用音码、末笔作为识别码,从而形成的拼形组字、组词的汉字编码法及其输入键盘。
2.根据权利要求1所述的编码法,其特征在于标准键盘(包括大、中、小型计算机键盘)的五个区是横区A、S、D、F、G;竖区H、J、K、L、M、N;撇区Q、W、E、R、T;点区Y、U、I、O、P;折区X、C、V、B。
3.根据权利要求1和2所述的编码法,其特征在于标准键盘五个区中每组基本字根所对应的键盘代码是G----一乛十 丁 ナ 大犬石乛 横 F----二工土士 干 于亍 天夫 开D----三王 丰 韦韋 五区 S----木 A---- 弋 七艹廾 甘廿革 H----丨 亅 卜上止 齿目且 自身貝竖 J---- 刂 儿 日曰白 由甲鬼 K---- 川 忄四罒皿田 黑西 酉車车L----门宀穴冖雨 門 虫 区 M----山 鼠 巾贝 月舟骨 门几 N---- 臣 丑口 T----丿亻 夂攵 撇 R---- 彳 豕 斤 千夭乇E----彡 毛 手扌区 W----牛 禾 竹 Q----金釒钅 气食飠 勹夕 鱼魚角瓦Y----、言讠 亠文方广 点 U---- 丷 六 立辛疒I----氵 水 小 区 O----灬火 米 业 p----之廴辶 礻 示衤衣 B----<乙 弓刀力九女匕 折 V----《子孑 ㄋ乃耳阝卩己已巳 巴区 C----巛 幺纟糹又 X----马乌鸟 馬鳥 尸 羽母毋
4.根据权利要求1和3所述的编码法,其特征在于汉字的编码规则按书写顺序,自上而下,从左到右,由外至内取码,汉字拆分力求简洁直观,以基本字根为单位进行汉字拆分,按一、二、三、末字根取码,音码、末笔作为识别码(或按音码、一、二、末字根取码,末笔作为识别码),从而形成的汉字部件按表形的五种笔画分类的编码输入法体系。
5.根据权利要求1、3和4所述的编码法,其特征在于词汇的编码规则双字词分别取两个字的单字全码中的第一、第二码;三字词前两个字各取其第一码、最后一个字取其第一、第二码;四字词每字各取其第一码;多字词取第一、第二、第三及最末一个字的第一码。
6.根据权利要求1,3,4和5所述的编码法,其特征在于汉字、词汇具有完全相同的编码输入,汉字、词汇兼容,简繁体汉字、中外汉字、古今汉字兼容,汉字与词汇混合编码时,其间不需要任何附加标志、附加操作、特殊标记或换挡处理。
7.根据权利要求1所述的编码法,其特征在于键盘上预留的一个字母键(Z键)作为学习键,用来代替任何不明确的编码,在提示行中选择所需要的汉字,并给出正确编码。
8.根据权利要求1、3、4和5所述的编码法,其特征在于重码的处理方法是在屏幕的正常编辑位置上或提示行中,首先显示同一组重码中使用频度高且经常单独存在的汉字,当输入下个字时,显示在第一个位置的汉字即实际上被默认为所要挑选的汉字被自动选中。
9.根据权利要求1和3所述的编码法,其特征在于本发明的输入设备是将印有本发明基本字根(包括简繁体混合字根、简体字字根、繁体字字根)的平面不干胶标签粘在标准键盘(包括大、中、小型计算机键盘)相应的键帽上或直接生产印有本发明基本字根的键盘。
10.根据权利要求1-9中的任何一条,其特征在于对汉字、词汇进行编码输入的方法,可以用在一切大、中、小型计算机中文信息处理系统、照排系统、汉字电传机、汉字电脑打字机、汉字终端机、通讯系统、电报代用码、字词典编纂中。
全文摘要
汉字部件按表形的五种笔画分类的编码法,所属技术领域是中文信息处理。主要解决的技术课题是中文计算机汉字输入技术中编码方案的易学、易记、易用同汉字快速输入之间的矛盾。其特征在于将汉字部件按表形的五种笔画(横、竖、撇、点、折)分成五大类,又将每类汉字部件按其形状相似或其直接或间接的联系分组,从而形成的中文信息处理系统,简繁体、字词兼容。适用于各类人员使用,可实现从“易学”到“高速”的自然过渡。
文档编号G06F3/023GK1139774SQ9511166
公开日1997年1月8日 申请日期1995年6月19日 优先权日1995年6月19日
发明者周伟平 申请人:周伟平
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1