词字二元编码输入汉字系统及键盘的制作方法

文档序号:102125阅读:503来源:国知局
专利名称:词字二元编码输入汉字系统及键盘的制作方法
词字二元编码输入汉字系统属于电脑中文信息处理技术领域
,键盘是实施该技术的专用设备。
当今世界,已进入一个信息化迅速发展的时代,信息工程成为现代科学的三大支柱之一。根据我国国情,在纷繁浩瀚的信息中,主要是中文信息。我们要进行四个现代化建设,要实现办公室自动化、印刷排版现代化、图书情报检索自动化、生产和企业管理现代化,无不涉及中文信息。因而,解决中文信息处理技术问题已成为当务之急。
所谓中文信息处理,应当包括我国各民族的语言信息处理。不过,在各民族语言中,应用最广泛的是汉语,所以这里所谓中文信息处理主要是指汉语信息处理,更确切些讲主要是汉字信息处理。
由于汉字数量繁多,结构复杂,所以在汉字信息处理技术中,关键是汉字的输入技术问题。将汉字输入到计算机(或称电脑)有三种方式。即语音识别。图形识别和键盘三种输入方式。根据目前情况,语音识别和图形识别输入仅处于试验研制阶段,还谈不上推广应用,主要靠键盘方式输入。键盘虽有大、中、小三种型号,由于大键盘和中键盘设备大,投资多,所以也不便于推广。于是,目前解决汉字输入的途径,主要就靠小键盘编码输入这条狭窄的通道了。近年来国内外不言而喻地把“瓶颈”约定为“汉字编码”的代名词,形象而确切地说明了汉字编码在汉字信息处理技术中的重要地位和作用。
关于汉字编码学术研究,我国起步较迟,但发展迅速。近几年来已经研制出400多个方案,上机运行的已有50多种。影响较大的有河南省计算中心王永民工程师发明的“五笔字型”方案;北京师大李金铠讲师发明的“笔形编码法”;上海工业大学钱伟长教授主持研制的“宏观字形”方案和北京水电部科研所李慧勤工程师发明的“HPX汉字拼形”方案。其中,“五笔字型”方案的主要技术指标平均码长L=2.8键/字;输入速度Sj=130字/分。其输入速度要比外文输入还快,鉴定会上专家一致认为已经达到了国际先进水平。但是,也还有不足之处,那就是这一方案不容易掌握,而且掌握后过一段又容易回生。
本发明的目的是搞出一个大众易于接受、好学易记、平均码长键数少、输入速度快而且准确的汉字键盘编码输入方案。
本发明的目的是这样达到的提出一种采用词和字两种码元编码,由两种输入法构成的电脑中文信息处理汉字系统以及为实现该系统而设计的以声代形、声形兼容、便于联想的二元输入键盘。
该系统具体是这样构成的使用GB2312-80区位码和GB1988-80国际码作机内信息交换码,由开发的词字二元声形编码输入法(简称“CZ-Ⅲ)和字元形声编码输入法(简称“字元”)两种输入法构成一个完整的自成体系的汉字键盘编码输入系统,具体结构见图1,其有关程序连接见图2。
汉字编码的难点之一是对字元(亦称字根或部件)的记忆。以前众多方案均采用硬性定义,缺乏内在的联系,其机械记忆量很大。为了减轻对字元的机械记忆量,本发明的键盘是采用如下方法设计的
1.将有独立名称的基本字元,按照声母定义图(即图3)定义在其名称第一音节声母所在的键位上;
2.将没有独立名称的基本字元,先给它定义一个便于联想的名称,然后按照字元名称联想图(即图4)定义在联想名称第一音节声母所在的键位上;
3.为了减少一些字母的信息量,将某些有传统名称的基本字元例如“雨”(雨字头儿)、“门”(门字框儿)等重新定义为“雨”(霭字头儿)、“门”(问字框儿),然后分别定义在“A”和“W”键上;
4.将基本字元以外的非成字字元(如“
)按照起笔笔形代码定义图(即图5),定义在其起笔笔形代码(“I”)键上。
从而构成了以声代形、声形兼容、便于联想的二元输入键盘,即图6。
关于汉字的结构类型,是汉字编码的难点之二。“五笔字型”方案把汉字的结构拓朴图形归纳为四种字型。汉字结构如此之复杂,结构类型归纳得越少,每一类所包孕的实用字型就越多,应用起来就越困难。本发明适中地归纳为十类,每一类又包孕几种,计21种模图,每种模图接部位结构区域标了顺序号(即图7)。本系统的两种输入法,对于单字的编码,形码都是按结构部位取码,每一部位限取一码,且规定首、次部位取码从高从左,末一部位(包括二字元单字)取码从低从右。
在输入程式方面,本系统采用引导输入。所谓引导输入,就是击引导码后,仅在提示行先显示同码的字或词,再击选择码,才完成输入。对于单字的引导,已是“拼音”、“笔形”多种输入法早已应用的技术,本系统的特征是字词都是引导输入。引导码用字母键实现,选择码用数字键实现。其中“O”用“空格”键实现。引导出来的同码词按降频排列,同码单字按起笔笔形数字代码排列。也就是说选择码既是单字码的结束符,又按起笔笔形代码定义图(图7)代表笔形信息。
汉字编码的最大难点在于编码原理,要研制出一种大众易于接受的编码原理,需要从大众约定俗成的描述汉语字词的程式中去汲取。我们欣慰地看到火车上印有“YZ”的车厢,即“硬座”车厢;印有“RZ”的车厢即“软座”车厢;印有“RW”的车厢即“软卧”车厢;印有“XL”的车厢即“行李”车厢。河北石家庄生产的客车上印有“HB”即代表“河北”。国家标准书籍封面上印有“GB”即代表“国标”;河北电视台用“HBXW”表示“河北新闻”。从上述这些例子中悟出一条词组编码的规则,叫做“词组声序编码法”,就是把词组各音节的声母顺序排列编码即是人民大众易于接受的可读性很强的最佳词组编码。
对于一些较长的机关名称,大众也有一条约定俗成的简略规则,例如国务院“电子振兴办公室”,简称为“电振办”。“财务会计”简称为“财会”。“五讲四美三热爱”简称为“五四三”;“中文秘书专业”简称为“中秘专业”;“企业管理专业”简称为“企管专业”等等。从这些例子中我们又悟出一条词组简略规则,叫做“词组声序省略编码法”。也就是把词组一部分音节的声母省略后,再顺序编码。
上述约定俗成的规律,成为本发明的理论依据。本发明关于词和字输入的切换,不用功能键,而直接用引导码的位数控制一位码或三位码为单字,二位码与四位码为词组。编码规则如下
一、词组编码规则1.二位编码对于二音节高频词,用二位字母编码。第一位字母为第一音节的声母(或零声母音节的第一字母,以下同)。第二位字母为第二音节的声母。每一组引导码,可以引导10组二音节同声序词组。被引导出来的同声序词组按降频排列。用对应的数字键选择输入。包括选择键在内这类词组平均码长为1.5键/字。例如
(注在屏幕上显示的引导码是小写字母,被引导的二音节词组等于小于10组)。
2.四位编码2.1二音节一般词组的编码二音节一般词组用两个音节的声母再加上两个音节的首字元代码四位字母顺序编码作引导码。这样,先击两音节的声母,引导出二音节高频词组。如果其中没有所要输入的词组,接着击两个音节的首字元代码,即出现一般二音节词组,平均码长2键/字。例如引导码 被引导的词组i g 0中国 1这个 2照顾 3中共 5直观6主管 7壮观 8正规 9珍贵igdu 0主观
2.2、三音节词组的编码三音节词组用一、二、三音节的声母加上一个字母“O”补足四位,顺序编码。因为用“O”作声母的字不多,将它用在编码尾部,既使它符合词组码型,又是“三音节词组”的标识符。平均码长1.33键/字。例如引导码 被引导的词组g u d o O 共产党g M d o O 国民党V u l O O 生产率1生产力┆ ┆ ┆ ┆第节第节第节补一声二声三声加音母音母音母“O”(注引导码如果满足四位并且无同声序词组,则不用击选择键自动“跳”上屏幕,完成输入。)2.3、四音节词组的编码四音节词组用各音节的声母顺序编码。平均码长1键/字。例如引导码 被引导的词组i g r m O 中国人民J v w m O 精神文明1举世闻名┆ ┆ ┆ ┆第节第节第节第节一声二声三声四声音母音母音母音母2.4、五音节词组的编码五音节以上词组由于其音节数超过了规定的词组码型位数,故采用“词组音序省略编码法”,省去第二音节的声母,用一、三、四、五音节的声母顺序编码。平均码长0.8键/字。例如引导码 被引导的词组i g u d O 中国共产党w m f w O 为人民服务
s x d h O 四个现代化┆ ┆ ┆ ┆第节 第节 第节 第节一声 三声 四声 五声音母 音母 音母 音母2.5、六音节词组的编码六音节词组省去二.四音节的声母,用一、三、五、六音节的声母顺序编码作引导码。平均码长0.67键/字。例如引导码 被引导的词组i r y h O 中国人民银行i n y h O 中国农业银行i g y h O 中国银行 1中国工商银行┆ ┆ ┆ ┆第节 第节 第节 第节一声 三声 五声 六声音母 音母 音母 音母2.6、七音节词组的编码七音节词组省去二.四.六音节的声母,用一、三、五、七音节的声母顺序编码作引导码,平均码长0.57键/行。例如引导码 被引导的词组i r g g O 中华人民共和国i r j j O 中国人民解放军w s c a O 五讲四美三热爱┆ ┆ ┆ ┆第节 第节 第节 第节一声 三声 五声 七声音母 音母 音母 音母2.7、多音节词组的编码七音节以上词组为多音节词组,对于多音节词组一律用一、三、五、末音节的声母编码,其平均码长小于0.5键/字。例如
引导码 被引导词组i i x h O 中国中文信息研究会i g i t O 中国共产主义青年团i g m h O 中国国际贸易促进委员会关于词组声形编码详见图8。
二.单字编码本发明对于单字的编码原理,也是汲取人民大众约定俗成的描述单字的程式制定的。比如当人们描述姓张的“张”字,其程式为“弓-长-张”;当描述合格的“合”字,其程式为“人-一-口-合”。根据这样的程式,本发明开发了两种编码法。一种是从声开始,加上字的字形信息编码,叫做“声形编码法”;另一种是从形开始,用各部位的字形信息编码,字形不足三位者以本字的声母补齐,叫做“形声编码法”。
1、声形编码法声形编码法的基本程式为“本字声母-首字元代码-尾字元代码”。具体分为两档1.1、高频字应用频度高的单字称为高频字。对于高频字,仅用“本字”的声母一位码作引导码。每一引导码可引导出10个高频字。不过,其中用字母“O”引导的不是高频字,而是10个较常用的标点符号。同码高频字按其起笔笔形数字代码排列,同时用其代码作选择码,此类单字,平均码长为2键/字。例如引导码 被引导单字i 0这 1正 2占 3重 4赵 5中 6只 7张 8着 9掌b 0被 1不 2北 3白 4边 5捌 6吧 7比 8八 9半
1.2、一般独体字对于一般独体字用“本字”声母,字首笔形代码和字尾笔形代码三位编码作引导码。加上选择码,平均码长4键/字。例如引导码 被引导的单字b p X 3秉u t o 5成┆ ┆ ┆ ┆本声 字形 字形 选字 首代 尾代 择的母 笔码 笔码 码1.3、一般合体字对于一般合体字用“本字”的声母。首字元代码。尾字元代码三位编码作引导码,用字首笔形代码作选择码。平均码长4键/字。例如引导码 被引导的单字v v g 4声x k c 1形┆ ┆ ┆ ┆本声 首代 尾代 ┆字 字 字的母 元码 元码 选择码关于单字的声形编码,详见图8。
2、形声编码法形声编码法从汉字的字形信息开始,选取各结构部位的字形代码,不足三位者加上“本字”的声母,补足三位。具体分三档。
2.1 高频字这里所说的高频字是从形分析应用频度较高的字。对于高频字仅用首字元代码(独体字仅用字首笔形代码)作引导码。也用字首笔形代码选择,平均码长2键/字,例如
引导码 被引导的单字b 3的t 5中o 6国┆ ┆首字元代码 字首笔形代码(对应的数字码)2.2 次高频字对于次高频字用第一、二两个字元的代码(或独体字字首和字尾笔形的代码)作引导码,用字首笔形代码作选择码。例如引导码 被引导的单字n z 4好h h 3秋t x 5朱┆ ┆ ┆首代 次代 对数字 字 应字元码 元码 的键2.3、一般二字元合体字对于一般二字元合体字,用两个字元代码再加上“本字”的声母编码作引导码,用字首笔形代码选择。平均码长4键/字。例如引导码 被引导的单字n v x 4 姓x v x 9 性┆ ┆ ┆首代 尾代 本 对数字 字 字声 应字元码 元码 母的键2.4、一般多字元合体字三字元以上称为多字元合体字。对于多字元合体字,根据汉字结构模图(图7)所标部位,从每一部位各取一字元代码。前两个部位取码从高从左,最后一个部位取码从低从右。例如引导码 被引导的合体字l k e 0部m n f 9数r f x 3繁关于单字形声编码详见图9。
三.模糊输入法对于上述两种输入法,系统软件支持,都可采用“模糊输入”。所谓“模糊”,即对某些信息搞不清楚。本系统设计的“模糊输入”必须知道第一位码,即“本字”声母或首字元代码。如果知道“本字”声母,就采用声形模糊输入;如果知道首字元代码就采用形声模糊输入。各有三种模糊形式。
1.声形模糊输入形式声=VVG(正常声形编码)声=V?G(第二位码模糊)声=VV?(第三位码模糊)声=V??(第二.三位码模糊)2.形声模糊输入形式形=KCX(正常形编码)形=K?X(对第二位码模糊)形=KC?(对第三位码模糊)形=K??(对第二.三位码模糊)
四.重码处理本系统开发的两种输入法,都有重码,虽然重码率不高,但总得处理。系统软件支持,击选择码后,如果有重码,不输入,而是按频度在提示窗再次显示,并报警。再击选择键,才完成输入。
综合上述四种输入法,构成一个独具特色的完整的汉字输入系统。参照系统操作流程图(即图10)可完成综合应用。在输入过程中,如果认识所要输入的字或词,就采用“二元”输入;如果不认识所要输入的字,则可改用“字元”输入;倘若对两种输入法中某些信息有模糊,只要知道“本字”的声母或者首字元代码,即可用“模糊输入法”输入。下面结合十二届六中全会公报结尾一段文字,进行编码模拟试验。
原文新华社 北京 九 月 二 十二元 编码 XHVOBJOJ4Y7E1V4八 日 讯 中国共产党第 十 二 届 中央委B8R6YZUOI GUDD8V4E1VYJ7I W员会第 六 次 全体 会议 公报 指出YHD8L0LQCOQT2HY3GB7IUO全会 号召 全党 全军 和 全国 各族 人民“QH4HI1QD7QJRPH3QG0GZ6RM,认真 学习 和 贯彻 落实 《中共中央关于 社会O,RI0XX0H3GU4LV5《IGIYGYOVH
主义 精神文明 建设 指导 方针 的 决议 》 坚IYJVWMOJVUYID1FI1D3JYLY》,J持 社会主义 物质文明 和 精神文明 建设 一起 抓U1.VHIYWIWMH3JVWM0JVUYAQ1VII,以 现代化 建设 和 全面 改革 的 优异I5,Y2XDH0JVUYH3QM1GG0D3YY8成绩 迎接 党 的 第 十 三 次 全国UJI,YJ6DKE0D3D8V4C1LQC0QG0代表 大会 的 召开。”DB0DH0D3IK1。”以上计137字,其中五音节词组出现两次,四音节词组出现六次,三音节词组出现两次,二音节词组出现三十三次,高频单字出现二十次,一般单字仅出现六次。充分体现了以词组输入为主。包括选择键在内,共用219键,平均码长为1.6键/字。较系统平均码长2.3键/字要低一些。
该系统适用于各种型号的电字计算机.智能中英文打字机、电传打字机.汉字终端和电视、电影制作使用的电子字幕机。
本发明与现有技术相比,具有以下优点1、采用以声代形,声形兼容和联想的方法设计的词字二元编码输入键盘,便于联想,减轻了对字元的机械记忆量。
2、采用人民大众约定俗成的描述汉语字词的程式编码,易于接受,好学易记。
3、采用以词组编码输入为主,单字编码输入为辅,二元输入,两条腿走路的措施,使平均码长达到L=2.3键/字,使输入速度达到Sj=150字/分。
4、采用引导输入,用字首笔形代码作选择键,既是单字的结束符,又代表笔形信息。专业操作员可按规律盲打,一般操作员可依靠引导击键选择输入,兼顾普及与提高,一举两得。
5、本发明的新颖性在于所提出的词字二元编码理论是国内外第一次提出,填补了中外中文信息处理研究词字二元编码输入这项空白;其创造性在于词字二元输入的切换应用特定的字词引导码型控制一位或三位为单字。二位或四位为词组;其实用性在于以词组编码输入为主的措施符合现代汉语语言应用实际。
本系统的缺点是占用内存多,约占300K。所以,实现本发明的最好方式是制作汉卡,那样可腾出更多的内存运行其它软件,使系统发挥汉字处理的特殊效益。
图1-系统结构框图图2-系统有关程序连接图KD-键盘输入驱动程序CIP1-区位码输入程序CIP2-国标码输入程序CIP3-字元码输入程序CIP4-CZ-Ⅱ码输入程序TE-编辑程序DD-显示驱动程序图3-声母定义图图4-字元名称联想图图5-笔形代码图图6-二元输入键盘图图7-汉字部位结构模图图8-词字二元声形编码-览表图9-字元形声编码一览表图10-系统操作流程图④文件名称 页 行 补正前 补正后说明书 2 17 (简称“CZ-Ⅱ) (简称“CZ-Ⅱ”)7 19 0.57键/行 0.57键/字13 7 成绩 成绩8 UJI UJ113 16 电字计算机 电子计算机
权利要求
1.一种电脑汉字系统及其键盘,其特征在于采用词字两种码元编码输入法构成的电脑中文信息处理汉字系统和为实现该系统而设计的以声代形,声形兼容的二元输入键盘。
2.根据权利要求
1所述的汉字系统,其特征在于应用GB2312-80区位码和GB1988-80国标码作机内信息交换码,由开发的词字二元声形编码输入法(简称“二元”)和字元形声编码输入法(简称“字元”)两种输入法构成的完整的汉字系统,其软件结构见图1,其有关程序连接见图2。
3.根据权利要求
1所述的汉字系统及其键盘,其特征在于将有独立名称的基本字元按照声母定义图(即图3),将没有独立名称的基本字元按照字元名称联想图(即图4),将基本字元以外的非成字字元按照起笔笔形式代码定义图(即图5),应用以声代形和联想的方法,分别定义在26个键上,构成一个实现词字二元编码输入汉字系统方案的二元输入键盘,即图6。
4.根据权利要求
1或2所述的汉字系统,其特征在于将汉字按照部位结构归纳为十类模图并标注了部位顺序号(即图7),本系统的两种编码法都是按照部位结构取码,每一结构部位限取一位字元,前两个部位取码从高从左,末尾部尾取码从低从右。
5.根据权利要求
1或2所述的汉字系统,其特征在于词字二元输入的切换由引导码的位数控制,引导码是二位或四位为词组,采用以词组编码输入为主,单字编码输入为辅的二元输入。
6.根据权利要求
1或2所述的汉字系统,其特征在于采用引导输入,击引导码后,在提示行显示同码字词,击选择码后,才完成输入,引导码用字母键实现,选择码用数字键实现,其中,“O”用“空格”键实现,同码单字和同声序词组按降频提示,在单字输入中,选择码即是结束符。
7.根据权利要求
1或2所述的汉字系统,其特征在于词字二元声形编码输入法对词组采用声序编码,即用各音节的声母(零声母音节用其第一字母代替,以下同)顺序编码,对多音节(五音节以上)词组采用省略声序编码,即省略部分音节的声母后再顺序编码,概括讲,词组编码分二位和四位两档,二音节词用两个音节的声母顺序编码,三音节词组用一、二、三音节的声母再补上一个“0”凑齐四位字母顺序编码,四音节词组用一、二、三、四、音节的声母顺序编码,五音节词组用一、三、四、五音节的声母顺序编码,六音节以上词组用一、三、五、末音节的声母顺序编码,词字二元声形编码一览图,见图8。
8.根据权利要求
1或2所述的汉字系统,其特征在于词字二元声形编码输入法对单字采用声形编码,单字声形编码也分两档,用一位引导的为高频字,用三位码引导的为一般字,高频字用“本字”的声母作引导码,用数字键作选择码,其中,用字母“O”引导十个常用标点符号,一般字用“本字”的声母加上首字元代码。尾字元代码三位字母编作引导码,一般独体字用“本字”的声母再加上字首笔形代码和字尾笔形代码三位字母编码,见图8。
9.根据权利要求
1或2所述的汉字系统,其特征在于字元形声编码输入法对单字采用形声编码,分三档五个层次,高频字用首字元(独体字用本字声母)代码作引导码,用作选择码,二字元高频字用两个字元的代码作引导码,用数字键作选择码,一般独体字用“本字”声母、字首笔形代码、字尾笔形代码三位字元编码作引导码,用数字作选择码,一般二字元合体字用两个字元的代码加上“本字”声母作引导码,用数字键选择,三个结构部位的合体字,从三个部位中分别取三个字元的代码作引导码,详见图9。
10.根据权利要求
1或2所述的汉字系统,其特征在于具体操作可按系统操作流程图(即图10)实现,可适用于大、中、小及微型电子计算机(或称电脑),也适用于智能中英文打字机、电传打字机、汉字终端以及电视、电影制作中应用的电子字幕机。
专利摘要
词字二元编码输入汉字系统及其键盘属于电脑中文信息处理技术领域
,键盘是实施该技术的专用设备。中文信息处理的技术关键在于汉字输入,而汉字编码又是汉字输入的“瓶颈”。本发明采用以声代形和联想的方法,将基本字元定义在键盘上,减少了对字元的机械记忆。采用约定俗成的程式编码,好学易记。大量采用词组编码输入,平均码长为2.3键/字,输入速度可达150字/分。因而成为一种理想的实用的中文信息处理技术方案。
文档编号G06F3/023GK86107235SQ86107235
公开日1988年4月27日 申请日期1986年10月19日
发明者栗兴民 申请人:中国民主促进会邯郸市委员会导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1