多种语言处理器的制作方法

文档序号:91870阅读:294来源:国知局
专利名称:多种语言处理器的制作方法
技术领域
本发明是关于一多种语言处理器,尤其是关于一汉字输入键盘及其输入法的。
现有技术目前,电子计算机已渗入到社会的各个领域,成为日常生活中不可缺少的工具。对电子计算机输入信息,如采用拼音文字,例如英语,由于其文字都是由字母A……Z(26个)组成,所以输入十分方便。相反地,对电子计算机输入中文,那就不那么容易了。由于中文不是一种拼音文字,而是一种图案文字。每个中文字的图案都不同,且字数庞大,约有50,000个,使中文资料的输入产生很大的困难,从而对于在汉语社会中广泛地使用电子计算机造成了阻力。
为了解决汉字的输入问题,过去十多年来,各国科学家对电子计算机的汉字化提出了很多宝贵意见。也设计了不少中文输入键盘。但是,到目前为止,各种键盘仍存在很多缺点,还没有一架汉字输入键盘能满足各种不同用途。因这些键盘都未能满足下列各条件(1)一个成功的汉字键盘必须结构简单,容易操作。这样就无需浪费太多时间、人力和物力来训练打字员。
(2)要达到结构简单、易于操作,所设计的汉字键盘就必需遵从手写中文时的一般程序,而且所需的平均按键次数要尽可能少。
(3)能唯一地表达每一个汉字。即一字一码。
(4)要符合经济原则。
根据各国科学家所提出的方法,综合起来有以下几种(1)大键盘法这方法需要设一个大键盘,把所有汉字都分配在键盘的键上。当要输入某一字时,需要依一定方式,比如拼音、笔画等从键盘上寻找该字。这种方法,如查字典一样,必须懂拼音和知道画数,否则,就无从下手。即使懂拼音和知道画数,但由于汉字同音字多,同画数的字也很多,所以寻找一个字也相当麻烦。为了减少键盘上的键数,有人提议把几个字合并起来放在同一键上。但这样也就需要一个选择键,从而增加了操作上的困难。而且这方法也不适合于“文件处理”系统。这种大键盘法事实上并不简单,也不易操作。
(2)特别代码法这种方法把每个汉字以一唯一的代码(如电报码)表示。采用这种方法无需特别键盘。但是,由于代码与字之间并不存在明显的结构关系,打字员必须记着每个字的代码。很明显,这种方法对很多实际应用并不适合。
(3)拼音法这种方法以若干个英文字母的组合代表某个汉字的发音。采用这方法也不需特别设计的键盘。但是,由于汉字的同音字很多,所以这方法不能满足唯一性。为了满足唯一性,必须增加一个选择键。而这样则增加了操作上的复杂性。
(4)字根法这种方法是把每个汉字看作由一个或一个以上的不同部分(字根或字素)所组成。采用这种方法,打字员不需对汉字的读音和笔画有深刻认识,也不需记代码;只须见字打字。当要输入某一汉字时,打字员只要按照一般人写字的习惯顺序输入组成该字的字根,因而操作也比较容易。但是,目前采用字根法的键盘一般仍存有以下的问题1)字根数过多,因而使键盘过大。
2)字根数过少,因而使按键次数过多。
3)没有选择键的帮助还不能达成唯一性。
4)字根在键盘上的排列还不理想。
从上述各种不同方法中可以看出,现有的各种汉字键盘的设计方法还欠理想,还存在不少缺点。但字根法比其他方法好,如果以上4个存在问题可以解决的话,那么字根法是比较适合各种实际用途的。
发明的目的本发明的目的之一是提供一汉字键盘,以解决目前字根法汉字键盘仍存在的问题。本发明的另一目的是在上述的中文键盘中,使某些键也同时具有输入其它种语言文字的功能,从而达成一能输入多种语言的键盘。
发明概述根据对汉字的分析和统计,从汉字中提取出485个字根和常用字,构成汉字字根输入的基本单元,将字根按其在汉字中经常出现的位置放于键盘“上”、“中”、“左”、“右”、“下”区的相应区中,在区中按字根的首笔形状排列,输入汉字时,先将汉字拆分成由基本字根组成的字根组,然后依次输入字根便可实现该汉字的输入,由于该语言处理器具有智能功能,因此输入时只需输入组成该汉字的所有字根即可,这种键盘在叠加上英文字母、法文字母、日文假名等后可实现多种语言的输入。
附图简述图1为根据本发明的汉字键盘平面图,图中键盘上的键被划分为上区、左区、右区、中区及下区等五区。
图2为各区字根按首笔形状排列的平面图。
图3为根据本发明的汉字键盘的字根分配图,图中还显示出,除了字根外,在键盘中区的最下方的三行,还以传统的英文打字键盘的字母排列法,配有英文字母。
较佳实施例的详述本发明的汉字键盘是采用“字根法”设计而成的。除了具有字根法的特性外,该键盘还解决了字根法所存在的问题。
采用字根法必须解决两个重要问题。那就是,如何选取字根和怎样分配字根于键盘上。
1.字根的选取为了要选取一组字根,首先必须对每个汉字进行分析。上节中已经指出,虽然汉字大约有四万多个,但只有二千多个是常用字。由上海辞书出版社所编的《辞海》所列出的汉字也只有14872个。因此,从实际应用的观点出发,我们只须对一定数量的字进行分析就足够了。
以《辞海》为基础,通过对16000个汉字进行详细分析,反复比较和统计后,我们选取了485个基本字根。除了这485个基本字根外,我们选取了43个特别符号包括数字1,2,3,4,5,6,7,8,9,0和标点符号。,;?、!()等。为了方便叙述,这些特别符号也称为字根。
利用这些字根,16000个字中平均每个字只需用2·1个字根来组成。这个统计显示出,与英文字比较,汉字的平均输入按键数只需英文字的平均输入按键数的二分之一。
以这些字根为基础,汉字的复杂结构可大大地简化。并可归纳为以下几种简单的基本结构形式(1)左-右结构形式例子1)字“林”可视为“木”和“木”的组合。这样,“林”就可分成左右两个单元的结构形式,即
2)字“旧”可视为“丨”和“日”的组合。这样,“旧”就可分成左右两个单元的结构形式,即
(2)上-下结构形式例子1)字“李”可视为“木”和“子”的组合。这样,“李”可分成上下两个单元的结构形式,即
2)字“仑”可视为“人”和“匕”的组合。这样,“仑”可分成上下两个单元的结构形式,即
(3)内-外结构形式例子1)字“因”可视为“囗”和“大”的组合。那么“因”就可分成内外两个单元的结构形式,即
2)字“巴”可视为“巳”和“丨”的组合。那么“巴”的结构也是内外结构形式,即
(4)半内-外结构形式例子1)字“匠”可视为“匚”和“斤”的组合。这样,“匠”就可分成不完整的内外两个单元的结构形式(简称为半内外结构形式),即
2)字“凶”可视为“ㄨ”和“凵”的组合。那么“凶”的结构也是半内外结构形式,即
3)字“闲”可视为“门”和“木”的组合。那么“闲”的结构也是半内外结构形式,即
4)字“风”可视为“
”和“ㄨ”的组合。那么“风”的结构也是半内外结构形式。即
(5)对角结构形式例子1)字“连”可视为“辶”和“车”的组合。这样“连”就分成左下,右上两单元的对角结构形式,即
2)字“疾”可视为“疒”和“矢”的组合。那么“疾”的结构也是对角结构形式,即
3)字“戒”可视为“戈”和“廾”的组合。那么“戒”的结构也是对角结构形式,即
4)字“么”可视为“丿”和“厶”的组合。这样,“么”的结构也是对角结构形式,即
(6)对称结构形式例子1)字“坐”可视为“从”和“土”的组合。而“从”被“土”分成对称的两边。这种结构称为对称结构形式;且有两种单元,即
2)字“来”可视为“未”和“丷”的组合。所以“来”的结构是对称形式,即
3)字“垂”可视为“
”和“艹”的组合,所以也是对称结构形式,即
4)字“ ”可视为“幺”、“幺”和“山”的组合,所以也是对称结构形式,即
(7)复合结构形式例子1)字“丸”可视为“九”和“丶”的组合。那么“丸”可分成两个单元,即
2)字“及”可视为“乃”和“
”的组合。“及”的结构也是复合结构形式,即
3)字“玉”可视为“王”和“丶”的组合。所以“玉”的结构也是复合结构形式,即
4)字“于”可视为“二”和“亅”的组合。其结构也是复合形式,即
(8)独立结构形式所有可以独立成字根的字的结构都称为独立结构形式。例如“马”本身已是一个字根,所以它的结构是独立结构形式。
以这些基本结构形式为基础,任何中文字的结构都可归结为一种基本结构形式或几种基本结构形式。例如,考虑字“据”,其基本结构形式为左右结构形式,即
但右单元“居”可视为“尸”和“古”的组合。所以右单元“居”的结构为对角结构形式,即
总的来说,字“据”的结构为左右结构形式和对角结构形式的组合。
根据每个字根在一般字中经常出现的位置,485个基本字根还可大约地归纳为以下各种不同类别(1)上字根。例如虍、艹、癶等。
(2)下字根。例如灬、凵、
等。
(3)左字根。例如、氵、忄等。
(4)右字根。例如卩、彡、攵等。
(5)成字根。例如小、中、毛等。
(6)辅助根。例如丿、丷、丶等。
以上的类别只是一个大概的分类。有些字根可以同时为不同类型的字根。比如字根“阝”可以为左字根(陌)也可以为右字根(郁)。
2.键盘的设计原则为了要把485个字根分配于键盘上,最基本的方法是在键盘上设485个键。但这样做,键盘就会太大,既不利于操作也不合经济原则。那么键盘上要有多少键才是最好的呢?对于这个问题,我们考虑到电子计算机最基本的运算方法。
一般来说,电子计算机的最基本运算单位是一个字节。一个字节可储存256个不同信息。为了配合电子计算机的这种性质,本发明的键盘上只设有256个键。
键盘上的256个键,其中有18个为作用键,其他236个键为字根键。这238个字根键排成一个14×17的矩阵形式,且分成五个区域-上区,左区,右区,中区及下区(以不同颜色的键来区分)(见图1)。分区的作用在于配合字根的不同类别。上字根的字根可放在上区,下字根的放在下区,左字根的放在左区,右字根的放在右区,而常用的成字根则放在中区。整个中区以中间的一列十个键为中心。这十个键分别分配字根“一、二、三、四、五、六、七、八、九、十”于其上。其中第一、二、三行的字根以一横“一”开始;第四、五行的字根以一竖“丨”开始;第六行以及第七行的左右区部分的字根以一点“丶”开始;第七行的中区部份和第八、九行的字根以一撇“丿”开始;第十行以及下区的字根以一曲“”或一钩“亅”或类似的弯曲笔画开始。此外,在上区的第三行的字根也是以一横“一”开始;第二行的字根以一撇“丿”开始;第一行的左方五个键的字根以一竖“丨”开始;右方五个键的字根以一曲“”开始;其余以一点“丶”开始(图2)(以上的原则对中间一列的“一、二、……十”各字根不适用)。
以上是字根分布的基本原则。这样的分布原则使键盘的操作简化了。打字员在输入字根时只需知道字根的类别及其第一笔的形状(即一,丨,丿,丶或乛)就可以了,而不必懂得什么拼音,笔画多少的问题。
本发明的键盘有其最大的特色,就是无论怎样输入字根,只要这些字根能组成字,那么,这个字一定是唯一的。虽然很多键上有多于一个的字根,最多时为五个,但由于机器内有智能功能,故无需加选择键来决定是该键的某个字根。这个特性减少了附加选择键的必要性。这也是本发明的键盘另一个与别不同之处。
3.拆字法及输入法输入一个中文字,一般来说,需要经过以下几个步骤(1)分析字的基本结构形式,把字分成单元。
(2)决定每个单元是否成字根。如有不成字根的单元,把这个单元看成一个字,重复步骤1和2直至所得单元都能独立成字根。
(3)利用键盘输入字根。
例1.输入中文字“链”。
(1)“链”字的基本结构形式为左-右结构形式,即
(2)其中左单元“钅”为一个字根,因而不必再分析左单元。但右单元“连”还不成字根,把“连”作为一个字再分析可得“连”的基本结构形式为对角形式,即
其中左下单元“辶”为一字根,而右上单元也是一个字根。分析到此为止。
(3)经过分析所得字根为“钅”,“辶”和“车”。
(4)把所得字根由键盘输入。
例2.输入字“估”。
(1)字“估”的基本结构形式为左-右形式,即由左单元“亻”和右单元“古”组合而成。
(2)左单元“亻”已是一个字根,而右单元“古”也是一个字根。所以没有必要再分析(虽然“古”是由“十”和“口”组成的)。
(3)输入所得字根“亻”、“古”。
例3.输入字“午”。
(1)“午”本身并不是一个字根。我们可以把“午”分析为一上下结构形式,即
(上、下单元都为字根)。
或者分析为复合结构形式,即
其中主单元“干”和辅助单元“丿”都为字根。比较以上两种拆法,我们注意到“丿”为一辅助根(见1,(7)),它主要是起辅助作用。所以第二个拆法比较合情理。按照这个拆法,那么,1)“牛”是由“丿”和“
”组成的。
2)“千”是由“丿”和“十”组成的。
其他的辅助根“丶”,“丷”等也可以按照同样的拆法。比如1)“拼”是由“扌、丷、开”组成的。
2)“送”是由“丷、天、辶”组成的。
但是对于一些特别的字,比如1)“前”,如果把“丷”独立来处理,那么“前”是由“丷,一,月,刂”组成的。不过“丷”和“一”可以合起来变成字根“
”,在这样的情况下,“前”应是由“
,丿,月,刂”组成的。
2)“首”应是由“
,丿,目”组成的。
3)“每”应是由“,母”组成的。
(2)输入所得字根。
现在谈谈输入字根时应考虑的问题。
在输入字根时,每个字根的位置可依“字根分配法”在键盘上寻找(参考,2)。问题是一列字根中哪一个字根应该首先输入,比如字根列“钅,辶,车”,首先输入“钅”,然后“辶”,最后“车”,或者是首先输入“钅”,然后“车”,最后“辶”呢?是不是两种次序都可以呢?如果以上两种次序都可以,那么“车,辶,钅”的次序可不可以呢?答案是可以的。对于电子计算机来说这个问题不大。但是从经济观点出发这是不切合实际的。因此,定下一些输入字根规则是必要的。我们决定字根的输入次序要满足以下规则1)先上后下2)先左后右3)先外后内4)先主后辅这些规则也有先后之分,即先考虑“先上后下”再考虑“先左后右”,依次而推。
根据以上规则,“链”的字根列“钅,辶,车”的输入次序应为1)钅(先左后右)2)车(先上后下)3)辶(先上后下)再看看几个例子。
例1.字“些”的字根列为“止,匕,二”。
输入次序应为(1)止 (先上后下→先左后右)(2)匕 (先上后下→先左后右)(3)二 (先上后下)例2.“询”的字根列为“讠,勹,日”。
输入次序应为(1)讠(先左后右)(2)勹(先左后右→先上后下)
(3)日(先左后右→先上后下)例3.“凶”的字根列为“ㄨ,凵”。
输入次序应为(1)ㄨ (先上后下)(2)凵 (先上后下)例4.“宝”的字根列为“宀,王,丶”。
输入次序应为(1)宀 (先上后下)(2)王 (先上后下→先主后辅)(3)丶 (先上后下→先主后辅)例5.“题”的字根列为“是,页”。
输入次序应为(1)页 (先上后下)(2)是 (先上后下)但是这样的输入次序和我们一般写字的习惯有很大不同。在这样情况下,输入次序应为(1)是 (先左后右)(2)页 (先左后右)需注意的是,虽一个键上可能有多于1个的字根,但由于机器本身的智能功能,无需加选择键便可决定是哪个字根。
另外,字根位置的安排是经过统计和分析研究决定的,一般说来,一个可分为二、三个字根的汉字,在输入时,若无意误揿了该汉字某字根的上、下、左、右字根键,此时机器内的智能便起作用,发出音响以示错误。这在拼音文字的键盘上不可能实现的。
4.多种语言输入的实现从图3可见,除了字根之外,在中区的最下方的三行,还以传统的英文打字键盘的字母排列法,配有英文字母。从而通过按下语言选择键中的英文键(图中未示出),便可利用这些英文字母键输入英文。同样地,对于德文、法文、俄文、日文等,也可以分别把该种文字的字母按其传统的排列法,配布于中文键盘的某些键上。通过语言选择键,选择所需的语言,便可用与此语言相对应的键,输入该种语言。
权利要求
1.一多种语言处理器,它包括有输入装置,用于输入语言信息,中央处理装置,用于处理由所说输入装置输入的语言信息,输出装置,用于输出处理结果,所说处理器的特征在于所说输入装置可输入以字母构成的文字和以笔划构成的方块文字。
2.权项1中所述的多种语言处理器,其中所说输入装置为一键盘,在键盘上,一键代表一定数量的汉字字根和/或英文字字、法文字母、日文假名等字母或符号。
3.权项2中所述的多种语言处理器,其中所说的键盘上共有256个键,其中18个是功能键,其余为字根、字母键。
4.一汉字输入法,其特征在于输入汉字时,将汉字拆分成基本字根组成的字根组,并按一定顺序依次在键盘上输入。
5.权项4中所述的汉字输入法,其进一步特征为所说基本字根是在对汉字进行分析、比较和统计后选出的,并按其在汉字中经常出现的位置和首笔笔划排列于键盘上。
6.权项4或5中所述的汉字输入法,其进一步特征为所说键入字根的顺序是满足“先上后下、“先左后右”、“先外后内”、“先主后辅”规则的,并按上述顺序先后适用这些规则的。
专利摘要
一多种语言处理装置,在其输入装置——键盘上可输入包括汉字在内的多种语言文字。该键盘上共有256个键,其中238个键代表485个汉字字根、英文字母等其它文字符号,输入汉字时,先将其拆分成基本字根组成的字根组,再依次输入该处理系统。
文档编号G06F3/023GK85103869SQ85103869
公开日1986年11月5日 申请日期1985年5月10日
发明者乐秀章 申请人:依利安达语言系统有限公司导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1