改进字符处理的制作方法

文档序号:90864阅读:328来源:国知局
专利名称:改进字符处理的制作方法
本发明涉及到改进字符处理,而且特别涉及到改进载明并形成字符的装置。
发明涉及的一般范围来自英国专利申请,其申请号为80,39683,本案申请人和楼水英(Shui-yin lo)的申请题目为“载明并形成字符的方法和装置”(相应美国专利申请系列号为215552,现由部分继续申请号476347来代替)。
该发明描述达到利用有限的构件数来表示中文字符的各个部分,各个构件给定一个字母数字代码,并且一个字符由构件的代码来确定,按其书写顺序形成字符。
然后该发明描述由一本辞典鉴别特殊字符的方法,显示这些字符,如果需要提供硬拷贝输出。
那份说明还描述某种可以鉴别多义词的方法。
在同一申请人的一份最近申请,(英国专利申请号为83,07989,题为“字符处理”,其主题也已包含在和上述申请有关的美国部分继续申请内)公开了一种工效学观点的键盘而且还示出借此可以消除一定多义词的新方法。
勒恩的美国专利4,397,288历史地讨论了载明中文字符的发展情况。
巴纳和楼(Lo)的两份在先申请的说明可以结合本说明来阅读,在此我将不再描述在这两份在先申请内述及的内容。
本发明的目的在于根据以前的申请提出各种改进构思。
在发明的第一种情况,我发现载明字符所需的构件数可以少于迄今为止的设想,而且我意外地发现减少构件数至4个或甚至3个导致多义词有所增加,同时有效地节省一半限定字符所需的可用存储空间,这些字符置于本发明所使用的计算机内。
在这种情况下我提出一种限定字符的方法,通过使用键盘上不多于四个键,每个这种键代表一个构件,每个构件至少代表字符的一个组元,而且这些组元依次通过字母数字码来代表,这些构件按照组合可以代替整个字符组的任何字符,要是排序编置,字符的组元就可在其内按照惯例书写。
如果需要,实际键盘可以只有四个键对于应用方法是必需的,实际上键盘上可以有一些其他键用作常见的构件组合,这些键用工效学观点配置在键盘上。
这些构件组合可以包含部首或字符,然而没有必要将两者都包含。
各种组合的位置可以按英国专利申请83.07989相对于以前所述的内容来确定。
发明的第二种情况,我发现有可能通过省略个别特定构件来确定复杂字符,通常中间构件通过使用一个“空”键,借此省略一个不定的构件数,然后通过使用最后构件完成确定。作为另一种选择,“空键”可以提供缩短或省略以节省输入功率。
本发明的另一种情况,我发现该处需要有关笔划相对位置的特定信息以避开多义词,特别是在较简单的字符中,通过一种可供选择的输入方法,就可能减少多义词。
发明还有进一步情况是多义词可分为两组一组是最常用的多义词,另一组为不常用的多义词。最常用的组可由操作员存储。每个多义词组的第一个多义词(包含最常用的两个或三个字符)可由其正常输入来载明而且不需要存储。词组的其它构件或一些构件可以通过操作员由一个附加按键或由一个特定系列按键来载明。
发明的进一步情况是使用键盘时省略最常用的字符通过单个按键来代表这些字符,按键是独立的,本身不代表字符,或通过组合两个按键形成这些将省略字符的输入而且不作其他使用。这些字符可以有很高的助记符价值。组合两个按键还可以用作代表长的词首部首或代表部分字符,因而,便于编置和鉴别这类字符。
为使可以更容易理解本发明,我将详细地描述各种情况。
下列说明是针对中文字符的,但应认识到本发明在其他利用表意文字语言中的应用,特别是日文和朝鲜文中的应用,可以考虑到这些文字是由少数构件组成的。
本申请人和楼水英(S-y lo)在较平的两份申请书中,优先选用的实施例指出可以通过使用五个构件来描述,每个构件给出一个字母数字代码,构件为一个短划或句号,一条右倾斜线,一条左倾斜线,一条水平线和一条垂直线。
我极为意外地发现,要是不用五个构件,通过使用不多于一个四构件组,我就可以提供一种同以前申请所述的关于鉴别字符方法同样令人满意的方法,然而,这样形成能够大大节省计算机存储空间。
这是可以理解的,为了提供一个适用于五个不同构件的二进制代码,需要利用三位信息,而且就如大多数计算机那样,要按多重四位来操作,这样在实际上就需规定每个构件有四位。此时计算机存储器存储了大量有关字符的详细数据,而且其中有些字符具有许多构件,这样就可导致计算机存储器的主要部分“有剩余”。
在另一方面,该处使用了四个或少于四个构件仅需两位信息,于是可通过每个八位字节来确定四个构件。因此对于字符编码需要有效地双重使用存储器。这样只读存储器内所存储的数千个字符差别极大,特别显着的是要考虑到在一个大国通讯及存储数据的总和。
要是减少构件数导致多义词大增,同时很实际的会使所得的优点遭到否定。
当我明确要合乎要求地限件构件数不多于四个时,我首先合理地考虑到那些构件不能正常地出现在任何多数字符的相同构件组内。
开始我考虑四构件组是由直观得出的,我得出的结论是短划和右倾斜线基本上满足了这个要求,例如我规定其中每一个有同样代码,并结合图1参照,得知配置情况,图1内组1示出的短划,句点,右斜线均规定标出代码1,而其他三个构件,水平线,垂直线和左斜线则分别标上代码2,3和0。
对于满足这样一种配置,必须得知特殊的四构件组,是否符合我所认为是关键的标准。
这些标准是1.其任何字符的所有特征可以按照四构件组的一个或其他构件来代表。
显然所选的特殊四件组实际上符合这个要求。
2.其多义词数没有多余。
这个问题以后还要在此讨论,然而只要说采用这种特殊四构件组就够了,多义词数没有不切实际的增加超过那些在一个五构件组内得出的情况。
3.其组直观上是允许的。
这样基本上可形成操作员的效率。
要是一个操作员不懂得为何选定特殊的组元或是感到实际上难于确定可以代表的组分,则应用四构件组就是低效的而且还不能令人满意。要是在另一方面所选择的构件是合理的而且是显而易见的,则一个操作员就可以毫无困难地直观按照必要的应用规则来选择构件的形式。
4.其构件组对计算机存储器必须是经济的。
这方面当然可以通过任何器构件组或选定的少于四构件的构件数来满足。
利用附图1结合的组1四构件组,我确定出最常用的中文字符为3700个,减少构件数由以前五个构件减至图上组1的四构件组仅用一对没有使用五构件的多义词。可以确信,多义词的数量基本上不致由于任何字符组扩大而增加。
因此由于对分所需存储器空间所得的利益大于因减少构件数造成的抵销损失。
接着用图上组1的四构件组进行一些试验,然后我考虑到是否任何其他四构件组将是同样或几乎同样令人满意。
图上组2,3和4的四构件组表示不同的选择。通过解释,组2四构件组内的通道命令字(CCW)和调用等待(CW)的字母指出逆时针方向的曲线构件和顺时针方向的曲线构件。
这是可以理解的,顺时针方向构件不仅包含左斜线笔划,而且还包含任何笔划在顺时针方向内的一般曲线。同样,逆时针构件不仅包含右斜线笔划,而且还包含任何在一般逆时针方向移动的构件。在这种情况下,按照规定短笔找或句点必须列到一个相关的构件内,我一般建议把它视为逆时针构件,但应强调这只是单纯为了方便。
并且如果需要,采用惯例任何最常见的构件或部首可以编到一个构件中。例如我已指出在组2的四构件组内垂直笔划和口状部首可以任意标上同样的编码。
组3和组4的四构件组是特殊的进一步组合构件的简单范例,可以用来构成件组,基本上满足了上述标准。
图1所示的实例是不完全的,并且可以建议采用许多其他的构件组合来满足上述四种规范。
有点意外的是进一步考虑导致形成组5的三构件组,可以视为基本上满足基于上述标准。
其他优点可以通过选用特殊的四构件组成或三构件来获得,此时这些组的个别构件本身可以不是独特的,可以是采用其他方法装在键盘的特殊部首键上,但均编成一个可以省略的组构件,而且因此使键可任意用到其它目的上,例如用于较复杂的部首上。
并且,要是不想获得存储器的最大利用,一般宁可减少多义词,可以存储。缩短较少的字符代码文本,因此,可减少由于缩短引起的多义词数;这一点将会被认识到。
特别是可以编制程序产生声学信号,只要输入对于选择独特的字符是足够的。
进而,在输入足够时,可以自动地插入一个空间以限制按键数。
我发现对于每个附加数字编码,可使多义词数减少二分之一。通过使用四构件组可以获得一个折衷方案,此时提供改进使用存储器,同时提供一个肯定的结果,减少在正常操作时的多义词总数。
然而我已指出,仅利用四构件或三构件而不用五构件来载明字符,当然有可能仍用一个五构件键盘,但代表短笔划和右倾斜线的数字是一样的。
因此新方法对操作员很明显,可以充分用来操作五构件系统,但是,就存储器使用而言仍然可以获得益处。
发明的第二种情况,我发现许多长字符要是用到其整个构件系列则被过分载明,还可得到肯定的承认,虽则有些构件,特别是有些中间构件是否经过省略的。
仅用作实例,所有金属具有用“金”作为前辍的字符而特定组元则指出其特殊金属,并且许多字符与技术有关,具有用“丝”作为前辍的字符,还有特殊后辍组元载明特殊性。
我发现要是采用第一构件然后留下一个空隙,在一个不定数构件中按照连续顺序然后可完整字符的构件,多义词是少量的,并且可以大大少于依次使用输入包含一个特定任意数构件的情况。
为了获得下面结果,我提出一种特殊的键,那一个“空”键,能指出省略弹一个非特定构件的连续系列,因而要是检索其储存器时,计算机就寻找相当于最初编置的字符串,要是编置的构件是在“空”键后存在的,则在具有这种最初字符串的字符内进行校验。
最好是不要省略完整的部首并且这样还可适合于在一个以上的位置上使用空键,对于一个特殊的字符当然在实际上需要一个在最初编置后的双重字符串检索,并确定每个字符串构件不要重叠。
在更复杂的字符验证的过程中这个特征基本上是有用的,而且尚若留下多义词,那么这些就用以前说明所描述方式显示出来。
“空”键可以用在三个不同的区域内。
其第一个区域实际上是前面提到的,该区域避开大部分长的最初部首,其部首则为大量相似的字符所共有。
第二区域作为一种缩短装置来简化缩短输入,仅在一个特定构件数后通过最后的输入,不过可以指出其字符本身而并不能指明构件数。
第三个区域在该处使用一个“空”键可能是重要的,要是从手写稿复制或是作不定的存储,部分字符是不清楚的。在这种情况下,认可的或已知的部分字符是可以编置的,而不清楚的或不定的存储部分则可通过“空”键来省略的,或是显示全部字符,或者可用正常鉴别多义词的方法,若以一个以上的字符包括编入的构件而其他构件则处于那些在该处用到“空”键的位置上。
由合理使用空键达到的经济性可能是显著的,与传统的和较复杂的字符一起使用时(在香港、台湾、南朝鲜和日本)情况尤其如此。
在发明的第三种情况,我提供可供选择的方法克服包含在较短字符内的多义词。
从前面的说明将会看到,在线性化一个继字符进至字母数字代码的字符串内,有关笔划相对位置的重要鉴别信息是忽略不计的,并且不受影响。当然这一点是作为以前系统的缺点来看的,而且提供了一种用作克服由此引起的多义词的装置。
我发现就短字符而论这是较清楚的,需要使用键,在结构方式上避免输入时的这些多义词,而不是鉴别在输入多义词后鉴别这些多义词。
单纯地用作实例,对字符“人”一般只是通过打字,由两个分开的键丿和
(0和1)来编入,因为这是一个较普通的使用组合,有一个单键用作人字组合。另一方面,字符人还需要一个键0和1的输入。按照惯例,要是人字符经常要利用单键来打字而其他字符则通过使用相当于D和1的两个单独构件键,于是两者之间的多义词就能自动地排除。
为了帮助一个不熟练的操作员,当编入有单独键0和1时就可能仍然显示一个多义词,但是,在这种情况下示出最少公用(或各种公用)作为最佳使用,据此,其他使用一般可用单键来完成。
在第二个例中,字符“石”编为20“口”和字符“在”编为203“土”作为组合“口”和“土”最一般地标志在键盘上。
在一个可供选择的方案中,该处特殊组合均示于键盘上,在短字符情况下具有例如至多8个构件,其中字符出现绝大多数的多义词,配置时可将其一些或所有具有文字意义的键标志在键上,当操作键时,然后,要是有其他字符组合利用同样的数字组成,利用移位键可指出可供选择的形式或一些形式(均较有关键上所示的一种更少通用),或可指出组合的尺寸或相对位置。
例如,要是利用初件键(如3232),则两个字符“口”和“止”均被编入,但使用发明该部分,第一种方式可通过仅使用含有标记的键而第二种方式则通过下压一个键作为移位键。当然,要是有一些多义词,使用移位键仍表示出可选择的方案,或者是用最一般的方式来省略,或者最好是用较小可能的情况,而正常的则是使用非移位键来取得最可能的情况。
作为一种选择,可以作出这样的载明,每当较少应用的多义性构件,例如“止”,示于字符内时,操作员必须利用移位或下压一些键或是省略一个字符的特殊笔划发出这种输入方式信号并借此来鉴别多义词,我已发现数量不多的这类规则鉴别出大量的多义词。
很明显,通过使用发明的这个部分,一个熟练的操作人员就可以限制屏幕上出现的多义词数量,而一个非熟练操作人员仍有可能从某基础上得到一个结果,虽然也许区别多义词比在先申请中所述的方法略为冗长些,在该申请中最可能的字符一般会以最小可能来显示在表列多义词内。
一个更进一步可供选择的鉴别多义词的方法是根据其头一千内有最常用的字符这样的常识,我已发现实际上仅有55个多义词,而且将会认识到,通过研究字符出现率,其头一千最通用字符包含一份普通文体字符的95%。有可能存储这些普通的多义词。将最常用组与具有较少出现率的多义词相比,所述55个多义词就由操作人员发出信号并予鉴别。
因此,有可能建立一种安排,这里一个多义词组的存在是已知的,仅仅编入字符的构件就可显示那些最常用的构件组,编入构件,然后,比如说二次下压最后的键,第二个最常用的构件组字符将被示出,并实施下压特定键三次示出第三次最常用的字符,以此类推,一个熟练的打字员只要学习也许仅仅是35个特定多义词的情况下就可以一开始自动地采用正确的特殊构件字符串的字符,因此,不必经过鉴别这些识别常用字符中的多义词的过程。作为另一种选择,一个多义性组字符想要达到的说明可以用在键盘上的其他键盘未完成,比如多义词鉴别键,该键可同时作为间隔条,这样就避免了需要另一个起到间隔条作用的按键。
存储最常用的多义词可以通过各种助记符装置来简化,该装置包含由描述多义词字符的各种声音值来鉴别。
这方面的主要目的在于操作人员的注意力不致始终转移到鉴别多义词上,在大多数情况下,这将意味着采用一开始找到的特殊字符,通过采用这样一种安排,我发现我可以限制多义词片率在一份普通文本中有大约0.3%,或300分之一的字符。
当然应有可能对一名不熟练操作员提供一份可供选择的模式,按正常方法来简化编字符构件,然后编入正常多义词鉴别过程。
在一个进一步的发明实施例中(该发明实施例对于那些经常不断地使用本发明的人来说是极为有用的),我可以提供一种装置,根据这种装置一种载明输入(可以与实际所需要的字符有关,也可以和其无关,它包括一个或者只是少数的按键)可以按照定2来显示某些字符。关于这一点可以通过各种字符同任何部首键或者是键盘上的其他按键(该键通常不能单独使用)结合起来来完成,或者是结合任何二个或多个这类键指出其特殊识别字符是必需的。选择一个或若干个按键用于所需要的字符的助记是可能的。
还有可能使用这样一种或若干种键去规定一个普通的,复杂的最初部首来将编制要求减小至最低程度,这样鉴别构件可在少量按键动作之后编入。
权利要求
1.一种载明字符的方法,通过采用键盘上不多于四个键来达到,其每个键代表一个构件,每个构件则至少代表字符的一个组元并且依次地用字母数字代码来代表,这些构件通过组合以代表整个字符组的任何字符,要是排序编置,字符的组元就可以在其内按照惯例书写。
2.按照权利要求
1所述的方法,其特征在于有四个键,而且构件构成一个四构件组。
3.按照权利要求
1所述的方法,其特征在于有三个键和构件构成一个三构件组。
4.按照权利要求
1所述的方法,其特征在于每个构件是单一的。
5.按照权利要求
1所述的方法,其特征在于每个字母数字代码可以代表一个以上的组元。
6.按照权利要求
2所述的方法,其特征在于四构件组包含一条斜线(按照一个读出)和短笔划;一条水平线;一条垂直线;和一条斜线(按照第二个读出)。
7.按照权利要求
2所述的方法,其特征在于四构件组包含有逆时针形成的组元;一条水平线;一条垂直线;和所有按顺时针方式形成的组元。
8.按照权利要求
7所述的方法,其特征在于短笔划是包括在逆时针组元中的。
9.按照权利要求
7或8所述的方法,其特征在于口状部首是与垂直线有关的。
10.按照权利要求
1所述的方法,其特征在于在偏置字符时,接着偏置一定的构件,形成载明的构件组通过使用一个“空”键来表明,具有原始构件的字符是要检索的。
11.按照权利要求
10所述的方法,其特征在于“空”键是在输入字符终止时使用的以表明缩短情况。
12.按照权利要求
10所述的方法,其特征在于要是在使用“空”键后编置一定的构件,则这些构件就是一个字符串检索的主题。
13.按照权利要求
10所述的方法,其特征在于“空”键使用一次以上的以表明形成一组以上未鉴别的构件,具有原始编码的字符要经检索以明确定是否这些字符具有构件组,之后对在第一次使用“空”键以后的构件组进行匹配检索。
14.按照权利要求
12所述的方法,其特征在于该处至少有两个其他构件组,检索保证其两个组都存在而且这些组相互是无关的。
15.按照权利要求
1所述的方法,其特征在于如果编置构件数对于没有多义词是足够的,则要提供这方面的指示。
16.按照权利要求
1所述的方法,其特征在于在所有构件都编置后,会有一个已知多义词,这个多义词可以通过下压一个预定的键来鉴别或是通过改变输入来识别多义字符之间的差异。
17.按照权利要求
15或16所述的方法,其特征在于该处字符是被完全载明的,或者是通过输入足够的构件或者是通过鉴别多义词,传递一个空间信号。
18.按照权利要求
1所述的方法,其特征在于键盘上除有构件键外,还有若干组元键,每个键代表一些构件,按照特殊排序,这些键用工效学观点围绕构件键配置在键盘上。
19.按照权利要求
18所述的方法,其特征在于该处可以使用构件键或至少一个组元键来实现一种特殊的构件组合,若有需要就用构件键,用于载明字符的专用键可以用作鉴别已知多义词或一些多义词之间的差异。
20.按照权利要求
18所述的方法,其特征在于为减少多义词,组元键或各别形成同样构件组合,可以有选择地使用组元以在已知多义词或一些多义词之间进行选择。
21.按照权利要求
20所述的方法,其特征在于要是使用构件键,仅示出一个多义词,但应显示第二个最通用的多义词组构件。
22.按照权利要求
18所述的方法,其特征在于编置一个组元键代表最通用的组元形成式而使用移位键或另外选定的组元键则代表其次最通用组元。
23.按照权利要求
18所述的方法,其特征在于,在已知是多义的字符的构件编置后,可以大致下压一个专用键来表明一个多义词是已知的并且所需多义组构件是选定的。
24.按照项利要求22所述的方法,其特征在于专用键可以下压一次以上,视一组内所需多义词而定,而且,在编置输入时,要显示所需的字符。
25.按照权利要求
18所述的方法,其特征在于该处组元键不代表一个字符,组元键可以单独使用,或者用在任意组合或者用在助记符组合上来代表专用字母数字代码,因此还有字符,在键盘上则没有通过使用构件键或其他组元键来载明的字符。
26.按照权利要求
25所述的方法,其特征在于所用组元键是单独的或按组合可以代表一个复杂的部首。
专利摘要
一种载明诸如中文、日文和朝鲜文语言字符的方法,在键盘上使用不多于四个键,每个键代表一个构件,每个构件至少代表字符的一个组元而且按照组合就可以代表整个字符组的任何字符,要是排序编置,字符的组元就可在其内按照惯例书写。该方法还提供了识别并减少编置干扰到最小程度的装置,这种干扰是由字符组引起的,当以上述方式进行编置时这些字符是多义的。
文档编号G06F3/023GK85102506SQ85102506
公开日1986年10月1日 申请日期1985年4月5日
发明者兹维·巴尔尼 申请人:兹维·巴尔尼导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1