中文汉字字符转换方法及装置的制作方法

文档序号:6410327阅读:334来源:国知局
专利名称:中文汉字字符转换方法及装置的制作方法
技术领域
本发明总地涉及一种中文汉字字符转换方法及一种中文汉字字符转换装置。更具体地,本发明针对这样的中文汉字字符转换方法/装置,即在中文输入程序中,指示中文汉字字符串的发音的语音符号串被输入,然后将输入的语音符号串转换成汉字字符。
通常,为了处理中文字符,将由字母符号构成的语音符号(拼音)串输入,然后使对应于输入语音符号串的中文汉字字符从字典中检索出来,使得检索出的中文汉字字符被输出。
这就是,基本上类似于日文字符处理操作,需要将输入语音符号串转换成中文汉字字符的中文汉字字符转换装置(所谓的“前端处理器”),以便进行中文汉字处理操作。
通常,在与由多个汉字字符习语构成的汉字字符串相对应的语音符号串被输入了以后的这一情况下,这些语音符号串以分批处理方式在中文汉字字符转换装置中被转换,随着检索字典,输入语音符号串的符号部分从其顶部(开头部分)开始被顺序地转换成相应的汉字习语。
在此情况下,具有任意语音符号串长度的开头部分所对应的汉字字符习语首先被在字典中检索。当检索出多个汉字字符习语且这些检索的汉字习语字符数彼此不同时,具有最大字符数(量)的汉字字符可被优先选择。
然后,与上述语音符号串的选择汉字字符习语相对应的开头部分被识别为单个词组片。
接着,对于这个语音符号串当与检索的汉字字符习语对应的开头部分被从上述语音符号串中提取出来时,执行上述的处理操作,并重复进行上述处理操作直到所有的语音符号串部分被转换成汉字字符为止。
换句话说,当相应于多个汉字字符习语组成的汉字字符串的语音符号串以分批方式被转换时,语音字符串被再分成多个词组片。并接着将各词组片转换成汉字字符习语。
在相对语音符号串的单个词组片选择多个汉字字符习语的情况下,即当出现相同发音的汉字字符习语时,操作者从多个汉字字符习语中选择一个汉字字符习语,由此确定出与单个词组片相对应的单个汉字字符习语。
在上述汉字字符转换装置中,当相应于上述词组的一个汉字字符习语作为同音词习记功能被确定时,构成上述词组的语音符号串及汉字字符习语就被确定并然后作为记忆信息被记录在字典中。接着,当构成同一语音符号串的另一词组片如上地被输入时,则已被在先确定及作为习记信息的这个汉字字符习语将作为第一对象被输出。
例如,当“gong si”被作为语音符号串输入到汉字字符转换装置中时,对字典检索并输出下述两个汉字字符习语1、公司2、公私。
在此情况下,因为字典中第一个所述的汉字字符习语“公司”被优先记录,该汉字字符转换装置将首先输出该汉字字符习语“公司”。
但是,当真正被输入的汉字字符习语是另一汉字字符习语“公私”时,操作者将再指令输出构成该对象的汉字字符习语。然后,当该汉字字符习语“公私”被输出时,输入的汉字字符习语就确定为“公私”。
在此情况下,将汉字字符习语“公私”确认为对应语音符号串“gong si”的优先汉字字符习语的这个习记信息被记录到字典中。
其结果是,当下一处理操作期间再次输入语音符号串“gong si”时,该汉字字符习语“公私”将首先从汉字字符转换装置中被输出。
然后,当要输入的汉字字符习语是“公私”时,该习语“公私”可被直接地确定。因此,当相同的词在同一文件中频繁地使用时,就能提高转换的效率。
应该理解,语音符号串在上述汉字字符转换装置中被分成多个词组片。当语音符号串在与所需词组片分段位置不同的位置上被划分时,则输出与相应词组片对应的汉字字符习语,操作者必须改变词组片分段位置来重新开始转换处理。
对于汉语发音,甚至当汉字用相同的字母符号(拼音)表达时,通过增加/减小发音间隔时间可使汉字具有不同的意思,这些不同的意思具有不同的汉字字符。
作为结果,具有重音(音调)符号的语音符号用来指示升/降发音间隔。
因而,如果字母语音符号与音调符号结合起来被输入到汉字字符转换装置中,由于减少了相同发音词(包括同音词及同音字)则可增加汉字字符转换效率。但是,在用键盘输入具有音调符号的语音符号的情况下,将需要另一种输入汉字语音符号的键盘,并且词的输入速度将会降低。
上述的汉字字符转换方法是使用无音调符号的语音符号的例子。
还应指出,上述汉字字符习语相当于与字典中记录的单个语音符号串对应的单个汉字字符串,但它不总是等于日文汉字字符习语。例如,当具有单个字符的汉字字符对应于单个语音符号被记录在字典中时,具有单个字符的该汉字字符变为一个汉字字符习语。
另一方面,在汉语中具有用单个语音符号串指示的同音汉字字符习语。
这就是,由一个字符构成的大量单个汉字字符习语已被记录在上述汉字字符转换装置的字典中。相对于语音符号串的数目将具有大量的汉字字符习语数,及记录了大量的同音汉字字符习语。
相应地,具有很多可能性,即当单个句子的相同语音符号串被输入两次时,甚至是相同的语音符号串,对应于前一个语音符号串的汉字字符习语并不等于对应于后一语音符号串的汉字字符习语。
因此,甚至当使用了上述同音词习记功能,使得在转换后一语音符号串时优选输出对前一语音符号串确定的汉字字符习语的情况下,优先输出的这个汉字字符习语在很多实例中是不能采用的。这将使由同音词记忆功能获得的转换高效率的优点受到损失。
如前所述,具有这样一个问题,即,当特别对于具有大量字符的汉字字符习语确定词组片分段位置,并然后改变词组片分段位置,由此确定具有小数目字符的汉字字符习语时,该同音词习记功能实质上没有起作用。
例如,现在假定输入由语音符号串“yi zhi”指示的这个汉字字符习语“一只”,但它没有被记录在字典中。
另外,也假定相应于另一个“yi zhi”的语音符号的具有两个汉字字符的另一汉字字符习语“意志”被记录在字典中。
在此情况下,当语音符号串“yi zhi”被输入到汉字字符转换装置中时,由于具有两个字符的汉字字符习语的处理比具有一个字符的汉字字符习语的处理具有更高的优选权,故语音符号串“yi zhi”被确认为单个词组片,并然后将汉字字符习语“意志”作为对象汉字字符习语输出。
现在,操作者将在一个汉字字符“意(yi)”及另一汉字字符“志(zhi)”之间确定词组片分段位置。
然后,操作者从与语音符号“yi”对应的对象汉字字符习语中选择出一个汉字字符“一”,及从与语音符号“zhi”对应的对象汉字字符中选择出另一汉字字符“只”,由此确定出所需的汉字字符习语“一只”。
在此情况下,通过上述的同音词记忆功能,对于语音符号“yi”,汉字字符习语“一”被设置成具有优选权的汉字字符习语,而对于语音符号“zhi”,汉字字符习语“只”被设置成具有优选权的汉字字符习语。
当语音符号串“yi zhi”被再次输入时,由于具有两个字符的汉字字符习语比单个字符的另一汉字字符习语更优先地处理,故该语音符号串“yi zhi”被确认为单个词组片,由此将输出汉字字符习语“意志”作为对象汉字字符习语。相应地,操作者必须再次改变词组片分段位置。
其结果是,虽然同音词习记功能对于在词组片分段位置改变后,对应于语音符号“yi”及“zhi”选择汉字字符习语“一”及“只”时可以成为有效的,但词组片分段位置改变的操作是不能省掉的。因而,在转换效率上不能期望有大的改善。
在这种情况下,本发明的一个目的是通过以与单个词组片相似的方式相对多个词组片执行同音词习记功能来提高中文汉字字符转换操作的转换效率。
此外,在传统的中文汉字字符转换装置中,当相应于多个汉字字符习语组成的汉字字符串的语音字符串以分批处理方式被转换时,该语音符号串被从其开头(顶)部分被分成多个词组片。在此情况下,将以这样的方式来进行具有最大字符数的单个词组片处理的处理操作,即使得构成词组片的汉字字符串的字符数(量)变为最大。
对于具有最大字符数的单个词组片处理的处理操作如下地执行现在假定,用于“中国人民”的语音符号串“zhong guo ren min”被输入到汉字字符输入装置中。
然后,如表1中所示的汉字字符习语被记录在字典中表1语音符号 汉字字符表达zhong 中
zhong guo 中国zhong guo ren 中国人zhong guo ren min 中国人民在此情况下,当从字典中检索一个汉字字符串时,它相当于具有上述语音符号串“zhong guoren min”中任何字符长度,这些汉字字符习语“中”,“中国”,“中国人”,“中国人民”均包括在检索范围中。
在此情况下,由于词组片基于在具有与具有任意长度(字符数)的输入语音符号串的开头部分相应的汉字字符串中的最大字符数的汉字字符串被分段,故与汉字字符习语相对应的语音字符串“zhong guoren min”被设置成单个词组片。
然后,如果在字典中仅记录了汉字字符习语“中国人民”作为与设置为单个词组片的语音符号串“zhong guo ren min”相对应的汉字字符串时,则输出用于上述语音符号串的汉字字符习语“中国人民”。
如上所述,因为具有大量相同发音的汉字字符,在语音符号串被分成多个单汉字字符字以便转换成汉字字符的情况下,在各划分部分中将要输出大量的对象汉字字符。因此,需要长时间的麻烦的转换处理操作,以便能从同音的汉字字符中选出所需的汉字字符。
相应地,如上所述,因为语音符号串被分成尽可能长的词组片,相应于每个划分部分的汉字字符串的总数目将可大大地减少。因此,可以简化对于选择所需汉字字符串的处理操作并由此使用于转换处理所需的时间减少。
应该理解,在上述汉字字符转换装置中语音符号串被划分成词组片。当该语音符号串在不同于所需词组片分段位置上被划分及然后待被输出的汉字字符串不包括在该转换对象中的情况下,操作者则必需改变词组片分段位置来重新开始转换处理。
对于汉字发音,甚至当汉字用相同的字母符号(拼音)表达时,通过升/降发音间隔,该汉字可具有不同意思,而这些不同的意思拥有不同的汉字字符。
作为其结果,汉字的语音符号被设有重音(音调)符号,用来指示升/降发音间隔。
因此,如果语音符号结合音调符号被输入到汉字字符转换装置中,则汉字字符转换效率将会提高,因为减少了同音词(包括同音词及同音字)。但是,在具有音调符号的语音符号被从键盘输入的情况下,需要另一种用于输入汉字语音字符的键盘,且词的输入速度将会降低。
上述的汉字字符转换方法是使用无音调符号的语音符号的一个例子。
还应指出,上述的汉字字符习语相当于与在字典中记录的单个语音符号串相对应的单个汉字字符串。例如,当具有单个字符的汉字字符对应于单个语音符号被记录在字典中时,该具有单个字符的汉字字符就成为汉字字符习语。
另一方面,在汉语中具有很多可能性在单个句子的开头词组片中,具有单个字符的汉字字符习语可作为主语(例如“我”,“他”),前置词(例如“在”,“从”及“又”),否定词(例如“不”),及修饰词(例如“很”)出现。因而,具有许多的实例,其中输入字符串的开头词组片是由单个字符构成的。
但是,根据上述用于处理单个词组的最大字符数的处理操作,输入语音符号串的开头词组片的字符数是基于与在上述语音符号串的开头部分相应的汉字字符习语中最长的汉字字符习语来确定的。其结果是,具有大的可能性,即开头词组片拥有多于两个的字符。
另一方面,根据中文语法,开头词组频繁地由单个字符构成。但是,因为具有某些可能性,即在传统的中文汉字字符转换装置中开头词组片具有多于两个的字符,故词组片分段位置将会作得不正确。
换言之,当由多个词组片构成的语音符号串被输入到该中文汉字字符转换装置中时,如上所述,将具有很大可能性,即词组片分段以不正确的方式进行,因此在第一次转换期间将输出与要输入的汉字字符串不同的汉字字符串。作为其结果,使转换效率降低。
并且,如上所述,在该例中由于词组片未正确地分段,输出了与要输入的汉字字符串不同的汉字字符串,甚至在字典中再尝试了对应于各词组片的同音汉字字符串,仍具有一定的可能性,即所需汉字字符未包括在同音汉字字符串中。
在此情况下,如果在词组片分段位置改变后未再执行转换操作,则字符输入速度将会降低,因为要输入的汉字字符串未能检索到。
例如,假定相应于一汉字字符习语的语音字符串“zai bu zhi bu jue zhong”被输入到传统的中文汉字转换装置中。
应该指出,当词组片分段位置用“”指示时,对于该汉字字符习语“在不知不觉中”的正确词组片是在不知不觉中另外,现在假定,表示在表2中的汉字字符习语被记录在字典中表2语音符号 汉字字符表达zai 在zai bu 再不根据该中文汉字字符转换装置的转换操作,借助上述处理单个词组片的最大字符数的处理操作来划分第一词组,该处理操作是基于具有已记录在字典中相应于语音符号串“zai bu zhi bu jue zhong”的开头部分的任意字符数的汉字字符串中最大字符数的汉字字符进行的。
在此情况下,记录了与语音符号串“zai buzhi bu jue zhong”的开头部分相对应的两个汉字字符串“在”及“再不”。由于汉字字符串“再不”的字符数大于另一汉字字符串的字符数,将对应于汉字字符串“再不”的语音符号串“zaibu”确定为第一词组片,因此构成第一词组片的第一对象的汉字字符串变为“再不”。
对于除第一词组片以外的语音符号串,在划分词组片并然后根据上述的处理最大字符数的单个词组片的处理操作输出用于构成每个词组片第一对象的汉字字符串的情况下,例如,它将变成汉字字符串“再不支部绝种”。
应该指出,该汉字字符串“再不支部绝种”的词组片分段位置如下地给出再不支部绝种(zai buzhi bujue zhong)。
如前所述,如果第一词组片分散位置作得不正确,则随后的词组片分段位置也变得不正确,于是,各词组片的汉字字符串将不能正确地被转换。
并且,具有某些可能性,即甚至当相应于要输入的汉字字符串的汉字字符串从构成对于各词组片的另外同音汉字字符词的语音符号串的汉字字符串中检索时,也不会检索到所需的汉字字符串。
作为其结果,操作者必须使词组片分段位置改变到正确的词组片分段位置上并重新开始转换操作。
因此,本发明的另一目的是在中文汉字字符转换装置中通过根据中文语法对输入语音符号串词组片的正确分段来提高汉字字符输入转换效率以及汉字字符的输入速度。
从以下的说明中将会阐明本发明的各种特征。根据本发明的一个方面,提出一种用于中文汉字字符转换装置中的基于词典将输入语音符号串转换成与它相对应的汉字字符串的中文汉字字符转换方法,该中文汉字字符转换装置包括输入装置,用于输入指示汉字字符串发音的语音符号串;及词典,用于在其中记录语音符号串及与它对应的汉字字符串,所述的转换方法包括输入步骤,用于输入所述语音符号串;输出步骤,用于根据所述输入语音符号串检索所述词典并用于将所述输入语音符号串转换成相对每个词组片的汉字字符串,由此输出对象汉字串;指令步骤,用于指令词组片分段位置的改变;转换步骤,用于响应改变指令来改变分段语音符号串用的词组片分段位置,并基于改变的词组片分段位置将所述语音符号串转换成汉字字符串;记录步骤,用于当发出了指令以确定转换的汉字字符串时对应于所述转换汉字字符串及所述词组片分段位置信息将所述输入语音符号串记录到所述词典中;及再输出步骤,用于当将记录在所述词典中的语音符号串输出时,再次输出与所述输入语音符号串对应的所述汉字字符串,作为对象汉字字符串。
根据本发明,当由多个词组片构成的汉字字符串被习记时,将不习记对应于那些词组片的汉字字符串,但可作为单个汉字字符串习记。作为其结果,当输入语音符号串以转换成由多个词组片构成的汉字字符串时,不再在每次执行转换时改变词组片分段位置。因此,可提高汉字字符的转换效率,并使汉字字符输入处理操作能快速地进行。
此外,根据本发明的另一方面,提出一种用于中文汉字字符转换装置中的基于词典将输入语音符号串转换成与它相对应的汉字字符串的中文汉字字符转换方法,该中文汉字字符转换装置包括输入装置,用于输入指示汉字字符串发音的语音符号串;及词典,用于在其中记录语音符号串及与它对应的汉字字符串,所述转换方法包括下列步骤输入所述语音符号串;在离开头部分的任意词组片分段位置上将所述输入语音符号串分段,从所述词典中检索对应于分段语音符号串的第一汉字字符串,及从所述词典中检索与剩余语音符号串对应的第二汉字字符串,该剩余语音符号串是从所述输入语音符号串中减去与所述第一汉字字符串对应的语音符号串部分获得的;及当检索到所述第一汉字字符串及所述第二汉字字符串之间的多个组合组时,以这样的方式从所述多个组合组中选择词组片分段位置,即使得由所述第一字符符号串的字符数及由所述第二汉字字符串的字符数获得的总字符数变得最大,及将基于选择的词组片分段位置转换的第一及第二汉字字符的组合输出,作为对象汉字字符串。
根据本发明,词组的位置可以根据中文语法来正确地划分。这就是根据中文语法,具有单个字符的汉字字符习语位于一个句子的第一词组片将有大的可能性。作为其结果,在一个句子中其第一词组片的字符数为单个字符时,该句子被错误地转换成其中第一词组片包含多于两个字符的转换字符串的可能性极小。因而,可以提高汉字字符的转换效率,并且在转换操作期间操作者不再需要改变词组片分段位置。因此,汉字字符输入处理操作能以高效率进行。
为了更好地理解本发明,将结合以下的附图来进行详细的说明,附图为

图1表示根据本发明第一优选实施例的中文汉字字符转换装置的电路布置的概要框图2概要地表示用于图1的中文汉字字符转换装置中的一个工作存储器7的存储结构;图3概要地表示用于图1中的中文汉字字符转换装置中的一个习记词典6的存储结构;图4是用于描述根据本发明第一优选实施例的中文汉字字符转换方法的操作的流程图;图5是用于解释根据第一优选实施例的中文汉字字符转换方法的示意图;图6是用于解释图1的工作存储器7中数据存储状态的示意图;图7是用于描述根据第一优选实施例的另一中文汉字字符转换操作的示意图;图8是用于描述图1的工作存储器7的数据存储状态的示意图;图9是表示根据本发明第二优选实施例的中文汉字字符转换装置电路布置的概要框图;图10概要地表示用于图9的中文汉字字符转换装置中的一个工作存储器70的存储结构;图11是用于描述根据本发明第二优选实施例的中文汉字字符转换方法的操作的流程图;图12是用于解释图9的工作存储器70中数据存储状态的示意图;图13是用于描述根据第二优选实施例的另一中文汉字字符转换操作的示意图。
现在将参照图1至8来对根据本发明第一优选实施例的中文汉字字符转换装置及中文汉字字符转换方法进行描述。
应该理解,具有两种型式的汉字字符,即,中文(汉字)字符及日文汉字字符,虽然这些字符起源相同,但彼此并不相同。
图1概要地表示了根据本发明第一优选实施例的中文汉字字符转换装置的结构。应该指出,该第一个中文汉字字符转换装置是组装在例如一个计算机系统(例如,通用计算机系统,文字处理机,计算机型排版系统,及其它系统)中,并通过例如能输入ASCII码的键盘的使用能将中文输入到该计算机系统中。
如图1所示,根据第一实施例的中文汉字字符转换装置由以下构成能输入中文字符的语音符号(拼音)的键输入单元1,其语音符号由字母码构成;CPU(中央处理单元)2,用于将输入的语音符号转换成相对应的中文汉字字符及输出该中文汉字字符;显示存储器3,用于在其中存储作为图象数据(字体数据)的字符形状,例如语音符号及由CPU2得出的中文汉字字符;及打印单元5,用于打印输出语音符号及由CPU2输出的中文汉字字符。该中文汉字字符转换装置还包括一个外部存储单元6,用于在其中存储由CPU2输出的数据及需要CPU2处理操作的数据,例如上述中文汉字字符及语音符号的字体数据;一个工作存储器7,用于暂时存储对于CPU2处理操作所需的数据及由CPU2得出的数据;一个转换词典8,用于在其中记录语音符号串及与语音符号串相对应的汉字字符习语;及一个习记词典9,用于当由CPU2转换的中文汉字字符被确定时在其中记录抽取的习记信息。
上述的键输入单元1相当于通称的“用于字母字符的键盘”。该键输入单元1能输入无重音(音调)符号的中文汉字字符的语音符号(拼音)。
键输入单元1上装有“CONVERT”(转换)键,“EXECUTE”(执行)键,“←”键,“ESC”键及类似键,以便作出转换指令,词组片分段位置的改变指令,及确定指令。这就是,“CONVERT”键用于指令汉字字符转换。“ESC”键用于指令词组片分段位置改变。“←”键是用于使词组片分段位置向左侧移动1个字符的键。“EXECUTE”键是用于指令确定的键。工作存储器7的存储区工作存储器7在其中暂时存储对于将语音符号转换成与它对应的中文汉字字符所需的数据,并具有如图2中所示的存储区域。
这就是,在该工作存储器7中设置了一个输入缓冲区IB,用于在其中存储由键输入单元1输入的语音符号串;一个检索语音符号区PY,用于在其中存储对于在输入的语音符号串中检索转换词典8及习记词典9所需的语音符号串部分;一个对象显示信息区SC,用于在其中存储待在显示单元4上显示的对象汉字字符串;及一个初始转换对象信息区T1,用于在其中存储初始转换期间作为第一对象的汉字字符串。该工作存储器7还包括初始转换词组片信息区W1,用于在其中存储作为各词组片字符数的汉字字符串的词组片分段位置,它与在初始转换期间输入的语音符号串对应地输出;一个用于确定输入的对象信息区T2,用于存储确定的汉字字符串;及一个用于确定输入的词组片信息区域W2,用于在其中存储作为各词组的字符数的确定汉字字符串的词组分段位置。
上述的转换词典8是一个用于转换汉字字符的通用类型的词典,在该转换词典8中,作为汉字字符习语记录了在中文中以一定高的频繁率使用的汉字字符串,并还记录了相应于记录的汉字字符习语并用于读该汉字字符习语的语音(拼音)符号串。
然后,可从语音符号串来检索出汉字字符习语。应该理解,在该第一实施例中,上述汉字字符串及汉字字符习语包含由一个字符构成的汉字字符。
换句话说,作为单汉字字符串(汉字字符习语),由一个字符构成的汉字字符也被记录在上述转换词典中。习记词典9的存储区如图3中所示,在上述习记词典9中,对于每个这些待被记录在其中的汉字字符串记录了语音符号(串),汉字字符注解,词组信息及另外信息。
由字母表示但不包含重音(音调符号)的语音符号被记录在其中作为上述语音符号。
与工作存储器7的初始词组信息区域W1及用于确定输入的词组片信息区域W2相类似,将记录的汉字字符串的词组片分段位置作为每个词组片中的字符数记录在上述词组信息中。
例如,由一个词组片构成具有两个字符的汉字字符习语的情况下,该词组片信息被置成“2”。在由两个词组片构成具有两组单个字符的汉字字符串(汉字字符习语)的另一情况下,该词组片信息被置成“1,1”。在一个汉字字符串中,在具有一个字符的一个词组片后跟随着具有两个字符的一个词组片,该词组片信息被置成“1,2”。
正如下面将描述的,CPU2基于由键输入单元1输入的语音符号串检索转换字典8及习记字典9,以便将语音符号串转换成汉字字符串。并且,当转换的汉字字符串被确认时CPU2抽取习记信息,并由此将抽取的习记信息记录到习记词典9中。第一转换方法接下来,现在将对由上述中文汉字字符转换装置执行的中文汉字字符转换方法进行说明。
在图4中表示了用于解释根据该第一实施例的中文汉字字符转换方法的流程图。这就是,在该实施例中,该中文汉字字符转换方法是由一个汉字字符转换方法及另一个分批习记方法构成的,汉字字符转换方法用于将语音符号(拼音)转换成与它对应汉字字符并用于输出该汉字字符,分批习记方法用于以分批方式习记对于同音词的多个词组片。应该指出,“同音词”意指“同音词”及“同音字”。
在该中文汉字字符转换方法中,首先,从键输入单元1输入指示要输入的具有任意字符数的汉字字符串读音的语音符号串(步骤S1)。
在此情况下,如图5A所示,将作为中文汉字串“工死”的语音符号串“gong si”输入。
由键输入单元1输入的该语音符号串被存储在图6A中所示的输入缓冲区IB中。
输入的语音符号串的第一词组片部分被存储在工作存储器7的检索语音符号区PY中。
在此阶段,因为输入的语音符号串还未被分成多个词组片,输入语音符号串的输入部分,即“gongsi”被直接地存储。
存储在输入缓冲器IB中的该语音符号串的字形信息再存储到显示存储器3中,然后显示在显示单元4上,如图5A中所示。
应该指出,在图5中矩形框中的内容表示在显示单元4中显示屏上的显示内容。
接着,如图5B中所示,通过操作“CONVERT”键基于存储在检索语音符号区PY中的语音符号串来检索转换词典8及习记词典9,使得用于检出与该语音符号串对应的汉字字符习语的汉字字符转换处理被执行(步骤S2)。
还应指出,在转换词典8及习记词典9中未记录与整个语音符号串相对应的汉字字符习语的情况下,将检索与具有语音符号串中任意字符数的开始部分相对应的另一汉字字符习语。
在此时,当检索到多个具有不同字符数的汉字字符习语时,将优先地检索出具有较大字符数的汉字字符。然后,与具有上述语音符号串的较大字符数的汉字字符习语相对应的部分,当其优先地被检索出来时,将作为单个词组片来处理。
对于从上述语音符号串中除去上述设定的词组片(开头部分)的剩余语音符号串再执行从转换词典8的上述检索操作。
并且,在该检索操作中,当没有在转换词典中记录相应于剩余语音符号串整个部分的汉字字符习语时,将如前所述地,检索与语音符号串中具有任意字符数的开头部分相对应的汉字字符习语,并由此将与该检索的汉字字符对应的部分识别为单个词组片。
此外,当在该语音符号串中具有另一剩余部分时,重复地执行上述处理操作,以使得该语音符号串被划分成多个词组片,然后由对应于多个这些词组片的第一对象组成的汉字字符习语就被检索出来。
应该理解,在上述汉字转换处理中使用了存储在习记词典9中的习记信息(步骤S2a),以下将讨论使用习记信息的汉字字符转换处理。
然后,将由用于构成对各词组片检索的第一对象的汉字字符所组成的汉字字符串存储到图6A的对象显示信息区SC中。
在此例中,中文语音符号串“gongsi”被识别为单个词组片,由记录在转换词典8或习记词典9中的汉字字符习语中检索出与该中文语音符号串“gongsi”相对应的汉字字符串的第一对象“公私”,并将该检索出的第一对象存储在对象显示信息区SC中。
应该指出,当相对同一语音符号串的汉字字符串被记录在转换词典8及习记词典9中时,记录在习记词典9中的汉字字符串将优先作为第一对象被使用。
另外,应该指出,当多个汉字字符串被记录在转换词典8或习记词典中时,具有第一(最高)优先权的汉字字符串被识别为第一对象。
然后,将第一对象的汉字字符串,即关于初始转换对象的信息存储到初始转换对象信息区T1中(步骤S3) 。
在此情况下,如图6A中所示,汉字字符串“公私”被存储在初始转换信息区T1中。
包含在记录于初始转换对象信息区T1中的汉字字符串内的各词组片的字符数随后被记录到初始转换词组信息区W1中。
还应指出,记录在初始转换对象信息区中的汉字字符串并非与确定的汉字字符串相一致(将解释于后),习记信息将被记录(将描述于后)。
然后,如图5B中所示,存储在对象显示信息区域SC中的汉字字符串“公私”被显示在显示单元4上(步骤S4)。
在此情况下,因为汉字字符串“公私”代替了另一要输入的汉字字符串“工死”被显示出来,故操作者再次操作“CONVERT”键(步骤S5)以便确认所需的中文汉字字符串“工死”是否被作为用于构成记录在转换词典8中的对象汉字字符串“工死”的汉字字符习语被输出。
换言之,操作者通过操作“CONVERT”键并由此输出构成接在第一对象后的另一对象的汉字字符习语来确认所需的中文汉字字符串“工死”是否包含在作为中文语音符号串“gongsi”记录在转换词典8中的汉字字符习语内。
假定在此例中,中文汉字字符串“工死”未作为中文语音符号串“gongsi”的对象被记录在转换词典8及习记词典9中。
接着,操作者识别将要构成对象的显示汉字字符习语,由此确定是否要执行输入处理。这就是,操作者在显示了选择汉字字符习语的情况下判断是否要按“EXECUTE”键(步骤S6)。在该步骤上,因为汉字字符串“工死”没有显示出来,则不要执行输入处理操作。
然后,改变词组片分段位置作为另一处理操作(步骤S7)。
应该理解,当没有执行确定输入处理操作时,改变语音符号串作为另一处理操作,并然后使处理操作返回到步骤S2,在该步骤上执行汉字字符转换处理。
在此情况下,建立了这一状态,即语音符号串“gongsi”已被转换成一个汉字字符习语,即作为单词组片。如图5C中所示,在该实施例中,通过操作“ESC”键及表示词组片改变的键“←”使词组片分段位置移动到一个汉字字符“公”及另一汉字字符“私”之间。
接着,将转换处理操作返回到步骤S5,在该步骤上操作者操作“CONVERT”键,以便在如图5D中所示的相应于第一词组片的汉字字符“公”被指定的情况下再执行汉字字符转换。
在此情况下,如图6B中所示,存储在工作存储器7的检索语音符号区PY中的语音符号串“gongsi”被更新为另一语音符号串“gong”,它构成第一词组片的语音符号串,然后从转换词典8及习记词典9中检索与该语音符号串“gong”相对应的汉字字符习语。
然后,当汉字字符“工”相对于该语音符号串“gong”被检索出来时,一个新的汉字字符串“工私”代替上一个汉字字符串“公私”被存储在对象显示信息区SC中。
接着,如图5D中所示,存储在对象显示信息区SC中的汉字字符串“工私”被显示在显示单元4上。
应该理解,当汉字字符“工”没有作为相对于语音符号串“gong”的第一对象被检索时,将再次操作“CONVERT”键,以便检索已在转换词典8或习记词典9中相对于该语音字符串“gong”记录的汉字字符“工”。
因为想输入的汉字字符串“工死”在此阶段还未显示出来,将不执行确定处理。作为另一处理操作,相应于显示汉字字符串“工私”中的第二词组片的汉字字符“私”被指定,然后操作“CONVERT”键再执行汉字字符转换操作,如图5E中所示。
在此情况下,如图6C中所示,存储在工作存储器7的检索语音符号PY中的语音符号串“gong”被更新成另一语音符号串“si”,它构成了第二词组片的语音符号串,然后从转换词典8及习记词典9中检索与该语音符号串“si”相对应的汉字字符习语。
接着,类似于上述汉字字符“工”的情况,当汉字字符“死”相对该语音符号串“si”被检索出来时,一个新的汉字字符串“工死”便替代了上一汉字字符串“工私”被存储到对象显示信息区SC中。
然后,如图5 E中所示,存储在对象显示信息区SC中的汉字字符串“工死”被显示在显示单元4上。
现在,因为想输入的汉字字符串“工死”已显示在显示单元4上-如图5 F所示,故通过操作“EXECUTE”键来确定汉字字符串“工死”,并由此执行确定输入处理(步骤S8)。
在此情况下,如图6C中所示,相应于对于语音符号串“gong si”确定的汉字字符串的该汉字字符串“工死”可被存储在工作存储器7的用于确定输入的对象信息区域T2中(步骤S9)。
并且,对于确定的汉字字符串的各个词组片的字符数被存储到用于确定输入的词组片信息区W2中。在汉字字符串“工死”的情况下,具有两个单字符的词组片,即一个词组片“工”及另一词组片“死”,因此如图5F中所示,可确定出汉字字符串“工死”。相应地,如图6C中所示,“1”及“1”被存储到用于确定输入的词组片信息区W2中。习记处理接着将执行图4中所示的上述流程图的步骤S10至步骤S14所规定的习记处理操作。
首先,在步骤S10上,基于已被记录在初始转换对象区T1及初始转换词组片信息区W1中的汉字字符串及各个词组片的字符数来得到在初始转换操作期间汉字字符串的词组片分段位置。
在此情况下,记录的汉字字符串是“公私”,它是一个具有字符数“2”的单词组片。
基于已被记录在用于确定输入的对象区T2及用于确定输入的词组片信息区W2中的汉字字符串及各个词组片的字符数来得到确定汉字字符串的另一词组片分割位置。
在此情况下,确定的汉字字符串是“工死”,并具有两个各具有字符数“1”的词组片。
换句话说,在词组片分段位置由符号“”指示的情况下,在初始转换及确定输入期间词组片的序列位置给出如下公私工私然后,将在初始转换期间及确定输入期间公用的词组片分段位置用作为公共词组片分段位置。
在上述两个汉字字符串“公私”和“工死”中,在第一字符前的位置,及在第二字符后的位置构成了公共词组片分段位置。
简言之,对于在上述步骤S10上规定的处理操作现在可用更通用的方式来描述。
首先,现在假定作为语言符号串的“------”被存储在工作存储器7的输入缓冲器(未详细表示)中;“ABCDEFGHIJKL”被存储在初始转换对象信息区T1中;“2,2,3,5”被存储在初始转换词组片信息区W1中;“AMNOPQRSTUVW”被存在用于确定输入的对象信息区T2中;“2,3,2,3,2”被存储在用于确定输入的词组片信息区W2中。
还假定,符号“-”表示一个语音符号,一个大写的字母代表一个中文汉字字符。在此情况下,当词组片分段位置由“”表示时,存储在工作存储器7中的各信息可表示如下在初始转换期为ABCDEFGHIJKL在确定输入期间为AMNOPQRSTUVW公共分段位置则为
在此情况下,当在上述词组片分段位置中,在初始转换期间的词组片分段位置与在确定输入期间的词组片分段位置相一致时,这些词组片分段位置被识别为公共分段位置。
然后,在初始转换期间的汉字字符串及在确定输入期间的汉字字符串以上述的公共分段位置被划分。对于在初始转换期间及确定输入期间的这些分段位置是否彼此一致将作出判断。该判断是从开头分割位置顺序地进行的(步骤S11)。
在上述语音符号串“gong si”的情况下,汉字字符串“公私”对应于初始转换期间的分段位置,而汉字字符串“工死”对应于在确定输入期间的分段位置,因此这些分段位置不能作到彼此相一致。
然后,当初始转换期间的分段位置与确定输入期间的分段位置不相一致时(步骤S12),将确定期间的词组片分段位置作为习记信息记录到习记词典9中,并给出它们的对应关系(步骤S13)。
在初始转换期间的公共分段部分作到与确定输入期间的公共分割部分相一致时,则作出判断,看是否具有后继的分割部分,即剩余数据(步骤S14)。当判断出该剩余部分存在时,处理操作返回到步骤S12。
然后,对于所有的输入语音符号串的公共分段部分,对初始转换期间的汉字字符串与确定输入期间的汉字字符串是否相一致作出判断。当这些汉字字符串作到彼此相一致时,处理操作就在确定输入期间的语音符号串、汉字字符串及上述公共分割部分的词组片分割位置的情况下被执行。
应该理解,如图3中所示,语音符号串(语音符号),汉字字符串(汉字字符表示),及词组片分段位置(词组片信息)以彼此相对应的关系被记录到习记词典9中。
这就是,对于关于上述汉字字符串“工死”情况的习记信息,“gong si”被记录为语音符号串。“工死”被记录为汉字字符串及“1,1”被记录为词组片分段位置。
并且,在对习记词典9的记录处理操作中,例如,在初始转换期间语音符号串“gong si”被转换成汉字字符串“公私”。然后,由操作者再执行转换。在相应于该语音符号串“gong si”的另一同音汉字字符习语、例如“公司”被选择并然后确定输出该选择的汉字字符习语时,“gong si”将作为语音符号串、“公司”将作为汉字字符串、及“2”将作为词组片分段位置被记录到习记词典9中。
在此情况下,同音词的习记是以与现有技术相同的方式进行的。
换句话说,根据该第一实施例,同音词的习记是类似于传统习记方式进行的。类似于上述汉字字符串“工死”,由多个词组片构成的汉字字符串用与由单词组片构成的汉字字符习语相类似的方式来记录,并且也记录词组片的分段位置。
如图5G中所示,当“gong si”作为语音符号串被再次地输入到根据该第一实施例的中文汉字字符转换装置中时(步骤S1),当汉字字符转换处理在步骤S2上被执行时,就利用了习记词典9中的习记信息(步骤S2a)。
换言之,从习记词典9中检索出语音符号串“gong si”,因此在汉字字符转换处理时就检索出汉字字符串“工死”及词组片分段位置“1,1”两者。
然后,如图5H中所示,记录在习记词典9中具有两个字符的汉字字符串“工死”以最高优先权显示,而不是显示记录在转换词典8中的具有两个字符的汉字字符习语如“公私”。并且,词组片分段位置是设置在一个汉字字符“工”及另一个汉字字符“死”之间。
作为其结果,就可以避免在传统汉字字符转换装置中出现的这样一种问题,这就是,在传统上,一个汉字字符“工”及另一汉字字符“死”被同音词习记分开地处理。因为当语音符号串“gong si”被再次输入时,汉字字符串“工死”未被同音词习记处理,而是一个语音符号“gong (工)”及另一语音符号“Si(死)”被记录在习记词典中。然后,甚至当可以相对于语音符号“gong”检索出汉字字符“工”时,由于转换词典的语音符号串“gong si(公私)”比语音符号“gong”长,故将输出记录在转换词典8中的相对于语音符号串“gong si”的第一对象的汉字字符串“公私”。
应该理解,由于词组片分段位置也在上述的处理操作中被存储,如果操作者再执行汉字字符转换时,则对关于一个指定语音符号“gong”或是另一指定语音符号“si”的同音汉字字符习语再次进行转换。其结果是,在仅是这些指定语音符号中的一个要被转换的情况下或是在与转换词典8中语音符号“gong si”对应的具有两字符的汉字字符习语中没有汉字字符要被输入的情况下,可以提高转换效率。其它语音符号串接下来,现在将对图7及图8中所示的另外语音符号串作出说明。
首先,如图7 A中所示,对应于汉字字符串“不懂事”的语音符号串“budong shi”被输入到根据该第一实施例的中文汉字字符转换装置中。
应该理解,虽然包括在中文汉字字符串“不懂事”中的中文汉字字符“懂”,如图7F中所示地实际具有日文汉字字符的“忄”部分,但由于没有与它相对应的(日文)汉字字符,故在该说明书中使用该汉字字符“懂”。
在此情况下,如图8A中所示,该语音符号串“bu dong shi”被存储在工作存储器7的输入缓冲区IB中。
如图8B中所示,当按键“CONVERT”时,从转换词典8及习记词典9中检索语音符号串“bu dong shi”。
在此实施例中,从语音符号串“bu dong shi”的开头部分中优先检索与具有较大汉字字符数的汉字字符习语相对应的部分。
在此情况下,假定相应于语音符号串“bu dong shi”的汉字字符习语既未记录在转换词典8中也未记录在习记词典9中。然后,再假定,起到对于语音符号串“bu dong”的第一对象作用的汉字字符串“不动”已被记录在转换词典8及习记词典9中,作为在包括语音符号串“bu dong shi”的开头部分及具有任意字符数的这些汉字字符串中具有最大字数的汉字字符串。
在此情况下,语音符号串“bu dong”被存储在工作存储器7的检索语音符号区P Y中,并然后检索出汉字字符串“不动”。
还假定,作为与剩余的语音符号串“Shi”相对应的汉字字符习语的第一对象,从转换词典8或习记词典9中检索出汉字字符“是”。
在此情况下,汉字字符习语“不动是”被存储在对象显示信息区SC中,并且在显示单元4上显示该汉字字符习语“不动是”,如图7B中所示。
上述汉字字符习语“不动是”也存储在初始转换对象信息区+1中,及指示词组片分段位置的“2,1”存储在初始转换词组片信息区W1中。
接着,因为在初始转换期间的词组片分段位置不对,操作者操作“ESC”键,以使从当前方式改变到词组片分段位置改变方式,如图7C中所示。并且然后操作箭头键,使得词组片分段位置设置在一个汉字字符“不(bu)”及另一汉字字符“动是(dong shi)”之间。
然后,因为汉字字符“不”的词组片是与待输入的汉字字符串相一致的,则在指定汉字字符“不”的状态下操作“EXECUTE”键,以便如图7D所示地确定汉字字符“不”。
接着,如图7 E中所示,在汉字字符习语“动是”被指定的状态下操作“CONVERT”键,则再执行如图7E所示的转换。
在此情况下,如图8B中所示,语音符号串“dong shi”被存储在检索语音符号区PY中,并也是从转换词典8及习记词典9中进行检索。
然后,假定汉字字符习语“懂事”作为对于语音符号串“dong shi”的第一对象被检索出来。
如图8B中所示,在此情况下,由上述汉字字符“不”及习语“懂事”组成的组合汉字字符习语“不懂事”被存储在对象显示信息区SC中,并使得该组合汉字字符习语“不懂事”被显示在显示单元4上。
然后,如图7F所示,当操作“EXECUTE”键时,汉字字符习语“懂事”被确定,以使得它可与在先确定的汉字字符“不”相结合确定要输入的组合汉字字符习语“不懂事”。
在此情况下,如图8C中所示,汉字字符习语“不懂事”被存储在用于确定输入的对象信息区T2中,及随后由字符数指示词组片分段位置的“1,2”被存储在用于确定输入的词组片信息区W2中。
现在,当将在初始转换期间的数据与在确定输入期间的数据相比较时,可得到如下的结果不动是不 懂事在此情况下,由于上述公共分段部分相当于整个语音符号串“bu dong shi”,习记信息由“budong shi”给出作为语音符号串,“不懂事”给出作为汉字字符串及“1,2”给出作为词组片分段位置。这些被记录在图3中所示的习记词典9中。
接着,如图7G所示,当再次输入语音符号串“bu dong shi”时,汉字字符串“不懂事”及词组片分段位置“1,2”将作为记录在习记词典9中的习记信息被检测出来。如图7H中所示,汉字字符串“不懂事”通过初始转换就显示出来。
在此情况下,词组片分段位置被设置在汉字字符“不”及汉字字符串“懂事”之间。
换言之,类似于上述汉字字符串“工死”,由多个词组片构成的该汉字字符串“不懂事”是通过同音词习记来处理的,然后该汉字字符串“不懂事”将构成语音字符串“bu dong shi”的第一对象,并保留了多个词组片。
在此情况下,因为具有较大字符数的对象通常以最高优先权被转换,如果在转换词典8或习记词典9中记录了汉字字符串“不动(bu dong)”则词组片分段位置将设置在第二字符及第三字符之间。如前所述,当另一汉字字符串“不懂事(bu dong shi)”已记录在习记词典9中时,该汉字符串将以最高优先权显示,及它的词组片分段位置将如前所述,因为具有大数目的字符且该汉字字符串已被记录在习记词典9中了。
如上所述,根据该中文汉字字符转换装置及中文汉字字符转换方法,在词组片分段位置未改变的词组片部分中,或是当初始转换及确定输入期间词组片分段位置彼此相一致时,记录在习记词典9中的汉字字符串将以最高优先权被转换。其结果是,可以获得类似于传统同音词习记的优点。
当在初始转换期间词组片位置变化时,如前所述,因为包含在公共分段部分中的多个词组片在多个这些词组片组合的状态下被记录在习记词典中,因此由多个词组片构成的汉字字符串可被作为单汉字字符习语来被检索。
相应地,现在假定,当任意语音符号串被转换时具有大字符数的汉字字符串优先被转换,在当初始转换期间由单词组片构成的转换汉字字符被转换成由多个词组片及刚述的汉字字符串组成的汉字字符串的情况下,则通过类似于由单词组片构成的汉字字符串的同音词习记方式处理多个词组片构成的汉字字符串。当在第二语音符号串后输入类似的语音符号串时,由多个词组片构成的汉字字符串以最高优先权被转换而不具有传统的问题。这就是,在现有技术中,由大字符数词组片构成的汉字字符串以最高优先权被转换及然后在初始转换期间该汉字字符串被用作第一对象。
并且,该处理操作可作为一种未知词(即未记录在词典中的汉字字符)记录操作来执行。换言之,初始被转换的要输入的未知词的语音符号串被分成多个词组片,以便由单字符的单汉字字符习语来重建还未记录在字典中的汉字字符习语。在各个词组片中进行再转换,以便选择汉字字符。相应地,在类似于上述未知词的汉字字符串被确定及输出的情况下,首先被输入的语音符号串及上述未知词的汉字字符串被记录在习记词典9中。
作为其结果,当上述语音符号串被再次输入时,未记录在转换词典8中的未知词可通过基于习记词典9的一次转换被输入。
类似于上述关于汉字字符串“不动是”及“不懂事”的情况,当词组片分段位置改变时,该词组片分段位置的改变已被习记,而不用重新设置词组片分段位置。在上述否定词的汉字字符“不”位于第一字符的情况下,将通过在曾已确定/输入的汉字符串中的汉字符部分来划分词组片。其结果是,可能得到符合中文语法的更好的汉字字符转换。第一实施例的优点如前面详细描述的,在根据该第一实施例的中文汉字字符转换装置及中文汉字符转换方法中,当词组片的分段包括在确定的汉字字符串中时,能够通过词组片分段位置习记来处理多个词组片,并且对上述未知词的习记可通过与单词组片类似方式的同音词习记来处理。同时,该转换装置设置了习记词组片分段位置的功能。作为其结果,可以提高转换效率。
尤其是,因为多个词组片通过同音词习记被分批地处理,该习记方法类似于基于成功词组串之间的交叉关系的一种分析,而不分析词组片单元中的汉字字符串。作为其结果,可显著地提高转换效率。
应该指出,虽然在上述实施例中使用了无音调符号的语音符号,但作为替换,也可使用具有音调符号的语音符号。第二中文汉字字符转换装置的结构现在参照图9至13,将对根据本发明第二优选实施例的中文汉字字符转换装置及中文汉字字符转换方法进行说明。
图9概要地表示根据本发明第二优选实施例的中文汉字字符转换装置的结构。应该指示,该第二中文汉字字符转换装置是组装在例如一个计算机系统(例如,通用型计算机系统,文字处理机,计算机型排版系统,及其它系统)中的,并通过例如能输入ASCII码的键盘的使用能将中文输入到该计算机系统中。
如图9中所示,根据第二实施例的中文汉字字符转换装置由以下构成能输入中文文字的语音符号(拼音)的键输入单元10,其语音符号由字母码构成;CPU(中央处理单元)20,用于将输入的语音符号转换成相对应的中文汉字字符及输出该中文汉字字符;显示存储器30,用于在其中存储作为图象数据(字体数据)的字符形状,例如语音符号及由CPU20得出的中文汉字字符;及打印单元50,用于打印输出语音符号及由CPU20输出的中文汉字字符。该中文汉字字符转换装置还包括一个外部存储单元60,用于在其中存储由CPU20输出的数据及需要CPU20处理操作的数据,例如上述中文汉字字符及语音符号的字体数据;一个工作存储器70,用于暂时存储对于CPU20处理操作所需的数据及由CPU20得出的数据;及一个转换词典80,用于在其中记录语音符号串及与语音符号串相对应的汉字字符习语。
上述的键输入单元10相当于装有字母键的键盘。该键输入单元10能输入无重音(音调)符号的中文汉字字符的语音符号(拼音)。
键输入单元10装有各种键,例如“CONVERT”键,词组片分段位置的“CHANGE”键,确定键,利用后者可作出确定指令。工作存储器70的存储区工作存储器70在其中暂时存储对于将语音符号转换成与它对应的中文汉字字符所需的数据,并具有如图10中所示的存储区。
这就是,在该工作存储器70中设置了一个输入缓冲区IB,用于在其中存储由键输入单元10输入的语音符号串;一个检索语音符号区PY,用于在其中存储对于在输入的语音符号串中检索转换词典80所需的语音符号串部分;一个检索汉字字符串区SC,用于在其中存储基于存储在该检索语音符号区PY中的语音符号的第一对象汉字字符串;第一词组片度量区B1,用于在其中存储检索的第一词组片的汉字字符串的字符数;第二词组片度量区B2,用于在其中存储检索的第二词组片的汉字字符串的字符数;词组片度量组合存储区SK,在其中一个接一个地存储分别存储在第一词组片度量区B1及第二词组片度量区B2中的一组词组片度量;及一个确定汉字字符串区FC,用于在其中存储确定的汉字字符串。
应该理解,上述第一及第二词组片如下地确定。在从输入语音符号串的开头部分中相继连续的两个词组片中,前一个词组片被认为是第一词组片,而后一词组片被认为是第二词组片。
上述的转换词典80是一个用于用转换汉字字符的通用类型的词典,在该转换词典80中,作为汉字字符习语记录了在中文中以一定高的频繁率使用的汉字字符串,并还记录了相应于记录的汉字字符习语并用于读该汉字字符习语的语音(拼音)符号串。
并且,作为同音汉字字符习语优先次序的数据也被记录在该转换词典80中。然后利用该转换词典80可从语音符号串中检索出汉字字符习语。应该理解,在该第二实施例中,上述的汉字字符串及汉字字符习语包含由单字符构成的汉字字符。
换言之,作为单汉字字符串(汉字字符习语),由单字符构成的汉字字符也被记录在上述转换词典中。
正如下面将描述的,上述CPU20基于由键输入单元10输入的语音符号串检索转换词典80,以便将语音符号串划分成各个词组片,并将各个词组片部分转换成汉字字符串。第二转换方法接下来,现在将对由上述中文汉字字符转换装置执行的中文汉字字符转换方法进行说明。
在图11中表示了用于解释根据该第二实施例的中文汉字字符转换方法的流程图。这就是,在该实施例中,该中文汉字字符转换方法是通过将词组片分段并以转换的汉字字符串的字符数(量)的方式将语音符号转换成汉字字符的。
在该第二中文汉字字符转换方法中,首先,从键输入单元10由操作者输入指示要输入的具有任意字符数的汉字字符串读音的语音符号串(步骤A1)。
在此情况下,如图13A中所示,作为中文汉字字符串“在不知不觉中”的语音符号串“zai bu zhi bu jue zhong”被输入。
由键输入单元10输入的语音符号串被存储在如图12A中所示的输入缓冲区IB中。
存储在输入缓冲区IB中的该语音符号串的字形信息被存储到显示存储器30中,然后显示在显示单元40上,如图13A中所示。
应该指出,在图13中矩形框中的内容表示在显示单元40中显示屏上的显示内容。
接着,如图13B中所示,通过由操作者操作“CONVERT”键开始汉字转换处理。
首先,对输入语音符号串基于转换词典80进行分析(步骤A2),及作出判断,看基于词典是否将输入语音符号串转换成与它相对应的汉字字符串(步骤A3)。
如果输入了不能转换成汉字字符串的语音符号串,则转换处理操作前进到步骤A19,在该步骤上将错误输入通告操作者并随后结束该处理操作。
相反地,当输入的语音符号串能被转换成汉字字符串时,该转换处理操作前进到步骤A4。
然后,从转换词典80中检索与输入语音符号串中具有任意字符数的开始部分对应的汉字字符串(步骤A4)。
将检索汉字字符串中最长(最大字符数)的汉字字符串(最长的习语)作为第一词组片字符数使用,并将该字符数存储到第一词组片度量区B1中(步骤A5)。
在此情况下,现在假设汉字字符串“再不”相当于该最大的习语,它是从相当于语音符号串“zai buzhi bu jue zhong”的开始部分的语音符号串“zai bu”中检索出来的。
如图12A中所示,该相当于输入语音符号串的最长习语相对应的开始部分中分“zai bu”被存储在检索语音符号区PY中。该汉字字符串(在此情况下,为汉字字符串“再不”)被检索出来并被存储在检索汉字字符串区SC中,它构成了基于存储的语音符号串“zai bu”检索的同音汉字字符习语中的第一对象。
并且,上述第一词组片的字符数“2”也存储在第一词组片度量区B1中。
接着,当从输入语音符号串中去除第一词组片的语音符号串时,对是否存在剩余语音符号串作出判断(步骤A6)。
在没有剩余语音符号串,即所有输入的语音符号串均被转换成在词典中存储的单个汉字字符串的情况下,则可以判断没有必要执行一个处理操作来发现出后继两个词组片的字符数变为最大的词组片分段位置,因为仅是一个词组片构成的语音符号串被操作输入的可能性小,并且词组片分段位置不正确的可能性更小。
其结果是,如果没有语音符号串,即所有被输入的语音符号串均被转换成记录在词典中的一个汉字符号串时,该汉字字符串被确定为对象汉字字符串,并且也确定了词组片的度量(步骤A7),然后转换处理操作前进到步骤A18。
应该指出,上述的表达“确定”是表示这样的事实,即最后输入的汉字字符串没有确定,但对操作者建议的对象汉字字符串被确定作为第一对象。
作为其结果,当没有剩余词组片留下时,在已确定第一词组串的对象汉字字符串后,操作者将对该对象汉字字符串是否与要输入的汉字字符串相一致,同时该对象汉字字符串被显示在显示单元40上。
相反地,当具有剩余语音符号串时,对第一词组片字符数(即第一词组片度量)是否等于单字符作出检验(步骤A8)。
如果第一词组片度量等于单字符,则处理操作前进到步骤A7,其方式类似于上述没有剩余语音符号串的情况。
然后,第一词组片的度量被确定为单字符,接着将可构成具有单字符的第一对象的汉字字符确定为对象汉字字符串。
还应该指出,对处理两个词组片的最大字符数的处理操作的执行应该避免这样一个问题。这就是,要输入的汉字字符串的第一正确词组片的度量等于单个字符时,第一词组片的度量,用类似于处理一个词组片的最大字符数的处理操作时,将变得大于两个字符。在通过上述处理操作第一词组片度量变为单字符的情况下,因为对于处理两个词组片的最大字符数的处理操作不需要再被继续,该处理操作前进到步骤A18。
对于上述语音符号串“zai bu zhi bu jue zhong”,因为第一词组片的汉字字符串被识别为“再不”,存在着剩余的语音符号,及第一词组片的字符数等于“2”,处理操作前进到步骤A9。
然后,当第一词组片的度量不等于单字符时,则基于具有除第一词组片外的剩余语音符号串的任意长度的开始部分检索转换词典80(步骤A9)。
于是,将具有在检索汉字字符串中最大字符数(最长习语)的汉字字符串的字符数识别为第二词组片的字符数,然后将该字符数存储到第二词组片度量区B2中(步骤A10)。
在该实施例中,假定从除去语音符号串“zai bu”后的语音符号串“zhi bu jue zhong”的开始部分所对应的语音符号串“zhi bu”中,检索出的最长习语对应为汉字字符串“支部”。
如图12B中所示,与输入语音符号串的最长习语相对应的开始部分“zhi bu”被存储在检索语音符号区PY中。汉字字符串(在此情况下,为汉字字符串“支部”)被检索出来并与另一个汉字字符串“再不”一起存储在检索汉字字符串区SC中,“再不”是基于存储的语音符号串“zhi bu”检索出的同音汉字字符习语中构成第一对象的汉字字符串。
并且,上述第二词组片的字符数“2”被存储在第二词组片度量区B2中。
然后将第一及第二词组片的词组片度量(B1,B2)存储到词组片度量组合存储区SK中(步骤A11)。
在此情况下,如图12C中所示,词组片度量“2,2”被存储在词组串度量组合存储区SK中。
接着,从第一词组片的词组度量(B1)中减去1,及将结果数值设置为第一词组片的度量(步骤A12)。
然后,作出检验,看新的第一词组度量是否等于“0”(步骤A13)。
应该指出,因为在该实施例中已忽略了第一词组片的度量为单字符的情况,故该第一词组片的度量不等于“0”。但是,由于上述步骤A12的处理操作将被重复地执行,第一词组片的度量最后将变为“0”。
并且,在该实施例中,第一词组片被置为汉字字符串“再不”,及第一词组片的度量被选择为“2”,因此第一词组片度量变成“1”。
然后,当该第一词组片的度量不等于“0”时,从转换词典80中检索汉字字符串,它相应于具有输入语音符号串的任意长度的开头部分,其度量等于第一词组片的度量。
接着,检验是否已从转换词典80中能检索出具有上述状态的汉字字符串(步骤A15)。
如果不能检索出这样的汉字字符串,则处理操作返回到步骤A12。而且重复进行步骤A12后规定的处理操作,在步骤A12上将从第一词组片度量中减去1。
在此情况下,假定汉字字符“在(zai)”可以作为具有与上述语音符号串“zai bu zhi bu jue zhong”的开头部分相应的单字符的汉字字符习语被检索出来。
如图12C中所示,将与输入语音符号串的第一词组片度量(1)相对应的开头部分“zai”存储到检索语音符号区PY中。汉字字符串(在此情况下,为汉字字符“在”)被检索出来并存储到检索汉字字符串区SC中,它构成了基于存储语音符号串“zai”检索出的同音汉字字符习语中的第一对象。
并且,上述第一词组片的字符数“1”被存储在第一词组片度量区B1中。
然后,如前所述,当具有该条件的汉字字符串可从转换词典80中被检索到时,处理操作被返回到步骤A9,以便检索第二词组片。于是,将重复执行在步骤A9后规定的处理操作。
这就是,在步骤A9上,从转换词典80中检索汉字字符串,它相应于具有除第一词组片“zai”外的剩余语音符号串“bu zhi bu jue zhong”的任意长度的开头部分。
接着,在步骤A10上,使用检索的汉字字符串中最大字符数的汉字字符串(最长习语)作为第二词组片的字符数,并将该字符数存储在第二词组片度量区B2中。
在该情况下,现在假定,汉字字符串“不知不觉”相当于从与语音符号串“bu zhi bu jue zhong”的开头部分相应的语音符号串“bu zhi bujeu”中检索出的最长习语。
如图12D所示,与输入语音符号串的最长习语相对应的该开头部分“bu zhi bu jue”被存储在检索语音符号区PY中。汉字字符串(在此情况下,为汉字字符串“不知不觉”)被检索出来并与汉字字符“在”一起存储在检索汉字字符串区SC中,它构成了基于存储语音符号串“bu zhi bu jue”检索出的同音汉字字符习语中的第一对象。
并且,上述第二词组片的字符数“4”被存储在第二词组片度量区B2中。
然后,在步骤A11上,该新的第一及第二词组片度量(B1,B2)被附加地存储到词组片组合存储区SK中。
在此情况下,如图12D中所示,“1,4”附加于第一量度“2,2”地被存储在词组片组合存储区SK中。
接着,在步骤A12上,从第一词组片度量中减去1。
在此情况下,因为第一词组片等于汉字字符“在”,及词组片度量等于1,当从该词组片度量中减去1时,第一词组片度量则变为“0”。于是,处理操作前进到步骤A16。
应该指出,当第一词组片度量不等于0时,上述的处理操作将再重复地执行。
然后,对第一及第二词组片度量作出计算,它们的总和度量变成记录在词组片组合存储区SK中第一及第二词组片度量中的最大值。基于该计算的第一及第二词组片度量,确定出第一词组片的对象汉字字符串的字符数及第二词组片的对象汉字字符串的字符数(步骤A16) 。
在此例中,在“再不支部”情况下,第一词组片度量及第二词组片度量之和等于2+2=4,而在“在不知不觉”情况下,第一词组片度量及第二词组片度量之和等于1+4=5。
相应地,由于第一词组片度量及第二词组片度量之和为5的情况相应于最大的词组片度量,其第一词组片度量被置为“1”及第二词组片度量被置为“4”。
接着,在上述第一词组片及第二词组片中,对汉字字符串作出选择,看谁的优先权等级在转换词典中在与具有确定词组片度量的上述语音符号串相应的汉字字符串中为最高优先权级。然后,将选择出的汉字字符串确定为对象汉字字符串(步骤A17)。
在此情况下,因为上述汉字字符串“在不知不觉”是对于上述词组片度量中第一词组片及第二词组片的第一对象,该汉字字符串“在不知不觉”被确定为对于第一及第二词组片的对象汉字字符串,并然后被存储到确定汉字字符串区FC中,如图12D中所示。
然后,作出判断,看在第一词组片及第二词组片中是否还剩留语音符号串(步骤A18)。
接着,当还剩余语音符号时,处理操作返回到步骤A4,在该步骤上对于输入语音符号串执行类似于上述处理操作的处理操作。
相反地,当无剩余语音符号串时,假定所有包括在输入语音符号串中的所有词组片的词组片度量及各个词组片的对象汉字字符串已被确定,则处理操作前进到步骤A18。
应当指出,当无剩余语音符号串时,在步骤A6上,对所有输入语音符号串是否已转换成单个汉字字符串并且已无剩余语音符号作出判断。在步骤A7上,确定第一词组片的词组片度量及对象汉字字符串,然后处理操作前进到步骤A18。
在此情况下,第一及第二词组片的词组片度量及输入语音符号串“zai bu zhi bu jue”的对象汉字字符串均已被确定。换言之,在上述语音符号串中的语音符号串“zai bu zhi bu jue”已被确定,而留下另外的语音符号串“zhong”。
作为其结果,处理操作返回到前面步骤A 4。
然后,在步骤A4上,从转换词典80中检索与具有语音符号串“zhong”的任意长度的开头部分相对应的汉字字符串。
在此情况下,假定对于语音符号串“zhong”检索出汉字字符“中”,而具有的字符长于该一个汉字字符的汉字字符串未被检索到。
在该情况下,如图12E中所示,确定了汉字字符“中”并将该汉字字符“中”与上述的汉字字符串“在不知不觉”相组合作为另一汉字字符串“在不知不觉中”存储在确定汉字字符串区FC中。
然后,在步骤A18上也不具有剩余语音符号串,因此处理操作前进到步骤A19。
接着,在包含在输入语音符号串中的所有词组片的词组片度量及各词组片的对象汉字字符串均已确定的情况下,如图13B中所示,该对象汉字字符串被显示在显示单元40上(步骤A19)。
然后,当显示的对象汉字字符串与要输入的汉字字符串相一致时,操作者确定该显示的对象汉字字符串,由此实现了汉字字符串的输入。
应该理解,当对象汉字字符串与要输入的汉字字符串不相一致时,需要从相对每个词组片的另外汉字字符串中检索主观要输入的汉字字符串,或者改变词组片位置来执行转换操作。第二转换方法的优点如上面详细描述的,根据该第二实施例的中文汉字字符转换装置及中文汉字字符转换方法,当对于输入语音符号串确定转换汉字字符串的词组片时,该词组片以这样的方式来确定,即开头词组片的词组片度量及第二词组片的词组片度量的和值变为最大值。相应地,具有较大的可能性,即第一词组片不总是等于基于词典中检索出的汉字字符串构成的最大词组片,而第一词组串变成由具有单词组串的汉字字符串构成的单汉字字符习语。
在中文语法中,具有许多这样的情况,被安排在一个句子的第一词组片中的一种单汉字字符习语作为构成主语的各词,另一种单汉字字符习语作为前置词,再一种单汉字字符习语作为否定词,又一种单汉字字符习语作为修饰词。
然而,根据传统的转换方法,当从词典中检索对应于输入语音符号串的开头部分的汉字字符串时,具有较大的可能性,即在句子的第一词组片上检索出具有多于两个字符的汉字字符串。
相反地,根据该第二实施例,如前所述,因为第二词组片的长度是与第一词组片一起被分析的,即使具有带单字符的单词组片的汉字字符串及具有多于两个字符的汉字字符串均可被检索时,还具某些可能性,即当第一词组片由单字符组成时,如果在第二词组片上较长的汉字字符串可被转换的话,则第一词组片可成为具有单字符的汉字字符串。
较具体地,在第一词组片不能被正确地设成输入语音符号串中根据中文语法具有单字符的词组片的情况下,因为第一词组片由单字符构成,第二词组片的起始位置可以相应于正确位置。然后,具有某些可能性,即记录在词典中的符合语言习惯的较长汉字字符串将设置在第二词组片中。相反地,当第一词组串由多于两个字符组成时,第二词组片的起始位置将构成错误位置,因此具有小的可能性,即在词典中记录了相应的长汉字字符串。而具有大的可能性,即检索出短的汉字字符串作为第二词组片的对象汉字字符串。
另一方面,在第一词组片正确地设成输入语音符号串中根据中文语法具有单字符的词组片的情况下,则在当第一词组片由单字符构成时的第一词组片度量及第二词组片度量的一个和值与当第一词组片由多于两个字符构成时的第一词组片量度及第二词组片度量的另一和值之间作出比较。作为比较结果,具有大的可能性, 即当第一词组片由单字符构成时,第一及第二词组片度量的和值变大。
其结果,具有较大可能性的是,当第一词组片是按照中文语法由单字符构成的时,如果使用了本发明的第二实施例的中文汉字字符转换方法,则第一词组片由单字符构成。
从以上的说明中可以明显看出,根据该第二实施例的中文汉字字符转换方法/装置可具有这样的优点,即与传统的汉字字符转换方法/装置相比较,可以改善字符转换效率。这是因为当第一词组片由单字符组成及语音符号串被正确地输入时,不会出现这样的情况即第一词组片由多于两个字符组成,并造成低的转换效率。
此外,根据该第二实施例的中文汉字字符转换方法/装置的另一优点,可以避免传统的中文汉字字符转换方法/装置中的问题。这就是,在现有技术中,虽然第一词组片应正确设置成单字符,但第一词组片作成由多于两个字符组成,然后,如前所述,将会输出错误的对象汉字字符串。为了使该对象汉字字符串与要输入的汉字字符串相一致。就需要新的词组片段位置,这将会延长汉字字符的输入处理。但是,该第二实施例可解决传统问题,因此可最终提高汉字字符的输入速度。
应该理解,虽然在该第二实施例中是使用的无音调符号的语音符号,但也可替换地使用具有音调符号的另一种语音符号。
权利要求
1.一种用于中文汉字字符转换装置中的基于词典将输入语音符号串转换成与它相对应的汉字字符串的中文汉字字符转换方法,该中文汉字字符转换装置包括输入装置,用于输入指示汉字字符串发音的语音符号串;及词典,用于在其中记录语音符号串及与它对应的汉字字符串,所述转换方法包括输入步骤,用于输入所述语音符号串;输出步骤,用于根据所述输入语音符号串检索所述词典并用于将所述输入语音符号串转换成相对每个词组片的汉字字符串,由此输出对象汉字串;指令步骤,用于指令词组片分段位置的改变;转换步骤,用于响应改变指令来改变分段语音符号串用的词组片分段位置,并基于改变的词组片分段位置将所述语音符号串换成汉字字符串;记录步骤,用于当发出了指令以确定转换的汉字字符串时对应于所述转换汉字字符串及所述词组片分段位置信息将所述输入语音符号串记录到所述词典中;及再输出步骤,用于当将记录在所述词典中的语音符号串输出时,再次输出与所述输入语音符号串对应的所述汉字字符串,作为对象汉字字符串。
2.根据权利要求1所述的中文汉字字符转换方法,其中在所述再输出步骤中,当输入记录在所述词典中的语音符号串时,相应于所述输入语音符号串的所述汉字字符串在这样的条件下作为对象汉字字符串被输出即所述语音符号串在记录在所述词典的所述词组片的分段位置上被划分。
3.根据权利要求1所述的中文汉字字符转换方法,其中在所述记录步骤中,当所述输入的语音符号串对应于转换的汉字字符串被记录在所述词典中时,在对象汉字字符串中在它们的词组片分段位置改变前与所述转换的汉字字符串的词组片分段位置相一致的词组片分段位置被用作公共分段位置;所述输入语音符号串及所述转换的汉字字符串均在所述公共分段位置上被划分;所述语音符号串,所述汉字字符串及所述词组片分段位置信息对于每个分段部分彼此对应地被记录在所述词典中。
4.一种中文汉字字符转换装置,用于向其中输入指示汉字字符串的语音符号串及用于将输入的语音符号串转换成汉字字符串,它包括词典,用于在其中对应所述汉字字符串记录所述语音符号串;输入装置,用于输入所述语音符号串;转换装置,用于基于所述输入语音符号串检索所述词典并将所述语音符号串转换成相对每个词组片的汉字字符串,以便由此输出对象字符串;指令装置,用于指令词组片分段位置的改变;确定装置,用于指令对所述转换的汉字字符串的确定;及习记装置,用于使所述输入的语音符号串与确定的汉字字符串相对应地记录在所述词典中,其中在由所述确定装置作出确定期间,所述习记装置将多个词组片构成的汉字字符串作为单个汉字字符串记录在所述词典中;及当所述输入语音符号串基于所述词典转换成汉字字符串时,在相应于输入语音符号串的汉字字符串被所述习记装置记录到所述词典中的情况下,所述转换装置优先地输出所述记录的汉字字符串。
5.根据权利要求4所述的中文汉字字符转换装置,其中当由所述多个词组片构成的汉字字符串作为单个汉字字符串被记录到所述词典中时,所述习记装置将所述汉字字符串及它的词组片分段位置输入到所述词典中;及当所述输入语音符号串被转换成由多个词组片构成的汉字字符串时,所述转换装置使所述汉字字符串成为在所述词典中对应所述汉字字符串记录的词组片分段位置上的分段状态。
6.根据权利要求4所述的中文汉字字符转换装置,其中所述习记装置将这样的词组片分段位置,即当所述转换装置第一欠转换期间的词组片分段位置与由所述确定装置确定的汉字字符串的词组片分段位置相一致的词组片分段位置,设置成公共分段位置;将确定的汉字字符串在所述公共分段位置上分段;及接着将所述语音符号串,所述汉字字符串及所述词组片分段位置信息相对每个分段部分彼此对应地记录到所述词典中。
7.一种用于中文汉字字符转换装置中的基于词典将输入语音符号串转换成与它相对应的汉字字符串的中文汉字字符转换方法,该中文汉字字符转换装置包括输入装置用于输入指示汉字字符串发音的语音符号串;及词典,用于在其中记录语音符号串及与它对应的汉字字符串,所述转换方法包括下列步骤输入所述语音符号串;在离开头部分的任意词组片分段位置上将所述输入语音符号串分段,从所述词典中检索对应于分段语音符号串的第一汉字字符串,及从所述词典中检索与剩余语音符号串对应的第二汉字字符串,该剩余语音符号串是从所述输入语音符号串中减去与所述第一汉字字符串对应的语音符号串部分获得的;及当检索到所述第一汉字字符串及所述第二器字字符串之间的多个组合组时,以这样的方式从所述多个组合组中选择词组片的分段位置,即使得由所述第一字符符号串的字符数及由所述第二汉字字符串的字符数获得的总字符数变得最大,及将基于选择的词组片分段位置转换的第一及第二汉字字符的组合作为对象汉字字符串输出。
8.一种中文汉字字符转换装置,用于向其中输入指示汉字字符串的语音符号串及用于将输入的语音符号串转换成汉字字符串,它包括词典,用于在其中对应所述汉字字符串记录所述语音符号串;输入装置,用于输入所述语音符号串;转换装置,用于基于所述词典将所述输入语音符号串转换成相对每个词组片的汉字字符串,以便由此输出所述转换的汉字字符串;其中当要被转换的汉字字符串由多个词组片构成时,以这样的方式来改变词组片分段位置,即使分别转换的第一汉字字符串的字符数及第二汉字字符串的字符数的和值变为最大,并且从所述输入语音符号串的开头开始相继连续的第一词组片及第二词组片被用作分段。
全文摘要
在中文汉字字符转换方法及装置中,语音符号串被输入及每词组片地被转换成汉字字符串,然后作为对象字符串输出。当所需的字符串不同于输出的对象字符串时,则改变词组片分段位置,然后语音符号串在改变的分段位置上被转换成汉字字符串。将确定的汉字字符串对应于语音符号串及词组片分段位置记录到习记词典中。当输入记录在习记词典中的语音符号串时,习记在习记词典中的汉字字符串将在以记录的词组片分段位置分段的情况下被显示出来。
文档编号G06F17/28GK1152148SQ96107169
公开日1997年6月18日 申请日期1996年6月24日 优先权日1995年6月23日
发明者王斌 申请人:卡西欧计算机公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1