中文汉字变换方式的制作方法

文档序号:6405522阅读:281来源:国知局
专利名称:中文汉字变换方式的制作方法
中文汉字变换方式本发明是一种可以应用于中文电子计算机或中文文字处理机等方面的中文汉字变换方式,特别是一种能使中文拼音音码输入的音节串自动变换成汉字词串的中文汉字变换方式。
作为中文输入方式,已有一种以省略声调的拼音音码输入音节串的技术。例如,日本电气公司和中国科学院计算技术研究所·中国科学院广州电子技术研究所合作开发的、1988年1月29日通过中国政府国家技术鉴定的“MC式中文输入系统”(见1988年2月1日《人民日报》)便是如此。该中文输入系统采用声母韵母双拼左右交替两打方式,以音节为单位输入中文词音,可以高速度地进行输入。
该中文输入系统采用的是可将输入的音节串自动变换成汉字词的中文汉字变换方式。该中文汉字变换方式包含两个部分,一是以中文词音为索引存储各个词音的汉字词的词典,二是能响应输入从词典存储的汉字词中调出其中之一的处理装置。这里的词音是指中文中各个单词的“读音”。该处理装置使用的是一种和日文文字处理机使用的最长一致法相同的方式。所谓最长一致法就是利用语言学上所讲的日语的“粘着语”的特征对音节串自动进行适当词音分割的方法。因而,在日文文字处理机中,最长一致法做出了很大贡献,它使变换键的使用次数即借助人力对音节串进行分割的次数大为减少。
但是,中文属于语言学上所讲的“孤立语”,采用最长一致法或其他类似方式,就会产生许多音节串词音分割失当的问题。于是,上述中文汉字变换方式中的汉字变换准确度必然不能令人满意。
也许可以在输入作业时频繁使用变换键进行词音分割,从而到提高汉字变换准确度的目的,但是中文是以汉字罗列的形式构成的,词与词之间的分割点很难明确,所以借助人力进行音节串分割尚有困难。
本发明的目的在于要提供一种能以相当高的准确度自动将中文拼音音码形式输入的音节串变换成汉字串的中文汉字变换方式。
本发明的另一个目的是要提供一种经过短时间处理便能自动将中文拼音音码形式输入的音节串变换成汉字串的中文汉字变换方式。
本发明是一种中文汉字变换方式,其中包含两个部分,一是以中文的词音为索引存储各个词音的汉字词的词典,二是能调出该词典存储的汉字词之一的处理装置。
本发明的特征如下
上述词典含有一个能以汉语词音为索引,根据上述汉字词的词音,存储单音节词音及双音节词音频级的频级存储装置。上述处理装置则包括词音·频级检索装置、词音·频级存储装置、最优词音分割生成装置以及汉字词检索装置。
上述词音·频级检索装置能根据业已输入的音节串中刚刚输入的单音节词音,检索上述词典的频级存储装置并调出该单音节词音的频级;同时还能根据该单音节词音同在它前面输入的单音节词音这两个单音节词音音节构成的双音节词音,检索上述词典并调出该双音节词音的频级。
上述词音·频级存储装置能存储上述两个单音节词音各自的词音和频级,以及上述双音节词音的词音和频级。
当检索不出上述双音节词音时,就将上述刚刚输入的单音节词音的前面视为节点。在上述刚刚输入的单音节词音前面输入的音节串中,该节点同前面已经得到的节点之前便构成一个信息处理句。上述词音·频级调出装置的作用是从上述词音·频级存储装置中调出该信息处理句中的单音节词音和双音节词音的词音和频级。
上述最优词音分割型生成装置能根据上述信息处理句中单音节词音和双音节词音组合而成的各个分割型,求出构成各个分割型的单音节词音和双音节词音的频级总和,并根据该总和生成上述信息处理句的最优词音分割型。
上述汉字词检索装置能根据上述最优词音分割型分割出来的各个词音,检索上述词典,调出以该词音为索引的汉字词之一。
采用本发明可以获得一种能高准确度地、高响应速度地将中文拼音音码形式输入的音节串自动变换成汉字的中文汉字变换方式。


图1为说明本发明原理的时间图。
图2表示例句词音串上的各个词音及其信息量。
图3表示图2中的词音串的网络(1)·(2)和汉字变换结果(3)。
图4表示本发明的中文汉字变换方式的方块图。
图5为图4中的中文汉字变换方式所包含的各个存储装置的存储内容一览表。
图6表示音节输入序号从1到7时可能出现的词音分割型。
图7表示对图2的词音串进行词音分割处理的一个实例说明。
图8表示词音分割型的树形结构。
图9(1)表示对词音串进行词音分割处理的另一实例说明。
图9(2)表示与图9(1)的词音分割处理同步进行的词音汉字变换处理的说明。
图10为词音分割型一览表。
图11(1)·(2)表示对准节点的说明。
图12为正分割型一览表。
图13为音节输入时分割型生成过程说明图。
图14为正分割型生成过程说明图。
图15为词音分割型随着音节输入序号的前进而发生变化的说明图。
图16表示与正分割型的词音信息处理同步进行的汉字变换过程说明图。
图17(a)·(b)表示由本发明的其他实例所体现出来的中文汉字变换方式流程图。
首先说明发明原理。这里将“语言统计资料中的词音音节出现频率”简称为频率。如果设某个词音的音节数为m,语言统计资料中的频度为n,统计对象的总音节数(总汉字数)为N时,则频率P为P=(m×n)/N下面,N采用北京语言学院编写的“现代汉语频率词典”的统计对象音节数,以N=1,807,398来加以说明。
词音信息量I可用下列公式表示I=-logaP这里,对数的底为任意正实数。下面,设对数的底为2,频率P的对数简记为logP。于是得出I=-logP实际使用I时,小数点以后可以舍去,使之成为整数,这即为频级。
下面举具体例子说明。
根据北京语言学院《现代汉语频率词典》表一“按字母序列排列的频率词表”中的词出现频度资料,属于词音jishu的双音节词及其频度为词技术记述奇数基数积数级数合计频度50921000602次P=(m×n)/N=(2×602)/1807398=0.0006662I=-logP=10,608→10(级)即词音jishu的频级为10级。
用同样计算,可以得出词音ji的频级为8级,词音shu的频级为9级,词音xing的频级为9级,词音jishu的频级为10级,词音shuxing的频级为18级。
利用这些资料可以画出图1所示的词音频级网络。在图1中,词音下面的数值为各自的频级。
从开始到结束的路径有下述三条,路径上的频级和分别如下路径词音串频级和计算频级和(1)ji/shuxing8+18=26(2)ji/shu/xing8+9+9=26(3)jishu/xing10+9=19其中,路径(3)的频级和最小。也就是说,这个词音串的词音分割,是对该音节串概率最高的词音分割。这个结果同现代汉语的情况完全一致。
图2分别表示着例句音节串上可能存在的单·双音节词音的词音、频率、频级和汉语词汇。
例句这种中文输入系统具有许多优点音节串zhezhongzhongwenshuruxitongjuyouxuduoyoudian下面参照图3继续说明。字母序列a到n表示单音节词音。中心横线上边和下边的两个字母序列的组合表示双音节词音。另外,这些单音节词音和双音节词音下边所加的数字表示频级。
所谓“词音信息处理句”,指的是有可能实行词音信息分割的音节串。这里,“非词音信息处理句”指的是没有必要从词音变换成汉字词的“非变换句”,指的是阿拉伯数字、罗马字、纯粹汉语数字和标点符号等等。举个例子来说,这里的纯粹汉语数字指的是“二十九号”中的“二十九”之类。“一般”“一定”“专一”中的“一”则视为词的一部分,不作纯粹汉语数字处理。至于三个音节以上的词音则和词音信息句分开处理,使用众所周知的方式变换成汉字,这里不再具体说明。
同时,符合下述(1)至(4)定义条件的各点分别称做“节点”。
(1)信息处理句和非信息处理句的连接点位置(2)句首位置
(3)信息句中的某个单音节词音音节同其前面的单音节词音音节不能构成双音节词音时,该两个单音节词音之前的位置从这些节点来考虑,图3(1)中的词音串便可以分为四个词音信息处理句。
图3(2)表示依据图3(1)的词音串所做的词音频级网络。在这个词音频级网络中,黑线表示频级和最小的路径。
图3(3)表示根据图3(2)的词音频级网络上的黑线对例句实行词音分割及同音词选择后的汉字变换结果。通过同音词选择,从图2中的单音节和双音节的各个同音词词汇(按频级顺序排列)中选出了频级最大的词。
从图3(3)来着,唯独对词音b即zhong的汉字变换没有浠怀芍闭返摹爸帧保浠怀闪恕爸小保簿褪撬捣⑸送舸蚀砦蟊浠幌窒蟆5牵诖室舴指罘矫嫒慈〉昧送耆返慕峁 图4表示根据本发明的第一个实例进行的中文汉字变换方式的方块图。这个中文汉字变换方式应用了上述原理,包含词典1。词典1以中文的词音为索引存储着各个词音的汉字词。词典1含有一个频级存储装置。频级存储装置部分以中文的词音为索引存储汉字词词音中的单音节词音和双音节词音及其频级。具体来说,词典1存有下列(1)至(3)的数据(1)以音节为单位记述的词音索引(2)各个词音的频级(3)各个词音相应的同音汉字词汇(用国标信息交换用汉字编码字符即汉字代码记述)例(1)词音索引jishu(2)频级10
(3)词汇(区位)28284285(技术)28394286(记述)38704293(奇数)……另外,该中文汉字变换方式还包含一个能调出词典1所存储的汉字词之一的处理装置。正如下面依次所做的说明那样,这个处理装置包含词音·频级检索装置2、词音·频级存储装置3、词音·频级调出装置4、最优词音分割型生成装置6、和汉字词检索装置7。
词音·频级检索装置2在音节从键盘等音节输入装置11输入时,能从词典1中检索出下列(1)至(6)的数据,并将其送入词音·频级存储装置。
(1)该音节的单音节词音RS(u)(2)RS(u)的频级IS(u)(3)当u为2以上时是否存在连接RS(u-1)和RS(u)的双音节词音RD(u)(不过,不存在RD(u)时,无RD(u)的标志送入词音·频级调出装置4)(4)存在RD(u)时的RD(u)和频级ID(u)(5)当u为4以上时,是否存在连接RS(u-2)、RS(u-1)和RS(u)的三音节词音RT(u),存在时的RT(u)(6)当u为4以上时,是否存在连接RS(u-3)、RS(U-2)、RS(U-1)和RS(u)的四音节词音RQ(u),存在时的RQ(u)。
(这里所做说明的前提是词典1中不存储u在5以上的词。在中文里,五音节以上的词,大都是由四音节以下的词音合成的。例如,技术表演赛=技术+表演+赛,或者,=技术+表演赛。所以,u>4的词音不必存入词典)当不存在RT(u)和RQ(u)时,标志送入词音·频级调出装置4;当存在时,词音RT(u)或RQ(u)送入词音·频级存储装置3。当存在RQ(u)时,RT(u)、RD(u)、RS(u)、ID(u)和IS(u)不能送入词音·频级存储装置3。当存在RT(u)时,RD(u)、RS(u)、ID(u)和IS(u)不能送入词音·频级存储装置3。
词音·频级存储装置3的存储内容如下,具体参见图5的方块图编号3栏。
单音节词音RS(u)和频级IS(u)双音节词音RD(u)和频级ID(u)三音节词音RT(u)四音节词音RQ(u)词音·频级调出装置4也可视为节点判断装置,它能判断下面将要提到的节点,并进行下述处理(1)经过词音·频级检索装置2的检索,如果不存在词音RQ(u)或RT(u)时,便进行下述处理1)不存在RD(u)时将RS(u)词音音节前面的点判定为节点,将音节输入序号复位为1。进而实施将RS(u)变为RS(1)、将IS(u)变为IS(1)的处理。
2)存在RD(u)时将RS(u)、IS(u)、RD(u)和ID(u)的内容从词音·频级存储装置3送入最优词音分割型生成装置6。
(2)经过词音·频级检索装置2的检索,如果存在词音RQ(u)或RT(u)(RQ(u)优先检索出来)时,便进行下述处理1)存在RQ(u)时将输入序号为RS(u-3)的音节前面作为节点所在位置处理。也就是说,认定从输入序号1到(u-4)的这(u-4)个音节串仅仅是由单音节词和双音节词构成的,从序号(u-3)到u的四个音节则是词音RQ(u)的词,并依此进行以后的处理。
2)不存在RQ(u)却存在RT(u)时将输入序号为(u-2)的音节前面作为节点所在位置处理。也就是说,认定从输入序号1到(u-3)的(u-3)个音节的音节串仅仅是由单音节词和双音节词构成的,从输入序号(u-2)到u的三个音节便是词音RT(u)的词,并以此进行以后的处理。
概括起来说,就是当检索不出双音节词音时,就认定刚刚输入的单音节词音的前面为节点。于是,在这个刚刚输入的单音节词音以前输入的音节串里,上述节点和那以前已经得到的节点之前便构成一个处理句。词音·频级调出装置4的作用便是要从词音·频级存储装置3中调出上述处理句中单音节词音和双音节词音的词音和频级。最优词音分割型生成装置6则以一个特定的“信息处理句”为对象,对该信息处理句的音节串生成最优词音分割型,并送入汉字词检索装置7和最优词音分割型存储装置8中去。最优词音分割型生成方法待后面再作说明。
汉字检索装置7可以从最优词音分割型生成装置6接受最优词音分割型数据,并以分割开来的各个词音为索引,检索存储在辞典1中的汉字词汇。而且能索引汉字词汇中的同音词,选定据认眼下最为接近实际的汉字词,并将选定的各个汉字词连接起来以汉字串形式送入下一段处理装置。汉字串送入汉字串存储装置和文件存储装置12。
另外,从同音词中选定最优汉字词的技术还有其他方式,例如利用词的统计频度的方法和所谓“自学式词排列”方法等等。这些方式是日本文字处理机上已广泛应用的众所周知的技术,这里不再说明。
此外,当词音·频级检索装置2判定存在RQ(u)或RT(u)时,输入序号倒回4或3时的最优词音分割型的词音串必须同四音节词音RQ(u)或三音节词音RT(u)连接起来。所以,有必要将输入序号从(u-1)到(u-4)时的最优分割型保存下来。最优词音分割型存储装置8便具有这种功能。
最优词音分割型存储装置8和汉字串存储装置9的存储内容详见图5中的方块序号8和9栏。
现在说明图4所示的最优词音分割型生成装置6的功能和作用。
如前所述,所谓最优词音分割型是指对词音串进行分割而得到的各个词音的频级和为最小值的型。
发现一种能找出任意音节串的最优词音分割型的合理而简洁的方法,是具体实现词音信息处理法的关键。下面讲解两种方法。第一种方法叫做“登记计算法”,就是把可能出现的全部词音分割型数值化,预先登记下来,每次输入音节都依各个分割型把频级代入词音计算频级和,并对各个频级和进行比较,从中找出具有最小频级和的最优分割型。第二种方法叫做“逐步生成法”,就是依照音节的逐次输入连续生成最优分割型。
《登记计算法》图6表示音节输入序号u从1到7时可能出现的全部词音分割型。不过,是假设词音只有单音节和双音节两种。图中,各个音节按输入顺序用abc等罗马字表示,词音分割用“/”表示。但是,这里的罗马字同图2和图3中表示例句各个音节的罗马字没有直接关系。T(u)是二进形式的词音分割型。关于T(u)的含义,举例来说,如果图5中u=5时第1行的词音分割型ab/cd/e则为二进制的10101。可以列成下表对照一下词音分割型ab/cd/e二进位数T10101T最前头的1表示音节串的开头。下面,二进位数0表示音节之间不存在词音分割,二进位数1表示存在词音分睢的末尾既没有1也没有0,这表示现在还不能确定下一个音节f输入之后e会构成词音ef还是e/f。
这种T(u)称为“分割型变量”。使用T(u)的话,能够简洁地记述信息句的分割型,同时能把各个u的各个T(u)登记在图4所示的词音分割型存储装置8中去。每当有音节输入时,图4所示的最优词音分割型生成装置6便会作为频级和计算装置开始工作,分别计算出构成现在的u的各个分割型的各个词音串的各个词音的频级和∑I,进而又作为分割型决定装置开始工作,把各个∑I中具有最小值的型作为最优分割型求出。
图7表示用登记计算法所做的处理实例。例句同图3一样,是“zhezhongzhongwenshuruxilong”(这种中文输入系统)。图中黑线所示的分割型是各个u时的最优分割型。正确的词音分割应当是“zhe/zhong/zhongwen/shuru/xitong”,可见上述分割取得了完全正确的结果。图7最下一行表示各个音节输入序号的词音汉字变换结果。汉字变换变成了同音词中具有最高统计频度的汉字词。从最后u等于8时的结果来着,zhong没有变成“种”,而是误变为“中”了,除此之外,没有其他同音错误。
《逐步生成法》图8表示U为1至6的任意之一时,容许词音信息处理对象的词音音节长到6为止时可能出现的全部分割型。需要处理的项量M同音节输入序号U的关系为M=2U-1。按各个U把全部词音都是由单音节词音构成的词音串(例如U为6时则为a/b/c/d/e/f)放在最上边一行把音节数(等于音节输入序号)为U的词音仅仅一个的词音串(例如U为6则为abcdef)放在最下边一行,再按下述规律依次变换中间的词音串分割型,便可得到此表。
在图8当中,从U为1时的词音串“a”开始,依次由左向右,同时自上而下,沿箭头所指方向看去,便可以理解当每次音节输入时,可能存在的音节数的全部词音存在时,词音分割型的形式是怎样有组织地生成出来的。正如本图所示,全部词音分割型构成了一个秩序井然的“词音分割型树形构造”(图中,标记+d、+de等不表示输入d、de,表示各个分割型依次变化的经过)。
在一个具有U个音节的分割型中,末尾以p音节词音结束的型的数量q为2U-p-1(但是q要大于0)。例如,在六个音节数的分割型里,以二音节词音结束的型为q=8。在图8中,当U=6、p=2时,q=8个的型连续排列在a/b/c/d/ef之下,它们全都是在U=4型的各个末尾加上双音节词音ef而得出来的。所以,如果已经找到一个同U=4时的8个型相应的最优型,那么在以U=6之ef结束的8个型中显示最小频级和的型便只有一个,那就是在U=4时的最优型上加上ef。最终都能决出唯一一个型,这种情况对任意U和任意p都是普遍成立的。例如,在U=7的型当中,以f结束的型当中的最优型是在U=5的最优型上加上f;以def结束的型当中的最优型是在U=3的最优型上加上def;以cdef结束的型当中的最优型是在U=2的最优型上加上cdef。因此,对整个“词音分割型树形构造”可以得出下列结论如果U从1开始,U每增加1,便逐步去求一次最优分割型,那么只要从必要的词音音节数同等数量的最优候选型中选择频级和最小型即可。
因而,可得出下述极为简单明确的结论,即如果p=4(因为对中文进行语言处理时,把一个词的音节数最大定为4便足够了),那么U为1至3时可以从U个候选型中选拔出频级和最小的一个型作为最优分割型,U若不小于4时可以从4个候选型中选拔出频级和最小的型作为最优分割型。
图9(1)表示p为4,N为1至6时进行的四者择一式最小频级和型选拔处理算法。图中各个数组变量的定义如下IS、ID、IT和IQ分别表示以刚刚输入的音节为末尾的单音节、双音节、三音节和四音节词音的频级;PS、PD、PT和PQ分别表示以单音节、双音节、三音节和四音节词音结束的具有各自最小的频级和的各个词音串的频级和;P为这四个词音串中最小的频级和,括号里的数字为音节输入序号U。
图9(2)表示按U的各段,在进行图9(1)的最小频级和计算的同时实行词音汉字变换的算法。图中各个数组变量的定义如下HS、HD、HT和HQ分别表示据认为带有IS、ID、IT和IQ词音的汉字词中统计上最为确切的汉字词;KS、KD、KT和KQ则分别表示以HS、HD、HT和HQ结束的、具有各自最小频级和的各个词音串的变换汉字词串;K表示与P相对应的汉字词串,括号里的数字为U。
这样一来,便可以完全不使用分割型变量T,而是求出词音的频级和,对其进行比较,经过反复计算,随着U的前进逐步求出最优分割型的词音串,并同步进行词音汉字变换。
下面作具体说明。全部分割型的上述频级和∑I都存储在图4所示的最优词音分割型生成装置6中包含的频级和存储装置之中。每有音节输入时,最优词音分割型生成装置6便作为词音输入检出装置开始工作,并输出词音输入检出信号。接到这种词音输入检出信号之后,最优词音分割型生成装置6便作为频级和比较装置开始工作,从频级和存储装置中调出全部分割型的频级和∑I,并对这些频级和∑I进行比较。最后将频级和∑I最小的分割型定为最优词音分割型。
《汉字变换方式的第二实例》下面就本发明的第二实例所使用的中文汉字变换方式加以说明。在这个中文汉字变换方式里,除上述节点之外,还使用“准节点”的概念。如果一个双音节词音的频级不小于其第一音节的单音节词音的频级和第二音节的单音节词音的频级之和,那么这两个单音节词音之间的位置便称做准节点。例如,在上述例句里,zhe和zhong之间就是准节点。
关于判断准节点的问题,再参看图4作些补充说明。首先要求出音节输入装置11输入的音节串中刚刚输入的单音节词音和在它以前输入的单音节词音这两个单音节词音的各自频级之和。这个和可通过词音·频级调出装置4作为加法运算装置工作去求得。进而,还可以通过词音·频级调出装置4作为输出装置工作而将这个和定为参考频级。这时,可以把词音·频级调出装置4视为确定参考频级的参考频级设定装置。
在词音·频级调出装置4中,对由上述两个单音节词音的各个音节构成的双音节词音的频级和参考频级,进行相互比较。这时,词音·频级调出装置4是作为比较装置工作。当参考频级不小于上述双音节词音的频级时,词音·频级调出装置4作为词音·频级再调出装置工作,将刚刚输入的单音节词音之前位置定为准节点。
具体处理时,这种准节点也应同节点一样对待。现将理由说明如下图10表示音节输入序号为1至8时的词音分割型的一览表。如果设型的数量为v(u),那么下列公式成立v(u)=v(u-2)+v(u-1)图11(1)和(2)表示选拔结果,具体做法是从某个u的分割型的词音串群体中各取出两个,调查两个词音串上所有的词音之间是否能满足准节点条件,同时对两个词音串的频级和大小进行相互比较,最终选拔出频级和小的一方。图中箭头所指方向为选拔出来的词音串。
例如,当u为4的时候,可就ab和a/b、bc和b/c、cd和c/d等三组进行频级和大小关系的调查。以下实例是三组同时全都构成准节点条件的情况。也就是说,从频级和上来讲,选拔条件是(ab<a/b)∩(bc<b/c)∩(cd<c/d)。
上述实例中,词音串ab/cd和a/bc/d之间大小关系依然不明。这两个分割型哪一个将是最优分割型,只有实际比较一下两者的频级和才能决定。也就是说,作为词音信息处理的对象,只剩下ab/cd和a/bc/d这两个型了。如上述实例所示,这种同时满足全部选拔条件而作为词音信息处理的候选对象剩下来的分割型群体称作“正词音分割型”,略称为“正分割型”(图中黑字所示)。图12则为正分割型的一览表。
再参照图11(1)和(2),举例说明一下“准节点”的含义。让我们看一下“u为4时的选拔条件(3)、(4)、(7)和(8)。可以看出,这些选拔条件的共同因子是bc≥b/c,选拔结果各型为ab/cd、ab/c/d、a/b/cd和a/b/c/d,b的后面一定存在词音分割。也就是说,如果bc≥b/c,那么b和c之间必定存在词音分割。另一方面,如果bc<b/c,敲碽和c之间就不一定存在词音分割。换句话来说,在bc对b/c的词音分割比赛当中,如果bc≥b/c,那么bc必败无疑。也就是说,等于词音bc本来就不复存在。这样的点定义为“准节点”。准节点在信息处理句和信息处理句的分割方面同节点具有同等作用。
图13是整理出来的“分割型生成过程”图,该图表示在输入序号为1到5时,随着a~e各个音节的输入,分割型是如何适应选拔条件而生成的。
仔细观察一下图13的“分割型生成过程”,便可以知道选拔条件和正分割型体系最终可以归结为图14的“正分割型生成过程”。图中数字①到⑥表示音节输入点和音节输入序号。①是词音串的开始位置(即节点)。即使音节输入向前进行,但只要选拔条件继续不满足准节点条件(例如ab不小于a/b),那么过程就沿着该图最上边的路径向右方前进,词音串上不出现准节点,正分割型的音节串一直继续下去。这种音节串重新命名为“正信息处理句”。其实,在中文里,在有限的音节输入序号内,必定出现节点,“正信息处理句”便在该点中断。准节点同在该准节点以前得出的节点或准节点之一之间便构成一个信息处理句,这里称之为准信息处理句。为了便于说明,有时也将正信息处理句和准信息处理句简称为信息处理句。
让我们输入第u号音节,并把它同第u-1号音节之间假设为准节点。例如,当u=4,输入d时,就是假设cd≥c/d。结果有可能出现两个正分割型音节串即ab/c/d和a/bc/d,但是两者的末尾部分的构造都是“/d”。不仅u=4一例如此,在音节串输入过程中,当最初便出现准节点条件时,如果把音节串末尾音节设为x的话,那么音节串肯定为“……/x”形式。也就是说,从音节串的最前头的音节开始到末尾的前一个音节位置的音节串,是一个完整的“信息处理句”,最末尾一个音节必定是下一个“信息处理句”的第一音节。
在图13中,为了同“/”加以区别,用“|”记号表示成为准节点的词音分割。例如,上述实例便表示为ab/c|d及a/bc|d。
因此,准节点出现时,将上述x的输入序号复位为1,将其变更成下个信息处理句的第1音节,如图14所示那样,如把处理过程倒到序号②,那么词音信息处理的全过程就会整理到极为简洁的形式。在第二实例当中,词音信息处理只以图14最上边的路径上的词音信息句群体为对象来实行。
下面列出成为词音信息处理的词音信息句的数量。可见在第二实例当中,需要处理的件数同第一实例相比将大大下降。音节数U1234567891011121314第一实例件数v11 2 3 5 8 13 21 34 55 89 144 23第二实例件数V21 1 2 2 3 4 5 7 9 12 16 21 28《更加简洁的词音信息处理》图15表示音节输入序号u从1向8前进时,词音信息处理句的词音分割型是保持着何种相互关系如何向前变化的。
图中TS(u)以及TD(u)等分别表示以单音节词音或双音节词音结束的词音信息句各群体中频级和最小的型。这些型称作TS型或TD型。T(u)表示TS型和TD型信息处理句的频级和相互比较,结果频级和小的型。
u=1、T(1)=a,u=2、T(2)=ab,这是处理过程中的初值。
图中横虚线表示在u=u组型的末尾加上一个双音节词音从而构成u=u+2组型的关系。斜实线表示在u=u组型的末尾加上一个单音节词音从而构成u=u+1组型的关系。应当看到,斜实线不能从末尾词音为单音节的型引出。
图中用细弧线将两个以上的型括在一起,并加上了TS、TD、T等代码,这表示在梦恢蒙媳冉掀导逗痛笮。辛秸咴褚坏难“巍2蛔邢缚赐迹苣牙斫庹飧龉蹋旅婢倮右运得鳌 [例T(1)~T(6)选拔过程]
上图中的加网字表示通过频级和大小的比较选拔,确定为最优词音分割型的型。例如,当u=3时,TS型的a/bc和TD型的a/bc各自频级和相比较,因为条件ab/c<a/bc,所以TS型ab/c获胜(加网字),于是TS(3)成为最优型T(3),从而得以最后确定。其次,当u=4时,从TD(2)而来的TD(4)败给从TD(3)而来的TS(4),于是T(4)确定为TS(4)a/bc/d(加网字)。上述u=5时,本来应当由ab/cd/e、ab/c/de和a/bc/de这三个型进行比较,但是后两者的比较在u为3的阶段早已决出胜败,即a/bc/de的频级和肯定不是比ab/c/de的频级大就是与相等。所以,在u=3时失败的a/bc/de打上括号,表示在以后的处理过程中将其除外。当u=6是,也不必对四个型进行比较选拔,只对TD(6)a/bc/d/ef和TS(6)ab/c/de/f两型进行选拔就足够了。这样一来,不管u如何,最小频级和的比较选拔处理总可以按两者择一的方法进行下去。选拔结果肯定是在一个TD型和一个TS型之间决定胜负。当选拔失败型是TD型时,如同TD(3)那样,其末尾连接一个单音节词音,可以在一段以后的u时再次参加双淘汰赛。当失败的型是TS型时,其末尾连接一个双音节词音,在二段以后的u时,这个型在选拔过程上无效。如上所述,最优词音分割型的选拔,只要随着u的各段,进行两次频级加法运算,再比较一次频级和大小就处理完毕了。
简而言之,上述两者择一选拔法可这样实行首先利用准节点检出装置检出各个分割型上刚刚输入的单音节词音前面的准节点。再用分割型分类装置对各个分割型进行分类,分成刚刚输入的单音节词音前面存在准节点的第一类分割型群体和不存在准节点的第二类分割型群体。再用频级计算装置,对第一及第二分割型群体各自全部分割型进行计算,算出频级的总和。进而,再用第一及第二分割型确定装置调出上述第一及第二分割型群体的各自的频级总和最小的分割型,将其作为第一及第二分割型。最后,通过分割型选拔装置把第一及第二分割型中频级和小的一方选作最优词音分割型。
在第二实例采用的两者择一选拔法中,设p和q为两个相邻的单音节词音,pq为两者连接而成的双音节词音,Ip、Iq和Ipq则为各自的频级和,这时准节点的定义定为Ipq不小于Ip和Iq之和。之所以没有将其定义为Ipq大于Ip和Iq之和,那是因为如果pq/r和p/q/r两者的频级和相等,那么u=3时词音信息句的候选数中便要包含p/qr从而变成3个,从而会使最优词音分割型的两者择一选拔变得不可能了。也就是说,把准节点的定义定为Ipq不小于Ip和Iq之和,目的在于要彻底贯彻执行两者择一选拔。由于采取这一措施,使频级和相同的问题部分地得到了解决。
但是,两者择一的结果,某个u时两频级和相同的问题却时有发生。两者择一法不能完全防止频级和相同的问题。这时,可以采用下述三种方法之一去解决,即或者采用句末尾是双音节一方,或者相反,或者靠人的判断进行两者择一。
《与两者择一式词音信息处理同步进行的词音汉字变换》利用上述两者择一法,可以检简洁地求出最优分割型来。不仅如此,在词音信息处理的同时,词音汉字变换也可以采用两者择一方式进行。在图16中,u为音节输入序号,从1开始。
PS为末尾以单音节词音结束的型中最小频级和。
PD为末尾以双音节词音结束的型中最小频级和。
P为最终最小频级和,PS和PD相比较,如果PS不大于PD,则P=PS。如果PS大于PD,则P=PD。
I为词音的频级。
IS为刚刚输入的音节即单音节词音的频级。
ID为刚刚淙氲囊艚诤退懊娴囊艚诹悠鹄此玫降乃艚诖室舻钠导丁 上面的数组变量PS、PD、P、I、IS和ID后面括号内的数字为u。另外,在图16中,下列有关汉字的变量,全都是依照情报交换用汉字编码所得到的文字数组变量。
KS为末尾以单汉字词结束的汉字词串。
KD为末尾以双汉字词结束的汉字词串。
K为选拔出来的汉字词串。
如果P=PS,则K=KS,如果P=PD,则K=KD。
HS为刚刚输入的单音节词音的汉字同音词中据认最为确切的汉字词。
HD为刚刚输入的音节同其前面的音节连接起来而得到的双音节词音的汉字同音词中据认最为确切的汉字词。
文字数组变量KS、KD、K、HS和HD后面括号里面的数字为u。
下面,根据图16,说明取得最终目标的汉字词串K的算法。
(1)初值P(1)=IS(1)PD(2)=ID(2)P(2)=ID(2)K(1)=HS(1)KD(2)=HD(2)K(2)=KD(2)(2)PS(u)=PD(u-1)+IS(u),PD(u)=P(u-2)+ID(u)KS(u)=KD(u-1)+HS(u),KD(u)=K(u-2)+HD(u)(3)如果PS(u)不大于PD(u),那么,P(u)=PS(u)K(u)=KS(u)如果PS(u)大于PD(u),那么,P(u)=PD(u)K(u)=KD(u)采用上述算法,从u=1时的信息处理句的第一音节开始处理,从理论上来讲不管u如何大,每输入一个u,对以前输入的音节串都能得出据认是最为准确的词音分割的汉字词串。
上述情况说明,采用这种算法,每输入一个音节,进行两次(2)中的整数变量加法和两次汉字符变量加法运算,再进行一次(3)中的整数变量比较,即总共仅进行5次单纯的计算就能完成求取K(u)的计算处理。需要追加的处理工作只是以输入的词音为索引检索IS和ID的工作以及检索KS和KD的工作。但是,不管输入序号u如何,输入一个音节后所要付出的工作量总是一定的,非常简便。另一个优点是,这种方法不是对整个词音信息处理句进行一次性词音汉字变换,而是每输入一个音节,就对已经输入的整个音节串进行一次最优词音分割和汉字变换。这便是逐步处理。作为最优处理结果,汉字词串能随着每次打键显示在屏幕上,所以打字者工作非常轻松。
图17是说明上述两者择一式选拔法的流程图。这里,以音节为单位输入的词音仅限于单音节词音和双音节词音;词音串则两端式节点,中间可能存在准节点。参照图17和图4,处理在开始点上开始后,在S1步上词音信息句中的音节输入序号M于节点和准节点之后复位为1。在S2步上单音节的词音输入音节输入装置11。
在S3步上,词音·频级检索装置2根据业已输入的音节串中刚刚输入的单音节词音,检索辞典1的频级存储装置,调出该单音节词音的频级IS,以及该单音节词音的同音词中最为确切的汉字词的汉字字符KS。同时,词音频级检索装置2还将根据上述单音节词音和在它以前输入的单音节词音这两个单音节词音构成的双音节词音RD,检索辞典1并调出该双音节词音的频级ID,以及该双音节词音的同音词中最为确切的汉字词的汉字字符KD。
在S4步,将判断音节输入序号M是否为1。如果音节输入序号M在2以上,那么就进入S5步,判断双音节词音RD的存在与否。如果不存在双音节词音RD,就转向结束,即处理终结。如果存在双音节词音RD,那么就进入S6步。在S6步,双音节词音的频级ID,将同单音节词音的频级及音节输入序号为M-1的即在前一段输入牡ヒ艚诖室舻钠导禝S0之和,进行比较。如果双音节词音的频级ID小,那么就进入S7步,判断音节输入序号M是否为2。当音节输入序号在3以上时,就进入S8。
在S8步中,进行下述(1)和(2)式的计算
PS(M)=PD(M-1)+IS……(1)PD(M)=P(M-2)+ID……(2)这里,PS(M)、PD(M)和P(M)都是指M从1到M的各个词音串的频级和。而且,P(M)和PD(M)分别是指词音串末尾的词音为单音节词音和双音节词音时的频级和,P(M)则为从PS(M)和PD(M)中两者择一选择出来的最优词音信息句词音串的频级和。
进入S9步,则进行下列(3)和(4)式的计算KS(M)=KD(M-1)+HS……(3)KD(M)=K(M-2)+HD……(4)这里,KS(M),KD(M)和K(M)都是指M为1到M的各个音节串的汉字字符串。KS(M)和KD(M)分别是指末尾的汉字词为单汉字词和双汉字词的字符串,K(M)则为最优词音分割汉字词串的汉字字符串。
上述计算结束后,在S10步里对频级和PD(M)和PS(M)进行相互比较。当PD(M)≥PS(M)时,转入S11步设P(M)=PS(M),在S12步决定出最优汉字串。或者,转入S13步设P(M)=PD(M),在S14步决定出最优汉字串。
如果在S4步里音节输入序号M为1,那么就进入S15步设P(1)=1S,在S16步里决定出最优汉字串。
如果在S6步里双音节词音的频级ID等于或大于单音节词音频级IS和IS0之和,那么就进入S17步。音节输入序号M在S17步复位后,再进入S15步。
如果在S7步里音节输入序号M为2,那么就进入S18步设P(2)=ID,在S19步决定出最优汉字串。
在S12、S14、S16或S19步决定出最优汉字串之后,再在S20步里将上述最优汉字串输出在屏幕显示器等输出装置(图中没有表示),进而,再在S21步将现在的单音节词音的频级IS,作为前一段的单音节词音的频级IS0保存下来。最后,在S22步把音节输入序号向前进1,回到S2步中去。
权利要求
1.本发明是一种中文汉字变换方式,其中包含两个部分,一是以中文的词音为索引存储各个词音的汉字词的词典,二是能调出该词典存储的汉字词之一的处理装置。本发明特征如下上述词典含有一个能以汉语词音为索引,根据上述汉字词的词音,存储单音节词音及双音节词音频级的频级存储装置。上述处理装置则包括词音·频级检索装置、词音·频级存储装置、最优词音分割生成装置以及汉字词检索装置。上述词音·频级检索装置能根据业已输入的音节串中刚刚输入的单音节词音,检索上述词典的频级存储装置并调出该单音节词音的频级;同时还能根据该单音节词音同在它前面输入的单音节词音这两个单音节词音音节构成的双音节词音,检索上述词典并调出该双音节词音的频级。上述词音·频级存储装置能存储上述两个单音节词音各自的词音和频级,以及上述双音节词音的词音和频级。当检索不出上述双音节词音时,就将上述刚刚输入的单音节词音的前面视为节点。在上述刚刚输入的单音节词音前面输入的音节串中,该节点同前面已经得到的节点之前便构成一个信息处理句。上述词音·频级调出装置的作用是从上述词音·频级存储装置中调出该信息处理句中的单音节词音和双音节词音的词音和频级。上述最优词音分割型生成装置能根据上述信息处理句中单音节词音和双音节词音组合而成的各个分割型,求出构成各个分割型的单音节词音和双音节词音的频级总和,并根据该总和生成上述信息处理句的最优词音分割型。上述汉字词检索装置能根据上述最优词音分割型分割出来的各个词音,检索上述词典,调出以该词音为索引的汉字词之一。
2.在本权利要求书1所记载的中文汉字变换方式里,上述词音·频级调出装置包括参考频级设定装置、频级比较装置和词音·频级再调出装置。上述参考频级设定装置用来确定参考频级。上述频级比较装置连接在上述词音频级存储装置上,可将上述双音节词音的频级同上述参考频级加以比较。在上述参考频级不小于上述双音节词音频级时,就将上述刚刚输入的单音节词音的前面视为准节点,于是在这个刚刚输入的单音节词音以前输入的音节串里,上述刚刚输入的单音节词音前面的准节点同该准节点以前已经得出的节点或准节点之间,就构成了一个准信息处理句。上述词音·频级再调出装置连接在上述频级比较装置上,便能从上述词音·频级存储装置中调出上述准信息处理句上单音节词音及双音节词音的词音和频级。
3.在本权利要求书2所记载的中文汉字变换方式里,上述参考频级设定装置包含加法运算装置和输出装置。上述加法运算装置连接在词音·频级存储装置上,能求出上述两个单音节词音的频级和。上述输出装置能将上述加法运算装置得出的频级和作为上述参考频级。
4.在本权利要求书2所记载的中文汉字变换方式里,上述词音·频级再调出装置的作用如下设上述各个信息处理句及准信息处理句中上述音节串的音节输入序号为u(不过,u为非负整数),在从第1到第u号的音节构成的音节串的分割型里,末尾词音为构成单音节词音的词音而且该音节串全部词音的上述总和最小者为PS(u),在从第1到第u号的音节构成的音节串的分割型里,末尾词音为构成双音节词音的词音而且该音节串全部词音的上述总和最小者为PD(u),在从第1到第u号的音节构成的音节串的分割型里,不管末尾词音的音节数量是单或双,该音节串的全部词音的上述总和最小者为P(u),第u号单音节词音的上述频级为IS(u),第(u-1)号和第u号单音节词音构成的双音节词音的频级为ID(u)。于是,初值定为P(1)=IS(1),P(2)=ID(2),PD(2)=ID(2)每当第u号音节输入时,便进行下述计算PS(u)=PD(u-1)+IS(u)PD(u)=P(u-2)+ID(u)同时进行下述两者择一的选择PS(u)不大于PD(u)时,P(u)=PS(u)PS(u)大于PD(u)时,P(u)=PD(u)与这种选择所确定出来的P(u)相应的分割型,便可以用来对输入到第u号为止的音节构成的音节串进行词音分割。
5.在本权利要求书2所记载的中文汉字变换方式里,上述最优分割型生成装置包括准节点斐鲎爸谩⒎指钚头掷嘧爸谩⒌谝缓偷诙导逗图扑阕爸谩⒌谝缓偷诙指钚途龆ㄗ爸茫约胺指钚脱≡褡爸谩 上述准节点检出装置连接在上述词音·频级再调出装置上,能检出上述各个分割型刚刚输入的单音节词音前面的上述准节点。上述分割型分类装置连接在上述准节点检出装置上,能把上述各个分割型分成刚刚输入的单音节词音前面存在准节点的第一分割型种类和不存在准节点的第二分割型种类。上述第一频级和计算装置,能算出上述全部第一分割型类的上述总和。上述第二频级和计算装置,能算出上述全部第二分割型类的上述总和。上述第一分割型决定装置连接在上述第一频级和计算装置上,能将上述第一分割型种类中上述总和最小的分割型确定为第一分割型。上述第二分割型决定装置连接在上述第二频级和计算装置上,能将上述第二分割型种类中上述总和最小的分割型确定为第二分割型。上述分割型选择装置连接在上述第一和第二分割型决定装置上,能将上述第一和第二分割型中上述总和小的一方选为最优词音分割型。
6.在本权利要求书1所记载的中文汉字变换方式里,上述最优词音分割型生成装置包括频级和计算装置和分割型决定装置。上述频级和计算装置能根据上述全部分割型计算出上述总和。上述分割型决定装置连接在上述频级和计算装置上,能将上述总和最小的分割型确定为上述最优词音分割型。
7.在本权利要求书6所记载的中文汉字变换方式里,上述分割型决定装置包括词音输入检出装置、频级和存储装置和频级和比较装置。上述词音输入检出装置连接在上述词音·频级检索装置上,每当上述单音节词音输入时,便能输出词音输入检出信号。上述频级和存储装置连接在上述词音输入检出装置上,能根据上述全部分割型存储上述总和。上述频级和比较装置连接在上述词音输入检出装置上,能根据上述词音输入检出信号从上述频级和存储装置中调出上述全部分割型的频级总和,同时对该总和进行比较并将总和最小的分割型确定为最优词音分割型。
全文摘要
本中文汉字变换方式要解决的技术课题是要准确而高速地将拼音音码形式输入的音节串变换成汉字。先要获取输入的音节串中可能存在的全部单、双音节词音的统计使用频度情报,将其定义为“频级”。再将可能构成上述音节串的全部单音节词音或双音节词音的词音串中各个词音的频级和最小者视为最为确切的词音串,生成最优词音分割型。最后根据最优词音分割型的各个词音依次进行词音汉字变换。本方式可以应用于电子计算机和中文文字处理机。
文档编号G06F3/023GK1037411SQ8910291
公开日1989年11月22日 申请日期1989年4月26日 优先权日1988年4月26日
发明者楠井健 申请人:楠井健
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1