使用语法信息的汉字转换装置的制作方法

文档序号:6466222阅读:146来源:国知局
专利名称:使用语法信息的汉字转换装置的制作方法
技术领域
本发明涉及汉字转换,特别涉及使用语法信息的汉字转换装置,该装置利用与词的语音单元有关的特征信息把表音符号串转换成为汉字。
一万个或一万以上的汉字被用来书写中国文件。在包括汉字处理器的计算机处理中,最主要的问题是汉字实际上由文本生成器或类似的装置以高速输入或转换。用于把想要的汉字输入转换装置的常规装置的例子包括语音识别、字识别、一个键盘等装置。因为通过键盘输入是最可靠的,所以键盘广泛使用在实际应用中。
使用键盘输入汉字的方法被分成为两类。一类是使用汉字的读音(发音)的方法,另一类是使用汉字的字形。在使用字形的输入方法中,事先要说明输入规则,并且,也要花费大量时间登录输入规则。此外,使用者也要花费大量时间习惯该操作规则。另一方面,使用汉字读音的输入方法也广泛使用在日本字处理器中。该方法是自然的并容易学会。因此,我们假设,读音输入方法将是汉字输入法的主流。本发明涉及使用读音输入法的汉字转换装置。
例如,按照现有技术,台湾专利申请号75105838已经公开了一种使用读音法的汉字转换装置。图6是该汉字转换装置的结构示意图。
在图6中,输入单元100输入表音符号象拼音、注音、罗马字母或类似的表音符号,通过中文文本的生成器打算把该表音符号转换成汉字。输入单元100可以输入任何长度(表音符号)的字。字典180存储表音符号串和转换到对应表音符号的字。NCHAR寄存器140存储输入表音符号串的音节的数量。
当表音符号串被转换成为词时,分别使用PTR寄存器120和NP寄存器130。PTR寄存器120存储输入表音符号串转换成为汉字开始的位置。NP寄存器130存储转换输入表音符号串成为一个词的转换词长度,就是说,汉字或音节的数量构成了词(一个汉字基本上只有一个音节)。
比较器150控制转换控制器,在完成具有某些长度或某些数量的汉字的词的转换处理之后,通过把NP寄存器130的值减一,完成了汉字的转换,该转换最好用于一个词具有减一的数。
转换控制器160顺序地从输入表音符号串的起始位置移动设置的寄存器120的位置向后,校验是否存在一个音节,该音节基于构成词的汉字或音节的数量早已经被转换成为汉字,并且,该词是由NP寄存器130设置的转换对象。如果转换还没有完成,对应的词寄存在字典180内,控制器160把该词转换成字典180内的相应词。
字典检索单元170通过使用转换控制器160发送的音节串作为一个关键字检索字典180。输出单元190输出由转换控制器160完成的转换结果。
然而,在上面论述的汉字转换装置中,正确的转换率大约是96%。剩余的4%误差转换包括缺词(40.2%),词的边界检测错误(8%),同音异义字和词的错误选择(33.9%),断音字和音调的变化等错误。解决词边界检测和同音异义字和词的选择的问题是最困难的。
由于这个原因,要求使用语法信息实施汉字转换装置,该装置可以防止上述由词边界检测错误和同音异义字和词的错误选择引起的错误转换。本发明提供了解决此问题的方法。
调查的结果(通用领域,总数是1800000字)显示在下面,该调查显示了1985年在台湾所用词的频率。
表1
参考词数,双音节以上的词占88%,单音节的词占有12%。参考词次(使用频率),双音节以上的词只占35.7%,单音节的词占有64.3%。参考词数,双音节以上词的数量远远大于单音节的词的数量。参考词的使用频率,单音节词的数量远远大于双音节的词的数量。实际上,大多数使用频率高的中国语言的虚词(词头、词尾、助词、定词、代名词、序数词、副词、连续词、前置词、后置词、感叹词)是由一个字组成的。因为按照汉字转换装置中的最长词匹配方法的规则,单音节的词被包括在长词内,所以它们不能够被转换。
由于这个原因,在此情况下完成词的边界检测,所以常常得到错误结果。而且,按照基于使用频率的同音异义字的选择规则或前词优先转换的规则(具有相同读音的词前后都由词的转换)常常使得同音异义字的选择产生错误。
考虑到上面提到的问题,本发明的目的是提供一种使用语法信息的汉字转换装置,把语法词性(名词、动词等)加到存储在字典中的每一个词,配合复合字的检索,校验并改正错误的同音异义字和词的选择。
为了得到上述目的,本发明提供的使用语法信息的汉字转换装置包括复合字字典、词典、音节切出单元、字典检索单元、复合字检测单元、语法词性处理单元和转换控制器。
复合字字典存储汉字复合字的语音符号、复合字和连接到复合字的语法词性。复合字和语法词性对应于语音符号。
词典存储语音符号、词和语法词性。对应词和词性按词的使用频率的顺序排列,在这种情况下,存在多个对应的词。词和语法词性对应语音符号。
为转换成为具有字的最大数量的词,及没有被转换的输入语音字串的音节或音节的一部分,音节切出单元给出第一优先,以输入的顺序转换成为音节,音节切出单元给出第二优先。音节切出单元递减基于优先被转换的音节的数量,并且,继续地移动被转换的音节向后以切断当前被转换的音节。
字典检索单元,用于检索词典,使用被转换的音节串作为检索关键字检测中文词,该音节串由音节切出单元切出。
当在被转换的音节串中存在对应于复合字的音节时并且该音节串被音节切出单元切出时,复合字检测单元检测复合字和在预定的程序中能够连接到复合字的语法词性。
语法词性处理单元,当连接到基于语法词性的复合字的词被检测到时,将对应的复合字之前或之后的音节作为检索单元的检索关键字,以检索出与该复合字的语法词性相符的字、词时,语法词性处理单元把复合字与该词组合产生一个扩展词;转换控制器,在转换中,由字典检索单元检测的词比在由语法词性处理单元产生的扩展词优先执行控制。
根据上面提到结构的本发明,复合字字典存储中国复合字的语音符号、复合字和连接到复合字的语法词性。复合字和语法词性对应于语音符号。如果存在多个对应词,则语音符号、对应词和词的语法词性在字典中按照使用频率排列和寄存。为转换成为具有音节的字的最大数量的词,用以输入没有被转换或音节的一部分语音字串,音节切出单元给出第一优先,对于先前输入音节的转换,给出第二优先。音节切出单元递减基于优先被转换的音节的数量,从而,移动转换对象的音节向后以切出被转换的音节串。字典检索单元,用于检索词典,使用被转换的音节串作为检索关键字检测中文词,该音节串由音节切出单元切出。如果在被转换的音节串中存在对应于复合字的音节并且该音节串被音节切出单元切出,复合字检测单元检测复合字并检测在预定的程序中能够连接到复合字的语法词性。语法词性处理单元,当连接到基于语法词性的复合字的词被检测到时,将对应的复合字之前或之后的音节作为检索单元的检索关键字,以检索出与该复合字的语法词性相符的字、词时,语法词性处理单元把复合字与该词组合产生一个扩展词;转换控制器,在转换中,由字典检索单元检测的词比在由语法词性处理单元产生的扩展词优先执行控制。
这个申请是基于日本专利申请号11-107806,该专利的内容合并在此作为参考。


图1是按照本发明实施例的汉字转换装置的结构2是按照实施例的寄存器的操作流程3是按照实施例的转换控制器操作的主要流程4是按照实施例显示了复合字字典的数据结构。每一个符号的意思如下AN后接名词;AV后接动词;AA后接副词;AJ后接形容词;BN前接名词;BV前接动词;BA前接副词;BJ前接形容词;……。
图5显示按照实施例具有语法词性纪录的词典的数据结构,在图中,每一个同音异义字和词按照使用频率的顺序排列图6是按照现有技术汉字转换装置的结构示意图本发明的实施例将参考附图在下面详细论述。
在图1中,输入单元10输入表音符号如拼音、注音、罗马字母和类似的字母。字典18存有表音符号串、对应于表音符号串的汉字词和语法词性,用于寄存词(图5显示词典的数据结构)。NCHAR寄存器14存储输入表音符号串的音节的数量。在汉字中,一个汉字对应一个音节。因此,输入音节字符串的音节的数量代表了被转换汉字的数量。
分别使用PTR寄存器12和NP寄存器13把表音符号串转换成为词。PTR寄存器12适合于存储输入表音符号串的转换位置,该转换位置是汉字转换开始的位置。当输入表音符号串被转换成为词时,NP寄存器13适合于存储被转换的词的长度,就是说,存储汉字和构成词的音节的数量。更特殊地,当上面提到的两个寄存器的内容分别由PTR和NP代表时,它显示在字典检索期间,使用来自PTR输入表音符号串的连续的NP个音节作为检索关键字(在下面论述的NCHAR、NP、PTR分别代表NCHAR、NP、PTR的值)。
寄存器初始化单元11用于三个寄存器如NCHAR寄存器14、NP寄存器13、PTR寄存器12等。图2显示了详细的操作。计算输入表音符号串内的音节的数量(NCHAR),因此,获得的值设置到NCHAR寄存器14。如果该值大于在字典18中寄存的最长词,就是说,具有构成词的汉字的最大数量的词的汉字的数量(最大)(本实施例是5个),最大值被设置到NP寄存器13。如果该值等于或小于5,输入表音符号串的音节的数量被设置到NP寄存器13,PTR寄存器12的值被设置到0。
音节切出单元15校验汉字转换操作是否完成。当操作完成时,存储在NP寄存器13内的转换对象的词的长度(转换的最短长度是具有1的简单汉字转换)被加到PTR寄存器12的值,并且,NP寄存器13的值被复位到NCHAR-PTR。当复位值大于最大值时,最大值被设置到NP寄存器13。
复合字字典21存储特殊的复合字、字和可以连接到复合字的语法词性的读音。复合字检测单元20通过使用输入表音符号串的第PTR个音节作为检索关键字检索复合字字典。
当复合字检测单元20检测到存在对应的复合字和连接到复合字的语音单元是后连接时,对于字典检索单元17,语法词性处理单元19从第(PTR+1)个的输入表音符号串提供(NP-1)个音节作为检索关键字以检索字典18。然后,语法词性处理单元19检索对应于可以连接到复合字的语法词性的词。当发现或寄存对应的词时,语法词性处理单元19把对应的词与复合字组合,从而,产生了操作员打算由转换获得的词,这就是扩展词。
参考数字16代表转换控制器。图3显示了控制器16的详细操作。来自PTR输入表音符号串的连续的NP音节提供给字典检索单元17作为检索关键字以检索字典18。转换处理是按照一个原则完成的,即,被转换的检测词具有第一优先,被转换的由语法词性处理单元19产生的词具有第二优先。如果这个音节早已经被转换,则基于PTR和NP寄存器12和13的值完成转换,PTR和NP寄存器12和13由音节切出单元复位。
字典检索单元17通过使用从转换控制器16或语音单元处理单元发送来的音节作为检索关键字从复合字字典18提取对应的词,或如果存在多个词,则字典检索单元17提取排列在头部的具有最高可能性的词。单元17发送提取的词到转换控制器16。输出单元22输出由转换控制器16转换的结果。
图4是按照实施例显示了复合字字典21的数据结构。字典21包括基本读音或复合字发音的对应表格、对应的复合字、可以连接到复合字的语法词性。在目前的实施例中,介词“在”、“从”、“将”等,连接次“则”、“若”、“和”“以”等,肯定和否定词“是”“不”、“有”等,指示词“其”、“该”等在汉字中被认为是复合字。这些汉字复合字被加入到词中构成了多个汉字的词。以这样的组合构成的词在本说明书中称为扩展词,例如,“在台北”、“有一天”等。当复合字检测单元20确定对应音节的字是否是复合字时,使用字典21。
图5显示字典18的数据结构,该数据结构记录了语法词性的信息。汉语的每一个字和词都有词性,象名词、动词、形容词、副词等。在此例中,在字典18内根据所纪录的每一个语法词性的定义,检测复合字及字的前后的连接复合字的词被检测。检测到的词与复合字组合构成扩展词。下面将论述操作流程。
按照本发明实施例,图2主要显示汉字转换装置的寄存器初始操作流程。下面将参考附图论述操作流程。
(S1)首先,计算音节数的寄存器L设置到0。
(S2)输入表音符号串。
(S3)校验当前输入的表音符号是否是音调键。如果表音符号是音调键,例程进到(S4),否则,例程进到(S5)。
(S4)计算音节数的寄存器L的值加1,例程返回到(S2)。
(S5)校验当前输入的表音符号串是否是输入结束键,如果当前输入的表音符号串是输入结束键并且音节数不是0,则例程进到(S6),如果当前输入的表音符号串不是输入结束键,则例程返回到(S2)。
(S6)校验当前输入的音节数是否大于5,如果音节数等于或大于5,则例程进到(S7),如果音节数小于5,则例程进到(S8)。
(S7)NP寄存器的值设置到5。
(S8)NP寄存器的值设置到当前输入的音节数。
(S9)NCHAR寄存器的值设置到当前输入的音节数。
(S10)PTR寄存器的值设置到0。
图3主要显示转换控制器的操作。下面将参考附图3论述该操作。
(S20)从第ptr个音节开始的np个连续音节被切出。
(S21)表音符号串的转换长度np减1,例程返回到(S20)。
(S22)确定在(S20)中对应切出音节的词是否存储在字典18中。如果该词存储在字典18中,例程进到(S23),否则,例程进到(S26)。
(S23)从第ptr输入表音符号串开始的np个连续音节被转换进入在(S22)中检测到的对应词,例程进到(S24)。
(S24)np被加入到ptr寄存器的值,np寄存器的值设置到5。
(S25)ptr寄存器的值加1。Np寄存器的值设置到5。
(S26)校验np寄存器当前的值是否大于1。如果np寄存器的值等于或大于1,例程进到(S27),否则,例程进到(S30)。
(S27)校验在(S20)切出的第一个音节是否有复合字的读音。如果第一个音节有复合字的读音,例程进到(S34)。如果没有,例程进到(S21)。
(S34)对应每一个音节数的词从在(S20)切出的第二个音节被切出。
(S28)校验是否存在对应在(S34)切出音节的词。如果存在对应词,例程进到(S29)。如果没有,例程进到(S21)。
(S29)在(S27)检测到的复合字与在(S28)检测到的词组合,产生了一个词的扩展词。从ptr输入音节开始的np个连续音节被转换称为扩展词。然后,例程进到(S23)。
(S30)在输入表音符号串中的ptr位置上的音节被转换进入对应的字,例程进到(S25)。
(S31)(ptr+np)的值与nchar的值进行比较。如果前者大,例程进到(S32)。如果前者小,例程进到(S20)。
(S32)在表音符号串中的转换长度np减1,例程进到(S33)。
(S33)校验np寄存器的值是否是0。如果np寄存器的值是0,就完成输入表音符号串的汉字转换处理。如果np寄存器的值不是0,例程进到(S31)。
图4是按照实施例显示了复合字字典21的数据结构。字典21包括基本读音或复合字发音的对应表格、对应的复合字、可以连接到复合字的语法词性。在目前的实施例中,简单的汉字象“的”、“会”、“很”、“太”、“所”、“国”、“较”、“著”、“了”、“能”、“真”等在中文中被认为是复合字。根据本发明,按照可以连接到复合字之前或之后的语法词性,选择最佳的汉字或词的候选词是可能的。例如,目前在台湾,年轻人常常使用一个词“好逊”。这个词通常没有记录在字典中。在使用“最长匹配法”交换规则的汉字转换装置中,通过词的特征获得较高的转换率是可能的。
下一步,具有上面提到结构的本实施例的操作将选取“ma ma·suoeVjuV de·fan\”作为输入的例子来论述。为了容易理解的解释,用于存储在对应的输入字符串的字典18内的转换最大可能性的词将在下面论述。
“ma ma·妈妈”“suoeV所”“juV 主”“de·的”“fan\犯”参考流程图,当输入上面提到的表音符号串时,显示在图2中的寄存器起始单元通过响应语调信号的每一个音节划分输入表音符号串获得音节数。上面提到的字符串有6个音节。因此,6个音节数被设置到NCHAR寄存器14(S9)。该值大于字典18中的最长词的汉字数(目前实施例是5个)(S6)。因此,5作为起始值被设置到NP寄存器13(S7),PTR寄存器的值被设置到0。PTR寄存器的值ptr代表了检索字典18的当前开始位置是在输入表音符号串的第ptr个音节。
在PTR寄存器12的起始置之后,NP寄存器13和NCHAR寄存器14基于音节的输入数设置,显示在图3的转换控制器首先切出表音符号串“ma ma·suoeV juV de·”该表音符号串包括从取决于PTR寄存器12和NP寄存器13的值的输入单元10发送来的0至4个音节的连续音节(S20)。切出字符串提供给字典检索单元17作为检索关键字以检索字典18(S22)。因为没有词对应检索关键字,所以复合字字典21由复合字检测单元20检索。决定“ma”不是复合字的读音然后,“ma ma·suoeV juV”的0至3个音节被切出,NP寄存器13的值减1。下一步,这个音节字符串设置到字典检索单元17作为检索关键字以检索字典18(S22)。因为没有对应词,所以复合字字典由复合字检测单元检索以决定“ma”不是复合字的读音。
通过重复上面提到的步骤,来自输入表音符号串的连续的音节串逐渐地被切出,NP寄存器13的值按次序减少。当NP寄存器13的值是2时,“ma ma·”的连续音节串被切出。
通过使用“ma ma·”的音节串作为检索关键字,字典检索单元17检索字典18(S22)。因为“妈妈”的对应词存储在字典18内,所以基于“最长匹配法”的转换规则,“ma ma·”被转换成为“妈妈”。在这个例子中,PTR寄存器12的值被加到2,NP寄存器13的值被设置到最可能的词长度5。在这个例子中,NP寄存器13的值5加到PTR寄存器12的值,得到值7。这次,7大于NCHAR寄存器的音节数6。因此,NP寄存器13的值被设置到最可能被转换的词长度4。
然后,2至5连续音节由来自输入单元10发送的音节串所切出,以获得“suoeV juV de·fan\”的字符串(S20)。音节串提供给字典检索单元17作为检索关键字以检索字典18(S22)。因为在字典中没有对应的词,所以校验“suoeV”的第一个音节是否是复合字的读音(S27)。复合字字典对应“suoeV”读音有一个词“所”。能够连接到登录在复合字字典21内的“所”字的语法词性是动词特征。
随后,“juV de·fan\”、“juV de·”和“juV”的连续音节串被切出(S34)。参看切出的音节,对应的词在字典18中检索或检测(S28)。因为具有对应动词特征的字“煮”被登录,所以扩展词“所煮”通过把复合字“所”与对应的字“煮”相组合产生(S29)。然后,“suoeV juV”被转换成为扩展词“所煮”(S23)。
下一步,扩展词的长度2加到PTR寄存器12的值得到4。NP寄存器13的值被设置到最可能的词长度5。在这个例子中,NP寄存器13的值5加到PTR寄存器12的值4,得到值9。这次,9大于NCHAR寄存器的音节数6。因此,NP寄存器13的值被设置到被转换的最大可能性的词长度2。
然后,4和5连续音节串由来自输入单元10发送的音节串所切出,以获得“de·fan\”的字符串(S20)。音节串提供给字典检索单元17作为检索关键字以检索字典18(S22)。因为在字典中没有对应的词,所以校验“de·”的第一个音节是否是复合字的读音(S27)。复合字字典21对应“de·”读音有一个词“的”。能够连接到登录在复合字字典21内的“的”字的语法词性是名词特征。
下一步,最后读音“fan\”被切出(S34)。参考切出的音节“fan\”,对应的登录词在字典18中检测(S28)。因为“饭”与“的”有相同的名词特征的字被登录,所以扩展词“的饭”通过把复合字“的”与复合字“饭”相组合产生(S29)。因此,“de·fan\”被转换成为扩展词“的饭”(S23)。
下一步,扩展词的长度2加到PTR寄存器12的值得到6(S24)。6等于NCHAR寄存器的音节数6,因而,新的音节不能被切出。转换控制器判定已经完成了输入表音符号串的汉字转换处理(S32)然后,发送转换结果“妈妈所煮的饭”到输出单元22。
当基于实施例论述本发明时,当然,本发明没有限制到上面提到的实施例。例如,1.复合字没有限制在切出音节内的第一音节,而是可以用在任何切出音节。
2.在检索中,不只是确定是否在复合字之后的词可以连接到复合字,而且确定是否在复合字之前的词可以连接到复合字也是可能的。
3.表音符号没有限制到所示的因素字和音节字,也包括因素符号。此外,当它们是汉字转换对象时,所用字象日文的假名字、朝鲜的Hankul字母表也是可能的。
4.当然,本发明的应用包括在日本的用于传统的汉字书写的词处理器等。
5.学习功能和类似的功能也被加上了。
按照本发明,在输入音节串到汉字的转换中,如果复合字(具有特征的复合字象介词、扩展词、肯定词、否定词、指示代词等在中文中是被转换的音节)在字典18中具有读音,并且在字典18中存在具有语法词性的同音异义字或词,该语法词性在复合字之前或之后的连续音节可以连接到复合字,那么,最佳的同音异义字或词自动地被选择,并且,复合字与所选择的词组合产生扩展词。使用这样语法信息的转换汉字的装置可以容易地消除由同音异义字或词引起的错误转换。因此,用于在中文文本创建中提高了汉字的转换的准确性,获得了很高的技术效果。
尽管本发明连同特殊的实施例进行论述,许多其它的修改、改正和应用对本领域的熟练技术人员是显而易见的。因此,本发明不限于在此公开的内容,只限于所附权利要求的保护范围。
权利要求
1.使用语法信息的汉字转换装置,其特征是包括复合字字典,用于存储汉字复合字的语音符号、复合字和可以连接到复合字的语法词性,复合字和语法词性对应语音符号;词典,用于存储语音符号、词和语法词性,当存在多个对应词时,具有对应词的语音符号和词的词性按词的使用频率顺序排列,词和语法词性对应语音符号;音节切出单元,为转换成为具有字的最大数的词,及没有被转换的输入语音字串的音节或音节的一部分,音节切出单元给出第一优先,以输入的顺序转换成为音节,音节切出单元给出第二优先。音节切出单元依次递减基于优先被转换的音节的数量,并且,继续地移动被转换的音节向后以切出当前被转换的音节;字典检索单元,用于检索词典,使用被转换的音节串作为检索关键字检测中文词,该音节串由音节切出单元切出;复合字检测单元,当在被转换的音节串中存在对应于复合字的音节时并且该音节串被音节切出单元切出时,复合字检测单元检测复合字和在预定的程序中能够连接到复合字的语法词性;语法词性处理单元,当连接到基于语法词性的复合字的词被检测到时,将对应的复合字之前或之后的音节作为检索单元的检索关键字,以检索出与该复合字的语法词性相符的字、词时,语法词性处理单元把复合字与该词组合产生一个扩展词;转换控制器,在转换中,由字典检索单元检测的词比在由语法词性处理单元产生的扩展词优先执行控制。
全文摘要
本发明提供一种使用语法信息的汉字转换装置,通过利用中文词的语法词性获得较高的正确转换率。该装置从输入表音字符串切出音节,使用切出音节串检索字典以检测对应于音节的中文词。按照复合字之前或之后的复合字的语法词性,选择的能够连接到检测的复合字的同音异义字或词,把复合字与所选择的词或字组合产生一个扩展的词。使用在字典中检测到的词的装置,用于汉字转换,优先于所产生的扩展词。
文档编号G06F17/22GK1271132SQ0010560
公开日2000年10月25日 申请日期2000年4月11日 优先权日1999年4月15日
发明者吕桂枝 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1