语言信息翻译装置和方法

文档序号:6571301阅读:306来源:国知局
专利名称:语言信息翻译装置和方法
技术领域
本发明涉及一种语言信息翻译装置,其将基于某些表达的语言信息转换为基于不同表达的语言信息,诸如语音合成装置、假名-汉字翻译装置、机器翻译装置等,具体地,涉及一种语言信息翻译装置,其使得当多个用户使用一个系统时,其它用户可以使用在其中一个用户的字典中注册的内容。
背景技术
机器翻译是一种将基于某些语言的输入句子自动翻译为基于另一种语言的句子的技术。例如,在用于将日文翻译为英文的日文到英文机器翻译中,通过参照字典来实现从日文到英文的翻译,在此字典中注册了大量成对的信息片(information piece),每一对都包括日文单词和对应的英文单词。同样地,在用于通过参照字典将某些语言的表达翻译成另一种语言的表达的语言信息翻译技术中,已知了语音合成和假名-汉字翻译。语音合成是一种从包含了汉字和假名字符的混合的输入句子来人工地生成语音的技术。在语音合成处理中,假名-汉字混合字符串被转换为发音符号阵列。在这种情况下,由假名-汉字混合字符串和发音符号阵列所表达的单词对的信息被注册在字典中。此外,假名-汉字翻译是将假名字符串翻译为假名-汉字混合字符串的技术。在这种情况下,注册由所述有关的单词的假名字符串和假名-汉字混合字符串所表达的单词的对。
在语言信息翻译技术中,预先准备了在其中收集和注册了常用词汇的字典(此后称为“基本字典”)。然而,当输入了未在所述基本字典中注册的单词,诸如技术术语、新词等时,在翻译中会出现错误。因此,为了注册没有出现在字典中的单词,并且实现正确的翻译结果,通常提供了允许用户进行注册的用户字典功能。
目前为止已知了这样的技术,其允许多个用户共同拥有用户字典的内容,从而当所述多个用户使用了利用上述语言信息翻译技术的语言信息翻译装置时,所述多个用户能够省去将相同的单词注册到他们的用户字典的徒劳的工作。例如,日本申请公开11-66059公开了一种将内容注册到公用字典的方法,其中一个用户将所述内容注册到用户字典,从而使得其他用户能够参照该公用字典,由此所有用户都可以共用该用户字典的内容。
根据上述技术,无需任何检查,就对在用户字典中注册的内容进行共用。因此,当用户字典中的注册内容不正确时,该不正确的内容也被共用。与公司中几个特定用户使用语言信息装置的情况相比较,在一般公众通过网络使用所述语言信息翻译装置的情况下,在非特定用户中,用户的技术和知识水平差别很大,从而存在将不正确的信息注册在用户字典中的高危险性。

发明内容
考虑到前述问题,已经实现了本发明,本发明的目的在于提供一种语言信息翻译装置和方法,其统计地分析许多用户的用户字典的内容,并且提取可靠的注册内容,使用户可以共用所述注册内容。
根据本发明的实施例,一种语言信息翻译装置,其可由多个用户使用并且将第一语言表达翻译为第二语言表达,该装置包括用户字典注册单元,其被配置成将注册词汇信息存储到每一个注册用户的用户字典,其中所述注册词汇信息包含至少所述第一语言表达的指示词(direction word)以及与所述有关的指示词相对应的所述第二语言表达;基本字典注册单元,其被配置成将基本词汇信息存储到基本字典,其中所述基本词汇信息包含至少所述第一语言表达的指示词以及与所述有关的指示词相对应的所述第二语言表达;语言信息翻译单元,其被配置成参照所述基本字典的所述基本词汇信息和由所述有关的用户字典的有关用户注册的注册词汇信息,并且将由所述第一语言表达所表达的输入信息翻译为所述第二语言表达;重要单词提取单元,其被配置成参照所述多个用户字典的注册词汇信息,并且基于与所述相同的指示词相关联的注册词汇信息片的注册词汇信息数以及与所述相同的指示词相关联且该注册词汇信息的所述对应的第二语言表达还相互一致的注册词汇信息片的注册词汇信息数中的至少一个,来提取将被加入所述基本字典的指示词;以及字典更新单元,其被配置成将所述提取的指示词的注册词汇信息作为基本词汇信息注册到所述基本字典。
根据本发明的实施例,一种语言信息翻译装置,其可由多个用户使用并且将第一语言表达翻译为第二语言表达,该装置包括用户字典注册单元,其被配置成将注册词汇信息存储到每一个注册用户的用户字典,其中所述注册词汇信息包含至少所述第一语言表达的指示词以及与所述有关的指示词相对应的所述第二语言表达;基本字典注册单元,其被配置成将基本词汇信息存储到基本字典,其中所述基本词汇信息包含至少所述第一语言表达的指示词以及与所述有关的指示词相对应的所述第二语言表达;公用字典注册单元,其被配置成将公用词汇信息存储到一个或多个公用字典,所述公用词汇信息包含至少所述第一语言表达的指示词以及与所述有关的指示词相对应的所述第二语言表达;语言信息翻译单元,其被配置成参照所述基本字典的基本词汇信息,由所述有关的用户字典的有关用户注册的注册词汇信息,以及由所述用户指示的所述公用字典的公用词汇信息,将由所述第一语言表达所表达的输入信息翻译为所述第二语言表达;重要单词提取单元,其被配置成参照所述多个用户字典的注册词汇信息,并且基于与所述相同的指示词相关联的注册词汇信息片的注册词汇信息数以及与所述相同的指示词相关联且该注册词汇信息的所述对应的第二语言表达还相互一致的注册词汇信息片的注册词汇信息数中的至少一个,来提取将被加入所述公用字典的指示词;以及字典更新单元,其被配置成将所述提取的指示词的所述注册词汇信息作为公用词汇信息注册到所述公用字典。
根据本发明的实施例,从许多用户的用户字典中提取出可靠的内容并对其进行共用,由此能够使用由其他用户注册的内容来进行高精度的翻译,而不会受到不正确注册内容的不利影响。


图1是框图,其示出了根据本发明第一实施例的语音合成装置的构造;图2是流程图,其示出了第一实施例的语音合成单元11的操作;图3是流程图,其示出了根据第一实施例的重要单词提取单元16和基本字典更新单元15的操作;图4示出了根据第一实施例的基本字典的基本词汇信息的例子;图5示出了根据第一实施例的用户字典的注册词汇信息的例子;图6示出了根据第一实施例的统计信息的例子;图7是框图,其示出了根据第二实施例的语音合成装置的构造;图8是框图,其示出了根据第三实施例的语音合成装置的构造;图9是根据第三实施例的用户字典的注册词汇信息的例子;图10示出了根据第三实施例的统计信息的例子;图11是流程图,其示出了根据第三实施例的重要单词提取单元46和字典更新单元45的操作;图12是框图,其示出了机器翻译装置的构造;图13是框图,其示出了假名-汉字翻译装置的构造。
具体实施例方式
以下将参照附图描述本发明的实施例。
(第一实施例)以下将参照图1到6描述根据本发明第一实施例的语音合成装置10。
(1)语音合成装置10的构造语音合成装置10配备有语音合成单元11、基本字典14、用户字典13、用户字典注册单元12、重要单词提取单元16以及基本字典更新单元15。由多个用户使用语音合成装置10进行文本-语音翻译,并且每个用户被分配了用户ID。
语音合成单元11被提供了输入文本101和用户ID 102,并且参照存储在基本字典14中的基本词汇信息108和存储在用户字典13中的注册词汇信息109之中的对应于用户ID 102的词汇信息,来生成合成语音105。
连同已准备的单词,基本字典14存储每一个有关单词的指示词,以及所述有关单词的一组发音符号阵列、重音位置、单词类别等,作为基本词汇信息。
连同由用户注册的单词,每个用户字典13存储每一个有关单词的指示词,以及一组发音符号阵列、重音位置、单词类别等,作为每个用户的注册词汇信息。然而,可以将注册词汇信息和用户ID成对存储,而不是对每个用户分别进行注册词汇信息的存储。
用户字典注册单元12根据所述有关的用户的用户ID 103,将用户为字典注册输入的注册内容104作为注册词汇信息注册在用户字典13。
重要单词提取单元16参照用户字典13来提取将被注册到基本字典14的单词,并输出重要单词110。
基本字典更新单元15将所提取的重要单词110的基本词汇信息注册到基本字典14。
也可以通过利用作为基本硬件的通用计算机装置来实现语音合成装置10、将在后面进行描述的第四实施例的机器翻译装置71以及假名-汉字翻译装置80。
即,可以通过使得安装在计算机装置中的处理器执行程序来实现这些装置。此时,可以通过将上述程序预先安装到所述计算机装置中来实现语音合成装置10、机器翻译装置71以及假名-汉字翻译装置80,或者通过将所述程序存储在诸如CD-ROM的存储介质中或通过网络分发所述程序,并且适当地将所述程序安装在计算机装置中,来实现上述装置。此外,可以通过适当利用计算机装置的内置存储器或外部存储器、硬盘或者诸如CD-R、CD-RW、DVD-RAM、DVD-R等存储介质来实现上述装置。
(2)语音合成单元11的操作接下来,参照图1和2描述语音合成单元11的操作。
在图2的语言分析步骤21中,当文本101被输入到语音合成单元11中时,参照基本字典14以及用户字典13之中的对应于用户ID 102的注册词汇,输出所述文本的读法(发音)、音节的断开位置(重音短语)、重音位置。
接下来,在韵律控制步骤22中,从上述信息中输出韵律信息,诸如,表示语音音调的时间变化的基频模式、表示各音素的长度的音素持续时间长度、停顿(休止)的位置和长度等。
最后,在波形生成步骤23中,根据发音信息将作为诸如音素、音节等的短区间语音信号的语音片互相连接,并且在同时根据韵律信息变化语音的音调和长度,从而输出合成语音105。
(3)语言分析步骤21的操作在此,通过将输入“watashino jushowa miyagiken tomeguntoyomamachidesu(我的地址是Toyoma-machi,Tome-gun,Miyagi-ken)”作为文本101的情况作为例子,来详细描述上述的语言分析步骤21的操作。
如图4所示,在基本字典14中注册了每个单词的指示词、读法、重音类型(重音音节的位置)以及单词类别。假设基本字典14中没有指示词“toyomamachi”,并且在用户字典中也没有任何注册。在这种情况下,输出是“watashino/ju’showa/miyagi’ken/tome’gun/tome’chodesu”。在此,片假名字符(罗马字符)的字符串表示读法,斜线“/”表示音节的断开位置,而单引号表示重音位置。
在这种情况下,读法是“tomecho”,其不同于正确的读法“toyomamachi”。
因此,当在用户字典13中注册图5所示的内容以使得读法和重音正确时,所述输出变成为“watashino/ju’showa/miyagi’ken/tome’gun/toyoma’machi”,从而得到所需要的结果。
图5所示的内容的信息和所述用户ID被注册到用户字典注册单元12中,并且用户字典注册单元12将该输入内容注册到对应于所述有关的用户ID的用户字典中,从而将图5中所示的内容注册到用户字典13。可以通过利用类似“toyoma’machi”的读法符号阵列和重音符号来执行读法和重音类型的输入,并且然后可以将所述读法符号阵列和所述重音符号转换为用户字典注册单元12中的读法和重音类型的信息,并进行注册。
(4)重要单词提取单元16和基本字典更新单元15的操作接下来,将参照图1和3描述根据本实施例的重要单词提取单元16和基本字典更新单元15的操作。
首先,在重要单词提取单元16中,执行注册词汇统计信息提取步骤31和重要单词提取步骤32,并且提取重要单词110。
在注册词汇统计信息提取步骤31中,检查所有用户的用户字典13,并且当存在指示词彼此相同的多个词汇时,计算与该指示词相关联的统计信息。图6示出了有关指示词“toyomamachi”的统计信息的例子。从图6可明显看出,在用户字典13中有1352个关于指示词“toyomamachi”的条目,并且注册了“toyomamachi”、“tomemachi”和“toyomacho”这三种读法作为读法信息。此外,为每种读法列出了出现的重音类型和单词类别,并且计算了其出现次数。可使用基于指示词、读法、重音类型和单词类别的出现次数或比例以及这些因素的组合的出现次数和比例的规则作为判断标准。例如,可以使用如下规则或由这些规则的组合所描述的规则。
(1)指示词的出现次数是1000或更多。
(2)指示词和读法的组合的最大出现次数是800或更多。
(3)指示词、读法和重音类型的组合的最大出现次数是700或更多。
(4)所述读法的最大出现次数在所述指示词的出现次数中所占的比例是80%或更多。
(5)所述最大出现次数的单词类别是地名或人名。
例如,如果定义满足条件(1)、(3)和(5)是作为重要单词的条件,图6的“toyomamachi”满足该全部条件,因而将其作为重要单词进行提取。作为替代,可以通过检查是否已经在基本字典14中注册了指示词来描述对于重要单词的判断规则。此外,系统管理员可以检查统计信息,以作出关于是否将单词判断为重要单词的最终判断。
接下来,在基本字典更新单元15中,执行基本词汇信息生成步骤33和基本字典注册步骤34,并且将重要单词110注册在基本字典14中。在基本词汇信息生成步骤33中,通过参照统计信息来生成有关指示词、读法、重音类型以及单词类别的信息。
例如,在图6的“toyomamachi”的情况中,如果从指示词、读法、重音类型以及单词类别的组合中选出具有最大出现次数的组合,则基本词汇信息是“指示词toyomamachi,读法toyomamachi,重音类型3,单词类别地名”。
在此,读法和重音类型相互存在依赖关系,然而,单词类别与其它信息没有依赖关系。因此,可基于指示词、读法和重音类型的组合的出现次数来确定读法和重音类型,而基于指示词和单词类别的组合的出现次数来确定单词类别。
此外,可以允许系统管理者检查和修改所生成的内容。
即使当加入正确内容的基本词汇信息时,仍然存在由于副作用而增加翻译错误的可能性。因此,预先调查加入基本词汇信息将导致的影响,并且当负面影响很大时,停止该注册。例如,预先从大量文本生成读法和重音位置的翻译结果。此外,加入基本词汇信息,并且得到相同文本的翻译结果。然后,提取在加入所述基本词汇信息之前和之后的翻译结果的差,并且基于所提取的差来检查是否存在任何负面影响。
随后,在基本字典注册步骤34中,将所生成的基本词汇信息107注册在基本字典14中。此时,将与已注册的基本词汇信息107具有相同内容的注册词汇信息从用户字典中删除。
如上所述,可以在诸如每天或每周的固定时间间隔内,或者在每次将用户字典的注册单词的数目增加诸如100个单词、1000个单词等的固定数目时,由重要单词提取单元16和基本字典更新单元15执行基本字典14的更新。此外,遇必要时也可由系统管理者执行所述更新。
(5)效果如上所述,根据本实施例的语音合成装置10,通过参照在用户字典中注册的单词的统计信息来提取所述重要单词。因此,能够防止将不常用的特殊术语和常被错误注册的或其读法还未确定的不可信术语注册在基本字典中,并且因而仅能够将有用的和可信的单词注册在基本字典中。于是,所有用户能够有效地使用用户字典的注册内容。
(6)变型在上述重要单词提取单元16操作下的重要单词提取步骤32中,可以搜索已经注册了作为重要单词提取的指示词的用户,从而对每个用户计数重要单词的注册情况的数目。
此外,在基本字典更新单元15的操作下在基本词汇信息生成步骤33中生成的基本词汇信息,以及在其之间不仅指示词,而且读法、重音类型以及单词类别都一致的注册词汇被进行计数。所计数的注册情况的数目表示对基本字典的更新的贡献,并且因而可以将其看作每个用户的贡献度。因此,如果根据用户的贡献度,给予每个用户激励,例如,商品、奖金或者可以交换商品和奖金的点数,则可以进一步改进所述用户字典注册,从而使基本字典的词汇更加丰富。
此外,在重要单词提取单元16操作下的注册词汇统计信息提取步骤31中,当计算所述统计信息时,可以用上述贡献度进行加权来计算其出现次数。通过这种加权操作,可以将更多注意力置于具有更高贡献度的可信用户的注册内容之上,从而提高重要单词提取的精度。
(第二实施例)接下来,将参照图7描述根据本发明第二实施例的语音合成装置52和字典更新装置50。
(1)语音合成装置52和字典更新装置50的构造图7是框图,其示出了语音合成装置52和字典更新装置50的构造。
在此实施例中,各用户的语音合成装置52被通过网络51连接到一个字典更新装置50。
(2)语音合成装置52和字典更新装置50的操作下面描述本实施例的操作,将集中于与第一实施例的不同之处。在本实施例中,由特定用户使用一个语音合成装置52,并且因而在用户字典注册和语音合成时不需要用户ID。
仅将有关的用户的注册单词注册到用户字典13中。在语音合成单元55中,基本字典14和用户字典13的所有注册单词都被参照,并且从文本101生成合成语音105。
接下来,将描述字典更新装置50的操作。
重要单词提取单元16通过网络51参照各用户的用户字典13的注册词汇信息106,并且根据与第一实施例相同的处理过程来提取重要单词110。
基本字典更新单元15还根据与第一实施例相同的处理过程来生成基本词汇信息107,以及更新基本字典54。在字典更新装置50中,可以通过网络51参照用户ID 103,以计算和使用所述用户贡献度。
在此,语音合成装置52通过网络51访问字典更新装置50的基本字典54,并且更新基本字典14。周期性地更新基本字典14,例如,每天或者每周,或者当基本字典54被更新时对其进行更新。或者,用户可以在任何时候更新基本字典14。
(3)效果根据本实施例,得到的效果是,由于用户通过占用他/她旁边的语音合成装置来进行语音合成,可以缩短从文本输入到语音输出所需要的等待时间。此外,由许多用户共用的服务器仅进行字典更新,因而减轻了处理负荷。
(4)变型在上述实施例中,重要单词提取单元16通过网络51参照每个用户的用户字典13的注册词汇信息106。然而,各用户可以通过该网络上载用户字典13的注册词汇信息,并将用户字典13的拷贝存储在字典更新装置50中。这种构造带来的效果在于,当进行字典更新时不需要通过网络的访问,从而减小了网络的负荷,并且还缩短了字典更新的时间。
(第三实施例)接下来,将参照图8到11描述根据第三实施例的语音合成装置40。
(1)语音合成装置的构造图8是框图,其示出了语音合成装置40。
本实施例与第一实施例的不同之处在于,设置了基于领域的(分部门的)字典47,并且在基本字典或基于领域的字典中注册了从用户字典提取的重要单词。
(2)语音合成装置40的操作下面描述本实施例的操作,并将集中于与第一实施例的不同之处。
对于在各个领域中频繁使用的各个单词,基于领域的字典47存储所述有关的单词的一组指示词、发音符号阵列、重音位置、单词类别等作为基于领域的词汇信息。
诸如政治、经济、体育、娱乐、计算机、海外等新闻种类都可以作为领域。此外,“wakamono kotoba(新词(young word))”等,其词汇和重音不同于目前为止已知的日文单词,也可以被用作为领域。
语音合成单元41的基本操作与图2所示的第一实施例的语音合成单元11相同。然而,根据本实施例,除了用户ID 102和文本101之外,还输入了领域信息412。在语言分析步骤21中,除了基本字典14和用户字典13之中的对应于用户ID 102的注册词汇外,还参照由领域信息412指示的基于领域的字典47,并且输出读法(发音)、音节的断开位置(重音短语)以及文本101的重音位置。
对于由用户注册的单词,用户字典43存储每个用户有关的单词的一组指示词、发音符号阵列、重音位置、单词类别、领域信息等,作为注册词汇信息。
由用户字典注册单元42根据所述有关的用户的用户ID 103将用户为字典注册所输入的注册内容104和领域信息413作为注册词汇信息注册在用户字典43中。图9示出了用户字典43的例子。在此例子中,单词“kareshi(男朋友)”是指示词,其也存在于基本字典14中,然而,由于其重音类型不同于通常用法,因此将其注册在用户字典中。
(3)重要单词提取单元46和字典更新单元45的操作接下来,将参照图8到11描述本实施例的重要单词提取单元46和字典更新单元45的操作。
首先,在重要单词提取单元46中,执行注册词汇统计信息提取步骤61和重要单词提取步骤62,来提取重要单词410。
在注册词汇统计信息提取步骤61中,检查所有用户的用户字典43,并且当存在具有相同指示词的多个注册词汇时,计算关于所述有关的指示词的统计信息。图10示出了指示词“kimoi(令人厌恶的)”的统计信息的例子。除了第一实施例的统计信息之外,也执行对领域信息的统计计算。
随后,在重要单词提取步骤32中,参照所述统计信息,并且然后判断是否应该将所提取的指示词“kimoi”设置为重要单词。判断标准与第一实施例相同,然而,例如,可以使用与领域相关的如下规则。
1)指示词、读法、重音类型和领域的组合的最大出现次数超过500。
2)所述领域的最大出现次数在所述指示词的出现次数中所占的比例超过50%。
此外,可以通过检查是否已经将所述指示词注册在基本字典14或基于领域的字典47中来描述重要单词的判断规则。
另外,系统管理员可以检查统计信息,以对是否将所述单词设置为重要单词进行最终判断。
随后,在字典更新单元45中,执行词汇信息生成步骤63、注册字典确定步骤64和字典注册步骤65,并且将重要单词410注册在基本字典14或基于领域的字典47中。
在词汇信息生成步骤63中,检查统计信息,以生成有关指示词、读法、重音类型以及单词类别的信息,作为词汇信息407。例如,在图10的“kimoi”的情况下,如果从指示词、读法、重音类型以及单词类别的组合中选出具有最大出现次数的组合,基本词汇信息是“指示词kimoi,读法kimoi,重音类型2,单词类别形容词”。
在此,读法和重音类型具有依赖关系,然而,单词类别与其它信息之间没有依赖关系。因此,可以由指示词、读法以及重音类型的组合的出现次数来确定读法和重音类型,并且可由指示词和单词类别的组合的出现次数来确定单词类别。
此外,可以检查和校正由系统管理员生成的内容。
在注册字典确定步骤64中,检查统计信息,以确定在其中注册了生成的词汇信息的字典。例如,如果在统计信息中大多数对应于所述生成的词汇信息的领域信息互相一致,则可以注册基于领域的字典47的所述对应领域。
此外,当对应于所述生成的词汇信息的领域信息分散,并且因而其没有被固定到任何固定领域时,或者,当领域信息集中于“一般”时,可以在基于领域的字典47的“一般”领域中,或者,在基本字典14中注册所述生成的词汇信息。从基于领域的字典47和基本字典14中选择一个的处理类似于,当指示词的出现次数大于固定数目时,选择基本字典,而在其它情况下,选择基于领域的字典,或者,检查单词类别,当其与名词相关时,选择基本字典,而在其它情况下选择基于领域的字典。此外,系统管理员可以检查和校正在其中应该注册了所生成的词汇信息的字典。
在字典注册步骤65中,在已确定(已选中)的注册字典中注册所生成的字典信息407。当其被注册在基本字典中时,可以从用户字典中删除具有与注册词汇信息407相同的内容的注册词汇信息。
可以在诸如每天或每周等的固定时间间隔,或者在每次用户字典的注册单词数目被增加诸如100个单词、1000个单词等的固定数目时,由上述的重要单词提取单元46和字典更新单元45执行字典的更新。在遇必要时的其它情况下,也可由系统管理者执行所述更新。
(4)效果如上所述,根据本实施例的语音合成装置40,在基于领域的字典中注册从用户字典提取的单词,并且用户能够选择将要使用的领域。于是,通过利用与用于语音合成的文本的内容相匹配的字典,能够生成具有适当的读法和重音的合成语音。
(5)变型在本实施例中,基于由用户输入的领域信息对从用户字典提取的重要单词进行分类,并将其注册在多个基于领域的字典中。然而,对所提取的重要单词进行分类的方法不限于以上实施例,可以通过在用户中共同使用的各种方法来对它们进行分类。例如,基于所提取的指示词的出现次数,当所述有关的指示词的出现次数超过10000时,将其分类和注册到“高可靠性字典”,当所述有关的指示词的出现次数超过3000时,将其分类和注册到“中可靠性字典”,以及当所述有关的指示词的出现次数超过1000时,将其分类和注册到“低可靠性字典”,并且用户可以选择他们是否使用这些字典。通过以上分类方法,可以根据将被使用的词汇的范围来选出合适的字典,例如,当频繁使用特殊词汇时,尽管可靠性较低,但所有字典都被用来增加词汇的次数,或者,当仅使用一般词汇时,则仅使用高可靠性字典。
(第四实施例)已经描述了语音合成装置的三种实施例,然而,本发明不限于所述语音合成装置。例如,所述同样的三个实施例可以被应用于机器翻译装置和假名-汉字翻译装置。
(1)机器翻译装置70下面将参照图12描述机器翻译装置70。
在图12所示的机器翻译装置70中,语音合成装置的语音合成单元11作为机器翻译器71,并且其将输入的日文文本701翻译为英文,并输出英文文本705。
基本字典14和用户字典13的注册内容是日文指示词及其英文翻译。
其它部分的操作与所述语音合成装置相同,通过检查在用户字典中注册的单词的统计信息,来提取重要单词,由此能够防止将不常用的特殊术语以及不可信的术语注册在基本字典中,其中,所述不可信术语的不可信是由于其被频繁地错误注册或者还没有确立其正确翻译。因此,仅将有用的和可信的单词注册在基本字典中。
如上所述,与第一实施例的情况一样,可以将第二和第三实施例实施为机器翻译装置,并且能够实现与语音合成装置相同的效果。
(2)假名-汉字翻译装置80下面将参照图13描述假名-汉字翻译装置80。
在根据图13所示的本发明第一实施例的假名-汉字翻译装置80中,语音合成装置的语音合成单元11作为假名-汉字翻译器81。对输入的假名字符串801进行假名-汉字翻译,并输出假名-汉字混合字符串805。
此外,基本字典14和用户字典13的注册内容是假名字符串的指示词以及对应于该指示词的假名-汉字混合字符串。
其它部分的操作与语音合成装置或机器翻译装置相同。检查在用户字典中注册的单词的统计信息以提取重要单词,由此能够防止将不常用的术语以及不可信的术语注册在基本字典中,其中,所述不可信术语的不可信是由于其被频繁地错误注册或者还没有为其确立正确的汉字表达,以及,能够仅将有用的和可信的术语注册在基本字典中。
本实施例不限于日文的假名-汉字翻译,还可将其应用于将能够通过键盘输入的表达翻译成基于诸如汉字等语言的适当表达,例如,中文的拼音-汉字翻译。
与第一实施例的情况一样,可以将第二和第三实施例实施为假名-汉字翻译装置,并且能够实现与语音合成装置的相同效果。
(变型)本发明不限于以上实施例,无需脱离本发明的主旨,可以在实施阶段修改其组成元件。
此外,通过适当组合上述实施例中公开的多个组成元件,可以得到本发明的各种实施例。例如,可以从所述实施例中公开的全部组成元件中省略一些组成元件。
此外,可以适当组合不同实施例中的组成元件。
权利要求
1.一种语言信息翻译装置,其可由多个用户使用并且将第一语言表达翻译为第二语言表达,该装置包括用户字典,其被配置成存储注册词汇信息,其中所述注册词汇信息包含至少所述第一语言表达的指示词以及与各注册用户的所述指示词相对应的所述第二语言表达;基本字典,其被配置成存储基本词汇信息,其中所述基本词汇信息包含至少所述第一语言表达的指示词以及与所述指示词相对应的所述第二语言表达;语言信息翻译单元,其被配置成参照所述基本字典的所述基本词汇信息和所述用户字典的由所述用户注册的注册词汇信息,将由所述第一语言表达所表达的输入信息翻译为所述第二语言表达;重要单词提取单元,其被配置成参照所述多个用户字典的所述注册词汇信息,并且基于与相同的指示词相关联的注册词汇信息片的数目以及与所述相同的指示词相关联且其所述对应的第二语言表达还相互相一致的注册词汇信息片的数目中的至少一个,来提取将被加入所述基本字典的所述指示词;以及字典更新单元,其被配置成将所述提取的指示词的所述注册词汇信息作为基本词汇信息注册到所述基本字典中。
2.根据权利要求1的装置,其中,当具有所述相同的指示词的注册词汇信息片的数目或者具有所述相同的指示词且对应于所述有关的注册词汇信息片的所述第二语言表达相互一致的所述注册词汇信息片的数目等于或超过阈值时,所述重要单词提取单元提取所述指示词。
3.根据权利要求1的装置,其中,所述重要单词提取单元、所述基本字典注册单元以及所述字典更新单元被通过网络连接到所述用户字典注册单元和所述语言信息翻译单元。
4.根据权利要求1的装置,其中,为每个领域设置公用字典注册单元。
5.根据权利要求1的装置,其中,所述重要单词提取单元进一步计算用户贡献度,所述用户贡献度对应于每个用户的由用户注册的注册词汇信息片之中的作为重要单词提取的注册词汇信息片的数目。
6.根据权利要求5的装置,其中,所述重要单词提取单元进一步基于所述用户贡献度提取将被加入的指示词。
7.根据权利要求1的装置,其中,所述第二语言表达包含至少对应于所述对应的第一语言表达的发音符号串。
8.根据权利要求1的装置,其中,基于所述第一语言表达的语言不同于基于所述第二语言表达的语言。
9.根据权利要求1的装置,其中,所述第一语言表达是发音符号串或假名字符串,且所述第二语言表达是汉字串、汉字-假名混合字符串以及单词串中的任何一种。
10.根据权利要求1的装置,进一步包括用户字典注册单元,其被配置成将所述注册词汇信息注册到对应于用户ID的所述用户字典中。
11.一种语言信息翻译装置,其可由多个用户使用并且将第一语言表达翻译为第二语言表达,该装置包括用户字典,其被配置成存储注册词汇信息,其中所述注册词汇信息包含至少所述第一语言表达的指示词以及与各注册用户的所述指示词相对应的所述第二语言表达;基本字典注册单元,其被配置成存储基本词汇信息,其中所述基本词汇信息包含至少所述第一语言表达的指示词以及与所述指示词相对应的所述第二语言表达;公用字典,其被配置成存储公用词汇信息,所述公用词汇信息包含至少所述第一语言表达的指示词以及与所述指示词相对应的所述第二语言表达;语言信息翻译单元,其被配置成参照所述基本字典的基本词汇信息,由所述有关的用户字典的所述用户注册的注册词汇信息,以及由所述用户指示的所述公用字典的公用词汇信息,并且将由所述第一语言表达所表达的输入信息翻译为所述第二语言表达;重要单词提取单元,其被配置成参照所述多个用户字典的所述注册词汇信息,并且基于与相同的指示词相关联的注册词汇信息片的数目以及与所述相同的指示词相关联且其所述对应的第二语言表达还相互一致的注册词汇信息片的数目中的至少一个,来提取将被加入所述基本字典的所述指示词;以及字典更新单元,其被配置成将所述提取的指示词的所述注册词汇信息作为公用词汇信息注册到所述公用字典中。
12.根据权利要求11的装置,其中,当具有所述相同的指示词的注册词汇信息片的数目或者具有所述相同的指示词且对应于所述有关的注册词汇信息片的所述第二语言表达相互一致的注册词汇信息片的数目等于或超过阈值时,所述重要单词提取单元提取所述指示词。
13.根据权利要求11的装置,其中,所述重要单词提取单元、所述基本字典注册单元以及所述字典更新单元被通过网络连接到所述用户字典注册单元和所述语言信息翻译单元。
14.根据权利要求11的装置,其中,为每个领域设置公用字典注册单元。
15.根据权利要求11的装置,其中,所述重要单词提取单元进一步计算用户贡献度,所述用户贡献度对应于每个用户的由用户注册的注册词汇信息片之中的作为重要单词提取的注册词汇信息片的数目。
16.根据权利要求15的装置,其中,所述重要单词提取单元进一步基于所述用户贡献度提取将被加入的指示词。
17.根据权利要求11的装置,其中,所述第二语言表达包含至少对应于所述对应的第一语言表达的发音符号串。
18.根据权利要求11的装置,其中,基于所述第一语言表达的语言不同于基于所述第二语言表达的语言。
19.根据权利要求11的装置,其中,所述第一语言表达是发音符号串或假名字符串,且所述第二语言表达是汉字串、汉字-假名混合字符串以及单词串中的任何一种。
20.根据权利要求11的装置,进一步包括用户字典注册单元,其被配置成将所述注册词汇信息注册到对应于用户ID的所述用户字典中。
21.一种语言信息翻译方法,其可由多个用户使用并且将第一语言表达翻译为第二语言表达,该方法包括以下步骤将注册词汇信息存储到各注册用户的用户字典中,其中所述注册词汇信息包含至少所述第一语言表达的指示词以及对应的所述第二语言表达;将基本词汇信息存储到基本字典中,其中所述基本词汇信息包含至少所述第一语言表达的指示词以及对应的所述第二语言表达;通过参照所述基本字典的基本词汇信息和所述有关的用户字典的由所述用户注册的注册词汇信息,将利用所述第一语言表达所表达的输入信息翻译为所述第二语言表达;参照所述多个用户字典的注册词汇信息,并且基于具有相同的指示词的注册词汇信息片的数目以及具有所述相同的指示词且对应于所述有关的注册词汇信息片的所述第二语言表达相互一致的注册词汇信息片的数目中的至少一个,来提取将被加入所述基本字典的所述指示词;以及将所述提取的指示词的所述注册词汇信息作为基本词汇信息注册到所述基本字典中。
22.一种语言信息翻译方法,其可由多个用户使用并且将第一语言表达翻译为第二语言表达,该方法包括以下步骤将注册词汇信息存储到各注册用户的用户字典中,其中所述注册词汇信息包含至少所述第一语言表达的指示词以及对应的所述第二语言表达;将基本词汇信息存储到基本字典中,其中所述基本词汇信息包含至少所述第一语言表达的指示词以及对应的所述第二语言表达;将公用词汇信息存储到一个或多个公用字典中,所述公用词汇信息包含至少所述第一语言表达的指示词以及对应的所述第二语言表达;通过参照所述基本字典的基本词汇信息、由所述有关的用户字典的所述用户注册的注册词汇信息以及由所述用户指示的所述公用字典的所述公用词汇信息,将利用所述第一语言表达所表达的输入信息翻译为所述第二语言表达;参照所述多个用户字典的注册词汇信息,并且基于具有相同的指示词的注册词汇信息片的数目以及具有所述相同的指示词且对应于所述有关的注册词汇信息片的所述第二语言表达相互一致的注册词汇信息片的数目中的至少一个,来提取将被加入所述公用字典的所述指示词;以及将所述提取的指示词的所述注册词汇信息作为公用词汇信息注册到所述公用字典中。
全文摘要
在语言信息翻译装置和方法中,参照被注册到用户字典注册单元的多个用户的注册词汇信息片,并且当存在具有相同的指示词的多个词汇信息片时,基于所述有关的指示词的注册词汇信息片的数目以及所述有关的指示词的且对应于所述有关的注册词汇信息片的所述第二语言表达相互一致的注册词汇信息片的数目中的一个,提取将被加入基本字典的指示词,以及将所述提取的指示词的基本词汇信息注册到基本字典中。
文档编号G06F17/28GK101013422SQ20071000699
公开日2007年8月8日 申请日期2007年2月1日 优先权日2006年2月1日
发明者笼岛岳彦, 平林刚, 清水勇词, 徐大威 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1