用于将语音由源语言翻译成目标语言的装置和方法

文档序号:6457756阅读:315来源:国知局
专利名称:用于将语音由源语言翻译成目标语言的装置和方法
技术领域
本发明涉及用于翻译输入语音以合成并输出所翻译的语音,从而 使得使用不同语言诸如他们母语的人们可以进行语音交流的装置和 方法。
背景技术
近年来,对能够支持在使用不同语言如他们母语的人们之间进行 沟通的语音翻译装置的实现存在高度需求。这种语音翻译装置主要使 用可以识别语音的单元、可以翻译作为语音识别结果所获得的字符串 的单元以及可以合成作为语音翻译结果所获得的字符串的单元,并且 可以通过顺序地执行语音识别过程、翻译过程和语音合成过程而构 成。用于识别用户说出的语音以输出字符信息的语音翻译系统已经 以打包软件格式等投入实际应用。此外,利用写入的单词(文本)作为 输入的机器翻译系统也类似地以套装软件的格式等投入实际应用。语 音合成系统已经投入实际应用,并且通过适当地使用软件,可以实现 语音翻译装置。在实现语音翻译时,可以使用各种语音识别方法和机器翻译方 法。不管使用哪种方法,主要的问题都是改进语音识别和机器翻译的 精确性。例如,在通过使用源语言和目标语言的双语语料库来执行翻译的 基于范例的机器翻译中,无法将所有文本准备成范例,并且当范例数 增加时,相对于输入文本,要搜索的文本增加。因此,存在以下问题, 即,用户需要花费时间和劳动来选择适当的文本。此外,因为通过语音翻译装置进行的交流的内容是多样化的,所 以为了精确地翻译语音内容,需要相对于大规模词汇量的语音识别、机器翻译和语音合成。至于普通名词、动词、形容词和副词类别的单 词,其数量受限于一定范围,因此可以在用于语音识别、机器翻译和 语音合成的字典内预先注册这些单词。然而,几乎每天都产生专有名 词,例如地名、人名、料理名、商店名和公司名,而且一般无法在字 典内注册所有的专有名词。因此,存在以下情形,如在国外旅游时所经历的,由于没有在字 典中注册用于翻译的适当的单词,因此旅游者本身需要以母语说出专 有名词,例如该国家或地区的地名和商店名。然而,在旅游者的发音 系统与他所旅游的国家的语言大相径庭的情形下,难以像母语一样精 确地发出单词的音,并且所发音的专有名词无法被理解的情形时有发 生。解决此问题的最简单方法是通过使用具有旅游指南信息和地图 信息的显示功能的移动终端,以在该移动终端的显示器上显示的旅游 指南信息或地图信息中指出特定部分,用户可以指出想要去的地方。然而,仅通过指出地点或地名,无法充分表达用户的意图。例如, 仅通过指出某些设施,无法表达出用户是希望去所述设施,还是用户 希望确认多久可以到达那里、他们现在的情况或是到达那里需要花费 多少钱。因此,需要考虑以下方法,其中组合了用于显示旅游指南信息和 地图信息的显示单元、用于根据所呈现的信息指出地名或设施名的单 元,以及语音翻译单元,并且输出所翻译的该用户说出的声音以表达 该用户的意图。作为关于此方法的技术,已经提出了这样的技术,其中包括语音 识别单元和地图显示单元,用于识别与语音识别同时的由用户在地图 上执行的指示操作,并根据这些之间的时间关系来输出文本的语义结 构,其中包括在所说出的文本中的指示代词由特定地图的位置信息所取代(例如,见JP-AH09-114634(KOKAI))。然而,根据在JP-A H09-114634(KOKAI)中公开的方法,可以通过分析包括指示代词的语义表示、参考用户指示的内容来改进语音识 别的精确性。然而,存在的问题是无法通过利用所指示的内容来改善机器翻译精确性。 发明内容根据本发明的一个方面, 一种语音翻译装置,包括相关信息存 储单元,用于彼此相关联地存储与语音相关的相关信息的名称以及所 述相关信息的显示位置;范例存储单元,用于彼此相关联地存储表示单词的语义属性的语义类别、包括所述单词的以源语言表示的范例, 以及通过翻译所述以源语言表示的范例而获取的以目标语言表示的范例;字典存储单元,用于彼此相关联地存储所述相关信息的名称以 及所述相关信息的名称的语义类别;显示单元,用于从所述相关信息 存储单元获取所述相关信息的显示位置,并在所获取的显示位置处显 示所述相关信息;语音接收单元,用于接收以所述源语言说出的语音; 识别单元,用于识别所接收到的语音,以产生以所述源语言表示的源 语言字符串;选择接收单元,用于接收对在所获取的显示位置处显示 的所述相关信息的选择;获取单元,用于从所述相关信息存储单元获 取与接收到对其的选择的所述相关信息的显示位置相对应的所述相 关信息的名称,并从所述字典存储单元获取与所获取的相关信息的名 称相对应的所述语义类别;以及翻译单元,用于通过从所述范例存储 单元获取以所述目标语言表示的范例,来将所述源语言字符串翻译成 所述目标语言,所述范例对应于从所述字典存储单元获取的所述语义 类别以及所述源语言字符串。根据本发明的另一个方面, 一种语音翻译方法,包括接收以源 语言说出的语音;识别所接收到的语音,以产生以所述源语言表示的 源语言字符串;接收对与显示在显示单元上的所说出的语音相关的相 关信息的选择;从相关信息存储单元获取与接收到对其的选择的所述 相关信息的显示位置相对应的所述相关信息的名称,其中所述相关信 息存储单元彼此相关联地存储所述相关信息的名称和所述相关信息 的显示位置;从字典存储单元获取表示与所获取的所述相关信息的名 称相对应的所述相关信息的名称的语义属性的语义类别,其中所述字 典存储单元彼此相关联地存储所述相关信息的名称和所述语义类别;以及通过从范例存储单元获取与所获取的语义类别和所述源语言字 符串相对应的以目标语言表示的范例,来将所述识别结果翻译成所述 目标语言,其中所述范例存储单元彼此相关联地存储单词的语义类 别、包括所述单词的以所述源语言表示的范例以及通过翻译所述以源 语言表示的范例所获取的以目标语言表示的范例。


图1是根据本发明的第一个实施例的语音翻译装置的配置框图; 图2是用于解释存储在相关信息存储单元中的相关信息的数据结构实例的示意图;图3是用于解释存储在范例存储单元中的双语范例的数据结构实例的示意图;图4是用于解释字典信息的数据结构实例的示意图;图5是用于解释第一个实施例中语音翻译过程的操作图像的示意图;图6A是第一个实施例中语音翻译过程的总流程的流程图;图6B是第一个实施例中语音翻译过程的总流程的另一个流程图;图7是用于解释替换识别结果的具体实例的示意图; 图8是机器翻译过程的总流程的流程图; 图9是机器翻译过程的具体实例;图IO是在将日语翻译成英语时处理的各种数据的实例; 图11A是在第一个实施例的变形例中语音翻译过程的总流程的 流程图;图11B是在第一个实施例的变形例中的语音翻译过程的总流程 的另一个流程图;图12是根据本发明的第二个实施例的语音翻译装置的配置的框图;图13是用于说明同现信息的数据结构的实例的示意图; 图14A是第二个实施例中语音翻译过程的总流程的流程图;图14B是第二个实施例中的语音翻译过程的总流程的另一个流 程图;图15是用于解释要处理的各种数据的实例的示意图;图16是用于解释要处理的各种数据的实例的另一个示意图;以及图17是用于解释根据第一个或第二个实施例的语音翻译装置的 硬件配置的示意图。
具体实施方式
以下将参考附图详细描述根据本发明的用于翻译语音的装置和 方法的示例性实施例。注意,虽然出于简单说明的目的,此处假定源 语言是日语而目标语言是汉语,但不必说,语言类型不受限于日语和 汉语,本发明也可以应用于其它语言对。根据本发明的第一个实施例的语音翻译装置在屏幕上显示与用 户的语音内容相关的诸如地图和料理名之类的相关信息,并且从所显 示的相关信息中仅指定与由用户指示的相关信息的语义类别相同的 语义类别的相关的范例作为范例搜寻范围。如图1所示,语音翻译装置100包括麦克风111、语音输入按钮 112、指示装置113、操作面板114、扬声器115、相关信息存储单元 121、范例存储单元122、字典存储单元123、语音接收单元101、选 择接收单元102、识别单元103、获取单元104、翻译单元105、合成 单元106和输出控制器107。麦克风111输入由用户所说的源语言语音。在麦克风111开始提 取该用户说出的语音时,按下语音输入按钮112。如下所说明的,具 有除了输入按钮112之外的如下操作按钮翻译按钮,用于指示开始 翻译过程;以及语音按钮,用于指定所合成的语音的输出,但这些按 钮没有在附图中显示。指示装置113通过指向操作面板114上显示的对象,来指定相关 信息,例如地点、设施、料理等,并由笔或鼠标构成。在以下的说明 中,假定将笔用作指示装置113。操作面板114是用于显示与语音翻译装置100的操作相关的信息 的显示单元,例如液晶显示器,并被配置成使得其可以通过接收指示 装置113的操作而指定所显示的信息。在第一个实施例中,操作面板114以地图格式显示地点、设施等, 而以列表形式显示设施、料理名等。操作面板114选择性地显示由识 别单元103产生的识别结果的候选者。扬声器115输出合成单元106所合成的语音。相关信息存储单元121存储要在操作面板114上显示的相关信 息,例如地图或料理名列表。如图2所示,相关信息在目标语言中的 名称与指示用于在操作面板114上显示该相关信息所需的坐标的显 示位置相关联地存储在相关信息存储单元121中。在图2中,在屏幕 上显示通过X-坐标和Y-坐标指示的显示位置的实例。指定显示位置的方法并不限于此,只要能够根据由指示装置113 指示的操作面板114上的位置来指定相关信息,则可以运用任何方 法。例如,当在操作面板114上显示地图时,可以在相关信息存储单 元121中存储要在地图上显示的显示位置,例如设施。此外,可以在 相关信息存储单元121中与目标语言相关联地存储相关信息在源语 言中的名称。范例存储单元122存储用于翻译单元105的翻译过程的双语范 例。如图3所示,利用符号"<"和">"所包围的标签以标签格式描 述双语范例,标签"<ppid= "NNN" >"和标签"</p>"所包围的部 分指示一个双语范例。各个双语范例还包括标签"<j>"和标签"</j>"所包围的日语文 本、标签"<c>"和标签"</c>"所包围的汉语文本,以及标签"<s id= "LLL" >"和标签"</s>"所包围的语义类别信息。"LLL"表示数 值。将日语文本和汉语文本中的各个单词彼此相关联的数值 "MMM"赋予标签"<aid= "MMM" >"和标签"</a"所包围的单 词。标签"<s id= "LLL" >"和标签"</s"所包围的语义类别信息 指示对应于与该数值"LLL"相关的标签"<aid= "LLL" >"的单词的语义属性6字典存储单元123存储字典信息,其中将源语言的单词和目标语 言的单词彼此相关联。如图4所示,字典存储单元123将汉语文本中 的单词、日语文本中的单词以及指示各个单词的语义属性的语义类别 相关联地进行存储,作为字典信息。在一种语言中,当在其它语言中 没有已翻译的单词时,符号"-"表示没有对应的已翻译的单词。当 通过获取单元104获取到对应于该相关信息的语义类别时,获取单元 104参考字典存储单元123。相关信息存储单元121、范例存储单元122和字典存储单元123 可以由通常使用的记录介质构成,例如硬盘驱动器(HDD)、光盘、存 储卡和随机存取存储器(RAM)。语音接收单元101对于从麦克风111输入的语音模拟信号执行采 样,并将该模拟信号转换为立体声数字信号,以输出该数字信号。通 常使用的A/D转换技术可以用于由语音接收单元101执行的过程中。选择接收单元102接收对该相关信息或由指示装置113在操作面 板114上指示的识别结果的候选者进行的选择。识别单元103执行语音识别过程,其中在接收到来自语音接收单 元IOI的数字语音信号的输入之后,产生识别结果的候选者,其是对 应的源语言字符串。在该语音识别过程中,可以运用任何通常所使用 的语音识别方法,其使用线性预测编码(LPC)分析、隐马尔可夫模型 (HMM)、动态规划、神经网络和N元语言模型。识别单元103为每一个候选者计算指示候选者的可能性的似然 性,以所计算的似然性的降序产生预定数的候选者并输出候选者。在 通过选择接收单元102接收到该相关信息之后,识别单元103以所接 收到的相关信息的名称替换与包括在识别结果中的近场(near field)相 关的指示代词(这、这里、那)。在指示代词的替换过程中,可以使用 任何通常所用的技术,例如在JP-A H09-114634(KOKAI)中所描述的技术。获取单元104从字典存储单元123中获取与由选择接收单元102 接收到的相关信息相对应的语义类别。翻译单元105通过基于范例的机器翻译方法将识别单元103获取 的识别结果翻译成以目标语言表示的字符串。特别地,翻译单元105 从范例存储单元122中获取符合或近似于该识别结果的源语言文本 的范例,并获取与所获取的源语言文本的范例相对应的目标语言文本 的范例,以翻译该识别结果。此时,根据第一个实施例,翻译单元105从与获取单元104所获 取的范例具有相同的语义类别的相对应的范例中搜索适用的范例。也 就是说,翻译单元105将范例的搜索范围縮减到仅搜索与所指示的相 关信息的语义类别相一致的语义类别所对应的范例。因此,可以改善 翻译精确性。合成单元106执行语音合成过程,其中,将通过翻译单元105获 取的字符串转换成语音信号。可以将任何通常所用的方法例如语音段 编辑语音合成、共振峰语音合成和基于语音语料库的语音合成用于由 合成单元106执行的语音合成过程。输出控制器107控制与操作面板114和扬声器115相关的各种信 息的输出过程。特别地,输出控制器107执行以下过程用于对通过 合成单元106产生的语音信号进行DA转换以输出该信号到扬声器 115的过程;用于输出所产生的识别结果的候选者给操作面板114的 过程,等等。参考图5,将解释根据第一个实施例的语音翻译过程的总流程的 特定实例。在图5中,以括号中的数字表示该语音翻译过程的操作顺 序。接收用户利用诸如笔之类的指示装置113在地图201上指定地点 202的指令(l)。接收通过按下语音输入按钮112而幵始语音的指令 (2)。在按下语音输入按钮112之后,接收用户发出的语音204(3)。显 示根据语音识别结果所合成的具有高有效性的源语言文本的候选者, 其中所述语音识别根据所接收的语音信号和对应于在(l)指示的地点 的专有名词而执行(4)。接收用户从所显示的文本候选者中指定的候 选者205的选择(5)。在按下翻译按钮207之后,接收到所选择的候 选者205的翻译指示(6)。执行该翻译过程并显示其翻译结果208(7)。在按下语音按钮210时,输出与该翻译结果合成的语音209(8)。参考图6A和图6B,说明根据第一个实施例通过语音翻译装置100执行的语音翻译过程。第一个实施例的语音翻译过程是基于以下假设在操作面板114上显示存储在相关信息存储单元121中的相关信息例,如地图或料理名列表。首先,选择接收单元102确定是否存在输入,即通过指示装置 113的笔输入(步骤S601)。笔输入意味着用户指示了所显示的相关信 息(此后称为"对象")。当存在笔输入时(步骤S601:是),选择接收单元102从相关信息 存储单元121获取由指示装置113所指示的对象的名称(步骤S602)。 特别地,选择接收单元102从相关信息存储单元121获取与所指示的 显示位置相对应的对象的名称。当在相关信息存储单元121中仅存储 了以目标语言表示的名称时,通过参考字典存储单元123可以获取以 源语言表示的名称。将所获取的以源语言表示的名称表示为"A"。语音接收单元101确定是否己按下语音输入按钮112(步骤5603) 。当尚未按下语音输入按钮112时(步骤S603:否),重复该过 程直到按下语音输入按钮112。当按下了语音输入按钮112时(步骤 S603:是),语音接收单元101接收来自麦克风111的语音输入(步骤5604) 。识别单元103对所接收到的语音执行语音识别过程(步骤S605)。 识别单元103通过语音识别过程产生预定数目的具有高似然性的识 别结果的候选者。识别单元103检测包括在该识别结果的候选者中的指示代词,并 以在步骤S602中获取的对象的名称A替换所检测到的指示代词(步骤 S606)o图7是在将表示"到那里要多少时间?"的候选者701和表示"怎 么样到那里?"的候选者702产生作为以日语表示的源语言语音的识 别结果的候选者时的实例。各个候选者包括分别表示包含了 "那里" 的指示代词703和704。在该实例中,假设用户在操作面板114上显示的地图上指示某一 对象,并且获取单词705(故宫)作为所指示的对象的专有名称。在这种情况下,分别产生候选者706和707,其中用单词705分 别替换指示代词703和704的部分。返回参考图6A,获取单元104从字典存储单元123获取对应于 所指示的对象的语义类别(步骤S607)。在随后描述的步骤S616中机 器翻译过程参考所获取的语义类别。当确定不存在笔输入时(步骤S601:否),语音接收单元101确定 是否已按下语音输入按钮112(步骤S608)。当尚未按下该按钮时(步骤 S608:否),控制返回到步骤S601以重复该过程。当按下了语音输入按钮112时(步骤S608:是),语音接收单元 101接收来自麦克风111的语音输入(步骤S609)。当用户在没有指示 对象的情况下(步骤S601:否)按下语音输入按钮112以说出单词时, 在步骤S608检测到按下语音输入按钮112。识别单元103对所接收到的语音执行语音识别过程(步骤S610)。在步骤S606替换指示代词之后,或在步骤S610执行该语音识别 过程之后,输出控制器107在操作面板114上显示所产生的识别结果 的候选者(此后称为"候选文本")(步骤S611)。选择接收单元102再次确定是否存在笔输入(步骤S612)。此处的 笔输入代表用于选择所显示的候选文本的任一个的输入。当存在笔输入时(步骤S612:是),选择接收单元102接收由指示 装置113所指示的候选文本的选择(步骤S613)。接着选择接收单元 102确定是否已按下翻译按钮(步骤S614)。当尚未按下该按钮时(步骤 S614:否),选择接收单元102重复该过程直到按下翻译按钮。在步骤S612,当确定不存在笔输入时(步骤S612:否),选择接 收单元102确定是否已按下翻译按钮(步骤S615)。当尚未按下该按钮 时(步骤S615:否),选择接收单元102返回到步骤S612以重复该过 程。当在步骤S614或S615确定已按下翻译按钮时(步骤S614和步骤 S615:是),翻译单元105参考范例存储单元122以获取适合的范例,从而执行用于执行翻译的机器翻译过程(步骤S616)。针对例如在步骤S614所选择的候选文本或在用户没有选择候选文本时根据预设规则所选择的具有最高似然性的候选文本,执行机器翻译过程。随后将详细描述该机器翻译过程。输出控制器107在操作面板114上显示该机器翻译过程的翻译结果(步骤S617)。当用户通过按下语音按钮来指示输出所合成的语音时,合成单元106对翻译结果执行语音合成(步骤S618)。接着输出控制器107将所合成的语音输出给扬声器115(步骤S619)。 将参考图8详细说明步骤S615的机器翻译过程。 翻译单元105将与由指示装置113(笔)指示的对象具有相同的语义类别的范例设置为搜索目标(步骤S801)。翻译单元105从范例存储单元122的范例中获取与候选文本相类似的以源语言表示的范例作为搜索目标,以从范例存储单元122中获取与所获取的以源语言表示的范例相对应的以目标语言表示的范例(步骤S802)。翻译单元105检测该候选文本和以源语言表示的范例之间的不 同部分(步骤S803)。随后,翻译单元105对于所获取的以目标语言表 示的范例获取对应于所述不同部分的以目标语言表示的单词(翻译的 单词),并以所获取的翻译的单词替换所述不同部分(步骤S804)。可以根据与常用的基于范例的机器翻译相同的方法来执行从步 骤S802至S804的范例搜索/不同部分替换过程。第一个实施例不同 于常规方法之处在于将范例的搜索范围縮减到与所指示的对象具有 相同的语义类别的对应的范例(步骤S801)。图9是一个范例,其中,假设用户在操作面板114上指出与图4 中的汉语401(故宫)相对应的对象(步骤S60h是),并获取图4中指 示设施的语义类别402(设施)(步骤S607)。这是基于以下假设将指 示"到故宫要多少时间?"的候选文本903选择作为候选文本。因为在此范例中获取了图4中的语义类别402,因此从具有与语 义类别402相同的语义类别901(设施)的范例中搜索类似的文本(步骤 S802)。在候选文本903 "到故宫要多少时间?"和所搜索到的类似文本 902 "到万里长城要多少时间?"之间的不同部分是单词904(万里长 城)和单词905(故宫)的部分(步骤SS03)。可以指出要由目标语言表示的范例替换的部分是来自源语言文 本和目标语言文本之间的相关信息paid- "1" >)的汉语906。因此, 产生范例907,其中以与不同部分的单词905相对应的汉字(故宫)替 换汉语906(步骤S804)。将参考图10说明将根据第一个实施例的方法应用到日语-英语翻 译的实例。图IO是一个实例,其中输入意思是"到机场需要多少钱?"的 日语1001(步骤604),同时在地图上指出对应于"SanJose"的对象(步 骤S60h是),并获取对应的名称1002(SanJose)(步骤S602)。产生候选文本1003 "到SanJose机场需要多少钱 ",其中已经 以名称1002替换了指示代词(步骤S606)。从范例存储单元122中获 取类似的范例1004(步骤S802)。在此实例中,假设在范例存储单元 122中存储其中日语范例与英语范例相关联的双语范例。输出翻译结果1006(步骤S804),在翻译结果1006中已经用与范 例1004相对应的英语范例1005替换了机场名称部分,其中所述机场 名称部分与候选文本不同的部分。在以上流程图中,显示语音识别结果,从而用户可以选择一个。 然而,可能是以下配置,使得对于每一个语音识别结果搜索类似的范 例并将所搜索到的范例显示给用户,从而用户可以选择一个。根据此 方法,存在以下优点,即使在语音识别结果中包含错误,所搜索到的 范例也不会包含任何错误,并从而将该范例呈现给用户,从而给用户 良好的印象。参考图IIA和IIB,说明根据第一个实施例的变形例的由语音翻 译装置100执行的语音翻译过程。从步骤S1101到S1110的对象选择接收过程、语音接收过程和识 别过程与根据第一个实施例to语音翻译装置100中的步骤S601至 610的过程相同,从而省略了其说明。在语音识别过程(步骤S1110)或识别结果替换过程(步骤SU06) 之后,在变形例中执行由翻译单元105执行的机器翻译过程(步骤 Sllll)。输出控制器107在操作面板114上将在机器翻译过程中搜索 到的以源语言表示的范例显示成候选文本(步骤S1112)。从步骤S1113至S1116的候选文本选择接收过程和翻译按钮接收 过程与根据第一个实施例的语音翻译装置100的步骤S612至S615 的过程相同,从而省略了其说明。输出控制器107从步骤S1111执行的机器翻译过程的翻译结果中 获取与所选择的候选文本相对应的翻译结果,并在操作面板114上显 示该翻译结果(步骤S1117)。从步骤S1118至S1119的语音合成过程和合成语音输出过程与根 据第一个实施例的语音翻译装置100的步骤S618至S619的过程相 同,从而省略了其说明。如上所述,根据第一个实施例的语音翻译装置,通过利用指示装 置指示在显示单元上显示的地名或料理名,用户不需要说出难于发音 的专有名词。此外,可以利用所指示的专有名词的语义类别縮减相对 于用户说出的语音以及指示的语音识别或机器翻译的候选者的搜索 范围。因此,可以改善机器翻译精确度。通过利用关于所指示的对象的语义类别的同现信息来縮减语音 翻译过程,根据第二个实施例的语音翻译装置改善了语音翻译过程的 精确度。如图12所示,语音翻译装置1200包括麦克风111、语音输入按 钮112、指示装置113、操作面板114、扬声器115、相关信息存储单 元121、范例存储单元122、字典存储单元123、同现信息存储单元 1224、语音接收单元IOI、选择接收单元102、识别单元1203、获取 单元104、翻译单元105、合成单元106和输出控制器107。第二个实施例不同于第一个实施例之处在于其中加入了同现信 息存储单元1224,并且识别单元1203的功能与第一个实施例的识别 单元的功能不同。因为其它配置和功能与图1中根据第一个实施例的 语音翻译装置100的配置的権图相同,因此相同的参考标号表示相同18部分并省略其说明。同现信息存储单元1224存储同现信息,在同现信息中语义类别 和同现单词彼此相关联,同现单词是与具有该语义类别的单词一起使 用的单词。如图13所示,同现信息包括语义类另lj、格助词(case particle) 和内容单词。同现信息指示例如具有语义类别1301(料理名)的单词与 格助词1302 "中"和内容单词1303 "附带有" 一起使用。识别单元1203与根据第一个实施例的识别单元103的不同之处 在于其从同现信息存储单元1224获取与通过获取单元104获取的语 义类别一起使用的同现单词,以将该语音识别过程的识别结果的候选 者縮减至包括所获取的同现单词的候选者。参考图14A和14B,说明由根据第二个实施例的语音翻译装置 1200执行的语音翻译过程。第二个实施例与关于第一个实施例的变形例的图11的流程图在 不同之处在于增加了步骤S1411的识别结果縮减过程。其它过程与图 11的过程相同,从而省略了其说明。在步骤S1411,识别单元1203从同现信息存储单元1224获取包 括所获取的语义类别的同现信息,以将识别结果的候选者縮减至仅适 合于所获取的同现信息的候选者。因此,改善了语音识别过程的精确 度,从而可以改善语音翻译过程的精确度。接下来将说明第二个实施例的语音翻译过程的具体实例。图15 是用于说明当输入语音同时指示所显示的料理名时需被处理的各种 数据的实例的示意图。图16是用于说明当输入语音同时指示所显示 的地名时需被处理的各种数据的实例的示意图。在图15和16中,假定因为输入了类似的日语语音,则产生两个 相同的候选者作为识别结果的候选者。也就是说,在图15和16的实 例中,即使产生相同的候选者,因为根据所指示的对象的语义类别縮 减了识别结果的候选者,所以分别选择不同的适合候选者。在如图15所示指示料理名时,产生识别结果1501 "这个附带有 哪一个?"和识别结果1502"哪一个到这里?"作为语音识别结果(步 骤S1405),并获取所指示的料理名的名称1503(步骤S1402)。在此实例中,因为指出了关于料理名的对象,因此获取指示该料理名的语义类别1504作为该对象的语义类别(步骤S1407)。获取包括 单词1511和1512中具有与内容单词1513相同发音的单词1511的识 别结果1501,其中内容单词1513包括在对应于语义类别1504的同 现信息1505中,所述单词1511和1512是识别结果1501和1502之 间的不同部分(步骤S1411)。将范例1506 "麻婆豆腐附带有哪一个点心?"和范例1507 "麻婆 豆腐多少钱?"搜索作为类似于识别结果1501的范例(步骤S802)。当假定选择了具有与识别结果1501高相似度的范例1506时,产 生候选文本1508并将其显示在操作面板114上,在候选文本1508中 以名称1503替换了与作为不同部分的单词1514相对应的以目标语言 表示的单词(步骤S1413)。另一方面,当如图16所示指示地名时,产生与图15所示的识别 结果1501和1502相同的识别结果1601和1602作为语音识别结果(步 骤S1405),并获取所指示的地名的名称1603(步骤S1402)。在此例中,因为指示了关于地名的对象,所以获取指示该地名的 语义类别1604作为该对象的语义类别(步骤S1407)。此外,在这种情 况下,存在与语义类别1604相对应的并包括分别与单词1611和1612 相对的每个单词的同现信息,所述单词1611和1612是识别结果1601 和识别结果1602之间的不同部分。也就是说,对于单词1611,存在包括内容单词1613的同现信息 1605,其中内容单词1613具有与单词1611相同的发音。此外,对于 单词1612,存在包括内容单词1614的同现信息1606,其中内容单词 1614具有与单词1612相同的发音。因此,将识别结果1601和1602都作为候选者留下(步骤S1411)。接下来,作为类似于识别结果1601和1602的范例,搜索到范例 1607(我应该坐哪辆车去北京?)和范例1608(到北京要多久?)(步骤 S802)。产生候选文本1609和候选文本1610,其中分别以名称1603替 换与作为不同部分的单词1615相对应的以目标语言表示的单词,并在操作面板114上显示(步骤S14B)。因此,根据第二个实施例的语音翻译装置,可以通过使用与所指 示的对象的语义类别相关的同现信息以縮减该语音识别过程,来高精 确地执行该语音识别过程。因此,可以改善该语音识别过程的精确度。参考图17说明根据第一个或第二个实施例的语音翻译装置的硬 件结构。根据第一个或第二个实施例的语音翻译装置包括控制器,诸如 中央处理器(CPU)51;存储单元,诸如只读存储器(ROM)52和随机存 取存储器(RAM)53;通过连接到网络来执行通信的通信I/F54;以及 连接这些单元的总线61。将通过根据第一个或第二个实施例的语音翻译装置执行的语音 翻译程序预先并入并提供在ROM 52等中。通过以可安装格式文件或可执行格式文件的形式在计算机可读 记录介质诸如光盘只读存储器(CD-ROM)、软盘(FD)、可记录压縮盘 (CD-R)和数字万用盘(DVD)上进行记录,可以提供通过根据第一个或 第二个实施例的语音翻译装置执行的语音翻译程序。可以将通过根据第一个或第二个实施例的语音翻译装置执行的 语音翻译程序存储在连接到诸如因特网的网络的计算机中,并可以经 由网络下载。可以经由诸如因特网的网络提供或分发通过根据第一个 或第二个实施例的语音翻译装置执行的语音翻译程序。通过根据第一个或第二个实施例的语音翻译装置执行的语音翻 译程序具有包括上述单元(语音接收单元、选择接收单元、识别单元、 获取单元、翻译单元、合成单元和输出控制器)的模块结构。作为实 际的硬件,CPU51从ROM52读取语音翻译程序,并执行此程序, 从而将上述单元加载到主存储器中。因此,在主存储器中产生各个单 元。
权利要求
1、一种语音翻译装置,包括相关信息存储单元,用于彼此相关联地存储与语音相关的相关信息的名称以及所述相关信息的显示位置;范例存储单元,用于彼此相关联地存储表示单词的语义属性的语义类别、包括所述单词的以源语言表示的范例,以及通过翻译所述以源语言表示的范例而获取的以目标语言表示的范例;字典存储单元,用于彼此相关联地存储所述相关信息的名称以及所述相关信息的名称的语义类别;显示单元,用于从所述相关信息存储单元获取所述相关信息的显示位置,并在所获取的显示位置处显示所述相关信息;语音接收单元,用于接收以所述源语言说出的语音;识别单元,用于识别所接收到的语音,以产生以所述源语言表示的源语言字符串;选择接收单元,用于接收对在所获取的显示位置处显示的所述相关信息的选择;获取单元,用于从所述相关信息存储单元获取与接收到对其的选择的所述相关信息的显示位置相对应的所述相关信息的名称,并从所述字典存储单元获取与所获取的相关信息的名称相对应的所述语义类别;以及翻译单元,用于通过从所述范例存储单元获取以所述目标语言表示的范例,来将所述源语言字符串翻译成所述目标语言,所述范例对应于从所述字典存储单元获取的所述语义类别以及所述源语言字符串。
2、根据权利要求1所述的装置,其中所述识别单元识别所接收到的语音,以产生所述源语言字符串的 候选者;所述选择接收单元接收从在所获取的显示位置处显示的多个候选者中选择候选者的选择;以及所述翻译单元通过从所述范例存储单元中获取以所述目标语言 表示的范例,来将所述候选者翻译成所述目标语言,所述范例对应于 所获取的语义类别和所选择的候选者。
3、 根据权利要求2所述的装置,其中所述识别单元按照指示所 述候选者的可能性的似然性的降序产生预定数目的候选者。
4、 根据权利要求l所述的装置,其中所述识别单元识别所接收到的语音并产生所述源语言字符串的 候选者;所述翻译单元为每一个所产生的候选者获取与所述候选者匹配 的以所述源语言表示的范例,并通过从所述范例存储单元获取以所述 目标语言表示的范例,来将所述候选者翻译成所述目标语言,所述范 例对应于所获取的以源语言表示的范例以及通过所述获取单元获取 的所述语义类别;所述选择接收单元接收从通过所述翻译单元获取并在所获取的 显示位置处显示的、以所述源语言表示的范例中选择以所述源语言表 示的范例的选择;以及所述装置还包括输出控制器,用于输出与所选择的以所述源语言 表示的范例相对应的以所述目标语言表示的范例。
5、 根据权利要求4所述的装置,其中所述识别单元按照指示所 述候选者的可能性的似然性的降序产生预定数目的候选者。
6、 根据权利要求1所述的装置,其中所述识别单元以所获取的 相关信息的名称替换包括在所述源语言字符串中的指示代词。
7、 根据权利要求1所述的装置,其中所述相关信息存储单元将要在地图上显示的显示目标的名称作为所述相关信息的名称,与所述地图上的显示目标的显示位置相关联 地进行存储;所述字典存储单元彼此相关联地存储所述显示目标的名称和所 述显示目标的名称的语义类别;所述选择接收单元接收对所述地图上的显示位置处显示的所述 显示目标的选择,所述地图由所述显示单元显示;以及所述获取单元从所述相关信息存储单元获取与接收到对其的选 择的所述显示目标的显示位置相对应的所述显示目标的名称,并从所 述字典存储单元获取与所获取的显示目标的名称相对应的语义类别。
8、 根据权利要求l所述的装置,其中所述相关信息存储单元彼此相关联地存储所述相关信息的名称 以及所述相关信息在以列表形式显示的列表上的显示位置;以及所述选择接收单元接收对在显示于所获取的显示位置处的所述 相关信息的列表上的所述显示位置处显示的所述相关信息的选择。
9、 根据权利要求l所述的装置,还包括合成单元,用于将通过所述翻译单元获取的以所述目标语言表示 的范例合成为以所述目标语言表示的语音;以及输出控制器,用于输出以所述目标语言表示的所合成的语音。
10、 根据权利要求1所述的装置,还包括同现信息存储单元,用于彼此相关联地存储所述语义类别和同现 单词,所述同现单词是与具有由所述语义类别表示的语义属性的单词 一起使用的单词,其中所述识别单元从所述同现信息存储单元中为所述源语言字符串 的候选者获取与通过所述获取单元获取的所述语义类别相对应的所 述同现单词,并选择包括所获取的同现单词的候选者作为所述源语言字符串。
11、 一种语音翻译方法,包括接收以源语言说出的语音;识别所接收到的语音,以产生以所述源语言表示的源语言字符串;接收对与显示在显示单元上的所说出的语音相关的相关信息的 选择;从相关信息存储单元获取与接收到对其的选择的所述相关信息 的显示位置相对应的所述相关信息的名称,其中所述相关信息存储单 元彼此相关联地存储所述相关信息的名称和所述相关信息的显示位 置;从字典存储单元获取表示与所获取的所述相关信息的名称相对 应的所述相关信息的名称的语义属性的语义类别,其中所述字典存储 单元彼此相关联地存储所述相关信息的名称和所述语义类别;以及通过从范例存储单元获取与所获取的语义类别和所述源语言字 符串相对应的以目标语言表示的范例,来将所述识别结果翻译成所述 目标语言,其中所述范例存储单元彼此相关联地存储单词的语义类别、包括所述单词的以所述源语言表示的范例以及通过翻译所述以源 语言表示的范例所获取的以目标语言表示的范例。
全文摘要
一种相关信息存储单元彼此相关联地存储相关信息的名称和显示位置。范例存储单元彼此相关联地存储语义类别、以源语言表示的范例和以目标语言表示的范例。字典存储单元彼此相关联地存储相关信息的名称和语义类别。获取单元从相关信息存储单元获取与所选择的相关信息的显示位置相对应的相关信息的名称,并从字典存储单元获取与所获取的相关信息的名称相对应的语义类别。翻译单元从范例存储单元获取与所获取的语义类别和语音识别结果相对应的以目标语言表示的范例,从而翻译该识别结果。
文档编号G06F17/28GK101256558SQ20081000311
公开日2008年9月3日 申请日期2008年1月10日 优先权日2007年2月26日
发明者住田一男 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1