语音翻译设备、语音翻译方法以及输出经翻译的语音的终端的制作方法

文档序号:7660759阅读:166来源:国知局
专利名称:语音翻译设备、语音翻译方法以及输出经翻译的语音的终端的制作方法
技术领域
本发明总体涉及提供语音翻译设备和语音翻译方法的技术以及输出经翻译的语音的 终端设备。
背景技术
通过先进的信息技术,电子会议系统己经被广泛用于讨论会、集会等会议中与诸多参 与者的通话。电子会议系统包括提供参与者的语音和图像的视频会议系统和传送参与者的 语音的电话会议系统。如果参与者使用不同的语言,识别和翻译语音的语音翻译技术被用于将每个参与者的 发言与其他人共同交流。然而,当将语音翻译技术应用到视频会议系统时,讲话者的图像和经翻译的语音并不 是同步输出的,因为需要一定的时间处理语音。JP-A 2001-224002 (KOKAI)披露了一种技术,该技术翻译语音信号,对与语音信号 一起接收的图像信号进行时间比例压縮/解压縮从而使图像信号的持续时间与翻译后的合 成语音的持续时间相等,并且同时输出经处理的图像信号和合成语音。JP-A 2001-224002 (KOKAI)中披露的技术消除了经翻译的语音和运动图像之间的时 滞;然而,它并不消除所输出的电话会议中的参与者的经翻译的语音与运动图像之间的时 滞。换句话说,如果语音被翻译成多种目标语言,则取决于目标语言经翻译的语音可能在 不同的时刻输出,因为翻译的处理以及经翻译的文字的输出顺序不同。此外,使用与说话者相同的语言的参与者实时听到语音而其他人必须等到语音被翻译 后。因此,有时聆听经翻译的语音的参与者难以跟上会议的节奏。发明内容根据本发明的一个方面,语音翻译设备包括存储彼此相关联的唯一标识可通过网络连 接的多个终端中的每一个终端的标识符和在这些终端中使用的使用语言的对应存储单元; 从一个终端接收源语音的接收单元;从对应存储单元中获取与源语音中使用的源语言不同 的使用语言,并且通过将每个所获取的使用语言作为目标语言来生成从源语音翻译的经翻 译的语音的生成单元;当用任何一种目标语言生成经翻译的语音时确定是否已经用所有的 目标语言生成经翻译的语音的确定单元;当已经用所有的目标语言生成经翻译的语音时输 出经翻译的语音的输出处理单元;和将所输出的经翻译的语音发送到每个由对应于目标语 言的标识符标识的终端的发送单元。根据本发明的另一方面,所述终端包括接收源语音的语音接收单元;将源语音发送到 可通过网络连接的用于翻译源语音并且生成经翻译的语音的语音翻译设备的发送单元;从 语音翻译设备接收经翻译的语音的第一接收单元;输出经翻译的语音的语音输出单元;从 语音翻译设备接收完成源语音的翻译的估计时间的第二接收单元;和显示该估计时间的显不单兀。根据本发明的再一个方面,语音翻译设备包括存储彼此相关联的唯一标识通过网络连 接的多个终端中的每一个终端的标识符和这些终端中使用的使用语言的对应存储单元;从 一个终端接收源语音的接收单元;从对应存储单元中获取与源语音中使用的源语言不同的 使用语言并且通过将每个所获取的使用语言作为目标语言来生成从源语音翻译的经翻译 的语音的生成单元;将经翻译的语音发送到由对应于目标语言的标识符标识的每个终端并 且将源语音发送到由对应于源语言的标识符标识的每个终端的发送单元;当用任何一种目 标语言生成经翻译的语音时确定是否已经用所有的目标语言生成经翻译的语音的确定单 元;和当已经用所有的目标语言生成经翻译的语音时输出由确定单元确定的源语音的语音 持续时间的持续时间信息的输出处理单元,其中发送单元进一步将持续时间信息发送到各 个终端。根据本发明的再一个方面,所述终端包括能够存储包括经翻译的语音或源语音的混合 语音的语音存储单元;接收源语音的语音接收单元;将输入源语音发送到可通过网络连接 的翻译源语音并且生成经翻译的语音的语音翻译设备的发送单元;从语音翻译设备接收经 翻译的语音的第一接收单元;将经翻译的语音与语音存储单元中的混合语音混合从而生成 结果的混合语音并且将结果的混合语音存储在语音存储单元中的保存单元;从语音翻译设 备接收有关源语音的语音持续时间的持续时间信息的第二接收单元;和输出由从语音存储 单元获取的持续时间信息表示的语音持续时间所对应的结果的混合语音的输出处理单元。根据本发明的再一个方面,语音翻译设备包括存储使用语言的语言存储单元;从多个
可通过网络连接的其他语音翻译设备中接收源语音的第一接收单元;通过将每个存储在语 言存储单元中的使用语言作为目标语言生成从源语音翻译来的经翻译的语音的生成单元;接收指示源语音已经被翻译成另一个语音翻译设备中使用的语言的信息的第二接收单元; 当从任何一个其他语音翻译设备中接收到信息时确定是否已经在所有其他语音翻译设备 中生成经翻译的语音的确定单元;和当已经在所有其他语音翻译设备中生成经翻译的语音 时输出经翻译的语音的输出处理单元。根据本发明的再一个方面,语音翻译方法包括从多个可通过网络连接的终端中接收源 语音;从存储彼此相关的唯一标识多个终端中的每一个终端的标识符和这些终端中使用的 使用语言的对应存储单元中获取与源语音中使用的源语言不同的使用语言;通过将所获取 的每种使用语言作为目标语言生成从源语音翻译的经翻译的语音;当用任何一个目标语言 生成经翻译的语音时确定是否已经用所有的目标语言生成经翻译的语音;当确定已经用所 有的目标语言生成经翻译的语音时输出经翻译的语音;和将所输出的经翻译的语音发送到 由对应于目标语言的标识符标识的每个终端。


图1是根据本发明的第一实施例的会议系统的示意图;图2是根据第一实施例的终端的框图;图3是根据第一实施例的语音翻译设备的框图;图4是显示从图3中所示的生成单元输出的信息的实例的说明图; 图5是显示图3中所示的语音存储单元中的语音的实例的说明图; 图6是根据第一实施例的语音翻译处理的程序图; 图7是语音输出处理的流程图;图8是显示将要输出到每个终端的语音持续时间的实例的说明图;图9是由图3中所示的确定单元进行的确定处理的流程图;图IO是显示表示确定处理的伪代码的实例的说明图;图11到14是语音存储单元的内容的实例;图15是根据本发明的第二实施例的语音翻译设备的框图;图16是根据第二实施例的语音翻译处理的程序图;图17是根据第二实施例的语音输出处理的流程图; 图18是根据本发明的第三实施例的终端的框图;图19是显示由图18中所示的第一接收单元接收的信息的实例的说明图;图20是根据第三实施例的语音翻译设备的框图;图21到23是从图20中所示的生成单元输出的信息的实例。图24是根据第三实施例的语音翻译处理的程序图;图25是由图20中所示的确定单元进行的确定处理的程序图;图26是根据本发明的第四实施例的会议系统的示意图; 图27是根据第四实施例的语音翻译设备的框图;图28是显示从图27中所示的生成单元输出的信息的实例的说明图;图29是根据第四实施例的语音翻译处理的程序图;图30是根据本发明的第五实施例的语音翻译设备的框图;图31是根据第五实施例的语音输出处理的流程图;图32是显示语音持续时间的实例的说明图;图33是延迟消除处理的流程图;图34是根据本发明的第六实施例的语音翻译设备的框图;图35和36是根据第六实施例的语音输出处理的流程图;图37是显示由图34中所示的縮短单元縮短的语音持续时间的实例的说明图;图38是根据本发明的第七实施例的终端的框图;图39是根据第七实施例的语音翻译设备的框图;图40是根据第七实施例的语音翻译处理的程序图;图41是显示在终端上显示的屏幕的实例的说明图;以及图42是根据任何一个第一到第七实施例的语音翻译设备中的硬件的框图。
具体实施方式
下文将参考附图详尽解释本发明的示例性实施例。根据第一实施例的语音翻译设备ioo在其中存储预定的语音持续时间中的语音被完全翻译完之前的经翻译的语音的持续时间,并且当该语音被翻译成所有语言时输出经翻译的 语音。经翻译的语音是通过翻译接收到的语音并且对结果语音进行语音合成生成的语音。语
音持续时间是接收到的语音或者从语音翻译设备输出的经翻译的语音的持续时间。为了定 义语音持续时间的开始点和结束点,例如,使用从语音翻译设备开始工作后经过的时间。 另外,语音翻译设备可以被配置成使用格林尼治标准时间(Greenwich Mean Time)。语音持续时间由[x,y)表示,它意味着x是开始点且y是结束点。符号"["意味着x 处于即刻被包括在语音持续时间之后,而符号")"意味着y处于即刻不被包括在语音持 续时间之前。与语音持续时间相对存在非语音持续时间,该非语音持续时间是由语音翻译设备接收 的在声音上不翻译的语音的持续时间。非语音持续时间通常包括静音或噪音。在由语音翻译设备接收到的声音中,用于语音翻译的语音持续时间可以被称为输入语 音持续时间,而经翻译的语音的语音持续时间被称为输出语音持续时间。所接收的语音可以被称为源语音和输出语音的源语音。使用这些术语是因为输出语音 可以包括所接收的没有为使用与发言者发言时使用的语言相同的语言的参与者翻译的语 音。因此,输出语音包括经翻译的语音和源语音。如图1中所示,会议系统包括语音翻译设备100和多个通过网络300连接的终端200a、 200b和200z (每一个也被称为终端200)。终端200被提供给每个参与者。该终端接收源语音并且输出经翻译的语音。网络300 可以是能够传输语音数据的电话线、互联网、无线网络等中的任何一种设施。根据第一实施例的语音翻译处理略述如下。为电话会议中的参与者消除时滞以及消除 经翻译的语音与运动图像之间的时滞是第一实施例的一个目标。这样的现象发生在以下情形(1)有三个或更多个参与者,(2)其中至少一个参与者 讲不同的语言,(3)由于语言上的限制和输出使翻译引起延迟,和(4)只能通过语音翻 译设备100听到参与者的语音。例如,有三个参与者,并且其中一个讲不同的语言。讲语言A的参与者被称为Al和 A2,而讲不同语言B的参与者被称为Bl。当Al通过终端200a讲话时,他/她的语音被通 过网络300发送到语音翻译设备100。虽然不需要翻译,该语音也不是立即传输给A2而是存储一段时间。将要传输给B1的 语音被翻译并且转换到语言B的语音。完成转换后,源语音被传输给A2而经翻译的语音 被传输给B1。同样的方法被应用于所有参与者都讲不同的语言的场合。例如,三个参与者Al、 Bl 和Cl讲三种不同的语言A、 B和C。当参与者Al通过终端200a讲话时,语音翻译设备100 接收该语音并且将其翻译成语言B和C。然而,该转换并不是同时完成的。所以,语音翻 译设备100在其中存储经翻译的语音,直到另一个转换也完成,并且当来自同一个源语音 的所有经翻译的语音都准备好时输出经翻译的语音。如上文所述,即使一种语音可以输出给一个参与者,该语音在为所有的参与者输出的 语音都准备好之前并不被输出。以这种方式,向每个参与者输出语音的时滞被最小化,从 而使参与者可以跟上会议的节奏。如图2中所示,终端200包括语音接收单元201,发送单元202,第一接收单元203 和语音输出单元204。语音接收单元201将所接收的语音转换到电信号,该电信号也被称为语音数据,并且 将该语音数据传递到发送单元202。下文中,语音数据被简称为语音。语音接收单元201 可以是公用的话筒等。发送单元202将由语音接收单元201接收到的语音发送到语音翻译设备100。第一接 收单元203从语音翻译设备100接收由语音翻译设备100生成的经翻译的语音或源语音。语音输出单元204输出第一接收单元203接收的语音,并且该语音输出单元204可以 是公用的扩音器等。语音接收单元201和语音输出单元204可以被集成,如电话机或头戴 式耳机等。如图3中所示,语音翻译设备100包括语音存储单元110,对应存储单元120,接收 单元130,生成单元140,输出控制单元150和发送单元160。语音存储单元110在其中相关于每种语言存储从终端200接收到的语音。语音存储单 元110包括相关于每种语言存储语音的子存储单元,诸如语言l存储单元lll,语言2存 储单元112,……,和语言n存储单元lln。对应存储单元120在其中存储与终端200使用的语言相关联的每个终端200的信息。 对应存储单元120在其中存储将唯一标识终端的标识符与该终端200中使用的语言相关联 的映射表121。映射表121包括标识符和当终端200通过网络300连接到语音翻译设备100时从该终 端200发送的语言。语音存储单元110和对应存储单元120可以是任何公用的记录介质,诸如硬盘驱动器 (HDD)、光盘、存储卡或随机存取存储器(RAM)等。 接收单元130通过网络300接收来自终端200的语音。接收单元130接收伴随语音的 终端200的标识符。接收单元130将语音和标识符传递到生成单元140和输出控制单元150。 语音被传递到输出控制单元150是因为如果终端200使用与源语音相同的语言则实际上被 发送到原来的终端200。生成单元140进行语音翻译设备100使用的所有语言之间的语音翻译。例如,如果语 音翻译设备100使用日语、英语和中文,则在日语和英语之间、英语和中文之间以及中文 和日语之间进行翻译。生成单元140通过进行语音识别处理、机器翻译处理和语音合成处理生成经翻译的语 音。语音识别处理包括识别所接收的语音并且将其转换成字符串。机器翻译处理包括将所 述字符串翻译成目标语言。语音合成处理包括通过合成已翻译成目标语言的字符串生成经 翻译的语音。语音识别处理可以采用任何利用纵向均等检验、隐马尔科夫模型(H羅)、动态规划、 神经网络、N-gram语言模型等的语音识别技术。机器翻译处理可以采用任何翻译技术,诸如转移法,基于实例的翻译、基于统计的翻 译或跨语言法等。语音合成处理可以采用任何语音合成技术,诸如语音分段编辑合成、构形成分合成、 基于语音主体的合成或者文字转语音合成等。生成单元140将经翻译的语音与关于输入语音持续时间的信息相关联并且输出该语 音。生成单元140使用任何常规技术探测语音持续时间,诸如一种以比预定的阈值相对更 长的时间探测声音的持续时间确定为语音持续时间的技术。如图4中所示,从生成单元140输出的信息包括指示接收源语音的终端的标识符的接 收终端号,输入语音持续时间,输出语音持续时间号,输出语音和语言信息。接收终端号与语音一起从接收单元130接收,并且被设定为如被接收的信息。输出语 音持续时间号是识别将要输出的经翻译的语音的语音持续时间的号码,并且相关于每种语 言和每个接收终端号使用连续的号码。图4中所示的输出语音显示了输出语音的数据,被示意性地表示为波形。语言信息用 于识别翻译的目标语言。图4中语言信息由数字表示;然而,也可以由诸如英语的语言名 称表示。下面解释输入语音持续时间和输出语音持续时间之间的关系。作为一般规则,生成单
元140生成与源语音相同长度的经翻译的语音。这并不意味着每个输入语音持续时间必须 与对应的输出语音持续时间匹配。换句话说,多个输入语音持续时间只需要与对应于输入 语音持续时间的经翻译的语音的持续时间匹配。因此,作为翻译成某种语言的源的输入语音持续时间的长度可以与作为翻译成另一种 语言的源的输入语音持续时间的长度不同。然而,输入语音持续时间需要在对所有语言共 同的一些点处被划界。图5是显示被划界成每个语音持续时间的每种语言的语音的实例的说明图。n是正整 数的横轴上的符号tn表示语音持续时间开始的时间点,圆括号中的数字表示用每种语言输 出该输出语音持续时间的顺序,N表示所使用的语言总数。在图5中,虽然语言1的第二输出语音持续时间和语言2的第四输出语音持续时间在 同一个开始点t2开始,但它们结束于不同的结束点(t3, t4)。另一方面,也总是存在同一 结束点结束的语音持续时间,如语言1的第三语音持续时间和语言2的第三语音持续时间。例如,因为使用同一个源语音,说话者说话的源语音的语音持续时间对于所有目标语 言是共同的。因此,至少语音的开始点和语音的结束点对于所有的目标语言是共同的。此 外,结束点可以例如在可以插入标点符号的点上是共同的。生成单元140实际上未经处理将非语音持续时间发送到输出控制单元150。生成单元 140向非语音持续时间赋上一个持续时间号,在下面的处理中除非另有其他规定,非语音 持续时间并不与通过语音翻译生成的语音相区别。如果非语音持续时间相对较长,则生成 单元140将其分割成足够小的持续时间,并且向每个持续时间赋上号码,从而使该非语音 持续时间可以被尽早输出。如上文所述,生成单元140生成在一定的持续时间与所接收的语音相同长度的经翻译 的语音。没有这个条件, 一个终端200完成经翻译的语音的输出而另一个终端200还在输 出经翻译的语音。一定的持续时间并不必是固定的持续时间;可以是单个语音持续时间,或者是语音多 个语音持续时间的集合。为了满足该条件,生成单元140在合成经翻译的语音时调整语音的长度。更加具体地, 生成单元140控制经合成的语音的速度从而使不同语言的经翻译的语音的持续时间相等。生成单元140可以被配置成通过在语音的前后插入静音来调整语音的长度。例如,如 果经合成的语音较短,则生成单元140在语音前后至少一处插入静音。如果经合成的语音
较长,则生成单元140在输入语音持续时间中包括一些非语音持续时间来延长源语音的持续时间,从而使不同语言的经翻译的语音可以具有相同的长度。输出控制单元150控制输出语音的时间,并且包括确定单元151和输出处理单元152。 当生成单元140生成有关经翻译的语音的信息时,确定单元151确定是否已经用所有的语言生成每个语音持续时间中的经翻译的语音,由此确定是否可以输出经翻译的语音。由确定单元151进行的确定处理将在后文解释。输出处理单元152输出经翻译的语音和对应于用所有的语言生成经翻译的语音的语音持续时间的源语音。发送单元160将从输出处理单元152输出的语音发送到终端200,并且包括终端确定 单元161。终端确定单元161通过参考映射表121确定将每种语言的语音发往哪个终端200。更 加具体地,终端确定单元161从映射表121中获取对应于每种语言的终端200的标识符, 并且将对应于所获取的标识符的终端200确定为目的地。下文将参考图6解释由根据第一实施例的语音翻译设备100进行的语音翻译处理。虽然图6显示单个终端200和语音翻译设备100之间的语音传输,但该处理实际上在 多个终端200和语音翻译设备100之间进行。终端200中的语音接收单元201接收源语音(步骤S601)。发送单元202将源语音发 送到语音翻译设备IOO (步骤S602)。语音翻译设备100中的接收单元130接收源语音(步骤S603)。生成单元140翻译所 接收的源语音并且生成经翻译的语音(步骤S604)。输出控制单元150确定从源语音翻译的语音的输出时间,并且进行语音输出处理输出 可以被输出的语音(步骤S605)。语音输出处理将在下文中详细解释。终端确定单元161通过参考映射表121确定每种语言的经翻译的语音发往的终端200 (步骤S606)。在图6中,假设将要输出的语音持续时间在语音输出处理期间被探测。然而,如果可以输出的语音持续时间不存在,则不进行步骤606及其后的步骤。发送单元160将可以输出的语音发送到每个终端200 (步骤S607)。 终端200中的第一接收单元203接收来自语音翻译设备100的语音(步骤S608),并且语音输出单元204输出所接收的语音(步骤S609)。 如上文所述,终端200将所有的源语音发送到语音翻译设备100,接收将要以由语音 翻译设备100调整的输出时间输出的语音,并且输出被调整的语音。因此,能够以较小的 时滞从每个终端200输出同一个源语音的经翻译的语音。下文参考图7细化步骤S605的语音输出处理。输出处理单元152将从生成单元140输出的语音存储在语音存储单元110中。如果语 音存储单元110已经在其中存储了另一个语音,则在其中存储包括现存的语音和从生成单 元140输出的语音的混合的混合语音(步骤S701),因为语音翻译设备IOO可以同时接收 来自多个终端200的语音。换句话说,如果在对应于输出语音的语音持续时间期间语音存储单元110中没有任何 语音,则输出处理单元152输出实际语音。如果在该语音持续时间期间语音存储单元110 中包括任何语音,则输出处理单元152获取该语音,生成混合的语音,并且将该混合的语 音作为对应于该语音持续时间的语音存储。当输出语音既包括没有任何语音的语音持续时间又包括有任何语音的语音持续时间 时,输出处理单元152确定没有语音的语音持续时间为静音。输出处理单元152参考从生成单元140输出的信息中的语言信息并且将该语音存储在 对应的存储单元lln中。输出处理单元152进行确定处理来确定可以输出的语音持续时间(步骤S702)。确定 处理将在后文详细描述。输出处理单元152确定是否存在另一个可以输出的语音持续时间(步骤S703)。如果 这样的语音持续时间不存在(步骤S703为"否"),则输出处理单元152终止语音输出处 理。如果这样的语音持续时间存在(步骤S703为"是"),则输出处理单元152计算可以 输出的最短持续时间(步骤S704)。换句话说,如果语音翻译设备100同时接收来自多个 终端200的语音并且存在多个对应的输出语音,则输出处理单元152计算输出语音持续时 间,从而用所有语言的输出语音已经准备好的持续时间被首先输出。下文将参考图8解释计算最短持续时间的处理。阴影区域表示输出语音持续时间,输 出语音持续时间中的数字表示输出语音持续时间号。图5与图8不同,因为图5中的阴影 区域表示输入语音持续时间。由于终端200的用户在不同时刻说话,因此输出语音持续时间很少匹配。因此,可以 在语音持续时间中间插入延迟。然而,除了在划界点之外不在任何非语音持续时间中插入 延迟,除非两个或多个人同时说话,因为在非语音持续时间上不进行翻译处理并且由于翻 译处理引起的延迟不会发生。因此,在这种情形下,输出语音不暂停。这里假设为所有终端200输出输出语音持续时间号1的输出语音。输出处理单元152 计算首先结束的输出语音的语音持续时间来确定最短持续时间。在图8中,输出处理单元 152计算t。和L之间的持续时间作为最短持续时间。如果然后输出终端200c的输出语音持续时间号2的输出语音,则最旧的结束点还是 t,,并且最短持续时间不变。如下文所述,在这种情形下确定可以输出的最短持续时间不 存在,并且在这一个点上没有最新输出语音。如果然后输出终端200b的输出语音持续时间号2的输出语音,则在这一个点上的最 旧的结束点是t2, t2之前的持续时间被计算为最短持续时间。在步骤S704中计算最短持续时间之后,输出处理单元152确定是否存在可以输出的 最短持续时间(步骤S705)。如果这样的最短持续时间不存在(步骤S705为"否"),则输 出处理单元终止语音输出处理。如果这样的最短持续时间存在(步骤S705为"是"),则输出处理单元152从语音存 储单元110中获取对应于该最短持续时间的语音并且将其输出(步骤S706)。以这种方式,输出语音能够以从为所有终端200生成输出语音的持续时间开始的顺序 输出。如果在等待所有终端200的语音时语音的输出延迟,则在延迟期间没有任何语音输 出。代替没有语音输出,静音数据可以被添加到将要输出的语音数据中。与之相反,如果 在当前语音输出期间生成下一个将要输出的另一个语音,则在当前语音输出完成后输出该 另一个语音。下文将参考图9细化步骤S703的确定处理。确定单元151选择一个目标语言(下文中称为"语音i")(步骤S901)。确定单元151 获取将要以语言i输出的语音持续时间(下文中称为"持续时间Sni")(步骤S902)。例如,如果图5中所示的语音被存储在语音存储单元110中并且语言2中输出顺序1 和2的语音持续时间己经被输出,则下一步将输出t3和t5之间的语音持续时间。确定单元151选择另一种语言j (步骤S903),并且对所有目标语言重复到步骤S908 的处理。确定单元151确定对应于Sni的语音是否己经被翻译成语言j (步骤S904)。如果还
没被翻译(步骤S904为"否"),则确定单元151终止确定处理。如果已经被翻译(步骤S904为"是"),则确定单元151从下一个将要输出的持续时 间到与Sni重叠的持续时间获取语言j的语音持续时间的输出语音持续时间号。所获取的 输出语音持续时间号被称为组X (步骤S905)。如果在语言j中重叠在Sni上的语音持续时间之前有任何将要输出的语音持续时间, 则进行步骤S905确定对于每个将要输出的语音持续时间是否已经生成其他语言的经翻译 的语音。以这种方式,即使重叠在Sni上的语音持续时间已经被翻译,该语音持续时间也 不能被输出,除非将要在此之前输出的语音持续时间已被翻译。确定单元151从组X中获取一个持续时间号,并且获取对应于所获取的持续时间号的 语音持续时间Sj (步骤S906)。确定单元151确定对应于Sj的持续时间是否已经被翻译 成所有其他语言(步骤S907)。如果该持续时间还未被翻译成任何语言(步骤S907为"否"),则确定单元151终止 确定处理,因为翻译还未用所有语言完成。如果持续时间已经被翻译成所有语言(步骤S907 为"是"),则确定单元151确定是否所有的持续时间号已经被处理(步骤S908)。如果不是所有的持续时间号已经被处理(步骤S908为"否"),则确定单元151获取 另一个持续时间号并且重复该处理(步骤S906)。如果所有持续时间号己经被处理(步骤 S908为"是"),则确定处理部151确定除了语言i之外是否所有的语言已经被处理(步骤 S909)。如果除了语言i之外不是所有的语言已经被处理(步骤S909为"否"),则确定单元 151获取作为语言j的另一种语言并且重复该处理(步骤S903)。如果除了语言i之外所有的语言已经被处理(步骤S909为"是"),则确定单元151 确定是否所有的目标语言已经被处理(步骤S910)。如果不是所有的目标语言已经被处理 (步骤S910为"否"),则确定单元151获取作为语言i的另一种目标语言并且重复该处 理(步骤S901)。如果所有的目标语言已经被处理(步骤S910为"是"),则确定单元151对于所有目 标语言输出可以输出的语音持续时间的持续时间号(步骤S911),并且终止确定处理。 下文将参考图10 — 14解释确定处理的一个实例。所述实例中,由终端200接收到的语音是日语,输出经翻译的语音的终端200分别使 用日语和英语。日语是语言l,英语是语言2。终端200接收到意思是"东京车站在哪里"
的日语语音。输入日语语音被输入到输出控制单元150和生成单元140。当输出控制单元150接收 到输入语音时,语音存储单元110如图11中所示在其中存储输出语音,其中Ud是输入语 音的持续时间的结束点时间。虽然只在图11中显示单个持续时间,但假设该语音被划分成足够小的多个持续时间 来进行确定处理。所述足够小的持续时间是例如一个被采样语音的单个样本的持续时间。 如果语音是以llkhz采样的,则该持续时间是每秒11000周的持续时间。相关联的多个持 续时间可以在生成单元140输出语音持续时间信息的时间点进行组合。每次翻译语音和生成经合成的语音时生成单元140都将经翻译的语音输出到输出控制 单元150。这里假设经翻译的英语语音"where is (在哪里)"首先从生成单元140输出。因为用于生成"where is (在哪里)"的输入语音持续时间也被输出,输出处理单元 152将"where is (在哪里)"存储在对应于该输入语音持续时间的持续时间中。该状态下 语音存储单元110的内容如图12中所示。虽然日语持续时间可以在被划分成更小的持续时间时进行处理,但它们被组合以与赋 有序号的英语持续时间相匹配。日语持续时间足够小以被组合成与英语持续时间相同的持 续时间而没有持续时间的开始点和结束点的不匹配。在这种状态下,如图9中所示,基于i二l,也就是在日语中(语言l)进行确定处理。 下面利用图10中显示的伪代码来解释确定处理。伪代码对应于图9中所示的步骤S903到 S909。因为使用日语和英语,等式LH1,2)成立。L是翻译处理中用到的所有语言的序号的 集合。第一行表示对所有除了 i之外的L重复从第二行到第十二行的处理。在这个实例中,只对j是2进行处理。第二行中,用重叠在语言1的持续时间上的语 言2 (英语)的持续时间的持续时间号替代X。在该情况中,X={},也即,X是空。第三行中,用X中包括的号码的持续时间替代T, T是空。在第四行中,持续时间X广 和T的交集(intersection)也是空,它不等于持续时间X,xt,条件陈述满足。作为结果, 执行第五行,确定单元151确定不可以输出语音,确定处理终止。另一个经翻译的英语语音"Tokyo station (东京车站)"从生成单元140输出。该状 态下语音存储单元110的内容如图13中所示。再次对语言1进行确定处理。伪代码的第一行与前文描述的相同。在第二行中,因为有重叠在语言1的持续时间上的语言2的持续时间的持续时间号2, 等式X^2)成立。在第三行中,用持续时间[t。,t,)代替T。因为i是1,语言1中下一步将要被输出的 持续时间X""表示为X,、1。其意思是第一语音持续时间(i-l)将在下一步输出,因为 语言1中还没有输出任何语音。因为语言1中第一持续时间S/包括持续时间[t。,tJ,第四行被确定为假,并且处理 移至第六行。在第六行中获取X中的数的最大值,这里X,等于2。当在第七行中X被更新时,根据x/"、 x广"=1,满足Kx《2的唯一整数是2。因此,等式x二m成立。第八行表示对于X中的所有数重复第九行到第十二行的处理。在这个实例中,只对x=2 进行该处理。第九行表示对于除了语言j之外的所有语言重复第十行到第十二行的处理。在本例中, 只对1<=1进行处理。第十行中,用语言k的所有持续时间代替T, T包括持续时间[t。, Ua)。第十一行中,确定语言j的第x持续时间是否己经被T的持续时间填满。因为j等于 2并且x等于2,等式S,、S2^ [t。, tO成立。另一方面,因为T的持续时间是[t。, tend), 该持续时间包括持续时间[t。, t,)。因此,第十一行的条件不满足。为了完成所有循环,处理移至第十三行并且返回真值。由于已经对i=l,也即对语言 l进行确定处理,将对语言2进行同样的处理。虽然这里省略解释,但仍确定翻译成语言2的语音能够输出,也即返回真值,并且确 定单元151在图9中所示的步骤S911中输出可以用所有目标语言输出的语音持续时间的 持续时间号。此外,输出处理单元152在步骤S705中确定存在可以输出的持续时间,并 且在图7中所示的步骤S706中输出对应的语音。在这个实例中,日语的第一持续时间被输出到使用日语的终端200,英语的第一持续 时间被输出到使用英语的终端200。下一个将要输出的持续时间是日语和英语的第二持续时间,它们由x,"=2和xr"=2 表示。在该状态中,进一步重复确定处理。为了开始该状态中的确定处理,i等于l,伪代码的第一行是f2。第二行是X二U), 第三行中T是[t,.tw)。因为第四行中的条件不满足,处理移至第六行,其中等式xmax= 1 成立。当X在第七行中被更新时,因为没有满足条件2〈x《2的整数,等式X二G成立。因此,不进行从第八行到第十二行的处理。处理移至第十三行,并且返回真值。下面, i增加l,对1=2,也即对语言2进行相同的处理。虽然这里省略了解释,但仍确定翻译成语言2的语音能够输出,并且确定单元151在 图9中所示的步骤S911中输出可以用所有目标语言输出的语音持续时间的持续时间号, 也即,日语和英语的第二持续时间的持续时间号。如果是在图14中所示的情形,则要求第七到第十二行的伪代码。第一持续时间将在 下一步在语言1和2中输出,并且在i=l的情形下进行伪代码。第一行是」'=2,并且第二行是X二(3h在第三行中,T是[t2,tJ。因为第四行中的条 件不满足,处理移至第六行,其中等式x自4成立。在第七行中,X被更新为(2,3h在第八行中,X等于2,并且在第九行中k等于l。 在第十行中,T的持续时间是[t。,t,]和[t2,Ud)。根据S22 = [ ti, t2),第十一行中的条件 满足。进行第十二行并且返回假值。换句话说,确定没有语音持续时间可以输出,并且处 理终止。如果不进行第七到第十二行中的处理,则在图14中所示的状态中确定将要在语言1 和2中输出持续时间号1。然而,如果输出语言1的持续时间[tLt2)之前的等待时间比输 出每种语言的第一持续时间之前的等待时间更长,则语言1的用户不得不在听[t2,Ud)的内 容的同时等待,而语言2的用户不得不在听[t。,t》的内容的同时等待。以这样的方式,不能延迟语音的输出,尽量在同一时刻向用户提供相同的内容。第七 到十二行中的处理被要求进行适当的延迟。下文将参考图5解释不同状态中的确定处理。这里假设经翻译的语音以语言1和2输 出,并且每种语言只生成第一语音持续时间。换句话说,翻译成语言l的持续时间[t。,t2] 的输出语音已经生成,翻译成语言2的持续时间[t。,t,)的输出语音也己经生成。在这个实例中,伪代码中i是1且j是2。第二行是X二 {1},因为S,仏S,1 = SJ是满 足的并且X是非空。在第三行中,T是S,2 = [ t。, t》。因此,第四行中的条件陈述是真, 并且因为第五行中的条件不满足返回假。以这样的方式,因为语言2的第二语音持续时间还未生成,语言l的第二语音持续时 间不被输出。如果没有开始点和结束点在不同语言中都匹配的持续时间,则没有任何语音持续时间
可以被输出。然而,因为对于所有语言至少有一个语音在同一点开始和结束,这样的情形 不会发生。如上文所述,根据第一实施例的语音翻译设备100在其中存储经翻译的语音,直到源 语音被翻译成所有的语言,并且当用所有的语言生成经翻译的语音时输出该经翻译的语 音。以这种方式,向参与者输出的语音的时滞可以被最小化。根据第一实施例,所有从生成单元140输出的语音与语音存储单元110中的语音混合。 在这种情形下,经混合的语音被输出到说话的参与者的终端200,因此可能存在回声^L象, 他/她自己的语音在输出时带有延迟。因为在演讲期间听到他/她自己的声音,讲话者会感 到说话很笨拙。根据第二实施例的语音翻译设备1500不向接收源语音的终端发送语音,由此防止了 源语音被发送给该语音的说话者。如图15中所示,语音翻译设备1500包括语音存储单元1510,对应存储单元120,接 收单元130,生成单元140,输出控制单元1550和发送单元1560。语音存储单元1510中的数据结构,输出控制单元1550的功能和发送单元1560的功 能与第一实施例不同。因为其他单元的结构和功能与根据第一实施例的语音翻译设备100 相同,因此使用与图3中相同的参考数字,并且省略对它们的解释。语音存储单元1510包括在其中存储对应终端200的语音的终端N存储单元151n,其 中N和n是自然数。终端N存储单元151n在其中存储所有语言的输出语音。输出控制单元1550包括确定单元151和输出处理单元1552。输出处理单元1552的功 能与根据第一实施例的输出处理单元152不同。输出处理单元1552从所接收的来自生成单元140的信息中提取发送源语音的终端200 的接收终端号,并且获取目标语言。然后输出处理单元1552将输出语音存储在对应于接 收终端号的终端N存储单元151n中的对应于所获取的语言的语言n存储单元lln中。与第一实施例不同,当输出处理单元1552在语音存储单元1510中存储语音时不混合 语音。当被确定可以输出时,语音存储单元1510中的语音被输出到发送单元1560,并且 在发送单元1560中混合后被发送到每个终端200。发送单元1560在将语音发送到终端200之前先混合语音,并且包括终端确定单元161 和混合单元1562。终端确定单元161的功能如第一实施例中所述,这里省略对它的解释。混合单元1562在将从语音被发往的终端200 (下文中称"目的终端200")接收到的 语音删除后混合从终端确定单元161接收到的语音,并且输出经混合的语音。混合单元1562通过将来自终端确定单元161的接收终端号与目的终端200的标识符进行比较确定将要输出的语音是否是原先从目的终端200发出的语音。下文参考图16解释由根据第二实施例的语音翻译设备1500进行的语音翻译处理。 步骤S1601到S1604与图6中所示的步骤S601到S604相同,因此省略对它们的解释。 在步骤S1605,输出控制单元1550进行语音输出处理,该处理将在后文详细描述。 在语音输出处理后,终端确定单元161通过参考映射表121确定每种语言的经翻译的语音被发往的终端200 (步骤S1606)。这是与图6中所示的步骤S606相同的处理。混合单元1562混合将要发送的语音(步骤S1607)。换句话说,混合单元1562从对应于目的终端200中使用的语言的语言n存储单元lln中获取目标语言的输出语音,并且如果获取多个语音,则混合单元1562混合这些语音。在混合语音前,混合单元1562删除原先从目的终端200发送的语音,并且发送经混合的语音。步骤S1608到S1610与图6中所示的步骤S607到S609相同,因此省略对它们的解释。 下文参考图17细化步骤S1605的语音输出处理。输出处理单元1552选择对应于接收源语音的终端200的终端N存储单元151n,并且 选择对应于从接收单元130或生成单元140接收到的语音的语言的语言n存储单元lln(步 骤S1701)。输出处理单元1552将输出语音存储在所选择的终端N存储单元151n中(步骤 S1702)。根据第二实施例,此时语音不被混合。步骤S1703到S1707与图7中所示的步骤S702到S706相同,因此省略对它们的解释。如上文所述,根据第二实施例的语音翻译设备1500不将语音发送到接收源语音的终 端200,由此防止回声现象。根据第三实施例的语音翻译设备2000通过在翻译处理和将语音信息存储在终端200 中之后立即将经翻译的语音发送到终端200来规避由于网络故障引起的延迟。如图18中所示,终端1800包括语音接收单元201,发送单元202,第一接收单元203, 语音输出单元204,保存单元1805,第二接收单元1806,输出处理单元1807和语音存储 单元1810。终端1800与根据第一实施例的终端200的不同之处在于增加了保存单元1805、第二 接收单元1806、输出处理单元1807和语音存储单元1810。因为其他单元的结构和功能与 根据第一实施例的终端200相同,因此使用与图2中所示相同的参考数字,并且省略对它
们的解释。语音存储单元1810包括对应于语音存储单元1810中使用的语言的语言n存储单元1 In 中的一个单元。换句话说,在其中存储语音的存储单元被包括在终端1800中。保存单元1805将从语音翻译设备2000发送到第一接收单元203的语音存储在语音存 储单元1810中。如图19中所示,语音翻译设备2000发送彼此相关联的接收终端号、输 出语音持续时间号和输出语音,并且第一接收单元203接收这些信息。如果第一接收单元203接收一个包括重叠的语音持续时间的语音,则保存单元1805 生成经混合的语音并且将其存储在语音存储单元1810中,因为所接收的语音的源语音可 能已经由多个终端1800同时接收。保存单元1805也在接收语音时生成图8中所示的用于 计算最短持续时间的信息并且将其存储在语音存储单元1810中。第二接收单元1806接收作为将要输出的持续时间的信息的从语音翻译设备2000发送 的输出语音持续时间号和接收终端号。输出处理单元1807参考由第二接收单元1806接收的信息,获取准备好将从终端1800 输出的语音持续时间的最短持续时间并将其输出。输出处理单元1807将已经从语音存储 单元1810中输出的语音消除。如图20中所示,语音翻译设备2000包括对应存储单元120,接收单元2030,生成单 元2040,输出控制单元2050和发送单元2060。语音翻译设备2000与根据第一实施例的语音翻译设备100的不同之处在于不包括语 音存储单元110,并且接收单元2030、生成单元2040、输出控制单元2050和发送单元2060 的功能不同。因为其他单元的结构和功能与根据第一实施例的语音翻译设备100相同,所 以使用与图3中所示相同的参考数字,并且省略对它们的解释。接收单元2030也将所接收的语音原样输出到发送单元2060,并且将所接收语音的语 音持续时间信息输出到输出控制单元2050。生成单元2040也将经翻译的语音输出到发送单元2060,但是不输出到输出控制单元 2050。生成单元2040只将输出语音的语音持续时间信息输出到输出控制单元2050。如图21中所示,输入到发送单元2060的信息包括接收终端号、输出语音持续时间号、 输出语音和语言信息。如图22中所示,输入到输出控制单元2050的信息包括接收终端号、输入语音持续时 间、输出语音持续时间号和语言信息。
从接收单元2030传递到输出控制单元2050的持续时间信息并不是由语音持续时间的单位或者按词来划界的。持续时间信息以可以被定义为持续时间的最小单位传输。例如,如果采样频率是8Khz,则每一秒中生成8000个持续时间。然而,为了以与其接收时相同 的语言输出语音,所接收的语音和输出语音的顺序相同,并且接收单元2030只必须将至 此接收到的语音的最后点传输到输出控制单元2050。输出控制单元2050控制输出语音的时间,并且包括确定单元151和输出处理单元 2052。确定单元151的功能如第一实施例中所述,并且省略对它的解释。输出处理单元2052输出包括其间确定单元151已经用所有语言生成的经翻译的i吾音 的语音持续时间的输出语音持续时间号的信息。如图23中所示,从输出处理单元2052输出的信息包括接收终端号、输出语音持续时 间号和语言信息。下文将参考图24解释由根据第三实施例的语音翻译设备2000进行的语音翻译处理。 步骤S2401到S2404与图6中所示的步骤S601到S604相同,因此省略对它们的解释。 在翻译处理后,发送单元2060将如图19中所示的包括由生成单元2040生成的经翻 译的语音的信息发送到终端1800 (步骤S2405),并且第一接收单元203接收该信息(步 骤S2406)。保存单元1805将经翻译的语音保存在语音存储单元1810中(步骤S2407)。在语音翻译设备2000中,确定单元151进行确定处理(步骤S2408),该确定处理>(每 在后文详细描述。在输出持续时间的确定处理之后,发送单元2060将被确定可以输出的语音持续时间 的输出语音持续时间号以及接收终端号发送到终端1800 (步骤S2409)。第二接收单元1806接收输出语音持续时间号和接收终端号(步骤S2410)。输出处理 单元1807通过参考输出语音持续时间号和接收终端号生成如图8中所示的信息,并且计 算将要输出的最短持续时间(步骤S2411)。计算最短持续时间的处理与第一实施例中的解 释相同,因此省略对它的解释。输出处理单元1807从语音存储单元1810中获取对应于最短持续时间的语音并且将其 输出到语音输出单元204 (步骤S2412)。语音输出单元204输出该语音(步骤S2413)。下文将参考图25细化步骤S2408的语音输出处理。步骤S2501和S2502与图7中所示的步骤S702和S703相同,因此省略对它们的解释。 如果没有能够输出的持续时间(步骤S2502位"否"),则输出处理单元2052终止确定处理。如果有能够输出的持续时间(步骤S2502为"是"),则输出处理单元2052输出如图 23中的信息(步骤S2503),并且终止确定处理。如上文所述,根据第三实施例,如果确定单元151确定存在能够输出的语音持续时间 则输出如图23中所示的将要输出的语音持续时间的信息。因为根据第三实施例的语音翻译设备2000向终端1800串行输出大容量的语音数据, 由于网络故障引起的输出语音的延迟被减小。在第一实施例、第二实施例和第三实施例中使用了客户一服务器系统结构。对应于服 务器的语音翻译进行翻译处理,对应于客户的终端只输出经翻译的语音。根据第四实施例,没有这样一个集中进行处理的服务器。作为代替,为每个参与者提 供的设备相互交换信息并且进行翻译处理。换句话说,根据第四实施例的语音翻译设备 2600根据从另一个参与者的语音翻译设备2600接收到的信息控制输出在其自己内部翻译 的语音的时间。如图26中所示,根据第四实施例的会议系统包括多个通过网络300彼此连接的语音 翻译设备2600a、 2600b和2600z (每一个也被称为语音翻译设备2600)。如图27中所示,语音翻译设备2600包括语音接收单元201,发送单元202,第一接 收单元203,语音输出单元204,语音存储单元2610,语言存储单元2620,生成单元2650, 输出控制单元2660和第二接收单元2670。语音接收单元201、发送单元202、第一接收单元203和语音输出单元204的功能如 第一实施例中的解释,并且省略对它们的解释。语音存储单元2610在其中相关于每个设备存储从其他语音翻译设备2600接收到的语 音。语音存储单元2610包括相关于每个设备存储语音的存储子单元,诸如设备1存储单 元2611、设备2存储单元2612,……,和设备n存储单元261n。语言存储单元2620在其中存储彼此关联的语言和在会议系统中使用该语言的语音翻 译设备2600的标识符。根据第一实施例,当终端200被连接到语音翻译设备100时或者 当通信开始时,终端200把将要使用的语言发送到语音翻译设备100。根据第四实施例, 当每个语音翻译设备2600被连接时,语音翻译设备2600互相交换将要使用的语言的信息。生成单元2650将所接收的语音翻译成语音翻译设备2600中使用的语言,并且生成经 翻译的语音。例如,如果使用的是日语,则生成单元2650需要将所接收的语音翻译成英 语;然而,它并不需要把日语语音翻译成任何其他语言。经翻译的语音被输出到输出控制 单元2660。与根据第一实施例的生成单元140不同,生成单元2650将包括输出终端号的信息输 出到输出控制单元2660。同样的信息在语音翻译设备2600之间进行交换。第二接收单元2670接收从其他语音翻译设备2600输出的信息。如图28中所示,从生成单元2650输出的信息包括接收设备号、输入语音持续时间、 输出语音持续时间号和输出设备号。该信息与从根据第一实施例的生成单元140输出的{言 息的不同之处在于不包括输出语音和语言信息并且添加了指示发送语音的语音翻译设备 2600的标识符的输出设备号。输出控制单元2660控制输出语音的时间,并且包括确定单元2651和输出处理单元 2652。确定单元2651通过确定语音持续时间是否已经由所有的语音翻译设备2600翻译来确 定是否可以输出经翻译的语音。输出处理单元2652输出己经由所有的语音翻译设备2600翻译的语音持续时间中的经 翻译的语音和源语音。如上文所述,虽然根据第一实施例经翻译的语音是相关于每种语言生成的,但根据第 四实施例确定处理和语音输出处理相关于每个语音翻译设备2600进行。这是因为与第一实施例不同的是可以在不同的语音翻译设备2600中进行相同方向的 翻译处理。例如,如果语音翻译设备A和B使用日语而语音翻译设备C使用英语,则从i吾 音翻译设备C接收的语音在语音翻译设备A和B中分别翻译成日语。语音翻译设备A和B很少完全同时开始和完成翻译处理,并且时间差别可以很大。因 此,为了最小化该差异,确定处理和语音输出处理是相关于每个语音翻译设备2600进《亍 的。语音翻译设备2600需要在测量语音持续时间的时间上达到同步。下文参考图29解释由根据第四实施例的语音翻译设备2600进行的语音翻译处理。语音翻译设备2600a中的语音接收单元201接收语音(步骤S2901)。发送单元202将 所接收的语音发送到其他语音接收设备2600b (步骤S2902)。第一接收单元203接收从语音翻译设备2600b发送的语音(步骤S2903)。第一接收单 元203参考语言存储单元2620以获取由每个设备使用的语言。如果语音翻译设备2600b 使用与语音翻译设备2600a相同的语言,则第一接收单元203将语音传递到输出控制单元 2660,并且将如图28中所示的信息发送到语音翻译设备2600b。如果语音翻译设备2600b 使用不同的语言,则第一接收单元203将语音传递到生成单元2650。生成单元2650将所接收的语音翻译成语音翻译设备2600a中使用的语言并生成经翻 译的语音(步骤S2904),以及将如图28中所示的信息输出到输出控制单元2660 (步骤 S2905)。发送单元202将信息发送到语音翻译设备2600b (步骤S2906)。如果语音翻译设备2600b发送信息,则语音翻译设备2600a中的第二接收单元2670 接收该信息(步骤S2907)。输出控制单元2660以与第一实施例中的解释相同的方法利用 所接收的信息进行语音输出处理(步骤S2908)。在语音输出处理中,相关于每个语音番召译 设备2600而不是语言进行确定处理。输出控制单元2660混合从其他语音翻译设备2600接收到的语音并且将经混合的i吾音 存储在语音存储单元2610中。当将要输出的语音持续时间在语音输出处理中被确定时,从语音存储单元2610中提 取对应的语音持续时间中的语音,并且语音输出单元204输出该语音(步骤S2909)。步骤S2910到S2918除了它们由语音翻译设备2600b进行之外与步骤S2901到S2909 相同,因此省略对它们的解释。如上文所示,根据第四实施例的语音翻译设备2600与另一个语音翻译设备2600交换 语音翻译的信息,并且当某个参与者的语音由所有的语音翻译设备2600翻译时输出该语 音。这样就使将经翻译的语音输出到每个参与者的时滞最小化。根据第五实施例的语音翻译设备3000通过在一个预定的延迟之后输出经翻译的i吾音 来使语音的暂停最小化。如图30所示,语音翻译设备3000包括语音存储单元110,对应存储单元120,接收 单元130,生成单元140,输出控制单元3050和发送单元160。输出控制单元3050的功能与第一实施例不同。因为其他单元的结构和功能与根据第 一实施例的语音翻译设备100相同,因此使用与图3中所示相同的参考数字,并且省略对 它们的解释。输出控制单元3050控制输出语音的时间,并且包括确定单元151、输出处理单元152 和延迟单元3053。确定单元151和输出处理单元152的功能如第一实施例中的解释,因此省略对它们的解释。延迟单元3053将语音的输出延迟预定的时间。延迟处理将在后文详细描述。
下文将参考图31解释由根据第五实施例的语音翻译设备3000进行的语音翻译处理。 语音翻译的流程除了在步骤S605的语音输出处理的细节之外与第一实施例的解释相同。步骤S3101到S3105与图7中所示的步骤S701到S705相同,因此省略对它们的解释。如果将要输出的最短持续时间存在(步骤S3105为"是"),则延迟单元3053进行延 迟语音输出的延迟处理(步骤S3106)。在延迟处理后,输出处理单元152从语音存储单元110中获取对应于最短持续时间的 语音并且讲其输出(步骤S3107)。下文参考图32解释步骤S3106的延迟处理的概念。这里假设接收单元130在tub, ti2b, tub等时刻接收语音。时间可以基于任何一个格林 尼治标准时间,时间从系统启动开始计算,时间从用户开始使用系统开始计算等。每个输入语音持续时间以长方形形状显示在"接收"行中,并且长方形以赋于持续时 间的时间顺序排列。长方形中的号以接收的顺序赋值。由语音翻译设备3000接收的实际语音是连续的,并且当语音翻译设备3000接收语音 时语音不被划界。如第一实施例中所描述的,由生成单元140划界的每个持续时间与图32 中的一个长方形相关。持续时间可以是任何一个语音持续时间和非语音持续时间。"输出"行显示确定单元151确定输出语音的时刻。长方形中的数字对应于输入语音 持续时间的号码。例如,输出语音1从所接收的语音1生成。所生成的语音通常是从源语 音翻译来的语音;然而,如果所接收的语音和输出语音使用相同的语言,则源语音实际上 可以就是输出语音。"延迟输出"行显示延迟单元3053确定输出语音的时刻。确定单元151在"延迟输 出"行中所显示的时刻输出语音。预定延迟Uw表示最小延迟。换句话说,不能以小于td6lay 的延迟输出语音。下文参考图33解释延迟处理。延迟单元3053把将要输出的语音持续时间的持续时间号确定为x (步骤S3301),并 且用当前时间twt代替输出开始时刻t。rt (步骤S3302)。延迟单元3053确定输出开始时刻Ub与接收对应持续时间中的语音的时刻tw之差是 否小于预定延迟tdelay (步骤S3303)。如果差值小于预定延迟(步骤S3303为"是"),则延迟单元3053等待,直到等式tMb —U》td一满足(步骤S3304)。
如果差值不小于预定延迟(步骤S3303为"否"),这意味着实际延迟已经超过预定延 迟,则延迟单元3053终止延迟处理。下文参考图32解释延迟处理的实例。延迟单元3053在接收到来自输出处理单元152 的持续时间号时开始延迟处理。这里的解释假设延迟单元3053接收"接收"行中的持续 时间号1。在步骤S3301中用1代替x,并且在步骤S3302中用当前时间U,t代替输出开始时刻图32中,t。fti,b比t一小(步骤S3303为"是"),延迟单元3053等待,直到t。xb —ti^W满足(步骤S3304)。当延迟单元3053接收持续时间号2时,t。2b—ti2b比t^,小(步骤S3303为"是"),延 迟单元3053延迟输出(步骤S3304)。在这种情形下,因为t。2b—ti2b等于tdelay,因此不插 入静音,并且语音持续时间2在语音持续时间1之后立刻被输出。当延迟单元3053接收持续时间号3时,t。3b—ti3b比t^y大(步骤S3303为"否"),也 即,由于翻译处理引起的延迟比Uw长,因此没有必要插入任何延迟。作为翻译处理的结果,输出语音并不总是以与源语音被接收时相同的顺序输出。持续 时间4和5表示了这样的情形。在该实例中,基于输入语音持续时间5的输出语音在基于 输入语音持续时间4的输出语音之前输出。首先,只延迟U^的目的是为了防止输出语音暂停。因此,除非"输出"行中持续时 间号5的开始点Ub超过"接收"行中持续时间号4的开始端t"b和td一之和,否则没有必 要插入延迟。在输出持续时间号5中的语音被输出之后输出持续时间号4中的语音。将两 个值结合,就有一个至少td一的延迟。如图32中所示,"输出"行中语音持续时间5的开始时刻是t。4b,并且以x值的升序 排列Ub。以这种方式,延迟单元3053确定是否插入延迟而不确定是否改变顺序。虽然第五实施例是通过向第一实施例的实例中插入延迟来解释的,但也可以被应用于 其他实施例。如上文所述,根据第五实施例的语音翻译设备3000通过在预定的延迟之后输出经翻 译的语音来使语音的暂停最小化。根据第五实施例,如果延迟单元3053确定能够输出语音并且之前的语音正在被输出, 则该语音不被输出,直到完成先前语音的输出。因此, 一旦翻译处理的延迟长于预定延迟Ulay,由于翻译引起的延迟就是实际的延迟。换句话说,如果翻译处理的延迟长于td6lay, 延迟就不能被降到tMay。如果翻译处理的延迟长于预定延迟,则根据第六实施例的语音翻译设备3400通过减 小将要输出的经翻译的语音的再现时间来使延迟最小化。如图34中所示,语音翻译设备3400包括语音存储单元110,对应存储单元120,接 收单元130,生成单元140,输出控制单元3450和发送单元160。输出控制单元3450的功能与第五实施例不同。因为其他单元的结构和功能与根据第 五实施例的语音翻译设备3000相同,因此使用与图30中所示相同的参考数字,并且省略 对它们的解释。输出控制单元3450控制输出语音的时刻,并且包括确定单元151,输出处理单元152, 延迟单元3053和縮短单元3454。确定单元151,输出处理单元152和延迟单元3053的功 能如同第五实施例中的解释,并且省略对它们的解释。縮短单元3454縮短再现时间,也即输出语音的长度,并且将其传输到发送单元160。 更加具体地,縮短单元3454通过加快输出语音的再现速度来縮短再现时间。縮短单元3454 可以被配置成利用静音探测算法和噪音探测算法探测静音和噪音的持续时间并且消除所 探测的持续时间,由此縮短再现时间。此外,縮短单元3454可以被配置成从生成单元140接收信息,根据该信息区分语音 持续时间和非语音持续时间并且消除非语音持续时间,由此縮短再现时间。下文参考图35解释由根据第六实施例的语音翻译设备3400进行的语音翻译处理。i吾 音翻译处理的流程与第五实施例中的解释也就是第一实施例中的图6相同,除了步骤S605 的语音输出处理的细节之外。步骤S3501到S3507与图31中所示的步骤S3101到S3107相同,因此省略对它们的 解释。输出处理单元152在步骤S3107中输出对应于最短持续时间的语音后,縮短单元3454 进行縮短输出语音再现时间并且将其输出的输出时间縮短处理(步骤S3508),并且终止语 音输出处理。下文参考图36细化步骤S3508的输出时间縮短处理。縮短单元3454确定由于翻译处理引起的延迟是否长于预定的延迟时间td一,也就是, 等式t她—U,Uay是否满足(步骤S3601)。如果Ub—Ub〉td^y满足(步骤S3601为"是"),则縮短单元3454縮短该语音(步骤 3602),并且输出经縮短的语音(步骤S3603)。如果Ub—Ub〉t^y不满足(步骤S3601为"否"),则縮短单元3454不縮短该语音就 将其输出(步骤S3603)。下文参考图37解释缩短处理的实例。"接收"行表示在接收单元130接收语音时划界的输入语音持续时间和以接收顺序赋 值给输入语音持续时间的号码。"输出"行表示与输出语音的时刻相关联的输出语音持续时间。"经縮短的持续时间 输出"行表示与缩短单元3454输出语音的时刻相关联的持续时间。"经縮短的持续时间输出"行中的持续时间1比"输出"行中对应的持续时间短,因 为縮短单元3454在输入语音被输出之前先将其縮短。 第六实施例可以在各种如下文所示的修改中实现。根据第六实施例,预定延迟"13,是预先确定的,并且语音被延迟至少Uw后再将其输 出。第六实施例可以被修改成利用根据过去的翻译处理中的延迟动态改变的延迟而不是利 用固定的延迟来进行延迟处理。在延迟单元3053进行延迟处理之前,先从翻译处理的延迟中获取最近延迟的预定数 值(下文中为"n")。最近输出的延迟被称为第一延迟,第i个延迟被称为Li。延迟发生 得越早,i数越大。在图32所示的实例中,在输出语音持续时间3之后,最近延迟"是t。3b—ti3b,"是t。2b — ti2b。利用下式计算延迟tdelay = a (Ji=1Li ) /n (1) 如果没有持续时间并且不能计算Li,则Li是0。换句话说,td一等于最近n个延迟的平均值的a倍。使用预定系数a的乘积是因为 如果使用延迟的简单平均数则td一可能被低估。通过加大a,语音暂停较不频繁。通过动态改变用于确定处理的延迟,由于翻译处理引起的实际延迟不那么容易比"lay 短。换句话说,事先与确定U^的情况进行比较,输出语音的延迟被减小。如果从诸如回答问题的"是"或"否"的短语音中利用式(1)计算延迟,则Uay太小以致于语音可能经常暂停并且再现速度可能经常提高。防止暂停和再现速度提高的方法 是把短语音从td一计算中排除。换句话说,如果源语音等于或短于预定长度,则不被用于
计算tdeayo相似地,如果从包括静音或噪音的语音持续时间中计算延迟,则结果的td一可能太大 或太小。为了防止这种现象,生成单元140输出表示持续时间是否是非语音持续时间的信 息,从而使非语音持续时间不被用于计算Ulay。如上文所述,如果翻译处理的延迟长于预定延迟,则根据第六实施例的语音翻译设备 3400缩短经翻译的语音的语音时间,由此大的延迟不再保留。根据第七实施例的语音翻译设备3900从接收语音和运动图像的终端3800接收语音和 运动图像,并且将运动图像与经翻译的语音同步地输出到终端3800。如图38中所示,终端3800包括语音接收单元201,发送单元202,第一接收单元203, 语音输出单元204,图像形成单元3801,第二接收单元3802和图像显示单元3803。图像形成单元3801,第二接收单元3802和图像显示单元3803被添加到根据第一实施 例的终端200中。因为其他单元的结构和功能与根据第一实施例的终端200相同,因此使 用与图2中所示相同的参考数字,并且省略对它们的解释。图像形成单元3801形成参与者的图像并且输出参与者的运动图像。图像形成单元3801 可以是诸如通用照相机的任何图像形成装置。第二接收单元3802接收发自语音翻译设备 3900的翻译处理中的延迟。图像显示单元3803向参与者显示运动图像和文本。图像显示 单元3803可以是任何现存的显示装置。如上文所述,终端3800包括输入和输出运动图像以及语音的用户接口。如图39中所示,语音翻译设备3900包括语音存储单元110,对应存储单元120,接 收单元3930,生成单元140,输出控制单元3950,发送单元3960和运动图像存储单元3970。与根据第一实施例的语音翻译设备100比较,增加了运动图像存储单元3970,并且接 收单元3930、输出控制单元3950和发送单元3960的功能也与语音翻译设备100不同。因 为其他单元的结构和功能与根据第一实施例的语音翻译设备100相同,因此使用与图3中 所示相同的参考数字,并且省略对它们的解释。运动图像存储单元3970在其中存储从终端3800接收的运动图像。运动图像存储单元 3970包括相关于每个终端3800存储运动图像的存储子单元,诸如终端1存储单元3971, 终端2存储单元3972,……,终端n存储单元397n,因为运动图像不取决于语言。接收单元3930从每个终端3800接收运动图像以及语音。接收单元3930只将语音传 递到生成单元140,并且将语音和运动图像都传递到输出控制单元3950。 输出控制单元3950从生成单元140接收经翻译的语音,并且从接收单元3930接收所 接收的语音和运动图像。输出控制单元3950将运动图像存储在运动图像存储单元3970中。 当能够输出经翻译的语音时,输出控制单元3950从语音存储单元110和运动图像存储单 元3970中获取语音和运动图像,并且将它们传递到发送单元3960。输出控制单元3950从运动图像存储单元3970中获取与将要输出的语音持续时间相同 长度的运动图像。如果有使用与源语音相同语言的任何终端3800,则语音持续时间将以与 源语音相同的顺序输出。然而,如果用与源语音不同的语言输出语音,则能够以与源语音 不同的顺序输出语音。然而,具有与将要输出的语音相同的长度的运动图像以与源语音相 同的顺序输出。如果输出语音长于所接收的语音,则减小运动图像的再现速度。如果输出语音短于所接收的语音,则加大运动图像的再现速度。发送单元3960使语音与运动图像相关联,并且将它们发送到终端3800。 下文将参考图40解释由根据第七实施例的语音翻译设备3900进行的语音翻译处理。 终端3800中的图像形成单元3801摄取运动图像(步骤S4001)。发送单元202将运动图像与从语音接收单元201输入(步骤S4002)的语音一起发送到语音翻译设备3900 (步骤S4003)。语音翻译设备3900中的接收单元3930接收语音和运动图像(步骤S4004)。输出控制 单元3950估计由于翻译引起的延迟并且将该延迟发送到终端3800 (步骤S4005)。终端3800中的第二接收单元3802接收该延迟(步骤S4006),并且图像显示单元3803 在屏幕上显示该延迟(步骤S4007)。显示延迟的方法将在后面描述。语音翻译设备3900以与第一实施例中的步骤S604、 S605和S606相同的方式进行翻 译处理、语音输出处理和确定处理(步骤S4008、 S4009、 S4010)。发送单元3960把将要输出的语音和对应的运动图像发送到终端3800 (步骤S4011)。终端3800中的第一接收单元203接收语音和运动图像(步骤S4012)。语音输出单元 204输出语音(步骤S4013),并且图像显示单元3803显示运动图像(步骤S4014)。下文参考图41解释显示延迟的方法。显示屏4100包括进程条4101,显示区域4102和显示多个参与者的四个显示区域之外 的进程条4103。进程条4101显示翻译由使用终端3800的参与者所说的语音的进程。显示 区域4102显示另一个参与者正在说话。进程条4103显示处理由另一个参与者所说的语音
的进程。由于语音翻译引起的延迟可以持续几秒到几十秒,有时会议不能平稳地进行,除非参 与者理解延迟的程度。例如,当参与者期待一个回答时,他/她不能确定需要等待回答多 久。为了防止这种情形而设置进程条4101,该进程条4101指示所述语音输出到其他参与 者之前的时间。处理的进程可以以进程条以外的任何其他方式来表示。例如,完成处理之 前的时间可以用数字并且倒计数来表示。在图41所示的实例中使用5个终端3800。图41中所示的终端3800的用户因为不是 实质内容而没有显示;然而,终端3800可以被配置成显示它们的用户。当另一个终端3800的用户开始讲话时,显示区域4102显示他/她正在说话来提醒其 他用户。通过获悉语音被输出之前的时间,用户知道他们应该等待多久。由语音翻译设备3900中的输出控制单元3950平均过去的延迟来计算对延迟的估计。 当生成单元140中非语音持续时间改变到语音持续时间时或者反之亦然,可以确定用户是 否正在说话。语音翻译设备3900可以被配置成如第五和第六实施例中的解释以预定的延迟输出语 音和运动图像。为了縮短延迟,必须縮短运动图像以及语音的再现时间。为了缩短运动图像的再现时 间,可以使用任何已有的方法,诸如消除由运动探测技术探测到的不活动的部分和通过以 固定比率压縮图像来縮短运动图像。如上文所述,根据第七实施例的语音翻译设备3900连同语音一起交换运动图像,并 且使对于使用运动图像的视频会议系统中的所有参与者的时滞最小化。此外,通过在屏幕 上显示延迟和参与者正在讲话的事实,用户知道处理的进程,因此会议可以平稳地进行。如图42中所示,根据第一到第七实施例的每一种语音翻译设备都包括诸如中央处理 单元(CPU) 51的控制装置,诸如只读存储器(ROM) 52邻RAM 53的内部存储装置,连接 到网络的用以通信的通信I/F54,诸如HDD和小型光盘(CD)驱动器的外部存储单元,显 示装置,诸如键盘和鼠标的输入装置,和将各种装置彼此连接的总线61,并且这些语音翻 译设备使用通用的计算机。在根据第一到第七实施例的语音翻译设备中执行的语音翻译程序以可安装或可执行 的格式设置在诸如小型光盘只读存储器(CD-ROM)、软盘(FD)、可记录小型光盘(CD-R) 和数字通用光盘(DVD)的计算机可读记录介质中。 另外,语音翻译程序可以被存储在连接到诸如互联网的网络的计算机中以通过网络下 载。语音翻译程序可以通过诸如互联网的网络提供或分配。 语音翻译程序可以预先安装在ROM 52等存储装置中。语音翻译程序包括接收单元、生成单元、输出控制单元、发送单元等模块。CPU 51从 记录介质中读取语音翻译程序并且执行该程序,由此各个单元被加载到主存储装置中并且 在其中被生成。对于本技术领域中的熟练专业人员很容易实现其他的优点和修改。因而本发明在其广 阔的各个方面不局限于本文展示和描述的具体细节和代表性实施例。所以,可以进行各种 修改而不背离由附后的权利要求及其等效内容定义的本发明的总体概念的精神或范围。
权利要求
1.一种语音翻译设备,其特征在于,该设备包括对应存储单元,存储彼此相关联的唯一标识可通过网络连接的多个终端中的每一个终端的标识符和在所述终端中使用的使用语言;接收单元,从一个终端接收源语音;翻译单元,从对应存储单元中获取与源语音中使用的源语言不同的使用语言,并且通过将每个所获取的使用语言作为目标语言来生成从源语音翻译的经翻译的语音;确定单元,当用任何一个目标语言生成经翻译的语音时确定是否已经用所有的目标语言生成经翻译的语音;输出单元,当已经用所有目标语言生成经翻译的语音时输出经翻译的语音;和发送单元,将经翻译的语音发送到由对应于目标语言的标识符标识的每个终端。
2. 如权利要求l所述的设备,其特征在于,当已经用所有的目标语言生成经翻译的语音时,输出单元进一步输出源语音,以及 发送单元将源语音发送到由对应于源语言的标识符标识的终端。
3. 如权利要求l所述的设备,其特征在于,-当用任何一个目标语言生成经翻译的语音时,确定单元确定是否已经用所有的目标语 言生成经翻译的语言的第一语音持续时间和第二语音持续时间,第一语音持续时间是用一 个目标语言将要在下一个被输出的持续时间,第二语音持续时间是用任何其他目标语言将 要在第一语音持续时间结束之前输出的持续时间,以及当已经用所有的目标语言生成经翻译的语音的第一语音持续时间和第二语音持续时 间时,输出单元输出对应于第一语音持续时间和第二语音持续时间的经翻译的语音和源语音
4. 如权利要求1所述的设备,其特征在于,翻译单元生成经翻译的语音,该经翻译的语 音的再现时间持续与目标语言基本相同的时间长度。
5. 如权利要求4所述的设备,其特征在于,当经翻译的语音的再现时间不与目标语言的 再现时间基本相同时,翻译单元改变经翻译的语音的再现速度,以使多个目标语言的经翻 译的语音的长度基本相同。
6. 如权利要求4所述的设备,其特征在于,当经翻译的语音的再现时间不与目标语言的 再现时间基本相同时,翻译单元在经翻译的语音前后的至少一处位置添加静音语音,以使 多个目标语言中经翻译的语音的再现时间基本相同。
7. 如权利要求1所述的设备,其特征在于,该设备进一步包括语音存储单元,该语音存 储单元能够存储通过对每个目标语言混合经翻译的语音或源语音得到的经混合的语音,其中输出单元进一步对于每个目标语言将所述存储在语音存储单元中的经混合的语音与 另外的经翻译的语音或者另一个源语音混合,将由输出单元混合的经混合的语音存储在语 音存储单元中,并且当已经用所有的目标语言生成经翻译的语音时输出所述经混合的语音
8. 如权利要求1所述的设备,其特征在于,该设备进一步包括语音存储单元,该语音存 储单元能够对于每个终端存储每个目标语言的经翻译的语音或者源语音,其中输出单元将经翻译的语音和源语音存储在语音存储单元中,并且当已经用所有的目标 语言生成经翻译的语音时输出从语音存储单元获取的目标语言的经翻译的语音和源语音, 以及发送单元将只包括经翻译的语音的经混合的语音发送到先前发送源语音的终端,并且 将包括经翻译的语音和源语音的经混合的语音发送到其他终端。
9. 如权利要求1所述的设备,其特征在于,该设备进一步包括延迟单元,该延迟单元通 过从确定已经用所有的目标语言生成经翻译的语音的第一时间点减去接收源语音的第二 时间点计算第一差值,并且当所计算的第一差值小于预先确定的第一阈值时间时延迟经翻 译的语音和源语音的输出,直到从第二时间点开始已经经过第一阈值时间为止,其中在延迟单元延迟再现之后,输出单元输出经翻译的语音和源语音。
10. 如权利要求9所述的设备,其特征在于,该设备进一步包括縮短单元,当所述第一差 值大于第一阈值时间时,该縮短单元将经翻译的语音和源语音的再现时间縮短通过从第一 差值中减去第一阈值时间计算得到的第二差值的长度。
11. 如权利要求10所述的设备,其特征在于,縮短单元通过提高再现速度縮短经翻译的 语音和源语音的再现时间。
12. 如权利要求10所述的设备,其特征在于,縮短单元从每个经翻译的语音和源语音中 探测静音和噪音中的至少两者之一并且通过消除所述静音和噪音缩短经翻译的语音和源 语音的再现时间。
13. 如权利要求9所述的设备,其特征在于,延迟单元计算预定个数的各第二语音持续时 间的第一差值,该第二语音持续时间是在用所有的目标语言生成的经翻译的语音的第一语 音持续时间之前被输出的经翻译的语音和源语音的持续时间,该延迟单元计算第一差值的 平均值与预定系数的乘积,并且当所述乘积小于所述第一差值时延迟经翻译的语音和源语 音的第一语音持续时间的再现,直到从第二时间点开始已经经过第一阈值时间时为止。
14. 如权利要求13所述的设备,其特征在于,延迟单元利用已经在第一语音持续时间之前输出的经翻译的语音和源语音的预定个数的第二语音持续时间计算所述乘积,每个第二 持续时间大于预先确定的第二阈值时间。
15. 如权利要求l所述的设备,其特征在于,接收单元从终端进一步接收与源语音相关联的图像,以及 发送单元发送进一步与经翻译的语音或者源语音相关联的图像。
16. 如权利要求15所述的设备,其特征在于,生成单元生成其再现时间与源语音基本相 同的经翻译的语音。
17. 如权利要求16所述的设备,其特征在于,当经翻译的语音的再现时间比源语音的再 现时间短时,翻译单元通过在经翻译的语音前后的至少一处位置添加静音生成其再现时间 与源语音基本相同的经翻译的语音。
18. —种终端,其特征在于,该终端包括 接收源语音的语音接收单元;发送单元,将源语音发送到可通过网络连接的用于翻译源语音并且生成经翻译的语音的语音翻译设备;从语音翻译设备接收经翻译的语音的第一接收单元;输出经翻译的语音的语音输出单元;从语音翻译设备接收完成源语音翻译的估计时间的第二接收单元;和 显示该估计时间的显示单元。
19. 一种语音翻译设备,其特征在于,该设备包括对应存储单元,存储彼此相关联的唯一标识通过网络连接的多个终端中的每一个终端 的标识符和在所述终端中使用的使用语言; 接收单元,从一个终端接收源语音;翻译单元,从对应存储单元中获取与源语音中使用的源语言不同的使用语言,并且通过将每个所获取的使用语言作为目标语言来生成从源语音翻译的经翻译的语音;发送单元,将经翻译的语音发送到由对应于目标语言的标识符标识的每个终端并且将源语音发送到由对应于源语言的标识符标识的每个终端;确定单元,当用任何一个目标语言生成经翻译的语音时确定是否已经用所有的目标语 言生成经翻译的语音;禾口输出单元,当已经用所有的目标语言生成经翻译的语音时输出由确定单元确定的源语 音的语音持续时间的持续时间信息,其中发送单元进一步将所述持续时间信息发送到各个终端。
20. —种终端,其特征在于,该终端包括 能够存储包括经翻译的语音或源语音的经混合的语音的语音存储单元; 接收源语音的语音接收单元;将输入源语音发送到可通过网络连接的语音翻译设备的发送单元,语音翻译设备翻译 源语音并且生成经翻译的语音;从语音翻译设备接收经翻译的语音的第一接收单元;将经翻译的语音与语音存储单元中的经混合的语音混合以生成结果的经混合的语音并且将结果的经混合的语音存储在语音存储单元中的保存单元;从语音翻译设备接收有关源语音的语音持续时间的持续时间信息的第二接收单元;和 输出由从语音存储单元获取的持续时间信息表示的语音持续时间所对应的结果的经混合的语音的输出单元。
21. —种语音翻译设备,其特征在于,该设备包括 存储使用语言的语言存储单元;从多个可通过网络连接的其他语音翻译设备中接收源语音的第一接收单元;通过将每个存储在语言存储单元中的使用语言作为目标语言生成从源语音翻译的经 翻译的语音的翻译单元;从另一个语音翻译设备接收指示源语音已经被翻译成另一个语音翻译设备中使用的 语言的信息的第二接收单元;当从任何一个其他语音翻译设备中接收到所述信息时确定是否已经在所有其他语音 翻译设备中生成经翻译的语音的确定单元;和当已经在所有其他语音翻译设备中生成经翻译的语音时输出经翻译的语音的输出单
22. —种语音翻译方法,其特征在于,该方法包括 从多个可通过网络连接的终端中接收源语音;从存储彼此相关联的唯一标识多个终端中的每个终端的标识符和终端中使用的使用 语言的对应存储单元中获取与源语音中使用的源语言不同的使用语言;通过将所获取的每种使用语言作为目标语言生成从源语音翻译的经翻译的语音; 当用任何一个目标语言生成经翻译的语音时确定是否已经用所有的目标语言生成经 翻译的语音;当确定已经用所有的目标语言生成经翻译的语音时输出经翻译的语音;和 将输出的经翻译的语音发送到由对应于目标语言的标识符标识的每个终端。
全文摘要
在语音翻译设备中,对应存储单元在其中存储彼此关联的终端的标识符和终端中使用的使用语言。接收单元从一个终端接收源语音。生成单元从对应存储单元中获取使用语言,并且通过将每个所获取的使用语言作为目标语言生成经翻译的语音。当用任何一个目标语言生成经翻译的语音时,确定单元确定是否已经用所有的目标语言生成经翻译的语音。如果已经用所有的目标语言生成经翻译的语音,则输出处理单元输出经翻译的语音。发送单元将经翻译的语音发送到每个终端。
文档编号H04N7/15GK101155291SQ20071014723
公开日2008年4月2日 申请日期2007年8月30日 优先权日2006年9月27日
发明者永尾学 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1