翻译装置以及翻译方法与流程

文档序号:26009707发布日期:2021-07-23 21:29阅读:107来源:国知局
翻译装置以及翻译方法与流程

本公开涉及一种翻译装置以及翻译方法,针对第1说话者与第2说话者的会话,将一方的说话者的语言翻译成另一方的说话者的语言并进行扩音。



背景技术:

专利文献1公开了一种会话辅助装置,该会话辅助装置在消除音响上的噪声的基础上,对两者间的双方向的会话进行扩音及辅助有效。该会话辅助装置具备回声/串音消除器,从麦克风的输出信号中消除示出回声以及串音的干扰信号。通过会话辅助装置,能够消除包括回声和串音的音响上的噪声,对两者间的双方向的会话进行扩音并辅助。

(现有技术文献)

(专利文献)

专利文献1日本专利第6311136号公报



技术实现要素:

发明要解决的课题

本公开提供一种翻译装置以及翻译方法,即使在多个说话者的声音和多个合成声音同时重复存在的情况下,也能够抑制包括回声的音响上的噪声,在进行稳定的声音识别的同时,进行相互的会话,所述多个合成声音是通过对所述多个说话者的声音进行识别并翻译成对方的语言,进行声音合成后而输出的声音。

解决课题所采用的手段

本公开中的翻译装置针对第1说话者与第2说话者的会话,将一方的说话者的语言翻译成另一方的说话者的语言,并对合成声音进行扩音,所述翻译装置具备:第1麦克风,用于输入所述第1说话者的第1声音;第1声音识别电路,对所述第1声音进行声音识别,并输出第1字符串;第1翻译电路,将从所述第1声音识别电路输出的所述第1字符串,翻译成所述第2说话者的语言,并输出第3字符串;第1声音合成电路,将从所述第1翻译电路输出的所述第3字符串,转换为第1翻译声音;第1扬声器,对所述第1翻译声音进行扩音;第2麦克风,用于输入所述第2说话者的第2声音;第2声音识别电路,对所述第2声音进行声音识别,并输出第2字符串;第2翻译电路,将从所述第2声音识别电路输出的所述第2字符串,翻译成所述第1说话者的语言,并输出第4字符串;第2声音合成电路,将从所述第2翻译电路输出的所述第4字符串,转换成第2翻译声音;第2扬声器,对所述第2翻译声音进行扩音;第1回声消除器,在将由所述第1扬声器扩音的所述第1翻译声音被输入到所述第2麦克风的现象视为第1回声时,利用所述第1翻译声音以及与所述第1回声对应的第1传递函数,对示出所述第1回声的第1回声信号进行估计,并将所述第1回声信号从所述第2麦克风的输出信号中消除;第2回声消除器,在将由所述第2扬声器扩音的所述第2翻译声音被输入到所述第1麦克风的现象视为第2回声时,利用所述第2翻译声音以及与所述第2回声对应的第2传递函数,对示出所述第2回声的第2回声信号进行估计,将所述第2回声信号从所述第1麦克风的输出信号中消除;以及控制电路,所述控制电路,在所述第1声音合成电路输出所述第1翻译声音的期间中,使所述第1回声消除器更新对所述第1回声信号进行估计的所述第1传递函数,在所述第2声音合成电路输出所述第2翻译声音的期间,使所述第2回声消除器更新对所述第2回声信号进行估计的所述第2传递函数。

并且,本公开中的翻译装置针对第1说话者与第2说话者的会话,将一方的说话者的语言翻译成另一方的说话者的语言,并对合成声音进行扩音,所述翻译装置具备:第1麦克风,用于输入所述第1说话者的第1声音;第1声音识别电路,对所述第1声音进行声音识别,并输出第1字符串;第1翻译电路,将从所述第1声音识别电路输出的所述第1字符串,翻译成所述第2说话者的语言,并输出第3字符串;第1声音合成电路,将从所述第1翻译电路输出的所述第3字符串,转换为第1翻译声音;第1扬声器,对所述第1翻译声音进行扩音;第2麦克风,用于输入所述第2说话者的第2声音;第2声音识别电路,对所述第2声音进行声音识别,并输出第2字符串;第2翻译电路,将从所述第2声音识别电路输出的所述第2字符串,翻译成所述第1说话者的语言,并输出第4字符串;第2声音合成电路,将从所述第2翻译电路输出的所述第4字符串,转换成第2翻译声音;第2扬声器,对所述第2翻译声音进行扩音;第3回声消除器,在将由所述第1扬声器扩音的所述第1翻译声音被输入到所述第1麦克风的现象视为第3回声时,利用所述第1翻译声音以及与所述第3回声对应的第3传递函数,对示出所述第3回声的第3回声信号进行估计,并将所述第3回声信号从所述第1麦克风的输出信号中消除;第4回声消除器,在将由所述第2扬声器扩音的所述第2翻译声音被输入到所述第2麦克风的现象视为第4回声时,利用所述第2翻译声音以及与所述第4回声对应的第4传递函数,对示出所述第4回声的第4回声信号进行估计,并将所述第4回声信号从所述第2麦克风的输出信号中消除;以及控制电路,所述控制电路,在所述第1声音合成电路输出所述第1翻译声音的期间中,使所述第3回声消除器更新对所述第3回声信号进行估计的所述第3传递函数,在所述第2声音合成电路输出所述第2翻译声音的期间中,使所述第4回声消除器更新对所述第4回声信号进行估计的所述第4传递函数。

并且,本公开中的翻译装置针对第1说话者与第2说话者的会话,将一方的说话者的语言翻译成另一方的说话者的语言,并对合成声音进行扩音,所述翻译装置具备:第1麦克风,用于输入所述第1说话者的第1声音;第1声音识别电路,对所述第1声音进行声音识别,并输出第1字符串;第1翻译电路,将从所述第1声音识别电路输出的所述第1字符串,翻译成所述第2说话者的语言,并输出第3字符串;第1声音合成电路,将从所述第1翻译电路输出的所述第3字符串,转换为第1翻译声音;第2麦克风,用于输入所述第2说话者的第2声音;第2声音识别电路,对所述第2声音进行声音识别,并输出第2字符串;第2翻译电路,将从所述第2声音识别电路输出的所述第2字符串,翻译成所述第1说话者的语言,并输出第4字符串;第2声音合成电路,将从所述第2翻译电路输出的所述第4字符串,转换成第2翻译声音;加法电路,对由所述第1声音合成电路输出的所述第1翻译声音与由所述第2声音合成电路输出的所述第2翻译声音进行相加,并输出相加翻译声音;扬声器,对由所述加法电路输出的相加翻译声音进行扩音;第5回声消除器,在将由所述扬声器扩音的所述相加翻译声音被输入到所述第2麦克风的现象视为第5回声时,利用所述相加翻译声音以及与所述第5回声对应的第5传递函数,对示出所述第5回声的第5回声信号进行估计,并将所述第5回声信号从所述第2麦克风的输出信号中消除;第6回声消除器,在将由所述扬声器扩音的所述相加翻译声音被输入到所述第1麦克风的现象视为第6回声时,利用所述相加翻译声音以及与所述第6回声对应的第6传递函数,对示出所述第6回声的第6回声信号进行估计,并将所述第6回声信号从所述第1麦克风的输出信号中消除;以及控制电路,所述控制电路,在所述第1声音合成电路输出所述第1翻译声音的期间、或所述第2声音合成电路输出所述第2翻译声音的期间,使所述第5回声消除器更新对所述第5回声信号进行估计的所述第5传递函数,所述控制电路,在所述第1声音合成电路输出所述第1翻译声音的期间、或所述第2声音合成电路输出所述第2翻译声音的期间,使所述第6回声消除器更新对所述第6回声信号进行估计的所述第6传递函数。

本公开中的翻译方法针对第1说话者与第2说话者的会话,将自己的语言翻译成对方的语言,并对合成声音进行扩音,所述翻译方法包括:第1输入步骤,输入所述第1说话者的第1声音;第1声音识别步骤,对所述第1声音进行声音识别,并输出第1字符串;第1翻译步骤,将从所述第1声音识别步骤输出的所述第1字符串,翻译成所述第2说话者的语言,并输出第3字符串;第1声音合成步骤,将从所述第1翻译步骤输出的所述第3字符串,转换成第1翻译声音;第1扩音步骤,对所述第1翻译声音进行扩音;第2输入步骤,输入所述第2说话者的第2声音;第2声音识别步骤,对所述第2声音进行声音识别,并输出第2字符串;第2翻译步骤,将从所述第2声音识别步骤输出的所述第2字符串,翻译成所述第1说话者的语言,并输出第4字符串;第2声音合成步骤,将从所述第2翻译步骤输出的所述第4字符串,转换成第2翻译声音;第2扩音步骤,对所述第2翻译声音进行扩音;第1回声消除步骤,在将通过所述第1扩音步骤被扩音的所述第1翻译声音在所述第2输入步骤被输入的现象视为第1回声时,利用所述第1翻译声音以及与所述第1回声对应的第1传递函数,对示出所述第1回声的第1回声信号进行估计,并将所述第1回声信号从所述第2输入步骤的输出信号中消除;第2回声消除步骤,在将通过所述第2扩音步骤被扩音的所述第2翻译声音在所述第1输入步骤被输入的现象视为第2回声时,利用所述第2翻译声音以及与所述第2回声对应的第2传递函数,对示出所述第2回声的第2回声信号进行估计,并将所述第2回声信号从所述第1输入步骤的输出信号中消除;以及控制步骤,给予如下指示,即在由所述第1声音合成步骤输出所述第1翻译声音的期间,在所述第1回声消除步骤更新对所述第1回声信号进行估计的所述第1传递函数,在由所述第2声音合成步骤输出所述第2翻译声音的期间,在所述第2回声消除步骤更新对所述第2回声信号进行估计的所述第2传递函数。

并且,本公开中的翻译方法针对第1说话者与第2说话者的会话,将自己的语言翻译成对方的语言,并对合成声音进行扩音,在该翻译方法中包括:第1输入步骤,输入所述第1说话者的第1声音;第1声音识别步骤,对所述第1声音进行声音识别,并输出第1字符串;第1翻译步骤,将从所述第1声音识别步骤输出的所述第1字符串,翻译成所述第2说话者的语言,并输出第3字符串;第1声音合成步骤,将从所述第1翻译步骤输出的所述第3字符串转换成第1翻译声音;第1扩音步骤,对所述第1翻译声音进行扩音;第2输入步骤,输入所述第2说话者的第2声音;第2声音识别步骤,对所述第2声音进行声音识别,并输出第2字符串;第2翻译步骤,将从所述第2声音识别步骤输出的所述第2字符串,翻译成所述第1说话者的语言,并输出第4字符串;第2声音合成步骤,将从所述第2翻译步骤输出的所述第4字符串,转换成第2翻译声音;第2扩音步骤,对所述第2翻译声音进行扩音;第3回声消除步骤,在将通过所述第1扩音步骤输出的所述第1翻译声音在所述第1输入步骤被输入的现象视为第3回声时,利用所述第1翻译声音以及与所述第3回声对应的第3传递函数,对示出所述第3回声的第3回声信号进行估计,并将所述第3回声信号从所述第1输入步骤的输出信号中消除;第4回声消除步骤,在将通过所述第2扩音步骤输出的所述第2翻译声音在所述第2输入步骤被输入的现象视为第4回声时,利用所述第2翻译声音以及与所述第4回声对应的第4传递函数,对示出所述第4回声的第4回声信号进行估计,并将所述第4回声信号从所述第2输入步骤的输出信号中消除;以及控制步骤,给予如下的指示,即在由所述第1声音合成步骤输出所述第1翻译声音的期间,在所述第3回声消除步骤,更新对所述第3回声信号进行估计的所述第3传递函数,在由所述第2声音合成步骤输出所述第2翻译声音的期间,在所述第4回声消除步骤,更新对所述第4回声信号进行估计的所述第4传递函数。

发明效果

本公开的翻译装置以及翻译方法能够有效地应用于,即使在多个说话者的声音和多个合成声音同时重复存在的情况下,也能够通过消除包括回声的音响上的噪声,从而能够在进行稳定的声音识别的同时,进行相互的会话,所述多个合成声音是通过对所述多个说话者的声音进行识别并翻译成对方的语言,进行声音合成后而被输出的声音。

附图说明

图1示出了实施方式1中的翻译装置的适用例。

图2是示出实施方式1中的翻译装置的构成的方框图。

图3是针对第1回声消除器和第3回声消除器的传递函数的更新的流程图。

图4是针对第2回声消除器和第4回声消除器的传递函数的更新的流程图。

图5是示出实施方式2中的翻译装置的构成的方框图。

图6是示出实施方式3中的翻译装置的构成的方框图。

图7是实施方式1至3中,对最佳的构成进行选择的流程图。

图8是示出实施方式4中的翻译装置的构成的方框图。

图9是示出实施方式5中的翻译装置的构成的方框图。

图10是示出实施方式6中的翻译装置的构成的方框图。

图11示出了翻译装置的使用状态的一个例子。

具体实施方式

以下参照恰当的附图,对实施方式进行详细说明。不过,会有省略不必要的详细说明的情况。例如,对于已知的事项的详细说明或实质上相同的构成的重复说明会有省略的情况。这是为了避免以下的说明中的不必要的冗长,便于本领域技术人员理解的缘故。

另外,附图以及以下的说明均是为了本领域技术人员能够充分地理解本公开而提供的,这些并非意味着对权利要求书中记载的主题进行限定。

(实施方式1)

以下利用图1以及图2对实施方式1进行说明。

[1-1.适用例]

图1示出了实施方式1中的翻译装置20的适用例。在此示出了,将翻译装置20作为对隔着柜台10的第1说话者11与第2说话者12的会话进行翻译并扩音的装置的适用例。

翻译装置20是对第1说话者11(在此为顾客)与第2说话者12(在此为接待)的会话进行翻译并扩音的装置。在柜台10设置有用于输入第1说话者11的声音(第1声音)的第1麦克风21,并且在第2说话者12一侧设置有用于通过翻译装置20对该声音进行翻译并输出的第1扬声器22。并且,在第2说话者12一侧设置有用于对第2说话者12的声音(第2声音)进行输入的第2麦克风23,在第1说话者11一侧设置有用于通过翻译装置20该声音进行翻译并输出的第2扬声器24。并且,在翻译装置20设置有第1显示电路25、第2显示电路26、第1照相机291以及第2照相机292。

例如,第1说话者11向第1麦克风21发出“hello”的声音,该声音由翻译装置20翻译,并从第1扬声器22发出被扩音的“你好”。在此之后,接着,第2说话者12向第2麦克风23发出“欢迎光临”的声音,该声音由翻译装置20翻译,并从第2扬声器24发出被扩音的“hello!mayihelpyou?”。并且,第1显示电路25以及第2显示电路26显示第1说话者11和第2说话者12发出的“hello”“你好”“欢迎光临”“hello!mayihelpyou?”的字符串。

第1说话者11与第2说话者12通过利用翻译装置20,即使在一个窄小的空间,也能够通过被消除了包括回声(回音)以及串音(串扰)的音响上的噪声的声音,来正确地进行声音识别,因此能够愉快地进行会话。

回声是指以下的两个现象。从扬声器向某个说话者输出的音声,绕到用于输入该说话者的声音的麦克风且被输入的现象,以及从扬声器向某个说话者输出的音声,绕到用于输入该说话者以外的声音的麦克风且被输入的现象。具体而言,在此将从第1扬声器22输出的声音绕到第2麦克风23且被输入的现象定义为第1回声13,将从第2扬声器24输出的声音绕到第1麦克风21且被输入的现象定义为第2回声14。并且,将从第1扬声器22输出的声音绕到第1麦克风21且被输入的现象定义为第3回声15,以及将从第2扬声器24输出的声音绕到第2麦克风23且被输入的现象定义为第4回声16。

并且,串音是指,某一说话者的声音被输入到用于输入该说话者以外的声音的麦克风的现象。具体而言,在此将第1说话者11的声音被输入到第2麦克风23的现象定义为第1串音17,以及将第2说话者12的声音被输入到第1麦克风21的现象定义为第2串音18。

[1-2.构成]

图2是示出图1所示的实施方式1中的翻译装置20的构成的方框图。该翻译装置20具备:第1麦克风21、第1扬声器22、第2麦克风23、第2扬声器24、第1显示电路25、第2显示电路26、第1语言选择电路27、第2语言选择电路28、第1回声消除器40、第2回声消除器50、第3回声消除器60、第4回声消除器70、第1串音消除器80、第2串音消除器90、第1声音识别电路31、第2声音识别电路32、第1翻译电路33、第2翻译电路34、第1声音合成电路35、第2声音合成电路36、控制电路37以及影像信号发生电路38。并且,虽然没有图示,翻译装置20也可以具备经由总线而相互连接的cpu(centralprocessingunit)、rom(readonlymemory)、以及ram(randomaccessmemory)。并且,在图1所示的处理装置201中包括第1回声消除器40、第2回声消除器50、第3回声消除器60、第4回声消除器70、第1串音消除器80、第2串音消除器90、第1声音识别电路31、第2声音识别电路32、第1翻译电路33、第2翻译电路34、第1声音合成电路35、第2声音合成电路36、控制电路37以及影像信号发生电路38。另外,翻译装置20的各构成要素的每一个由有线或无线连接。

第1麦克风21是用于输入第1说话者11的第1声音的麦克风,例如图1所示,被设置为朝向柜台10的顾客一侧(在此为第1说话者11一侧)。另外,从第1麦克风21输出的输出信号例如是内置于第1麦克风21或紧接在第1麦克风21之后设置的a/d转换器生成的数字声音数据。并且,第1麦克风21可以具有指向性。指向性是指,能够收集来自特定的方向的声音的功能。

第1扬声器22对第1翻译声音进行扩音。在以后的[1-3.工作]中将详细说明,第1翻译声音是指,作为第1说话者11的语言的第1声音,由翻译装置20被翻译成第2说话者12的语言的声音。第1扬声器22例如图1所示,被设置在柜台10的接待一侧(在此为第2说话者12一侧)。另外,第1扬声器22例如将被输入的数字声音数据,通过内置于第1扬声器22或被设置在第1扬声器22紧前的d/a转换器转换为模拟信号后,作为声音来输出。

第2麦克风23是用于输入第2说话者12的第2声音的麦克风,例如图1所示,被设置成朝向柜台10的接待一侧(在此为第2说话者12一侧)。另外,从第2麦克风23输出的输出信号例如是内置于第2麦克风23或被设置在第2麦克风23紧后的a/d转换器生成的数字声音数据。并且,第2麦克风23也可以具有指向性。指向性是指,能够收集来自特定的方向的声音的功能。

第2扬声器24对第2翻译声音进行扩音。在以后的[1-3.工作]中将详细说明,第2翻译声音是指,作为第2说话者12的语言的第2声音,通过翻译装置20被翻译成第1说话者11的语言的声音。第2扬声器24例如图1所示,被设置成朝向柜台10的顾客一侧(在此为第1说话者11一侧)。另外,第2扬声器24例如将被输入的数字声音数据,通过内置于第2扬声器24或被设置在第2扬声器24紧前的d/a转换器,被转换为模拟信号后,作为声音来输出。

第1显示电路25是用于显示对第1说话者11的声音进行识别以及翻译后的结果的字符串、以及对第2说话者12的声音进行识别后的结果的字符串的显示电路,被配置在第2说话者12能够目视到的位置。第1显示电路25例如可以是液晶显示器或有机el(electroluminescence)显示器等,并且也可以是平板电脑终端、智能手机、个人计算机等。而且,第1显示电路25可以具有触控面板功能。

第2显示电路26是用于显示对第2说话者12的声音进行识别以及翻译后的结果的字符串、以及对第1说话者11的声音进行识别后的结果的字符串的显示电路,被配置在第1说话者11能够目视到的位置。第2显示电路26例如可以是液晶显示器或有机el显示器等,并且也可以是平板电脑终端、智能手机、个人计算机等。而且,第2显示电路26也可以具有触控面板功能。

第1语言选择电路27从第1说话者11接受第1说话者11所使用的第1语言的选择,并通知到控制电路37。第1语言选择电路27例如是对作为第1说话者11的声音的语言的种类的第1语言进行设定的开关,被配置在第1说话者11能够进行选择的位置。并且,第1语言选择电路27在第1显示电路25具有触控面板功能的情况下,也可以包括在第1显示电路25中。

第2语言选择电路28从第2说话者12接受第2说话者12所使用的第2语言的选择,并通知到控制电路37。第2语言选择电路28例如是对作为第2说话者12的声音的语言的种类的第2语言进行设定的开关,被配置在第2说话者12能够进行选择的位置。并且,第2语言选择电路28在第2显示电路26具有触控面板功能的情况下,也可以包括在第2显示电路26中。

cpu是执行被存放在rom的程序的处理器。rom例如保持由cpu读出并执行的程序。cpu通过执行该程序,从而执行后述的电路的处理。ram是具有cpu在执行程序时所使用的存储区域等的能够进行写入的存储器。

并且,以下所记载的电路(第1声音识别电路31、第2声音识别电路32、第1翻译电路33、第2翻译电路34、第1声音合成电路35、第2声音合成电路36、控制电路37以及影像信号发生电路38)的处理由处理器来实现。

第1声音识别电路31对第1说话者11的第1声音进行声音识别,输出第1字符串。并且,第1声音识别电路31将作为对第1说话者11的第1声音进行声音识别后的结果的第1字符串,输出到第1翻译电路33和控制电路37。

第2声音识别电路32对第2说话者12的第2声音进行声音识别,并输出第2字符串。并且,第2声音识别电路32将作为对第2说话者12的第2声音进行声音识别后的结果的第2字符串,输出到第2翻译电路34和控制电路37。

第1翻译电路33将从第1声音识别电路31输出的第1字符串翻译为第2说话者12的语言,输出第3字符串。并且,第1翻译电路33将第3字符串输出到第1声音合成电路35和控制电路37。

第2翻译电路34将从第2声音识别电路32输出的第2字符串翻译成第1说话者11的语言,输出第4字符串。并且,第2翻译电路34将第4字符串输出到第2声音合成电路36和控制电路37。

第1声音合成电路35将从第1翻译电路33输出的第3字符串,转换为第1翻译声音。并且,第1声音合成电路35将第1翻译声音,输出到第1扬声器22、第1回声消除器40以及第3回声消除器60。

第2声音合成电路36将从第2翻译电路34输出的第4字符串,转换为第2翻译声音。并且,第2声音合成电路36将第2翻译声音,输出到第2扬声器24、第2回声消除器50以及第4回声消除器70。

在第1声音合成电路35输出第1翻译声音的期间中,控制电路37使第1回声消除器40更新对第1回声信号进行估计的第1传递函数,在第2声音合成电路36输出第2翻译声音的期间中,控制电路37使第2回声消除器50更新对第2回声信号进行估计的第2传递函数。另外,详细将在以后说明,第1传递函数由第1回声消除器40中包括的第1传递函数存储电路44存储。同样,第2传递函数由第2回声消除器50中包括的第2传递函数存储电路54存储。

并且,在第1声音合成电路35输出第1翻译声音的期间中,控制电路37使第3回声消除器60更新对第3回声信号进行估计的第3传递函数,在第2声音合成电路36输出第2翻译声音的期间中,控制电路37使第4回声消除器70更新对第4回声信号进行估计的第4传递函数。另外,详细将在以后说明,第3传递函数由第3回声消除器60中包括的第3传递函数存储电路64存储。同样,第4传递函数由第4回声消除器70中包括的第4传递函数存储电路74存储。

即,控制电路37在第1声音合成电路35不输出第1翻译声音的期间,不使第1回声消除器40以及第3回声消除器60更新第1传递函数以及第3传递函数。并且,控制电路37在第2声音合成电路36没有输出第2翻译声音的期间中,不使第2回声消除器50以及第4回声消除器70更新第2传递函数以及第4传递函数。

并且,控制电路37根据从第1语言选择电路27通知的第1语言和从第2语言选择电路28通知的第2语言,使第1声音识别电路31对第1语言进行声音识别,使第2声音识别电路32对第2语言进行声音识别,使第1翻译电路33将第1语言翻译成第2语言,使第2翻译电路34将第2语言翻译成第1语言,使第1声音合成电路35以第2语言进行声音合成,使第2声音合成电路36以第1语言进行声音合成。

影像信号发生电路38从控制电路37被输入如下的字符串,即:由第1声音识别电路31输出的第1说话者11的声音的识别结果即第1语言的第1字符串、将由第1翻译电路33输出的第1说话者11的第1语言的声音转换为第2语言的文字的第3字符串、由第2声音识别电路32输出的第2说话者12的声音的识别结果即第2语言的第2字符串、以及将由第2翻译电路34输出的第2说话者12的第2语言的声音转换为第1语言的文字的第4字符串。

而且,影像信号发生电路38将由第1声音识别电路31输出的第1说话者11的声音的识别结果即第1语言的第1字符串、以及通过将由第2翻译电路34输出的第2说话者12的第2语言的声音转换为第1语言而得到的第4字符串输出到第2显示电路26。并且,影像信号发生电路38将由第2声音识别电路32输出的第2说话者12的声音的识别结果即第2语言的第2字符串、以及通过将由第1翻译电路33输出的第1说话者11的第1语言的声音转换为第2语言而得到的第3字符串输出到第1显示电路25。

[1-2-1.第1回声消除器40]

第1回声消除器40是一电路,在将通过第1扬声器22而被扩音的第1翻译声音被输入到第2麦克风23的现象视为第1回声13时,利用第1翻译声音以及与第1回声13对应的第1传递函数,对示出第1回声13的第1回声信号进行估计,将第1回声信号从第2麦克风23的输出信号中消除。在此,第1回声信号是示出第1回声13的程度的信号。

在本实施方式中,第1回声消除器40是从第2麦克风23的输出信号中消除第1回声信号,并将消除后的信号输出到第4回声消除器70的电路,并且是将数字声音数据在时间轴区域进行处理的数字信号处理电路。

更详细而言,第1回声消除器40具有:第1传递函数存储电路44、第1存储电路42、第1卷积运算器43、第1减法器41、以及第1传递函数更新电路45。

第1传递函数存储电路44对与第1回声13对应的第1传递函数进行存储。

第1存储电路42对第1声音合成电路35的输出信号进行存储。

第1卷积运算器43通过对被存储在第1存储电路42的信号和被存储在第1传递函数存储电路44的第1传递函数进行卷积,从而生成第1干扰信号(即第1回声信号)。例如,第1卷积运算器43是进行以下的式1所示的卷积运算的n抽头的fir(finiteimpulseresponse:有限冲激响应)滤波器。

[数式1]

在此,y1’t是时刻t中的第1干扰信号。n是fir滤波器的抽头数。h1(i)t是在时刻t,被存储在第1传递函数存储电路44的n个第1传递函数中的第i个第1传递函数。x1(t-i)是被存储在第1存储电路42的信号中的第(t-i)个信号。

第1减法器41从第2麦克风23的输出信号中,消除从第1卷积运算器43输出的第1干扰信号,作为第1回声消除器40的输出信号来输出。例如,第1减法器41进行以下的式2所示的减法。

[数式2]

e1t=y1t-y1’t…(式2)

在此,e1t是在时刻t的第1减法器41的输出信号。y1t是在时刻t的第2麦克风23的输出信号。

第1传递函数更新电路45根据第1减法器41的输出信号和被存储在第1存储电路42的信号,对被存储在第1传递函数存储电路44的第1传递函数进行更新。例如,第1传递函数更新电路45如以下的式3所示,利用独立成分分析,根据第1减法器41的输出信号和被存储在第1存储电路42的信号,以使第1减法器41的输出信号与被存储在第1存储电路42的信号相互独立的方式,对被存储在第1传递函数存储电路44的第1传递函数进行更新。

[数式3]

在此,h1(j)t+1是时刻t+1中的(即更新后的)第1传递函数存储电路44中存储的n个第1传递函数中的第j个第1传递函数。h1(j)t是时刻t(即更新前的)中的被存储在第1传递函数存储电路44的n个第1传递函数中的第j个第1传递函数。α1是用于对第1回声13的第1传递函数的估计中的学习速度进行控制的第1步长参数。是非线性函数(例如,sigmoid函数(s型函数)、双曲正切函数(tanh函数)、正规化线性函数或符号函数(sign函数))。

这样,第1传递函数更新电路45针对第1减法器41的输出信号执行采用了非线性函数的非线性处理,针对得到的结果乘以被存储在第1存储电路42的信号、以及用于对第1回声13的第1传递函数的估计中的学习速度进行控制的第1步长参数,据此算出第1更新系数。于是,通过将算出的第1更新系数,加到被存储在第1传递函数存储电路44的第1传递函数中,来进行更新。

并且,控制电路37在第1声音合成电路35输出第1翻译声音的期间中,使第1回声消除器40更新对第1回声信号进行估计的第1传递函数。即在第1回声13存在的期间中,根据上述式3所示的第1传递函数的更新式,第1传递函数被更新。

[1-2-2.第2回声消除器50]

第2回声消除器50是一电路,在将通过第2扬声器24而被扩音的第2翻译声音被输入到第1麦克风21的现象视为第2回声14时,利用第2翻译声音以及与第2回声14对应的第2传递函数,对示出第2回声14的第2回声信号进行估计,将第2回声信号从第1麦克风21的输出信号中消除。在此,第2回声信号是示出第2回声14的程度的信号。

在本实施方式中,第2回声消除器50是从第1麦克风21的输出信号中消除第2回声信号,并将消除后的信号输出到第3回声消除器60的电路,并且是将数字声音数据在时间轴区域进行处理的数字信号处理电路。

更详细而言,第2回声消除器50具有:第2传递函数存储电路54、第2存储电路52、第2卷积运算器53、第2减法器51、以及第2传递函数更新电路55。

第2传递函数存储电路54对与第2回声14对应的第2传递函数进行存储。

第2存储电路52对第2声音合成电路36的输出信号进行存储。

第2卷积运算器53通过对第2存储电路52中存储的信号与第2传递函数存储电路54中存储的第2传递函数进行卷积,来生成第2干扰信号(即第2回声信号)。例如,第2卷积运算器53是进行以下的式4所示的卷积运算的n抽头的fir滤波器。

[数式4]

在此,y2’t是时刻t中的第2干扰信号。n是fir滤波器的抽头数。h2(i)t是在时刻t,第2传递函数存储电路54中存储的n个第2传递函数中的第i个第2传递函数。x2(t-i)是第2存储电路52中存储的信号中的第(t-i)个信号。

第2减法器51从第1麦克风21的输出信号消除从第2卷积运算器53输出的第2干扰信号,作为第2回声消除器50的输出信号来输出。例如,第2减法器51进行以下的式5所示的减法。

[数式5]

e2t=y2t-y2’t…(式5)

在此,e2t是时刻t中的第2减法器51的输出信号。y2t是时刻t中的第1麦克风21的输出信号。

第2传递函数更新电路55根据第2减法器51的输出信号和第2存储电路52中存储的信号,对第2传递函数存储电路54中存储的第2传递函数进行更新。例如,第2传递函数更新电路55如以下的式6所示,利用独立成分分析,根据第2减法器51的输出信号和第2存储电路52中存储的信号,以使第2减法器51的输出信号与第2存储电路52中存储的信号相互独立的方式,对第2传递函数存储电路54中存储的第2传递函数进行更新。

[数式6]

在此,h2(j)t+1是时刻t+1中的(即更新后的)第2传递函数存储电路54中存储的n个第2传递函数中的第j个第2传递函数。h2(j)t是时刻t(即更新前的)第2传递函数存储电路54中存储的n个第2传递函数中的第j个第2传递函数。α2是用于对第2回声14的第2传递函数的估计中的学习速度进行控制的第2步长参数。是非线性函数(例如,sigmoid函数(s型函数)、双曲正切函数(tanh函数)、正规化线性函数或符号函数(sign函数))。

这样,第2传递函数更新电路55通过针对第2减法器51的输出信号执行采用了非线性函数的非线性处理,并针对得到的结果乘以第2存储电路52中存储的信号以及用于对第2回声14的第2传递函数的估计中的学习速度进行控制的第2步长参数,据此算出第2更新系数。于是,通过将算出的第2更新系数加到第2传递函数存储电路54中存储的第2传递函数中,来进行更新。

并且,控制电路37在第2声音合成电路36输出第2翻译声音的期间中,使第2回声消除器50更新对第2回声信号进行估计的第2传递函数。即在第2回声14存在的期间中,根据上述式6所示的第2传递函数的更新式,第2传递函数被更新。

[1-2-3.第3回声消除器60]

第3回声消除器60是一电路,在将从第1扬声器22输出的第1翻译声音被输入到第1麦克风21的现象视为第3回声15时,利用第1翻译声音以及与第3回声15对应的第3传递函数,对示出第3回声15的第3回声信号进行估计,将第3回声信号从第1麦克风21的输出信号中消除。在此,第3回声信号是示出第3回声15的程度的信号。

在本实施方式中,第3回声消除器60是从第2回声消除器50的输出信号中消除第3回声信号,并将消除后的信号输出到第2串音消除器90的电路,并且是将数字声音数据在时间轴区域进行处理的数字信号处理电路。

更详细而言,第3回声消除器60具有:第3传递函数存储电路64、第3存储电路62、第3卷积运算器63、第3减法器61、以及第3传递函数更新电路65。

第3传递函数存储电路64对与第3回声15对应的第3传递函数进行存储。

第3存储电路62对第1声音合成电路35的输出信号进行存储。

第3卷积运算器63通过对第3存储电路62中存储的信号和第3传递函数存储电路64中存储的第3传递函数进行卷积,来生成第3干扰信号(即第3回声信号)。例如,第3卷积运算器63是进行以下的式7所示的卷积运算的n抽头的fir滤波器。

[数式7]

在此,y3’t是时刻t中的第3干扰信号。n是fir滤波器的抽头数。h3(i)t是在时刻t,第3传递函数存储电路64中存储的n个第3传递函数中的第i个第3传递函数。x3(t-i)是第3存储电路62中存储的信号中的第(t-i)个信号。

第3减法器61从第2回声消除器50的输出信号中,消除从第3卷积运算器63输出的第3干扰信号,作为第3回声消除器60的输出信号来输出。例如,第3减法器61进行以下的式8所示的减法。

[数式8]

e3t=y3t-y3’t…(式8)

在此,e3t是时刻t中的第3减法器61的输出信号。y3t是时刻t中的第2回声消除器50的输出信号。

第3传递函数更新电路65根据第3减法器61的输出信号和第3存储电路62中存储的信号,对第3传递函数存储电路64中存储的第3传递函数进行更新。例如,第3传递函数更新电路65如以下的式9所示,利用独立成分分析,根据第3减法器61的输出信号和第3存储电路62中存储的信号,以第3减法器61的输出信号和第3存储电路62中存储的信号相互独立的方式,对第3传递函数存储电路64中存储的第3传递函数进行更新。

[数式9]

在此,h3(j)t+1是时刻t+1中的(即更新后的)第3传递函数存储电路64中存储的n个第3传递函数中的第j个第3传递函数。h3(j)t是时刻t(即更新前的)中的第3传递函数存储电路64中存储的n个第3传递函数中的第j个第3传递函数。α3是用于对第3回声15的第3传递函数的估计中的学习速度进行控制的第3步长参数。是非线性函数(例如,sigmoid函数(s型函数)、双曲正切函数(tanh函数)、正规化线性函数或符号函数(sign函数))。

这样,第3传递函数更新电路65通过针对第3减法器61的输出信号执行采用了非线性函数的非线性处理,针对得到的结果乘以第3存储电路62中存储的信号、以及用于对第3回声15的第3传递函数的估计中的学习速度进行控制的第3步长参数,从而算出第3更新系数。于是,通过将算出的第3更新系数加到第3传递函数存储电路64中存储的第3传递函数中,来进行更新。

并且,控制电路37在第1声音合成电路35输出第1翻译声音的期间中,使第3回声消除器60更新对第3回声信号进行估计的第3传递函数。即在第3回声15存在的期间,根据上述式9所示的第3传递函数的更新式,第3传递函数被更新。

[1-2-4.第4回声消除器70]

第4回声消除器70是一电路,在将通过第2扬声器24而被扩音的第2翻译声音被输入到第2麦克风23的现象视为第4回声16时,利用第2翻译声音以及与第4回声16对应的第4传递函数,对示出第4回声16的第4回声信号进行估计,将第4回声信号从第2麦克风23的输出信号中消除。在此,第4回声信号是示出第4回声16的程度的信号。

在本实施方式中,第4回声消除器70是从第1回声消除器40的输出信号中消除第4回声信号,将消除后的信号输出到第1串音消除器80的电路,并且是将数字声音数据在时间轴区域进行处理的数字信号处理电路。

更详细而言,第4回声消除器70具有:第4传递函数存储电路74、第4存储电路72、第4卷积运算器73、第4减法器71、以及第4传递函数更新电路75。

第4传递函数存储电路74对与第4回声16对应的第4传递函数进行存储。

第4存储电路72对第2声音合成电路36的输出信号进行存储。

第4卷积运算器73通过对第4存储电路72中存储的信号和第4传递函数存储电路74中存储的第4传递函数进行卷积,从而生成第4干扰信号(即第4回声信号)。例如,第4卷积运算器73是进行以下的式10所示的卷积运算的n抽头的fir滤波器。

[数式10]

在此,y4’t是时刻t中的第4干扰信号。n是fir滤波器的抽头数。h4(i)t是在时刻t,第4传递函数存储电路74中存储的n个第4传递函数中的第i个第4传递函数。x4(t-i)是第4存储电路72中存储的信号中的第(t-i)个信号。

第4减法器71从第1回声消除器40的输出信号中,消除从第4卷积运算器73输出的第4干扰信号,作为第4回声消除器70的输出信号来输出。例如,第4减法器71进行以下的式11所示的减法。

[数式11]

e4t=y4t-y4’t…(式11)

在此,e4t是时刻t中的第4减法器71的输出信号。y4t是时刻t中的第1回声消除器40的输出信号。

第4传递函数更新电路75根据第4减法器71的输出信号和第4存储电路72中存储的信号,对第4传递函数存储电路74中存储的第4传递函数进行更新。例如,第4传递函数更新电路75如以下的式12所示,利用独立成分分析,根据第4减法器71的输出信号和第4存储电路72中存储的信号,以第4减法器71的输出信号与第4存储电路72中存储的信号相互独立的方式,对第4传递函数存储电路74中存储的第4传递函数进行更新。

[数式12]

在此,h4(j)t+1是时刻t+1中的(即更新后的)第4传递函数存储电路74中存储的n个第4传递函数中的第j个第4传递函数。h4(j)t是时刻t中的(即更新前的)第4传递函数存储电路74中存储的n个第4传递函数中的第j个第4传递函数。α4是用于对第4回声16的第4传递函数的估计中的学习速度进行控制的第4步长参数。是非线性函数(例如,sigmoid函数(s型函数)、双曲正切函数(tanh函数)、正规化线性函数或符号函数(sign函数))。

这样,第4传递函数更新电路75通过对第4减法器71的输出信号执行采用了非线性函数的非线性处理,针对得到的结果乘以第4存储电路72中存储的信号、以及用于对第4回声16的第4传递函数的估计中的学习速度进行控制的第4步长参数,来算出第4更新系数。于是,通过将算出的第4更新系数加到第4传递函数存储电路74中存储的第4传递函数中,来进行更新。

并且,控制电路37在第2声音合成电路36输出第2翻译声音的期间中,使第4回声消除器70更新对第4回声信号进行估计的第4传递函数。即在第4回声16存在的期间,根据上述式12所示的第4传递函数的更新式,第4传递函数被更新。

[1-2-5.第1串音消除器80]

第1串音消除器80是一电路,在将第1声音被输入到第2麦克风23的现象视为第1串音17时,利用第1声音来估计示出第1串音17的第1串音信号,并将第1串音信号从第2麦克风23的输出信号中消除。即第1串音消除器80是利用基于第1声音的第2串音消除器90的输出信号,来估计示出第1串音17的程度的第5干扰信号(即第1串音信号),并将第5干扰信号从基于第2麦克风23的输出信号的第4回声消除器70的输出信号中消除的电路。

在本实施方式中,第1串音消除器80是将消除了第5干扰信号的信号输出到第2声音识别电路32的电路,并且是将数字声音数据在时间轴区域进行处理的数字信号处理电路。在此,第2串音消除器90的输出信号如图2所示,是给第1声音识别电路31的输入信号。

更详细而言,第1串音消除器80具有:第5传递函数存储电路84、第5存储电路82、第5卷积运算器83、第5减法器81、以及第5传递函数更新电路85。

第5传递函数存储电路84存储作为第1串音17的传递函数而被估计的第5传递函数。

第5存储电路82存储第2串音消除器90的输出信号。

第5卷积运算器83通过对第5存储电路82中存储的信号与第5传递函数存储电路84中存储的第5传递函数进行卷积,来生成第5干扰信号。例如,第5卷积运算器83是进行以下的式13所示的卷积运算的n抽头的fir滤波器。

[数式13]

在此,y5’t是时刻t中的第5干扰信号。n是fir滤波器的抽头数。h5(i)t是在时刻t,第5传递函数存储电路84中存储的n个第5传递函数中的第i个第5传递函数。x5(t-i)是第5存储电路82中存储的信号中的第(t-i)个信号。

第5减法器81从第4回声消除器70的输出信号中,消除从第5卷积运算器83输出的第5干扰信号,作为第1串音消除器80的输出信号来输出。例如,第5减法器81进行以下的式14所示的减法。

[数式14]

e5t=y5t-y5’t…(式14)

在此,e5t是时刻t中的第5减法器81的输出信号。y5t是时刻t中的第4回声消除器70的输出信号。

第5传递函数更新电路85根据第5减法器81的输出信号和第5存储电路82中存储的信号,对第5传递函数存储电路84中存储的第5传递函数进行更新。例如,第5传递函数更新电路85如以下的式15所示,利用独立成分分析,根据第5减法器81的输出信号和第5存储电路82中存储的信号,以使第5减法器81的输出信号与第5存储电路82中存储的信号相互独立的方式,对第5传递函数存储电路84中存储的第5传递函数进行更新。

[数式15]

在此,h5(j)t+1是时刻t+1的(即更新后的)第5传递函数存储电路84中存储的n个第5传递函数中的第j个第5传递函数。h5(j)t是时刻t(即更新前的)的第5传递函数存储电路84中存储的n个第5传递函数中的第j个第5传递函数。α5是用于对第1串音17的第5传递函数的估计中的学习速度进行控制的第5步长参数。是非线性函数(例如,sigmoid函数(s型函数)、双曲正切函数(tanh函数)、正规化线性函数或符号函数(sign函数))。

这样,第5传递函数更新电路85通过针对第5减法器81的输出信号执行采用了非线性函数的非线性处理,并针对得到的结果乘以第5存储电路82中存储的信号、以及用于第1串音17的第5传递函数的估计中的学习速度进行控制的第5步长参数,从而算出第5更新系数。于是,通过将算出的第5更新系数加到第5传递函数存储电路84中存储的第5传递函数,来进行更新。

另外,在本实施方式中的翻译装置20中,针对与第1说话者11为相同时刻中的音声而设计成,第2串音消除器90的输出信号被输入到第1串音消除器80的时刻,与第1说话者11的声音被输入到第2麦克风23的时刻相同或提早。即,以第1串音消除器80能够消除第1串音17的方式而保持了因果律。这是由于考虑了决定第2串音消除器90的输出信号被输入到第1串音消除器80的时刻的要因(a/d转换的速度、第2回声消除器50的处理速度、第3回声消除器60的处理速度、第2串音消除器90的处理速度等)、以及决定第1说话者11的声音被输入到第2麦克风23的时刻的要因(第1说话者11与第2麦克风23的位置关系等),从而能够适宜地实现的缘故。

[1-2-6.第2串音消除器90]

第2串音消除器90是一电路,在将第2声音被输入到第1麦克风21的现象视为第2串音18时,利用第2声音来估计示出第2串音18的第2串音信号,并将第2串音信号从第1麦克风21的输出信号中消除。即利用基于第2声音的第1串音消除器80的输出信号,来估计示出第2串音18的程度的第6干扰信号(即第2串音信号),并将第6干扰信号从基于第1麦克风21的输出信号的第3回声消除器60的输出信号中消除。

在本实施方式中,第2串音消除器90是将消除了第6干扰信号的信号输出到第1声音识别电路31的电路,并且是将数字声音数据在时间轴区域进行处理的数字信号处理电路。在此,第1串音消除器80的输出信号如图2所示,是给第2声音识别电路32的输入信号。

更详细而言,第2串音消除器90具有:第6传递函数存储电路94、第6存储电路92、第6卷积运算器93、第6减法器91、以及第6传递函数更新电路95。

第6传递函数存储电路94对作为第2串音18的传递函数而被估计的第6传递函数进行存储。

第6存储电路92对第1串音消除器80的输出信号进行存储。

第6卷积运算器93通过对第6存储电路92中存储的信号与第6传递函数存储电路94中存储的第6传递函数进行卷积,从而生成第6干扰信号。例如,第6卷积运算器93是进行以下的式16所示的卷积运算的n抽头的fir滤波器。

[数式16]

在此,y6’t为时刻t中的第6干扰信号。n为fir滤波器的抽头数。h6(i)t是在时刻t,第6传递函数存储电路94中存储的n个第6传递函数中的第i个第6传递函数。x6(t-i)是第6存储电路92中存储的信号中的第(t-i)个信号。

第6减法器91从第3回声消除器60的输出信号中,消除从第6卷积运算器93输出的第6干扰信号,作为第2串音消除器90的输出信号来输出。例如,第6减法器91进行以下的式17所示的减法。

[数式17]

e6t=y6t-y6’t…(式17)

在此,e6t为时刻t的第6减法器91的输出信号。y6t是时刻t的第3回声消除器60的输出信号。

第6传递函数更新电路95根据第6减法器91的输出信号和第6存储电路92中存储的信号,对第6传递函数存储电路94中存储的第6传递函数进行更新。例如,第6传递函数更新电路95如以下的式18所示,利用独立成分分析,根据第6减法器91的输出信号和第6存储电路92中存储的信号,以第6减法器91的输出信号与第6存储电路92中存储的信号相互独立的方式,对第6传递函数存储电路94中存储的第6传递函数进行更新。

[数式18]

在此,h6(j)t+1是时刻t+1的(即更新后的)第6传递函数存储电路94中存储的n个第6传递函数中的第j个第6传递函数。h6(j)t是时刻t的(即更新前的)第6传递函数存储电路94中存储的n个第6传递函数中的第j个第6传递函数。α6是用于对第2串音18的第6传递函数的估计中的学习速度进行控制的第6步长参数。是非线性函数(例如,sigmoid函数(s型函数)、双曲正切函数(tanh函数)、正规化线性函数或符号函数(sign函数))。

这样,第6传递函数更新电路95通过对第6减法器91的输出信号执行采用了非线性函数的非线性处理,并针对得到的结果乘以第6存储电路92中存储的信号、以及用于第2串音18的第6传递函数的估计中的学习速度进行控制的第6步长参数,从而算出第6更新系数。于是,通过将算出的第6更新系数加到第6传递函数存储电路94中存储的第6传递函数,来进行更新。

另外,在本实施方式中的翻译装置20,针对与第2说话者12为相同时刻的音声而设计成,第1串音消除器80的输出信号被输入到第2串音消除器90的时刻,与第2说话者12的声音被输入到第1麦克风21的时刻相同或提早。即,以第2串音消除器90能够消除第2串音18的方式,保持了因果律。这是由于考虑了决定第1串音消除器80的输出信号被输入到第2串音消除器90的时刻的要因(a/d转换的速度、第1回声消除器40的处理速度、第4回声消除器70的处理速度、第1串音消除器80的处理速度等)、以及决定第2说话者12的声音被输入到第1麦克风21的时刻的要因(第2说话者12与第1麦克风21的位置关系等),因此能够适宜地实现的缘故。

[1-3.工作]

以上这种构成的本实施方式中的翻译装置20进行如下的工作。

第1语言选择电路27以及第2语言选择电路28预先从第1说话者11接受第1说话者11所使用的第1语言的选择以及从第2说话者12接受第2说话者12所使用的第2语言的选择,并通知到控制电路37。

第1说话者11的声音被输入到第1麦克风21。并且,除了第1说话者11的声音以外,第2回声14、第3回声15以及第2串音18也被输入到第1麦克风21。第1麦克风21的输出信号在第2回声消除器50,被消除第2干扰信号(即第2回声信号)。第2干扰信号是示出第2回声14的程度的(被估计的)信号。因此,第2回声消除器50的输出信号成为,示出从被输入到第1麦克风21的声音中消除了第2回声14的影响的声音的信号。

接着,第2回声消除器50的输出信号在第3回声消除器60,被消除第3干扰信号(即第3回声信号)。第3干扰信号是示出第3回声15的程度的(被估计的)信号。因此,第3回声消除器60的输出信号成为从第2回声消除器50的输出信号中消除了第3回声15的影响的信号。

接着,第3回声消除器60的输出信号在第2串音消除器90,被消除第6干扰信号(即第2串音信号)。第6干扰信号是示出第2串音18的程度的(被估计的)信号。因此,第2串音消除器90的输出信号成为从第3回声消除器60的输出信号被消除了第2串音18的影响的信号,被输出到第1声音识别电路31以及第1串音消除器80。

接着,在第1声音识别电路31被输入如下的数字声音数据,即从第1说话者11的声音中,由第2回声消除器50消除了第2回声14的数字声音数据,由第3回声消除器60消除了第3回声15的数字声音数据,由第2串音消除器90消除了第2串音18的数字声音数据。第1声音识别电路31针对被输入的数字声音数据,根据从控制电路37指示的第1说话者11的第1语言的信息,将作为进行了声音识别的结果的第1字符串输出到第1翻译电路33以及控制电路37。

接着,第1翻译电路33将由第1声音识别电路31输出的第1字符串,从控制电路37所指示的第1说话者11的第1语言转换为第2说话者12的第2语言的第3字符串,将转换的第3字符串输出到第1声音合成电路35以及控制电路37。

接着,第1声音合成电路35将由第1翻译电路33输出的第2语言的第3字符串,根据从控制电路37指示的第2语言的信息,转换为第2语言的输出信号,将第2语言的输出信号输出到第1扬声器22、第1回声消除器40、以及第3回声消除器60,第2语言的输出信号输出期间的信息输出到控制电路37。

由第1声音合成电路35输出的第2语言的输出信号被输入到第1扬声器22,成为第1翻译声音而被输出。

同样,第2说话者12的声音被输入到第2麦克风23。并且,除了第2说话者12的声音以外,第1回声13、第4回声16以及第1串音17也被输入到第2麦克风23。第2麦克风23的输出信号在第1回声消除器40,被消除第1干扰信号(即第1回声信号)。第1干扰信号是示出第1回声13的程度的(被估计的)信号。因此,第1回声消除器40的输出信号成为示出从被输入到第2麦克风23的声音中消除了第1回声13的影响的声音的信号。

接着,第1回声消除器40的输出信号在第4回声消除器70,被消除第4干扰信号(即第4回声信号)。第4干扰信号是示出第4回声16的程度的(而被估计的)信号。因此,第4回声消除器70的输出信号成为从第1回声消除器40的输出信号中消除了第4回声16的影响的信号。

接着,第4回声消除器70的输出信号在第1串音消除器80,被消除第5干扰信号(即第1串音信号)。第5干扰信号是示出第1串音17的程度的(被估计的)信号。因此,第1串音消除器80的输出信号成为从第4回声消除器70的输出信号中消除了第1串音17的影响的信号,被输出到第2声音识别电路32以及第2串音消除器90。

接着,第2声音识别电路32被输入如下的数字声音数据,即从第2说话者12的声音,通过第1回声消除器40消除了第1回声13的数字声音数据,通过第4回声消除器70消除了第4回声16的数字声音数据,通过第1串音消除器80消除了第1串音17的数字声音数据。第2声音识别电路32针对被输入的数字声音数据,根据从控制电路37指示的第2说话者12的第2语言的信息,将作为进行了声音识别的结果的第2字符串,输出到第2翻译电路34以及控制电路37。

接着,第2翻译电路34将由第2声音识别电路32输出的第2字符串,从控制电路37所指示的第2说话者12的第2语言转换成第1说话者11的第1语言的第4字符串,将转换的第4字符串输出到第2声音合成电路36以及控制电路37。

接着,第2声音合成电路36将由第2翻译电路34输出的第1语言的第4字符串,根据从控制电路37指示的第1语言的信息,转换成第1语言的输出信号,将第1语言的输出信号输出到第2扬声器24、第2回声消除器50、以及第4回声消除器70,将第1语言的输出信号输出期间的信息输出到控制电路37。

由第2声音合成电路36输出的第1语言的输出信号,被输入到第2扬声器24,成为第2翻译声音而被输出。

控制电路37将如下的字符串输出到影像信号发生电路38,这些字符串是指,由第1声音识别电路31输出的第1说话者11的声音的识别结果即第1语言的第1字符串,将由第1翻译电路33输出的第1说话者11的第1语言的声音转换为第2语言的第3字符串,由第2声音识别电路32输出的第2说话者12的声音的识别结果即第2语言的第2字符串,以及将由第2翻译电路34输出的第2说话者12的第2语言的声音转换为第1语言的第4字符串。

并且,控制电路37将由第1声音合成电路35输出的第1翻译声音输出期间的信息,输出到第1回声消除器40以及第3回声消除器60,并在该期间使第1回声消除器40以及第3回声消除器60更新传递函数。在此,第1翻译声音输出期间的信息是表示由第1声音合成电路35输出第1翻译声音的期间的信息。

而且,控制电路37将由第2声音合成电路36输出的第2翻译声音输出期间的信息,输出到第2回声消除器50以及第4回声消除器70,并在该期间使第2回声消除器50以及第4回声消除器70更新传递函数。在此,第2翻译声音输出期间的信息是表示由第2声音合成电路36输出第2翻译声音的期间的信息。

影像信号发生电路38将如下的字符串输出到第2显示电路26,这些字符串是指,由第1声音识别电路31输出的第1说话者11的声音的识别结果即第1语言的第1字符串、以及将由第2翻译电路34输出的第2说话者12的第2语言的声音转换为第1语言的第4字符串。而且,影像信号发生电路38将如下的字符串输出到第1显示电路25,这些字符串是指,由第2声音识别电路32输出的第2说话者12的声音的识别结果即第2语言的第2字符串、以及将由第1翻译电路33输出的第1说话者11的第1语言的声音转换为第2语言的第3字符串。

在翻译装置20,第1说话者11的声音以及第2说话者12的声音如以上所述那样被处理。

如以上所述,被输入到第1声音识别电路31的输出信号成为,被第1麦克风21的声音中的消除了第2回声14、第3回声15、以及第2串音18的影响的输出信号,即成为消除了音响上的噪声的仅第1说话者11的声音。而且,从第1扬声器22输出的第1翻译声音成为,从被输入到第1麦克风21的声音中消除了第2回声14、第3回声15、以及第2串音18的影响的输出信号,即成为消除了音响上的噪声的仅第1说话者11的声音。

并且,被输入到第2声音识别电路32的输出信号成为,被输入到第2麦克风23的声音中的消除了第1回声13、第4回声16、以及第1串音17的影响的输出信号,即成为消除了音响上的噪声的仅第2说话者12的声音。并且,从第2扬声器24输出的第2翻译声音成为,从被输入到第2麦克风23的声音中消除了第1回声13、第4回声16、以及第1串音17的影响的输出信号,即成为消除了音响上的噪声的仅第2说话者12的声音。

另外,音响上的噪声被消除的程度将依存于保持在第1回声消除器40、第2回声消除器50、第3回声消除器60、第4回声消除器70、以及第1串音消除器80、第2串音消除器90中的传递函数的精度,即依存于上述式3、式6、式9、式12、式15、以及式18所示的传递函数的更新式中的参数等。

并且,控制电路37在一定条件下,使第1回声消除器40、第2回声消除器50、第3回声消除器60以及第4回声消除器70对各个消除器的传递函数进行更新。对该更新的流程图进行说明。

图3是关于第1回声消除器40以及第3回声消除器60的传递函数的更新的流程图。

如以上所述,控制电路37将由第1声音合成电路35输出的第1翻译声音输出期间的信息,输出到第1回声消除器40以及第3回声消除器60。控制电路37判断第1声音合成电路35是否正在输出第1翻译声音(步骤s100)。

接着,在步骤s100为“是”的情况下,控制电路37使第1回声消除器40以及第3回声消除器60对各个消除器的传递函数进行更新(步骤s101)。

并且,在步骤s100为“否”的情况下,控制电路37结束处理。

通过以上所述,控制电路37在第1回声13以及第3回声15存在的期间中,根据上述式3以及式9所示的传递函数的更新式,来更新传递函数。

图4是关于第2回声消除器50以及第4回声消除器70的传递函数的更新的流程图。

如以上所述,控制电路37将由第2声音合成电路36输出的第2翻译声音输出期间的信息,输出到第2回声消除器50以及第4回声消除器70。控制电路37判断第2声音合成电路36是否正在输出第2翻译声音(步骤s200)。

接着,在步骤s200为“是”的情况下,控制电路37使第2回声消除器50和第4回声消除器70对各个消除器的传递函数进行更新(步骤s201)。

并且,在步骤s200为“否”的情况下,控制电路37结束处理。

如以上所述,控制电路37在第2回声14以及第4回声16存在的期间中,根据上述式6以及式12所示的传递函数的更新式,使传递函数更新。

另外,在图1所示的实施方式1中,会话是在第1麦克风21与第2扬声器24的距离近、且第2麦克风23与第1扬声器22的距离近的状态下进行的。因此,第1回声13与第2回声14的影响大。因此,第1回声消除器40与第2回声消除器50的重要性高,成为必需的构成。

另外,若第1麦克风21与第2扬声器24的距离远,且第2麦克风23与第1扬声器22的距离远,则第1回声13与第2回声14的影响小。因此,第1回声消除器40和第2回声消除器50的重要性低,可以不是必需的构成。在这种情况下,与图2所示的实施方式1相比,可以是不具备第1回声消除器40和第2回声消除器50的构成。即第1麦克风21的输出信号不经由第2回声消除器50,而被输出到第3回声消除器60,第2麦克风23的输出信号不经由第1回声消除器40而被输入到第4回声消除器70。

另外,除了图1所示的实施方式1以外,虽然没有进行图示,翻译装置20还可以具备第1声音性別判断电路以及第2声音性別判断电路。

第1声音性別判断电路根据第1声音,进行第1说话者11的性别判断。

第2声音性別判断电路根据第2声音,进行第2说话者12的性别判断。

进一步,在这种情况下,控制电路37可以使第1声音合成电路35输出与第1声音性別判断电路的判断结果为相同性别的合成声音,也可以使第2声音合成电路36输出与第2声音性別判断电路的判断结果为相同性别的合成声音。

另外,如图1所示,在实施方式1,翻译装置20具备第1照相机291以及第2照相机292。并且,虽然没有进行图示,翻译装置20还可以具备第1人脸识别电路、第2人脸识别电路、以及存储说话者与该说话者所使用的语言的配对的数据库。

第1照相机291对第1说话者的人脸进行拍摄。第1照相机291将第1影像信号输出给第1人脸识别电路。

第2照相机292对第2说话者的人脸进行拍摄。第2照相机292将第2影像信号输出给第2人脸识别电路。

第1人脸识别电路根据从第1照相机输出的第1影像信号,对第1说话者11进行确定。

第2人脸识别电路根据从第2照相机输出的第2影像信号,对第2说话者12进行确定。

数据库存储说话者与该说话者所使用的语言的配对。

进一步,在这种情况下,控制电路37在由第1人脸识别电路确定的第1说话者11的语言被登记到数据库的情况下,可以向第1声音识别电路31、第1翻译电路33、第2翻译电路34、以及第1声音合成电路35通知第1说话者11的第1语言,在第2人脸识别电路确定的第2说话者12的语言被登记到数据库的情况下,可以向第2声音识别电路32、第1翻译电路33、第2翻译电路34、以及第2声音合成电路36通知第2说话者12的第2语言。

并且,翻译装置20除了具备上述的第1照相机291以及第2照相机292以外,还可以具备第1影像性別判断电路以及第2影像性別判断电路。

第1照相机291对第1说话者的人脸进行拍摄。第1照相机291将第1影像信号输出给第1影像性別判断电路。

第2照相机292对第2说话者的人脸进行拍摄。第2照相机292将第2影像信号输出给第2影像性別判断电路。

第1影像性別判断电路根据从第1照相机291输出的第1影像信号,进行第1说话者的性别判断。

第2影像性別判断电路根据从第2照相机292输出的第2影像信号,进行第2说话者的性别判断。

进一步,在这种情况下,控制电路37可以使第1声音合成电路输出与第1影像性別判断电路的判断结果为相同性别的合成声音,使第2声音合成电路输出与第2影像性別判断电路的判断结果为相同性别的合成声音。

并且,也可以是共用第1回声消除器40的第1存储电路42与第3回声消除器60的第3存储电路62的构成。即,第1回声消除器40的第1存储电路42中存储的信号与第3回声消除器60的第3存储电路62中存储的信号均可以是第1声音合成电路35的输出信号,通过使第1存储电路42与第3存储电路62相同,因此能够使第1存储电路42与第3存储电路62所涉及的部分的存储电路减少一半。

而且,也可以是第2回声消除器50的第2存储电路52与第4回声消除器70的第4存储电路72为共同的构成。即,第2回声消除器50的第2存储电路52中存储的信号与第4回声消除器70的第4存储电路72中存储的信号均为第2声音合成电路36的输出信号,通过使第2存储电路52与第4存储电路72相同,因此能够使第2存储电路52与第4存储电路72所涉及的部分的存储电路减少一半。

[1-4.效果等]

如以上说明所示,翻译装置20针对第1说话者11与第2说话者12的会话,将一方的说话者的语言翻译成另一方的说话者的语言,并对合成声音进行扩音,该翻译装置具备:第1麦克风21,用于输入第1说话者11的第1声音;第1声音识别电路31,对第1声音进行声音识别,并输出第1字符串;第1翻译电路33,将从第1声音识别电路31输出的第1字符串,翻译为第2说话者12的语言,并输出第3字符串;第1声音合成电路35,将从第1翻译电路33输出的第3字符串转换成第1翻译声音;第1扬声器22,对第1翻译声音进行扩音;第2麦克风23,用于输入第2说话者12的第2声音;第2声音识别电路32,对第2声音进行声音识别,并输出第2字符串;第2翻译电路34,将从第2声音识别电路32输出的第2字符串翻译成第1说话者11的语言,并输出第4字符串;第2声音合成电路36,将从第2翻译电路34输出的第4字符串转换成第2翻译声音;第2扬声器24,对第2翻译声音进行扩音;第1回声消除器40,在将通过第1扬声器22而被扩音的第1翻译声音被输入到第2麦克风23的现象视为第1回声13时,利用第1翻译声音以及与第1回声13对应的第1传递函数,对示出第1回声13的第1回声信号进行估计,将第1回声信号从第2麦克风23的输出信号中消除;第2回声消除器50,在将通过第2扬声器24而被扩音的第2翻译声音被输入到第1麦克风21的现象视为第2回声14时,利用第2翻译声音以及与第2回声14对应的第2传递函数,对示出第2回声14的第2回声信号进行估计,并将第2回声信号从第1麦克风21的输出信号中消除,并且所述翻译装置具备控制电路37,控制电路37在第1声音合成电路35输出第1翻译声音的期间中,使第1回声消除器40更新对第1回声信号进行估计的第1传递函数,在第2声音合成电路36输出第2翻译声音的期间中,使第2回声消除器50更新对第2回声信号进行估计的第2传递函数。

这样的翻译装置20即使在多个说话者的声音与多个合成声音同时重复存在的情况下,也能够消除包括回声的音响上的噪声,从而能够在进行稳定的声音识别的同时,进行相互的会话,所述多个合成声音是,通过对所述多个说话者的声音进行识别,并翻译成对方的语言,进行声音合成后而被输出的声音。并且,即使在第1说话者11的第1声音、第2说话者12的第2声音、第1声音合成电路35的第1翻译声音、以及第2声音合成电路36的第2翻译声音同时发生的情况下,回声消除器也能够消除回声,因此,第1声音识别电路31以及第2声音识别电路32不会降低声音识别精度。而且,第1回声消除器40在第1声音合成电路35输出合成声音时,来更新第1传递函数,当存在除此以外的声音时,不进行不必要的更新,因此,第1回声消除器40中的第1传递函数的估计精度增高。即,能够防止由于不必要的更新,而造成的第1回声消除器40的第1传递函数存储电路44中存储的第1传递函数被损坏,因此能够以更高的精度来消除第1回声信号。同样,第2回声消除器50在第2声音合成电路36输出合成声音时,来更新第2传递函数,当除此以外的声音存在时,不进行不必要的更新,因此能够提高第2回声消除器50中的第2传递函数的估计精度。即,能够防止由于不必要的更新,而造成的第2回声消除器50的第2传递函数存储电路54中存储的第2传递函数被损坏,因此能够以更高的精度来消除第2回声信号。

并且,例如翻译装置20进一步具备:第3回声消除器60,在将由第1扬声器22扩音的第1翻译声音被输入到第1麦克风21的现象视为第3回声15时,利用第1翻译声音以及与第3回声15对应的第3传递函数,对示出第3回声15的第3回声信号进行估计,并将第3回声信号从第1麦克风21的输出信号中消除;以及第4回声消除器70,在将由第2扬声器24扩音的第2翻译声音被输入到第2麦克风23的现象视为第4回声16时,利用第2翻译声音以及与第4回声16对应的第4传递函数,对示出第4回声16的第4回声信号进行估计,将第4回声信号从第2麦克风23的输出信号中消除,控制电路37在第1声音合成电路35输出第1翻译声音的期间中,使第3回声消除器60更新对第3回声信号进行估计的第3传递函数,在第2声音合成电路36输出第2翻译声音的期间中,使第4回声消除器70更新对第4回声信号进行估计的第4传递函数。

这样的翻译装置20即使在多个说话者的声音与多个合成声音同时重复存在的情况下,也能够消除包括回声的音响上的噪声,在进行稳定的声音识别的同时,进行相互的会话,所述多个合成声音是,通过对所述多个说话者的声音进行识别,并翻译成对方的语言,进行声音合成后而被输出的声音。而且,第1回声消除器40以及第3回声消除器60,在第1声音合成电路35输出合成声音时,对第1传递函数以及第3传递函数进行更新,在除此以外的声音存在时,不进行不必要的更新,因此,第1回声消除器40以及第3回声消除器60中的第1传递函数以及第3传递函数的估计精度增高。即,能够防止由于不必要的更新,而造成的第3回声消除器60的第3传递函数存储电路64中存储的第3传递函数被损坏,因此能够以更高的精度来消除第3回声信号。同样,第2回声消除器50以及第4回声消除器70,在第2声音合成电路36输出合成声音时,对第2传递函数以及第4传递函数进行更新,在除此以外的声音存在时,不进行不必要的更新,因此,能够提高第2回声消除器50以及第4回声消除器70中的第2传递函数以及第4传递函数的估计精度。即,能够防止由于不必要的更新,而造成的第4回声消除器70的第4传递函数存储电路74中存储的第4传递函数被损坏,因此能够以更高的精度来消除第4回声信号。

并且,例如翻译装置20针对第1说话者11与第2说话者12的会话,将一方的说话者的语言翻译成另一方的说话者的语言,并对合成声音进行扩音,该翻译装置具备:第1麦克风21,用于输入第1说话者11的第1声音;第1声音识别电路31,对第1声音进行声音识别,并输出第1字符串;第1翻译电路33,将从第1声音识别电路31输出的第1字符串翻译为第2说话者12的语言,并输出第3字符串;第1声音合成电路35,将从第1翻译电路33输出的第3字符串转换成第1翻译声音;第1扬声器22,对第1翻译声音进行扩音;第2麦克风23,用于输入第2说话者12的第2声音;第2声音识别电路32,对第2声音进行声音识别,并输出第2字符串;第2翻译电路34,将从第2声音识别电路32输出的第2字符串翻译成第1说话者11的语言,并输出第4字符串;第2声音合成电路36,将从第2翻译电路34输出的第4字符串信号转换成第2翻译声音;第2扬声器24,对第2翻译声音进行扩音;第3回声消除器60,在将由第1扬声器22扩音的第1翻译声音被输入到第1麦克风21的现象视为第3回声15时,利用第1翻译声音以及与第3回声15对应的第3传递函数,对示出第3回声15的第3回声信号进行估计,将第3回声信号从第1麦克风21的输出信号中消除;第4回声消除器70,在将由第2扬声器24扩音的第2翻译声音被输入到第2麦克风23的现象视为第4回声16时,利用第2翻译声音以及与第4回声16对应的第4传递函数,对示出第4回声16的第4回声信号进行估计,并将第4回声信号从第2麦克风23的输出信号中消除,并且所述翻译装置还具备控制电路37,控制电路37在第1声音合成电路35输出第1翻译声音的期间中,使第3回声消除器60更新对第3回声信号进行估计的第3传递函数,在第2声音合成电路36输出第2翻译声音的期间中,使第4回声消除器70更新对第4回声信号进行估计的第4传递函数。

这样的翻译装置20即使在多个说话者的声音以及多个合成声音同时重复存在的情况下,也能够消除包括回声的音响上的噪声,在进行稳定的声音识别的同时,进行相互的会话,所述多个合成声音是,通过对所述多个说话者的声音进行识别,并翻译成对方的语言,并进行声音合成而被输出的声音。而且,第3回声消除器60在第1声音合成电路35输出合成声音时,对第3传递函数进行更新,在存在除此以外的声音时,不进行不必要的更新,因此,第3回声消除器60中的第3传递函数的估计精度增高。即,能够防止由于不必要的更新,而造成的第3回声消除器60的第3传递函数存储电路64中存储的第3传递函数被损坏,从而能够以更高的精度来消除第3回声信号。同样,第4回声消除器70在第2声音合成电路36输出合成声音时,对第4传递函数进行更新,在存在除此以外的声音时,不进行不必要的更新,因此能够提高第4回声消除器70中的第4传递函数的估计精度。即,能够防止由于不必要的更新,而造成的第4回声消除器70的第4传递函数存储电路74中存储的第4传递函数被损坏,从而能够以更高的精度来消除第4回声信号。

并且,例如翻译装置20进一步具备:第1串音消除器80,在将第1声音被输入到第2麦克风23的现象视为第1串音17时,利用第1声音对示出第1串音17的第1串音信号进行估计,并将第1串音信号从第2麦克风23的输出信号中消除;以及第2串音消除器90,在将第2声音被输入到第1麦克风21的现象视为第2串音18时,利用第2声音对示出第2串音18的第2串音信号进行估计,并将第2串音信号从第1麦克风21的输出信号中消除。

这样的翻译装置20即使在多个说话者的声音与多个合成声音同时重复存在的情况下,也能够消除包括回声以及串音的音响上的噪声,在进行稳定的声音识别的同时,进行相互的会话,所述多个合成声音是,通过对所述多个说话者的声音进行识别,并翻译成对方的语言,进行声音合成后而被输出的声音。

并且,例如翻译装置20进一步具备:第1语言选择电路27,从第1说话者11接受第1说话者11所使用的第1语言的选择,并通知到控制电路37;以及第2语言选择电路28,从第2说话者12接受第2说话者12所使用的第2语言的选择,并通知到控制电路37,控制电路37根据从第1语言选择电路27通知的第1语言、以及从第2语言选择电路28通知的第2语言,使第1声音识别电路31以第1语言进行声音识别,使第2声音识别电路32以第2语言进行声音识别,使第1翻译电路33将第1语言翻译成第2语言,使第2翻译电路34将第2语言翻译成第1语言,使第1声音合成电路35以第2语言进行声音合成,使第2声音合成电路36以第1语言进行声音合成。

这样的翻译装置20由于预先选择将要翻译的语言,因此能够进行顺利的翻译,并能够输出第1翻译声音以及第2翻译声音。

并且,例如翻译装置20具备:第1声音性別判断电路,根据第1声音,对第1说话者11的性别进行判断;以及第2声音性別判断电路,根据第2声音,对第2说话者12的性别进行判断,控制电路37使第1声音合成电路35输出与第1声音性別判断电路的判断结果为相同性别的合成声音,使第2声音合成电路36输出与第2声音性別判断电路的判断结果为相同性别的合成声音。

这样的翻译装置20能够输出与说话者的性別相同的第1翻译声音和第2翻译声音。

并且,例如翻译装置20具备:第1照相机291,对第1说话者11的人脸进行拍摄;第1人脸识别电路,根据从第1照相机291输出的第1影像信号,对第1说话者11进行确定;第2照相机292,对第2说话者12的人脸进行拍摄;第2人脸识别电路,根据从第2照相机292输出的第2影像信号,对第2说话者12进行确定;以及数据库,用于存储说话者与该说话者所使用的语言的配对,控制电路37在第1人脸识别电路确定的第1说话者11的语言被登记到数据库的情况下,向第1声音识别电路31、第1翻译电路33、第2翻译电路34、以及第1声音合成电路35通知第1说话者11的第1语言,在第2人脸识别电路确定的第2说话者12的语言被登记到数据库的情况下,向第2声音识别电路32、第1翻译电路33、第2翻译电路34、以及第2声音合成电路36通知第2说话者12的第2语言。

这样的翻译装置20由于根据影像来识别人物,并预先登记将要翻译的语言,因此能够顺利地进行翻译,并能够输出第1翻译声音和第2翻译声音。

并且,例如翻译装置20进一步具备:第1影像性別判断电路,根据从第1照相机291输出的第1影像信号,进行第1说话者11的性别判断;以及第2影像性別判断电路,根据从第2照相机292输出的第2影像信号,进行第2说话者12的性别判断,控制电路37使第1声音合成电路35输出与第1影像性別判断电路的判断结果为相同性别的合成声音,使第2声音合成电路36输出与第2影像性別判断电路的判断结果为相同性别的合成声音。

这样的翻译装置20能够根据影像来识别人物的性別,输出与说话者的性別相同的第1翻译声音和第2翻译声音。

并且,在翻译方法中,针对第1说话者11与第2说话者12的会话,将自己的语言翻译成对方的语言,并对合成声音进行扩音,该翻译方法包括如下的步骤:第1输入步骤,输入第1说话者11的第1声音;第1声音识别步骤,对第1声音进行声音识别,并输出第1字符串;第1翻译步骤,将从第1声音识别步骤输出的第1字符串,翻译为第2说话者12的语言,并输出第3字符串;第1声音合成步骤,将从第1翻译步骤输出的第3字符串转换成第1翻译声音;第1扩音步骤,对第1翻译声音进行扩音;第2输入步骤,输入第2说话者12的第2声音;第2声音识别步骤,对第2声音进行声音识别,并输出第2字符串;第2翻译步骤,将从第2声音识别步骤输出的第2字符串,翻译成第1说话者11的语言,并输出第4字符串;第2声音合成步骤,将从第2翻译步骤输出的第4字符串转换成第2翻译声音;第2扩音步骤,对第2翻译声音进行扩音;第1回声消除器步骤,在将通过第1扩音步骤而扩音的第1翻译声音在第2输入步骤被输入的现象视为第1回声13时,利用第1翻译声音以及与第1回声13对应的第1传递函数,对示出第1回声13的第1回声信号进行估计,并将第1回声信号从第2输入步骤的输出信号中消除;第2回声消除器步骤,在将通过第2扩音步骤而扩音的第2翻译声音在第1输入步骤被输入的现象视为第2回声14时,利用第2翻译声音以及与第2回声14对应的第2传递函数,对示出第2回声14的第2回声信号进行估计,并将第2回声信号从第1输入步骤的输出信号中消除;以及控制步骤,给予如下的指示,即在通过第1声音合成步骤输出第1翻译声音的期间,使对第1回声信号进行估计的第1传递函数通过第1回声消除器步骤来更新,在通过第2声音合成步骤输出第2翻译声音的期间,使对第2回声信号进行估计的第2传递函数通过第2回声消除器步骤来更新。

这样的翻译方法即使在多个说话者的声音与多个合成声音同时重复存在的情况下,也能够消除包括回声的音响上的噪声,从而能够在进行稳定的声音识别的同时,进行相互的会话,所述多个合成声音是,通过对所述多个说话者的声音进行识别,并翻译成对方的语言,进行声音合成后而输出的声音。并且,第1回声消除器40在第1声音合成电路35输出合成声音时,对第1传递函数进行更新,在存在除此以外的声音时,不进行不必要的更新,因此第1回声消除器40中的第1传递函数的估计精度增高。即,能够防止由于不必要的更新,而造成第1回声消除器40的被存储在第1传递函数存储电路44的第1传递函数被损坏,因此能够以更高的精度来消除第1回声信号。同样,第2回声消除器50在第2声音合成电路36输出合成声音时,对第2传递函数进行更新,在存在除此以外的声音时,不进行不必要的更新,因此能够提高第2回声消除器50中的第2传递函数的估计精度。即,能够防止由于不必要的更新,而造成的第2回声消除器50的第2传递函数存储电路54中存储的第2传递函数被损坏,因此能够以更高的精度来消除第2回声信号。

并且,例如翻译方法针对第1说话者11与第2说话者12的会话,将自己的语言翻译成对方的语言,并对合成声音进行扩音,该翻译方法包括如下的步骤:第1输入步骤,输入第1说话者11的第1声音;第1声音识别步骤,对第1声音进行声音识别,并输出第1字符串;第1翻译步骤,将从第1声音识别步骤输出的第1字符串翻译为第2说话者12的语言,并输出第3字符串;第1声音合成步骤,将从第1翻译步骤输出的第3字符串转换成第1翻译声音;第1扩音步骤,对第1翻译声音进行扩音;第2输入步骤,输入第2说话者12的第2声音;第2声音识别步骤,对第2声音进行声音识别,并输出第2字符串;第2翻译步骤,将从第2声音识别步骤输出的第2字符串翻译成第1说话者11的语言,并输出第4字符串;第2声音合成步骤,将从第2翻译步骤输出的第4字符串转换成第2翻译声音;第2扩音步骤,对第2翻译声音进行扩音;第3回声消除器步骤,在将由第1扩音步骤输出的第1翻译声音在第1输入步骤被输入的现象视为第3回声15时,利用第1翻译声音以及与第3回声15对应的第3传递函数,对示出第3回声15的第3回声信号进行估计,并将第3回声信号从第1输入步骤的输出信号中消除;第4回声消除器步骤,在将由第2扩音步骤输出的第2翻译声音在第2输入步骤被输入的现象视为第4回声16时,利用第2翻译声音以及与第4回声16对应的第4传递函数,对示出第4回声16的第4回声信号进行估计,并将第4回声信号从第2输入步骤的输出信号中消除;以及控制步骤,给予如下的指示,在第1声音合成步骤输出第1翻译声音的期间,使对第3回声信号进行估计的第3传递函数通过第3回声消除器步骤来更新,在从第2声音合成步骤输出第2翻译声音的期间,使对第4回声信号进行估计的第4传递函数通过第4回声消除器步骤来更新。

这样的翻译方法即使在多个说话者的声音以及多个合成声音同时重复存在的情况下,也能够消除包括回声的音响上的噪声,因此能够在进行稳定的声音识别的同时,进行相互的会话,所述多个合成声音是,通过对所述多个说话者的声音进行识别,并翻译成对方的语言,进行声音合成后而被输出的声音。并且,第3回声消除器60在第1声音合成电路35输出合成声音时,对第3传递函数进行更新,在存在除此以外的声音时,不进行不必要的更新,因此第3回声消除器60中的第3传递函数的估计精度增高。即,由于能够防止由于不必要的更新而造成的第3回声消除器60的第3传递函数存储电路64中存储的第3传递函数的损坏,因此能够以更高的精度消除第3回声信号。同样,第4回声消除器70在第2声音合成电路36输出合成声音时,对第4传递函数进行更新,在存在除此以外的声音时,不进行不必要的更新,因此能够提高第4回声消除器70中的第4传递函数的估计精度。即,由于能够防止由于不必要的更新而造成的第4回声消除器70的第4传递函数存储电路74中存储的第4传递函数被损坏,因此能够以更高的精度来消除第4回声信号。

[1-5.变形例]

在上述实施方式中,第1传递函数更新电路45虽然是按照上述式3来更新传递函数的,也可以是以下的式19或式20所示,按照被正规化后的数式来更新传递函数。

[数式19]

在此,n为第1传递函数存储电路44中存储的传递函数的个数。|x1(t-i)|是x1(t-i)的绝对值。

[数式20]

据此,通过第1传递函数更新电路45的估计传递函数的更新则不依存输入信号x1(t-j)的振幅,能够稳定的被执行。

(实施方式2)

在实施方式1中示出了第1说话者11的第1语言与第2说话者12的第2语言不同的情况。而在实施方式2中将示出适于第1说话者11的第1语言与第2说话者12的第2语言相同的情况下的构成。

首先,在实施方式2与实施方式1相比,不需要对翻译的声音进行输出的功能和翻译功能。

并且如以后所述,啸叫这种现象将成为问题。啸叫是指,从对某个说话者的声音进行输出的扬声器输出的声音,反馈到对该说话者的声音进行输入的麦克风的现象。具体而言,在此进行如下定义,将从第1扬声器22输出的声音反馈到第1麦克风21并被输入的现象定义为第1啸叫15a,将从第2扬声器24输出的声音反馈到第2麦克风23并被输入的现象定义为第2啸叫16a。

[2-1.构成]

图5是示出实施方式2中的翻译装置20a的构成的方框图。即图5是示出在第1语言选择电路27设定的第1说话者11的第1语言与在第2语言选择电路28设定的第2说话者12的第2语言相同的情况下的构成的方框图。另外,在实施方式2中,对于与实施方式1相同的构成要素赋予相同的编号,并省略详细说明。

图5相对于图2而言,由于第1语言与第2语言相同,因此不需要第1翻译电路33、第2翻译电路34、第1声音合成电路35以及第2声音合成电路36。

并且,由于第1说话者11的声音由第1麦克风21收集,经由后述的第1啸叫消除器60a以及第2回声/第2串音消除器90a,从第1扬声器22输出,因此向第1麦克风21的输入与从第1扬声器22的输出相同,成为第1说话者11的声音(即没有被翻译的第1说话者11的声音),因此实施方式1的第3回声15变成第1啸叫15a。因此,第3回声消除器60起到第1啸叫消除器60a的功能。

并且,第2说话者12的声音由第2麦克风23收集,经由后述的第2啸叫消除器70a以及第1回声/第1串音消除器80a,而从第2扬声器24输出,因此向第2麦克风23的输入与从第2扬声器24的输出相同,成为第2说话者12的声音(即没有被翻译的第2说话者12的声音),因此,实施方式1的第4回声16变成第2啸叫16a。因此,第4回声消除器70起到第2啸叫消除器70a的功能。

并且,第1回声13a与第1串音17a的声源相同,均为第1说话者11的声音。因此,第1串音消除器80起到第1回声/第1串音消除器80a的功能。据此,不需要第1回声消除器40。

并且,第2回声14a与第2串音18a的声源相同,均为第2说话者12的声音。因此,第2串音消除器90起到第2回声/第2串音消除器90a的功能。据此,不需要第2回声消除器50。

而且,控制电路37可以使第1回声消除器40、第2回声消除器50、第1翻译电路33、第2翻译电路34、第1声音合成电路35、第2声音合成电路36停止功能。

[2-1-1.第1啸叫消除器60a]

第1啸叫消除器60a是一电路,在将从第1扬声器22输出的音声反馈到第1麦克风21并被输入的现象视为第1啸叫15a时,对示出第1啸叫15a的程度的第1啸叫信号进行估计,并将第1啸叫信号从第1麦克风21的输出信号中消除。在本实施方式中,第1啸叫消除器60a是数字信号处理电路,从第1麦克风21的输出信号中消除第1啸叫信号,将消除后的信号输出到以后将要说明的第2回声/第2串音消除器90a,并将数字声音数据在时间轴区域进行处理。

更详细而言,第1啸叫消除器60a具有第3传递函数存储电路64、第1延迟器66、第3存储电路62、第3卷积运算器63、第3减法器61、以及第3传递函数更新电路65。即,在图2的第3回声消除器60中添加了第1延迟器66。

第3传递函数存储电路64存储作为第1啸叫15a的传递函数而被估计的第3传递函数。

第1延迟器66使第1啸叫消除器60a的输出信号延迟。

第3存储电路62对从第1延迟器66输出的信号进行存储。

第3卷积运算器63通过对第3存储电路62中存储的信号与第3传递函数存储电路64中存储的第3传递函数进行卷积,从而生成第1啸叫信号。例如,第3卷积运算器63是进行以下的式21所示的卷积运算的n抽头的fir(finiteimpulseresponse)滤波器。

[数式21]

在此,y7’t是时刻t中的第1啸叫信号。n是fir滤波器的抽头数。h7(i)t是在时刻t,第3传递函数存储电路64中存储的n个第3传递函数中的第i个第3传递函数。x7(t-i-τ1)是第3存储电路62中存储的信号中的第(t-i-τ1)个信号。τ1是通过第1延迟器66的延迟时间。

第3减法器61从第1麦克风21的输出信号中消除从第3卷积运算器63输出的第1啸叫信号,作为第1啸叫消除器60a的输出信号,输出到第2回声/第2串音消除器90a。例如,第3减法器61进行以下的式22所示的减法。

[数式22]

e7t=y7t-y7’t…(式22)

在此,e7t是时刻t中的第3减法器61的输出信号。y7t是时刻t中的第1麦克风21的输出信号。

第3传递函数更新电路65根据第3减法器61的输出信号和第3存储电路62中存储的信号,对第3传递函数存储电路64中存储的第3传递函数进行更新。例如,第3传递函数更新电路65如以下的式23所示,利用独立成分分析,根据第3减法器61的输出信号和第3存储电路62中存储的信号,以使第3减法器61的输出信号与第3存储电路62中存储的信号相互独立的方式,对第3传递函数存储电路64中存储的第3传递函数进行更新。

[数式23]

在此,h7(j)t+1是时刻t+1中的(即更新后的)第3传递函数存储电路64中存储的n个第3传递函数中的第j个第3传递函数。h7(j)t是时刻t中的(即更新前的)第3传递函数存储电路64中存储的n个第3传递函数中的第j个第3传递函数。α7是用于控制第1啸叫15a的第3传递函数的估计中的学习速度的第7步长参数。是非线性函数(例如,sigmoid函数(s型函数)、双曲正切函数(tanh函数)、正规化线性函数或符号函数(sign函数))。

这样,第3传递函数更新电路65针对第3减法器61的输出信号执行采用了非线性函数的非线性处理,并针对得到的结果,乘以第3存储电路62中存储的信号、以及用于对第1啸叫15a的第3传递函数的估计中的学习速度进行控制的第7步长参数,从而算出第7更新系数。于是,通过将算出的第7更新系数加到第3传递函数存储电路64中存储的第3传递函数,来进行更新。

[2-1-2.第2啸叫消除器70a]

第2啸叫消除器70a是一电路,在将从第2扬声器24输出的音声反馈到第2麦克风23并被输入的现象视为第2啸叫16a时,对示出第2啸叫16a的程度的第2啸叫信号进行估计,并将第2啸叫信号从第2麦克风23的输出信号中消除。在本实施方式中,第2啸叫消除器70a是数字信号处理电路,从第2麦克风23的输出信号中消除第2啸叫信号,将消除后的信号输出到以后将要说明的第1回声/第1串音消除器80a,并对数字声音数据在时间轴区域进行处理。

更详细而言,第2啸叫消除器70a具有第4传递函数存储电路74、第2延迟器76、第4存储电路72、第4卷积运算器73、第4减法器71、以及第4传递函数更新电路75。即在图2的第4回声消除器70中添加了第2延迟器76。

第4传递函数存储电路74存储作为第2啸叫16a的传递函数而被估计的第4传递函数。

第2延迟器76使第2啸叫消除器70a的输出信号延迟。

第4存储电路72存储从第2延迟器76输出的信号。

第4卷积运算器73通过对第4存储电路72中存储的信号与第4传递函数存储电路74中存储的第4传递函数进行卷积,从而生成第2啸叫信号。例如,第4卷积运算器73是进行以下的式24所示的卷积运算的n抽头的fir(finiteimpulseresponse)滤波器。

[数式24]

在此,y8’t是时刻t中的第2啸叫信号。n是fir滤波器的抽头数。h8(i)t是在时刻t中,第4传递函数存储电路74中存储的n个第4传递函数中的第i个第4传递函数。x8(t-i-τ2)是第4存储电路72中存储的信号中的第(t-i-τ2)个信号。τ2是通过第2延迟器76的延迟时间。

第4减法器71从第2麦克风23的输出信号中消除从第4卷积运算器73输出的第2啸叫信号,作为第2啸叫消除器70a的输出信号,输出到第1回声/第1串音消除器80a。例如,第4减法器71进行以下的式25所示的减法。

[数式25]

e8t=y8t-y8’t…(式25)

在此,e8t是时刻t中的第4减法器71的输出信号。y8t是时刻t中的第2麦克风23的输出信号。

第4传递函数更新电路75根据第4减法器71的输出信号以及第4存储电路72中存储的信号,对第4传递函数存储电路74中存储的第4传递函数进行更新。例如,第4传递函数更新电路75如以下的式26所示,利用独立成分分析,根据第4减法器71的输出信号以及第4存储电路72中存储的信号,以第4减法器71的输出信号与第4存储电路72中存储的信号相互独立的方式,对第4传递函数存储电路74中存储的第4传递函数进行更新。

(数式26)

在此,h8(j)t+1是时刻t+1中的(即更新后的)第4传递函数存储电路74中存储的n个第4传递函数中的第j个第4传递函数。h8(j)t是在时刻t中的(即更新前的)第4传递函数存储电路74中存储的n个第4传递函数中的第j个第4传递函数。α8是用于控制第2啸叫16a的第4传递函数的估计中的学习速度的第8步长参数。是非线性函数(例如,sigmoid函数(s型函数)、双曲正切函数(tanh函数)、正规化线性函数或符号函数(sign函数))。

这样,第4传递函数更新电路75针对第4减法器71的输出信号执行采用了非线性函数的非线性处理,并针对得到的结果乘以第4存储电路72中存储的信号、以及用于控制第2啸叫16a的第4传递函数的估计中的学习速度的第8步长参数,从而算出第8更新系数。于是,通过将算出的第8更新系数加到第4传递函数存储电路74中存储的第4传递函数,来进行更新。

[2-1-3.第1回声/第1串音消除器80a]

第1回声/第1串音消除器80a是一电路,利用第2回声/第2串音消除器90a的输出信号,对从第1扬声器22输出的音声绕到第2麦克风23并被输入的第1回声13a、以及示出第1说话者11的声音被输入到第2麦克风23的第1串音17a的程度的第9干扰信号(即第1回声/第1串音信号)进行估计,并将第9干扰信号从第2啸叫消除器70a的输出信号中消除。

在本实施方式中,第1回声/第1串音消除器80a是将消除了第9干扰信号的信号,输出到第2声音识别电路32、第2回声/第2串音消除器90a以及第2扬声器24的电路,是将数字声音数据在时间轴区域进行处理的数字信号处理电路。

更详细而言,第1回声/第1串音消除器80a具有:第5传递函数存储电路84、第5存储电路82、第5卷积运算器83、第5减法器81、以及第5传递函数更新电路85。

第5传递函数存储电路84存储作为汇集了第1回声13a与第1串音17a的传递函数而被估计的第5传递函数。

第5存储电路82存储第2回声/第2串音消除器90a的输出信号。

第5卷积运算器83通过对第5存储电路82中存储的信号与第5传递函数存储电路84中存储的第5传递函数进行卷积,从而生成第9干扰信号。例如,第5卷积运算器83是进行以下的式27所示的卷积运算的n抽头的fir滤波器。

[数式27]

在此,y9’t是时刻t中的第9干扰信号。n是fir滤波器的抽头数。h9(i)t是在时刻t,第5传递函数存储电路84中存储的n个第5传递函数中的第i个第5传递函数。x9(t-i)是第5存储电路82中存储的信号中的第(t-i)个信号。

第5减法器81从第2啸叫消除器70a的输出信号中消除从第5卷积运算器83输出的第9干扰信号,作为第1回声/第1串音消除器80a的输出信号来输出。例如,第5减法器81进行以下的式28所示的减法。

[数式28]

e9t=y9t-y9’t…(式28)

在此,e9t是时刻t中的第5减法器81的输出信号。y9t是时刻t中的第2啸叫消除器70a的输出信号。

第5传递函数更新电路85根据第5减法器81的输出信号以及第5存储电路82中存储的信号,对第5传递函数存储电路84中存储的第5传递函数进行更新。例如,第5传递函数更新电路85如以下的式29所示,利用独立成分分析,根据第5减法器81的输出信号和第5存储电路82中存储的信号,以使第5减法器81的输出信号与第5存储电路82中存储的信号相互独立的方式,对第5传递函数存储电路84中存储的第5传递函数进行更新。

[数式29]

在此,h9(j)t+1是时刻t+1中的(即更新后的)第5传递函数存储电路84中存储的n个第5传递函数中的第j个第5传递函数。h9(j)t是时刻t中的(即更新前的)第5传递函数存储电路84中存储的n个第5传递函数中的第j个第5传递函数。α9是用于控制汇集了第1回声13a和第1串音17a的第5传递函数的估计中的学习速度的第9步长参数。是非线性函数(例如,sigmoid函数(s型函数)、双曲正切函数(tanh函数)、正规化线性函数或符号函数(sign函数))。

这样,第5传递函数更新电路85针对第5减法器81的输出信号执行采用了非线性函数的非线性处理,并针对得到的结果乘以第5存储电路82中存储的信号、以及对汇集了第1回声13a和第1串音17a的第5传递函数的估计中的学习速度进行控制的第9步长参数,从而算出第5更新系数。于是,通过将算出的第5更新系数加到第5传递函数存储电路84中存储的第5传递函数,来进行更新。

另外,在本实施方式中的翻译装置20中,针对第1说话者11的同一时刻中的声音而设计成,第2回声/第2串音消除器90a的输出信号被输入到第1回声/第1串音消除器80a的时刻,与第2啸叫消除器70a的输出被输入到第1回声/第1串音消除器80a的时刻相同或提早。即,以第1回声/第1串音消除器80a能够消除第1串音17a的方式,而保持因果律。这是因为,考虑到决定第2回声/第2串音消除器90a的输出信号被输入到第1回声/第1串音消除器80a的时刻的要因(a/d转换的速度、在第1啸叫消除器60a的处理速度、在第2回声/第2串音消除器90a的处理速度等)、以及决定第1说话者11的声音被输入到第2麦克风23的时刻的要因(第1说话者11与第2麦克风23的位置关系等),而能够适宜地实现的缘故。

[2-1-4.第2回声/第2串音消除器90a]

第2回声/第2串音消除器90a是一电路,利用第1回声/第1串音消除器80a的输出信号,对从第2扬声器24输出的声音绕到第1麦克风21而被输入的第2回声14a、以及示出第2说话者12的声音被输入到第1麦克风21的第2串音18a的程度的第10干扰信号(即第2回声/第2串音信号)进行估计,并将第10干扰信号从第1啸叫消除器60a的输出信号中消除。

在本实施方式中,第2回声/第2串音消除器90a是将消除了第10干扰信号的信号输出到第1声音识别电路31、第1回声/第1串音消除器80a以及第1扬声器22的电路,是将数字声音数据在时间轴区域进行处理的数字信号处理电路。

更详细而言,第2回声/第2串音消除器90a具有第6传递函数存储电路94、第6存储电路92、第6卷积运算器93、第6减法器91、以及第6传递函数更新电路95。

第6传递函数存储电路94存储作为汇集了第2回声14a与第2串音18a的传递函数而被估计的第6传递函数。

第6存储电路92存储第1回声/第1串音消除器80a的输出信号。

第6卷积运算器93通过对第6存储电路92中存储的信号与第6传递函数存储电路94中存储的第6传递函数进行卷积,从而生成第10干扰信号。例如,第6卷积运算器93是进行以下的式30所示的卷积运算的n抽头的fir滤波器。

[数式30]

在此,y10’t是时刻t中的第10干扰信号。n是fir滤波器的抽头数。h10(i)t是在时刻t中,第6传递函数存储电路94中存储的n个第6传递函数中的第i个第6传递函数。x10(t-i)是第6存储电路92中存储的信号中的第(t-i)个信号。

第6减法器91从第1啸叫消除器60a的输出信号中消除从第6卷积运算器93输出的第10干扰信号,作为第2回声/第2串音消除器90a的输出信号来输出。例如,第6减法器91进行以下的式31所示的减法。

[数式31]

e10t=y10t-y10’t…(式31)

在此,e10t是时刻t中的第6减法器91的输出信号。y10t是时刻t中的第1啸叫消除器60a的输出信号。

第6传递函数更新电路95根据第6减法器91的输出信号和第6存储电路92中存储的信号,对第6传递函数存储电路94中存储的第6传递函数进行更新。例如,第6传递函数更新电路95如以下的式32所示,利用独立成分分析,根据第6减法器91的输出信号和第6存储电路92中存储的信号,以使第6减法器91的输出信号与第6存储电路92中存储的信号相互独立的方式,对第6传递函数存储电路94中存储的第6传递函数。

[数式32]

在此,h10(j)t+1是时刻t+1中的(即更新后的)第6传递函数存储电路94中存储的n个第6传递函数中的第j个第6传递函数。h10(j)t是时刻t中的(即更新前的)第6传递函数存储电路94中存储的n个第6传递函数中的第j个第6传递函数。α10是用于对汇集了第2回声14a和第2串音18a的第6传递函数的估计中的学习速度进行控制的第10步长参数。是非线性函数(例如,sigmoid函数(s型函数)、双曲正切函数(tanh函数)、正规化线性函数或符号函数(sign函数))。

这样,第6传递函数更新电路95针对第6减法器91的输出信号执行采用了非线性函数的非线性处理,并针对得到的结果乘以第6存储电路92中存储的信号、以及用于对汇集了第2回声14a和第2串音18a的第6传递函数的估计中的学习速度的第10步长参数,从而算出第6更新系数。于是,通过将算出的第5更新系数加到第6传递函数存储电路94中存储的第6传递函数,来进行更新。

另外,在本实施方式中的翻译装置20中,针对第2说话者12的同一时刻中的声音而设计成,第1回声/第1串音消除器80a的输出信号被输入到第2回声/第2串音消除器90a的时刻,与第1啸叫消除器60a的输出被输入到第2回声/第2串音消除器90a的时刻相同或提早。即,以第2回声/第2串音消除器90a能够消除第2串音18a的方式,而保持因果律。这是因为,考虑到决定第1回声/第1串音消除器80a的输出信号被输入到第2回声/第2串音消除器90a的时刻的要因(a/d转换的速度、在第2啸叫消除器70a的处理速度、在第1回声/第1串音消除器80a的处理速度等)、以及决定第2说话者12的声音被输入到第1麦克风21的时刻的要因(第2说话者12与第1麦克风21的位置关系等),而能够适宜地实现的缘故。

[2-2.工作]

以上这种构成的本实施方式中的翻译装置20a进行如下的工作。在此以与实施方式1所示的翻译装置20的不同之处为中心进行说明。

首先,对控制电路37的工作进行说明。

第1语言选择电路27以及第2语言选择电路28预先从第1说话者11接受第1说话者11所使用的第1语言的选择,以及从第2说话者12接受第2说话者12所使用的第2语言的选择,并通知到控制电路37。另外,如以上记载所示,在实施方式2中,第1语言与第2语言相同。

控制电路37由于从第1语言选择电路27和第2语言选择电路28接到第1语言与第2语言相同的通知,因此使第1回声消除器40、第2回声消除器50、第1翻译电路33、第2翻译电路34、第1声音合成电路35、以及第2声音合成电路36停止各自的功能。

接着,对声音进行说明。

第1说话者11的声音被输入到第1麦克风21。并且,除了第1说话者11的声音以外,第1啸叫15a、第2回声14a以及第2串音18a也被输入到第1麦克风21。第1麦克风21的输出信号在第1啸叫消除器60a被消除第1啸叫信号。第1啸叫信号是示出第1啸叫15a的程度的(被估计的)信号。因此,第1啸叫消除器60a的输出信号成为从第1麦克风21的输出信号中消除了第1啸叫15a的影响的信号。

接着,第1啸叫消除器60a的输出信号在第2回声/第2串音消除器90a,被消除第9干扰信号。第9干扰信号(即第2回声/第2串音信号)是示出第2回声14a以及第2串音18a的程度的(被估计的)信号。因此,第2回声/第2串音消除器90a的输出信号成为,从第1啸叫消除器60a的输出信号中消除了第2回声14a以及第2串音18a的影响的信号,被输出到第1声音识别电路31、第1回声/第1串音消除器80a以及第1扬声器22。

接着,在第1声音识别电路31被输入数字声音数据,该数字声音数据是从第1说话者11的声音中,由第1啸叫消除器60a消除了第1啸叫15a、由第2回声/第2串音消除器90a消除了第2回声14a和第2串音18a而得到的。第1声音识别电路31针对被输入的数字声音数据进行声音识别,并将声音识别的结果的第1字符串输出到控制电路37。

被输入到第1扬声器22的信号成为声音而被输出。

同样,第2说话者12的声音被输入到第2麦克风23。并且,除了第2说话者12的声音以外,第2啸叫16a、第1回声13a以及第1串音17a也被输入到第2麦克风23。第2麦克风23的输出信号在第2啸叫消除器70a被消除第2啸叫信号。第2啸叫信号是示出第2啸叫16a的程度的(被估计的)信号。因此,第2啸叫消除器70a的输出信号成为从第2麦克风23的输出信号中消除了第2啸叫16a的影响的信号。

接着,第2啸叫消除器70a的输出信号在第1回声/第1串音消除器80a被消除第10干扰信号。第10干扰信号(即第1回声/第1串音信号)是示出第1回声13a以及第1串音17a的程度的(被估计的)信号。因此,第1回声/第1串音消除器80a的输出信号成为从第2啸叫消除器70a的输出信号中,消除了第1回声13a以及第1串音17a的影响的信号,被输出到第2声音识别电路32、第2回声/第2串音消除器90a以及第2扬声器24。

接着,第2声音识别电路32被输入数字声音数据,该数字声音数据是从第2说话者12的声音中,由第2啸叫消除器70a消除了第2啸叫16a、由第1回声/第1串音消除器80a消除了第1回声13a以及第1串音17a而得到的。第2声音识别电路32针对被输入的数字声音数据,进行声音识别,将声音识别的结果的第2字符串输出到控制电路37。

被输入到第2扬声器24的信号成为声音而被输出。

控制电路37将由第1声音识别电路31输出的第1说话者11的声音的识别结果即第1语言的第1字符串、由第2声音识别电路32输出的第2说话者12的声音的识别结果即第2语言的第2字符串,输出到影像信号发生电路38。

影像信号发生电路38将由第1声音识别电路31输出的第1说话者11的声音的识别结果即第1语言的第1字符串、以及由第2声音识别电路32输出的第2说话者12的声音的识别结果即第2语言的第2字符串,输出到第1显示电路25以及第2显示电路26。

在翻译装置20a,第1说话者11的声音以及第2说话者12的声音如以上所述被处理。

综上所述,被输入到第1声音识别电路31的输出信号成为,被输入到第1麦克风21的声音之中的消除了第1啸叫15a、第2回声14a以及第2串音18a的影响的输出信号,即成为消除了音响上的噪声的仅是第1说话者11的声音。而且,从第1扬声器22输出的声音成为,被输入到第1麦克风21的声音之中的消除了第1啸叫15a、第2回声14a以及第2串音18a的影响的输出信号,即成为消除了音响上的噪声的仅是第1说话者11的声音。

并且,被输入到第2声音识别电路32的输出信号成为,被输入到第2麦克风23的声音之中的消除了第2啸叫16a、第1回声13a以及第1串音17a的影响的输出信号,即成为消除了音响上的噪声的仅是第2说话者12的声音。而且,从第2扬声器24输出的声音成为,被输入到第2麦克风23的声音之中的消除了第2啸叫16a、第1回声13a以及第1串音17a的影响的输出信号,即成为消除了音响上的噪声的仅是第2说话者12的声音。

[2-3.效果等]

如以上说明所示,翻译装置20a在第1语言选择电路27接受的第1语言、与第2语言选择电路28接受的第2语言相同的情况下,控制电路37使第1回声消除器40、第2回声消除器50、第1翻译电路33、第2翻译电路34、第1声音合成电路35、以及第2声音合成电路36停止各自的功能。

这样的翻译装置20a在第1语言与第2语言相同的情况下,能够使第1回声消除器40、第2回声消除器50、第1翻译电路33、第2翻译电路34、第1声音合成电路35、以及第2声音合成电路36停止各自的功能,来提高处理速度。并且,由于无需翻译,而能够进行扩音,因此,即使在第1说话者11与第2说话者12离开的情况下或周围嘈杂的情况下,也能够进行相互的会话。

(实施方式3)

在实施方式2中示出了第1说话者11的第1语言与第2说话者12的第2语言相同,而需要扩音的情况。而在实施方式3中将示出适于第1说话者11的第1语言与第2说话者12的第2语言相同,且不需要扩音的情况的构成。

在实施方式3中,与实施方式1相比,不需要与回声有关的消除器、翻译功能、对翻译的声音进行输出的功能、以及进行扩音的功能。

[3-1.构成]

图6是示出实施方式3中的翻译装置20b的构成的方框图。另外,在实施方式3中,对于与实施方式1相同的构成要素赋予相同的编号,并省略详细的说明。

实施方式3中的翻译装置20b与实施方式1相比,第1说话者11的第1语言与第2说话者12的第2语言相同,并且不需要扩音,因此不需要第1翻译电路33、第2翻译电路34、第1声音合成电路35、第2声音合成电路36、第1扬声器22、以及第2扬声器24。而且,由于无需第1扬声器22以及第2扬声器24,因此不会发生第1回声13、第2回声14、第3回声15、以及第4回声16,这样也就不需要第1回声消除器40、第2回声消除器50、第3回声消除器60、以及第4回声消除器70。

然而,由于需要将第1说话者11以及第2说话者12的会话用字符串来表示,因此需要第1显示电路25以及第2显示电路26。并且,由于翻译装置20b也具备第1麦克风21以及第2麦克风23,因此会发生串音,该串音是指,某个说话者的声音被输入到,用于输入该说话者以外的声音的麦克风的现象。因此需要对串音进行消除的功能。

[3-2.工作]

以上这种构成的本实施方式中的翻译装置20b进行如下的工作。在此,以与实施方式1所示的翻译装置20不同之处为中心进行说明。

首先,对控制电路37的工作进行说明。

第1语言选择电路27以及第2语言选择电路28预先从第1说话者11接受第1说话者11所使用的第1语言的选择、以及从第2说话者12接受第2说话者12所使用的第2语言的选择、并通知到控制电路37。另外,如以上所述,在实施方式3中,第1语言与第2语言相同。而且,由于不需要扩音,因此,控制电路37使第1翻译电路33、第2翻译电路34、第1声音合成电路35、第2声音合成电路36、第1扬声器22、第2扬声器24、第1回声消除器40、第2回声消除器50、第3回声消除器60、以及第4回声消除器70停止各自的功能。

接着,对声音进行说明。

第1说话者11的声音被输入到第1麦克风21。并且,除了第1说话者11的声音以外,第2串音18也被输入到第1麦克风21。第1麦克风21的输出信号在第2串音消除器90,被消除第6干扰信号(即第2串音信号)。第6干扰信号是示出第2串音18的程度的(被估计的)信号。因此,第2串音消除器90的输出信号成为从第1麦克风21的输出信号消除了第2串音18的影响的信号,被输出到第1声音识别电路31和第1串音消除器80。

接着,在第1声音识别电路31中被输入从第1说话者11的声音中,由第2串音消除器90消除了第2串音18的数字声音数据。第1声音识别电路31针对被输入的数字声音数据,进行声音识别,并将声音识别的结果的第1字符串输出到控制电路37。

同样,第2说话者12的声音被输入到第2麦克风23。并且,除了第2说话者12的声音以外,第1串音17也被输入到第2麦克风23。第2麦克风23的输出信号在第1串音消除器80,被消除了第5干扰信号(即第1串音信号)。第5干扰信号是示出第1串音17的程度的(被估计的)信号。因此,第1串音消除器80的输出信号成为,从第2麦克风23的输出信号中消除了第1串音17的影响的信号,被输出到第2声音识别电路32和第2串音消除器90。

接着,在第2声音识别电路32被输入从第2说话者12的声音中,由第1串音消除器80消除了第1串音17的数字声音数据。第2声音识别电路32针对被输入的数字声音数据,进行声音识别,将声音识别的结果的第2字符串输出到控制电路37。

控制电路37将由第1声音识别电路31输出的第1说话者11的声音的识别结果即第1语言的第1字符串、由第2声音识别电路32输出的第2说话者12的声音的识别结果即第2语言的第2字符串,输出到影像信号发生电路38。

影像信号发生电路38将由第1声音识别电路31输出的第1说话者11的声音的识别结果即第1语言的第1字符串、以及由第2声音识别电路32输出的第2说话者12的声音的识别结果即第2语言的第2字符串,输出到第1显示电路25以及第2显示电路26。

在翻译装置20b,第1说话者11的声音以及第2说话者12的声音如以上所述被处理。

综上所述,被输入到第1声音识别电路31的输出信号成为,被输入到第1麦克风21的音声之中的消除了第2串音18的影响的输出信号,即成为消除了音响上的噪声的仅是第1说话者11的声音。并且,被输入到第2声音识别电路32的输出信号成为,被输入到第2麦克风23的声音之中的被消除了第1串音17的影响的输出信号,即成为被消除了音响上的噪声的仅是第2说话者12的声音。

[3-3.效果]

这样的翻译装置20b在第1语言与第2语言相同、且不需要扩音的情况下,能够使第1回声消除器40、第2回声消除器50、第3回声消除器60、第4回声消除器70、第1翻译电路33、第2翻译电路34、第1声音合成电路35、第2声音合成电路36、第1扬声器22以及第2扬声器24停止各自的功能,从而提高处理速度。

[4-1.构成的选择]

到此为止示出了在实施方式1至3中,根据是否需要翻译、是否需要扩音来进行判断的构成。

图7是示出实施方式1至3中的控制电路37对最佳的构成进行选择的流程图。

首先,第1语言选择电路27从第1说话者11接受第1说话者11所使用的第1语言的选择(步骤s300)。进一步,将接受的第1语言通知到控制电路37。

接着,第2语言选择电路28从第2说话者12接受第2说话者12所使用的第2语言的选择(步骤s301)。进一步,将接受的第2语言通知到控制电路37。

控制电路37对由第1语言选择电路27接受的第1语言、与由第2语言选择电路28接受的第2语言是否相同进行判断(步骤s302)。

控制电路37在由第1语言选择电路27接受的第1语言、与由第2语言选择电路28接受的第2语言不同的情况下(步骤s302的“否”),以成为实施方式1的构成的方式,使各构成的功能运转(步骤s303)。

控制电路37在由第1语言选择电路27接受的第1语言、与由第2语言选择电路28接受的第2语言相同的情况下(步骤s302的“是”),对是否需要扩音进行判断(步骤s304)。

控制电路37在需要扩音的情况下(步骤s304的“是”),以成为实施方式2的构成的方式,使各构成的功能运转(步骤s305)。

控制电路37在不需要扩音的情况下(步骤s304的“否”),以成为实施方式3的构成的方式,使各构成的功能运转(步骤s306)。

另外,关于步骤s304的是否需要扩音的判断,可以由控制电路37来执行,也可以由第1说话者11或第2说话者12来执行。在由第1说话者11或第2说话者12执行的情况下,可以在第1语言选择电路27、第2语言选择电路28、第1显示电路25以及第2显示电路26的任一个的附近,设置用于对是否需要扩音进行设定的开关。

(实施方式4)

在实施方式1中,由第1语言选择电路27和第2语言选择电路28,对第1说话者11和第2说话者12所使用的语言进行选择。然而在实施方式4中,示出了新添加的通过第1说话者11的声音和第2说话者12的声音,对第1说话者11和第2说话者12所使用的语言进行识别的功能的构成。

[5-1.构成]

图8是示出实施方式4中的翻译装置20c的构成的方框图。另外,在实施方式4中,对于与实施方式1相同的构成要素赋予相同的编号,并省略详细的说明。

实施方式4中的翻译装置20c除了具备实施方式1的构成以外,还具备第1语言识别电路311和第2语言识别电路321。并且,也可以不具备第1语言选择电路27和第2语言选择电路28。

第1语言识别电路311根据第1声音,对第1语言进行识别,并通知到控制电路37。即,根据第1说话者11的第1声音,来识别第1说话者11所使用的第1语言。例如,第1声音识别电路31对第1说话者11的第1声音进行声音识别,将第1字符串也输出到第1语言识别电路311。

第2语言识别电路321根据第2声音,对第2语言进行识别,并通知到控制电路37。即,根据第2说话者12的第2声音,对第2说话者12所使用的第2语言进行识别。例如,第2声音识别电路32对第2说话者12的第2声音进行声音识别,将第2字符串也输出到第2语言识别电路321。

而且,控制电路37根据由第1语言识别电路311识别的第1语言、以及由第2语言识别电路321识别的第2语言,使第1声音识别电路31以第1语言进行声音识别、使第2声音识别电路32以第2语言进行声音识别、使第1翻译电路33将第1语言翻译成第2语言、使第2翻译电路34将第2语言翻译成第1语言、使第1声音合成电路35以第2语言进行声音合成、使第2声音合成电路36以第1语言进行声音合成。

[5-2.工作]

以上这种构成的本实施方式中的翻译装置20c进行如下的工作。在此对与实施方式1所示的翻译装置20不同之处为中心进行说明。

如到此为止的说明所示,作为与实施方式1所示的翻译装置20的不同之处是,在实施方式4所示的翻译装置20c中,不具备第1语言选择电路27和第2语言选择电路28,而具备第1语言识别电路311和第2语言识别电路321。

因此,无需预先使用第1语言选择电路27和第2语言选择电路28来进行语言的选择。

第1说话者11的声音被输入到第1麦克风21。并且,除了第1说话者11的声音以外,与实施方式1相同,音响上的噪声被输入到第1麦克风21。第1麦克风21的输出信号到达第1声音识别电路31以及第1串音消除器80的处理与实施方式1相同。这样,被输入到第1声音识别电路31以及第1串音消除器80的数字声音数据与实施方式1相同。即,第1声音识别电路31以及第1串音消除器80被输入,从第1说话者11的声音中,由第2回声消除器50消除了第2回声14、由第3回声消除器60消除了第3回声15、由第2串音消除器90消除了第2串音18的数字声音数据。第1声音识别电路31将被输入的数字声音数据通知给第1语言识别电路311。

并且,第2说话者12的声音被输入到第2麦克风23。并且,除了第2说话者12的声音以外,与实施方式1相同,音响上的噪声也被输入到第2麦克风23。第2麦克风23的输出信号到达第2声音识别电路32以及第2串音消除器90的处理与实施方式1相同。这样,被输入到第2声音识别电路32以及第2串音消除器90的数字声音数据与实施方式1相同。即,第2声音识别电路32以及第2串音消除器90被输入,从第2说话者12的声音中,由第1回声消除器40消除了第1回声13、由第4回声消除器70消除了第4回声16、由第1串音消除器80消除了第1串音17的数字声音数据。第2声音识别电路32将被输入的数字声音数据通知给第2语言识别电路321。

接着,第1语言识别电路311根据被输入的数字声音数据,对第1语言进行识别,并通知到控制电路37。

并且,第2语言识别电路321根据被输入的数字声音数据,对第2语言进行识别,并通知到控制电路37。

接着,控制电路37将从第1语言识别电路311通知的第1语言,指示给第1声音识别电路31、第1翻译电路33、第2翻译电路34、以及第1声音合成电路35,将从第2语言识别电路321通知的第2语言,指示给第2声音识别电路32、第1翻译电路33、第2翻译电路34、以及第2声音合成电路36。

接着,第1声音识别电路31根据从控制电路37指示的第1说话者11的第1语言的信息,针对被输入的数字声音数据进行声音识别,并将声音识别的结果的第1字符串输出到第1翻译电路33和控制电路37。

并且,第2声音识别电路32根据从控制电路37指示的第2说话者12的第2语言的信息,针对被输入的数字声音数据进行声音识别,并将声音识别的结果的第2字符串输出到第2翻译电路34和控制电路37。

接着,第1翻译电路33将由第1声音识别电路31输出的第1字符串,从控制电路37所指示的第1说话者11的第1语言转换为第2说话者12的第2语言的第3字符串,并输出到第1声音合成电路35以及控制电路37。

并且,第2翻译电路34将由第2声音识别电路32输出的第2字符串,从控制电路37所指示的第2说话者12的第2语言转换为第1说话者11的第1语言的第4字符串,并输出到第2声音合成电路36以及控制电路37。

此时由第1声音合成电路35、第2声音合成电路36、以及控制电路37接受的字符串由于与实施方式1相同,因此,以后的处理过程与实施方式1相同。

[5-3.效果]

如以上说明所示,翻译装置20c进一步具备第1语言识别电路311和第2语言识别电路321,第1语言识别电路311根据第1声音,对第1语言进行识别,并通知到控制电路37,第2语言识别电路321根据第2声音,对第2语言进行识别,并通知到控制电路37,控制电路37根据由第1语言识别电路311识别的第1语言、以及由第2语言识别电路321识别的第2语言,使第1声音识别电路31以第1语言进行声音识别、使第2声音识别电路32以第2语言进行声音识别、使第1翻译电路33将第1语言翻译成第2语言、使第2翻译电路34将第2语言翻译成第1语言、使第1声音合成电路35以第2语言进行声音合成、使第2声音合成电路36以第1语言进行声音合成。

这样的翻译装置20c不需要说话者使用语言选择电路,因此能够更简便地进行翻译。

(实施方式5)

在实施方式2中示出了适于选择第1说话者11和第2说话者12所使用的语言,且第1说话者11的第1语言与第2说话者12的第2语言相同的情况的构成。并且,在实施方式4中示出的构成是,附加了通过第1说话者11的声音和第2说话者12的声音,来识别第1说话者11和第2说话者12所使用的语言的功能。

于是,在实施方式5示出适于如下情况的构成,即在实施方式4的构成的基础上,与实施方式2同样,第1说话者11的第1语言与第2说话者12的第2语言为相同的情况。

[6-1.构成]

图9是示出实施方式5中的翻译装置20d的构成的方框图。另外,在实施方式5中,对于与实施方式2以及实施方式4相同的构成要素赋予相同的编号,并省略详细说明。

实施方式5中的翻译装置20d除了具备实施方式2的构成以外,还具备实施方式4中说明的第1语言识别电路311和第2语言识别电路321。

并且,控制电路37使第1回声消除器40、第2回声消除器50、第1翻译电路33、第2翻译电路34、第1声音合成电路35、第2声音合成电路36停止各自的功能。

[6-2.工作]

以上这种构成的本实施方式中的翻译装置20d进行如下的工作。在此以与实施方式2所示的翻译装置20a的不同之处为中心进行说明。

如以上所述,与实施方式2所示的翻译装置20a的不同之处是,在实施方式5所示的翻译装置20d中,不具备第1语言选择电路27和第2语言选择电路28,而具备第1语言识别电路311和第2语言识别电路321。

因此,不必预先使用第1语言选择电路27和第2语言选择电路28来进行言語的选择。

首先,对控制电路37的工作进行说明。

实施方式5适用于在实施方式4所示的[5-2.工作]中,第1说话者11的第1语言与第2说话者12的第2语言相同的情况。在实施方式4的构成中,控制电路37从第1语言识别电路311以及第2语言识别电路321被通知到第1语言与第2语言相同。因此,在实施方式5中,控制电路37使第1回声消除器40、第2回声消除器50、第1翻译电路33、第2翻译电路34、第1声音合成电路35、第2声音合成电路36停止各自的功能。

接着,对声音进行说明。

第1说话者11的声音被输入到第1麦克风21。并且,除了第1说话者11的声音以外,与实施方式2相同,音响上的噪声也被输入到第1麦克风21。第1麦克风21的输出信号到达第1声音识别电路31、第1扬声器22以及第1回声/第1串音消除器80a的处理与实施方式2相同。因此,被输入到第1声音识别电路31、第1扬声器22以及第1回声/第1串音消除器80a的数字声音数据与实施方式2相同。即,第1声音识别电路31、第1扬声器22以及第1回声/第1串音消除器80a被输入如下的数字声音数据,即从第1说话者11的声音中,由第1啸叫消除器60a消除了第1啸叫15a、由第2回声/第2串音消除器90a消除了第2回声14a和第2串音18a的数字声音数据。

第1声音识别电路31针对被输入的数字声音数据进行声音识别,并将声音识别的结果的第1字符串输出到控制电路37和第1语言识别电路311。

接着,第1语言识别电路311根据被输入的数字声音数据,对第1语言进行识别,并通知到控制电路37。

并且,第2说话者12的声音被输入到第2麦克风23。并且,除了第2说话者12的声音以外,与实施方式2相同,音响上的噪声也被输入到第2麦克风23。第2麦克风23的输出信号到达第2声音识别电路32、第2扬声器24以及第2回声/第2串音消除器90a的处理与实施方式2相同。因此,被输入到第2声音识别电路32、第2扬声器24以及第2回声/第2串音消除器90a的数字声音数据与实施方式2相同。即,第2声音识别电路32、第2扬声器24以及第2回声/第2串音消除器90a被输入如下的数字声音数据,该数字声音数据是通过从第2说话者12的声音中,由第2啸叫消除器70a消除了第2啸叫16a、由第1回声/第1串音消除器80a消除了第1回声13a和第1串音17a而得到。

第2声音识别电路32针对被输入的数字声音数据进行声音识别,并将声音识别的结果的第2字符串输出到控制电路37和第2语言识别电路321。

进一步,第2语言识别电路321根据被输入的数字声音数据,对第2语言进行识别并通知到控制电路37。

另外,如以上所述,在实施方式5中,第1语言与第2语言相同。即不需要翻译功能以及对翻译的音声进行输出的功能。

此时,由第1扬声器22、第2扬声器24、控制电路37、第1回声/第1串音消除器80a、以及第2回声/第2串音消除器90a接受的信号与实施方式2相同,因此以后的处理过程也与实施方式2相同。

[6-3.效果]

如以上说明所示,翻译装置20d在由第1语言识别电路311识别的第1语言、与由第2语言识别电路321识别的第2语言相同的情况下,控制电路37使第1回声消除器40、第2回声消除器50、第1翻译电路33、第2翻译电路34、第1声音合成电路35、以及第2声音合成电路36停止各自的功能。

这样的翻译装置20d不需要说话者使用语言选择电路,因此能够更简便地进行翻译。而且,在第1语言与第2语言相同的情况下,能够使第1回声消除器40、第2回声消除器50、第1翻译电路33、第2翻译电路34、第1声音合成电路35、以及第2声音合成电路36停止各自的功能,从而能够提高处理速度。

(实施方式6)

在实施方式3中示出了适于如下情况的构成,即选择第1说话者11和第2说话者12所使用的语言,第1说话者11的第1语言与第2说话者12的第2语言相同,且不需要扩音的情况。并且,在实施方式4中示出的构成是,通过第1说话者11的声音和第2说话者12的声音,赋予对第1说话者11和第2说话者12所使用的语言进行识别的功能。

于是,在实施方式6中示出适于如下情况的构成,即在实施方式4的构成的基础上,与实施方式3同样,第1说话者11的第1语言与第2说话者12的第2语言相同,且不需要扩音的情况。

[7-1.构成]

图10是示出实施方式6中的翻译装置20e的构成的方框图。另外,在实施方式6中,对于与实施方式3和实施方式4相同的构成要素赋予相同的编号,并省略详细说明。

实施方式6中的翻译装置20e除了具备实施方式3中的构成以外,还具备实施方式4中说明的第1语言识别电路311和第2语言识别电路321。

[7-2.工作]

以上这种构成的本实施方式中的翻译装置20e进行如下的工作。在此以与实施方式3所示的翻译装置20b的不同之处为中心进行说明。

如以上所述,与实施方式3所示的翻译装置20b的不同之处是,在实施方式6所示的翻译装置20e中,不具备第1语言选择电路27和第2语言选择电路28,而具备第1语言识别电路311和第2语言识别电路321。

因此,不需要预先使用第1语言选择电路27和第2语言选择电路28来进行语言的选择。

首先,对控制电路37的工作进行说明。

实施方式6适于如下的情况,在实施方式4所示的[5-2.工作]中,第1说话者11的第1语言与第2说话者12的第2语言相同,不需要扩音的情况。在实施方式4的构成中,控制电路37从第1语言识别电路311以及第2语言识别电路321被通知到第1语言与第2语言相同。因此,在该实施方式6中,控制电路37使第1翻译电路33、第2翻译电路34、第1声音合成电路35、第2声音合成电路36、第1扬声器22、第2扬声器24、第1回声消除器40、第2回声消除器50、第3回声消除器60、以及第4回声消除器70停止各自的功能。

接着,对声音进行说明。

第1说话者11的声音被输入到第1麦克风21。并且,除了第1说话者11的声音以外,与实施方式3相同,音响上的噪声也被输入到第1麦克风21。第1麦克风21的输出信号到达第1声音识别电路31以及第1串音消除器80的处理与实施方式3相同。因此,被输入到第1声音识别电路31以及第1串音消除器80的数字声音数据与实施方式3相同。即,第1声音识别电路31以及第1串音消除器80被输入数据是,从第1说话者11的声音中,由第2串音消除器90消除了第2串音18的数字声音数据。第1声音识别电路31针对被输入的数字声音数据进行声音识别,将声音识别结果的第1字符串输出到控制电路37、第1语言识别电路311以及影像信号发生电路38。

接着,第1语言识别电路311根据被输入的数字声音数据,对第1语言进行识别,并通知到控制电路37。

并且,第2说话者12的声音被输入到第2麦克风23。并且,除了第2说话者12的声音以外,与实施方式3相同,音响上的噪声也被输入到第2麦克风23。第2麦克风23的输出信号到达第2声音识别电路32以及第2串音消除器90的处理与实施方式3相同。因此,被输入到第2声音识别电路32以及第2串音消除器90的数字声音数据与实施方式2相同。即,第2声音识别电路32以及第2串音消除器90被输入的数据是,从第2说话者12的声音中,由第1串音消除器80消除了第1串音17的数字声音数据。第2声音识别电路32针对被输入的数字声音数据进行声音识别,将声音识别的结果的第2字符串输出到控制电路37、第2语言识别电路321以及影像信号发生电路38。

并且,第2语言识别电路321根据被输入的数字声音数据,对第2语言进行识别,并通知到控制电路37。

此时,控制电路37、影像信号发生电路38、第1串音消除器80、以及第2串音消除器90所接受的信号与实施方式3相同,因此以后的处理过程与实施方式3相同。

[7-3.效果]

这样的翻译装置20e不需要说话者使用语言选择电路,因此能够进行更简便的翻译。在第1语言与第2语言相同、且不需要扩音的情况,能够使第1回声消除器40、第2回声消除器50、第3回声消除器60、第4回声消除器70、第1翻译电路33、第2翻译电路34、第1声音合成电路35、第2声音合成电路36、第1扬声器22以及第2扬声器24停止各自的功能,从而能够提高处理速度。

(其他的实施方式)

以上基于实施方式1至6,对本申请所公开的技术进行了举例说明。不过,本公开中的技术并非受此所限,也能够适用进行了变更、替换、添加、省略等实施方式。并且,可以对上述实施方式1至6所说明的各构成要素进行组合,构成新的实施方式。

另外,上述说明的控制电路37可以将第1声音合成电路35的输出、与第2声音合成电路36的输出控制成在时间上不重复。据此,所有的回声消除器能够消除不必要的信号而提高精度,进一步能够提高说话者双方的说与听的方便性。并且,控制电路37也可以使一方的说话者的合成声音的输出优先。例如可以使图1所示的第1说话者11这样的顾客的合成声音的输出优先。

并且,在实施方式5和实施方式6中适用了,在实施方式4对第1说话者11的第1语言与第2说话者12的第2语言相同进行识别之后,不过并非受此所限。例如,示出决定具备实施方式4至6所说明的第1语言识别电路311和第2语言识别电路321的情况下的翻译语言的方法的一个例子。首先,第1说话者11与第2说话者12在进行想要正式翻译的内容的会话之前,彼此使用母语来打招呼。于是,第1语言识别电路311以及第2语言识别电路321对语言进行识别,并通知到控制电路37。接着,控制电路37根据被通知的语言,向第1翻译电路33以及第2翻译电路34发出指示,第1翻译电路33以及第2翻译电路34决定翻译语言。可以利用这样的方法。另外,也可以不打招呼,而可以使用母语进行其他的会话。

而且,可以预先设定一方的说话者的语言。例如,通过预先设定图1所示的第2说话者12这样的接待方的语言,从而能够尽快地进入翻译处理。

并且,上述的不是必要的构成要素以及不需要的构成要素也可以不存在,控制电路37也可以使构成要素的功能停止。

并且,第1声音合成电路35和第2声音合成电路36也可以具有模拟说话者的音质的功能。音质例如是声音的高低等。据此,说话者双方能够进行自然的会话。

并且,控制电路37可以仅在第1声音合成电路35输出第1翻译声音的期间中,使第1回声消除器40以及第3回声消除器60更新第1传递函数以及第3传递函数。进一步,控制电路37可以仅在第2声音合成电路36输出第2翻译声音的期间中,使第2回声消除器50以及第4回声消除器70更新第2传递函数以及第4传递函数。

另外,在图1所示的翻译装置20中,虽然具有第1显示电路25和第2显示电路26这两个显示电路,不过也是图11所示的一个。

图11示出了翻译装置20的使用状态的一个例子。

在图11所示的翻译装置20的一个例子中,例如实施方式1的构成要素被构成为一体。在第2说话者12一侧显示的第1显示电路25中,第1说话者11的发言用黑色文字显示,第2说话者12的发言用反白的文字来表示,在向第1说话者11侧显示的第2显示电路26中,第1说话者11的发言以反白文字表示,第2说话者12的发言以黑色文字表示。通过以上这种构成,容易区分第1说话者11与第2说话者12的发言,对于第1说话者11和第2说话者12而言,能够成为便于确认的翻译装置20。

并且,在实施方式1至6中,虽然记载了第1说话者11和第2说话者12的双方向的会话,不过说话者并非受2个人所限。图1所示的第1说话者11例如是顾客,顾客可以是多个人。通过多个人顺序讲话,从而能够依次输出翻译声音。当然,图1所示的接待方也可以是多个人。

另外,在图11所示的翻译装置20的一个例子中,具备第1说话者11一侧的第1扬声器22、以及第2说话者12一侧的第2扬声器24这两个扬声器。不过,也可以是仅具有一个扬声器,并添加对第1声音合成电路35输出的第1翻译声音与第2声音合成电路36输出的第2翻译声音进行相加,对相加后的翻译声音进行输出的加法电路,并输出到上述的一个扬声器。

在这种情况下,由于第1回声13与第4回声16成为相同的现象,因此不需要第4回声消除器70,可以仅是第1回声消除器40。同样,由于第2回声14与第3回声15成为相同的现象,因此不需要第3回声消除器60,可以仅是第2回声消除器50。通过以上的构成,能够大幅度地降低硬件的规模以及成本。

另外,在将通过一个扬声器扩音的加法翻译声音被输入到第2麦克风23的现象视为第5回声时,第5回声成为与第1回声13以及第4回声16相同的现象。因此,需要与第1回声消除器40为相同构成以及功能的第5回声消除器。并且,在将通过一个扬声器扩音的加法翻译声音被输入到第1麦克风21的现象视为第6回声时,第6回声成为与第2回声14以及第3回声15相同的现象。因此,需要与第2回声消除器50为相同构成以及功能的第6回声消除器。

如以上说明所示,翻译装置20针对第1说话者11与第2说话者12的会话,将一方的说话者的语言翻译成另一方的说话者的语言,并对合成声音进行扩音,该翻译装置具备:第1麦克风21,用于输入第1说话者11的第1声音;第1声音识别电路,对第1声音进行声音识别,并输出第1字符串;第1翻译电路,将从第1声音识别电路输出的第1字符串翻译为第2说话者12的语言,并输出第3字符串;第1声音合成电路,将从第1翻译电路输出的第3字符串转换为第1翻译声音;第2麦克风23,用于输入第2说话者12的第2声音;第2声音识别电路,对第2声音进行声音识别,并输出第2字符串;第2翻译电路,将从第2声音识别电路输出的第2字符串翻译成第1说话者11的语言,并输出第4字符串;第2声音合成电路,将从第2翻译电路输出的第4字符串转换为第2翻译声音;加法电路,对由第1声音合成电路输出的第1翻译声音与由第2声音合成电路输出的第2翻译声音进行相加,并输出加法翻译声音;扬声器,对从加算电路输出的加法翻译声音进行扩音;第5回声消除器,在将由扬声器扩音的加法翻译声音被输入到第2麦克风23的现象视为第5回声时,利用加法翻译声音以及与第5回声对应的第5传递函数,对示出第5回声的第5回声信号进行估计,并将第5回声信号从第2麦克风23的输出信号中消除;第6回声消除器,在将由扬声器扩音的加法翻译声音被输入到第1麦克风21的现象视为第6回声时,利用加法翻译声音以及与第6回声对应的第6传递函数,对示出第6回声的第6回声信号进行估计,并将第6回声信号从第1麦克风21的输出信号中消除;以及控制电路,控制电路在第1声音合成电路输出第1翻译声音、或第2声音合成电路输出第2翻译声音的期间,使第5回声消除器更新用于估计第5回声信号的传递函数,在第1声音合成电路输出第1翻译声音、或第2声音合成电路输出第2翻译声音的期间,使第6回声消除器更新用于估计第6回声信号的传递函数。

这样的翻译装置20即使在多个说话者的声音与多个合成声音同时重复存在的情况下,也能够消除包括回声的音响上的噪声,从而能够在进行稳定的声音识别的同时,进行相互的会话,所述多个合成声音是通过对多个说话者的声音进行识别,并翻译成对方的语言,进行声音合成后而输出的声音。而且,能够以少的构成要素来实现,因此能够大幅度地减小硬件的规模并降低成本。

并且,例如翻译装置20进一步具备:第1串音消除器,在将第1声音被输入到第2麦克风23的现象视为第1串音时,利用第1声音来估计示出第1串音的第1串音信号,将第1串音信号从第2麦克风23的输出信号中消除;第2串音消除器,在将第2声音被输入到第1麦克风21的现象视为第2串音时,利用第2声音对示出第2串音的第2串音信号进行估计并将第2串音信号从第1麦克风21的输出信号中消除。

这样的翻译装置20即使在多个说话者的声音与多个合成声音同时重复存在的情况下,也能够消除包括回声以及串音的音响上的噪声,从而能够在进行稳定的声音识别的同时,进行相互的会话,所述多个合成声音是通过对所述多个说话者的声音进行识别,并翻译成对方的语言,进行声音合成后输出的声音。

上述说明的翻译方法例如由执行程序的处理器来执行。即,上述实施方式中的第1回声消除器40、第2回声消除器50、第3回声消除器60、第4回声消除器70、第1串音消除器80、以及第2串音消除器90可以由执行程序的处理器来实现。该处理器中除了包括上述的cpu以外,还包括dsp(digitalsignalprocessor)、mpu(micro-processingunit)、以及微处理器。

并且,这样的翻译方法可以由上述的rom、cd-rom等计算机可读取的记录介质中记录的程序、以及记录了这些程序的记录介质来实现。并且,这样的翻译方法可以由执行上述程序的计算机装置来执行。

另外,上述的实施方式为对本公开中的技术进行的举例说明,在权利要求书或同等程度的范围内,能够进行各种变更、替换、添加、省略等。

工业实用性

本公开能够适用于即使在多个说话者的声音与多个合成声音同时重复存在的情况下,也能够消除包括回声的音响上的噪声,在进行稳定的声音识别的同时,进行相互的会话的翻译装置,上述的多个合成声音是通过对上述的多个说话者的声音进行识别,并翻译成对方的语言,进行声音合成后而输出的声音。更具体而言,本公开能够作为小的空间范围中的翻译装置来应用。

符号说明

10柜台

11第1说话者

12第2说话者

13、13a第1回声

14、14a第2回声

15第3回声

15a第1啸叫

16第4回声

16a第2啸叫

17、17a第1串音

18、18a第2串音

20、20a、20b、20c、20d、20e翻译装置

21第1麦克风

22第1扬声器

23第2麦克风

24第2扬声器

25第1显示电路

26第2显示电路

27第1语言选择电路

28第2语言选择电路

31第1声音识别电路

32第2声音识别电路

33第1翻译电路

34第2翻译电路

35第1声音合成电路

36第2声音合成电路

37控制电路

38影像信号发生电路

40第1回声消除器

41第1减法器

42第1存储电路

43第1卷积运算器

44第1传递函数存储电路

45第1传递函数更新电路

50第2回声消除器

51第2减法器

52第2存储电路

53第2卷积运算器

54第2传递函数存储电路

55第2传递函数更新电路

60第3回声消除器

60a第1啸叫消除器

61第3减法器

62第3存储电路

63第3卷积运算器

64第3传递函数存储电路

65第3传递函数更新电路

66第1延迟器

70第4回声消除器

70a第2啸叫消除器

71第4减法器

72第4存储电路

73第4卷积运算器

74第4传递函数存储电路

75第4传递函数更新电路

76第2延迟器

80第1串音消除器

80a第1回声/第1串音消除器

81第5减法器

82第5存储电路

83第5卷积运算器

84第5传递函数存储电路

85第5传递函数更新电路

90第2串音消除器

90a第2回声/第2串音消除器

91第6减法器

92第6存储电路

93第6卷积运算器

94第6传递函数存储电路

95第6传递函数更新电路

201处理装置

291第1照相机

292第2照相机

311第1语言识别电路

321第2语言识别电路

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1