翻译装置的控制方法、翻译装置以及程序与流程

文档序号:14994053发布日期:2018-07-20 23:14阅读:208来源:国知局

本发明涉及翻译装置的控制方法、翻译装置以及程序。



背景技术:

专利文献1公开了翻译语音再现装置,该翻译语音再现装置配置在使用互不相同的语言的两者(两人)之间,进行从第一语言和第二语言中的一方语言向另一方的翻译,并将翻译后的语音进行再现(播放)。该翻译语音再现装置通过对输出翻译后的语音的方向进行控制,将翻译后的语音以适合的方式提示给听者。

现有技术文献

专利文献1:日本特开2011-150657号公报



技术实现要素:

具备语音翻译功能的翻译装置需要双向地并且自动地进行将两者中的一人所说的语言翻译并传达给另一人。然而,如果为了提示翻译结果而要求由两者进行的明确指示的输入操作,则存在可能会阻碍两者的顺畅对话这一问题。

于是,本发明提供抑制阻碍经由翻译装置的顺畅对话的情况的发生的翻译装置的控制方法等。

本公开的一个技术方案涉及翻译装置的控制方法,所述翻译装置具备麦克风、传感器以及显示画面,所述传感器检测所述翻译装置的姿势,所述控制方法包括:由所述麦克风生成表示第一用户的语音的语音信号;当检测到由所述传感器检测的所述翻译装置的姿势的变化时,使所述显示画面显示通过对第一文本的翻译处理所生成的第二文本,所述第一文本是对所述语音信号进行语音识别而得到的文本。

此外,这些总括性的或者具体的技术方案可以通过系统、方法、集成电路、计算机程序或者计算机可读取的cd-rom等记录介质来实现,也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。

本公开的翻译装置的控制方法能够抑制阻碍经由翻译装置的顺畅对话的情况的发生。

附图说明

图1是表示实施方式涉及的翻译装置的构成的框图。

图2是表示实施方式涉及的对话管理存储部所保存的信息的一例的说明图。

图3是实施方式涉及的翻译装置的姿势信息的说明图。

图4是实施方式涉及的倾斜度检测的说明图。

图5是表示实施方式涉及的为了决定设定值而使用的图像的一例的说明图。

图6是表示实施方式涉及的促使基准语言的设定的图像的一例的说明图。

图7是表示实施方式涉及的翻译装置的主要处理的流程图。

图8是表示实施方式涉及的翻译装置的录音开始处理的流程图。

图9是表示实施方式涉及的翻译装置的录音结束处理的流程图。

图10是表示实施方式涉及的语音识别结果的确认处理的流程图。

图11是实施方式涉及的显示画面的说明图。

图12是实施方式涉及的显示画面的显示内容的说明图。

具体实施方式

(成为本发明的基础的见解)

关于在“背景技术”中记载的翻译装置的控制方法,本发明人发现会产生以下的问题。

在具备语音翻译功能的翻译装置(例如便携式翻译设备)中,为了获得正确的翻译结果,需要正确地检测出作为其输入的语音的从开始时间点到结束时间点的区间,并将检测出的区间作为翻译对象。关于语音识别处理中的语音的开始时间点和结束时间点的检测,以往研究了检测无声区间的方法等。然而,存在容易受到噪音或者环境音等的影响而无法适当地进行无声区间的检测等问题。另外,由于为了进行语音识别处理而需要设置原本不需要的无声区间,因此在对话中会产生原本不需要的不说话(无言)状态,成为顺畅对话的阻碍因素。

专利文献1公开了如下技术:利用对设备的倾斜度进行检测的传感器,检测进行对话的两者的语言间的变换方向(翻译方向),进行对浏览者而言适当的翻译结果的信息的显示。专利文献1虽然公开了为了辅助利用者的顺畅对话而决定翻译方向的方法,但是关于翻译装置以什么作为触发来进行包括翻译处理或者结果显示处理等的处理,没有做任何公开。例如如果在上述处理的时候,逐个需要由利用者进行的有意识的操作,则可能会阻碍两者的顺畅对话。

本发明提供抑制在提示翻译结果时会阻碍顺畅对话的情况的发生的翻译装置的控制方法等。

为了解决这种问题,本公开的一个技术方案涉及翻译装置的控制方法,所述翻译装置具备麦克风、传感器以及显示画面,所述传感器检测所述翻译装置的姿势,所述控制方法包括:由所述麦克风生成表示第一用户的语音的语音信号;当检测到由所述传感器检测的所述翻译装置的姿势的变化时,使所述显示画面显示通过对第一文本的翻译处理所生成的第二文本,所述第一文本是对所述语音信号进行语音识别而得到的文本。

根据上述技术方案,翻译装置能够在说话者(第一用户)与收听(接收)者(第二用户)的对话中,将对翻译装置的姿势的变化的检测作为契机,使显示画面显示通过翻译处理生成的第二文本,让收听者进行视觉识别。说话者通过在对话中自然地使翻译装置倾斜,能够容易地使翻译装置的姿势发生变化。由此,能够抑制阻碍经由翻译装置的顺畅对话的情况的发生。

例如,在检测所述翻译装置的姿势的变化时,通过检测提示方向朝向作为从所述翻译装置朝向接收所述第一用户的话语的第二用户的方向而预先确定的方向靠近了第一预定角度这一情况,检测所述翻译装置的姿势的变化,所述提示方向是与所述显示画面的法线平行的方向、且是所述显示画面提示图像的方向。

根据上述技术方案,翻译装置能够将翻译装置的显示画面以朝向收听者的方式倾斜这一情况作为契机,使显示画面显示通过翻译处理生成的第二文本,让收听者进行视觉识别。一般在对话中当说话者有想让收听者进行视觉识别的事物的情况下,会使该想让收听者视觉识别的事物倾斜以使得让收听者看到。在经由翻译的对话的场景中,上述想让收听者视觉识别的事物相当于将说话者的话语内容翻译而得到的第二文本。即,通过说话者使翻译装置倾斜以使得让收听者看到其想让收听者看的事物这一自然的动作,翻译装置能够将翻译结果的文本提示给收听者。如此,翻译装置能够不损伤对话的流畅度地进行翻译,也就是说能够抑制阻碍经由翻译装置的顺畅对话的情况的发生。

例如,所述控制方法还包括:当检测到所述提示方向朝向作为从所述翻译装置朝向所述第一用户的方向而预先确定的方向靠近了第二预定角度时,开始由所述麦克风进行的所述语音信号的生成。

根据上述技术方案,翻译装置能够将翻译装置的显示画面以朝向说话者的方式倾斜这一情况作为契机,开始对说话者的话语的录音。一般假定在使用翻译装置的对话中,在考虑让翻译装置听取(或者取得)自身的话语内容的情况下,说话者会希望翻译装置清晰地听取自身的语音,从而使翻译装置的显示画面朝向自身一方。即,通过说话者使翻译装置倾斜以使得让翻译装置听取自身的话语这一自然的动作,翻译装置能够开始对说话者的语音的录音。如此,翻译装置能够不损伤对话的流畅度地进行翻译。

例如,所述控制方法还包括:当检测到所述提示方向从作为从所述翻译装置朝向所述第一用户的方向而预先确定的方向远离了第三预定角度时,结束由所述麦克风进行的所述语音信号的生成;通过进行对所述语音信号的语音识别处理,取得所述第一文本;将取得的所述第一文本显示于所述显示画面。

根据上述技术方案,翻译装置将翻译装置的显示画面以朝向远离说话者的方向的方式倾斜这一情况作为契机,结束对说话者的话语的录音。一般假定在使用翻译装置的对话中,说话者在想要结束自身的话语的情况下,会考虑只要进行与录音的开始时相反的动作,就能够实现作为与开始相反的概念的结束。即,通过说话者考虑想要进行作为与录音开始相反的概念的录音结束从而使翻译装置以倾斜方向与录音开始时的倾斜方式相反的倾斜方式倾斜这一自然的动作,翻译装置能够结束对说话者的语音的录音。如此,翻译装置能够不损伤对话的流畅度地进行翻译。

例如,所述控制方法还包括:将所述第一文本显示于所述显示画面之后,当检测到所述提示方向朝向作为从所述翻译装置朝向所述第一用户的方向而预先确定的方向靠近了所述第一预定角度时,开始新的语音信号的生成。

根据上述技术方案,翻译装置在由翻译装置获得的语音识别结果与说话者自身的意图不同的情况下,再次开始对说话者的话语的录音。说话者通过以与第一次的录音的开始时相同的方式使翻译装置倾斜,能够重新使录音开始,也就是说能够提供重新进行录音的手段。如此,翻译装置能够不损伤对话的流畅度地进行翻译。

例如,所述翻译装置存储有使所述翻译装置的姿势与语言信息相关联的对应信息,所述语音信息表示用于在所述姿势下进行语音识别处理的语言,所述控制方法还包括:使用根据所述对应信息而与所述翻译装置的当前时刻的姿势相关联的语言信息所示的语言来进行所述语音识别处理。

根据上述技术方案,翻译装置能够基于与姿势的关联,适当地选定语音识别处理所使用的语言。

例如,所述控制方法还包括:将根据所述对应信息而与所述翻译装置的当前时刻的姿势相关联的语言信息所示的语言作为翻译源语言来进行所述翻译处理。

根据上述技术方案,翻译装置能够基于与姿势的关联,适当地选定翻译处理所使用的语言。

例如,所述控制方法还包括:根据所检测的所述翻译装置的姿势,使所述显示画面显示图像。

根据上述技术方案,翻译装置能够将翻译装置的姿势的变化传达给说话者或者收听者。由此,说话者或者收听者能够一边识别翻译装置的状态、也就是翻译装置正在进行的处理,一边操作翻译装置,能够将翻译装置以与意图相反的方式工作防患于未然。

例如,根据所述翻译装置的姿势进行的图像的显示包含根据提示方向和作为朝向接收所述第一用户的话语的第二用户的方向而预先确定的方向或者作为朝向所述第一用户的方向而预先确定的方向之间的角度的差量进行的图像的显示,所述提示方向是与所述显示画面的法线平行的方向、且是所述显示画面提示图像的方向。

根据上述技术方案,翻译装置能够基于以提示方向与收听者或者说话者之间的角度为基础的更具体的处理,将翻译装置的状态传达给说话者或者收听者。

例如,根据所述翻译装置的姿势进行的图像的显示包含:根据提示方向朝向作为朝向接收所述第一用户的话语的第二用户的方向而预先确定的方向靠近了第一预定角度这一情况进行的图像的显示;或者根据提示方向朝向作为朝向所述第一用户的方向而预先确定的方向靠近了第二预定角度这一情况进行的图像的显示,所述提示方向是与所述显示画面的法线平行的方向、且是所述显示画面提示图像的方向。

根据上述技术方案,翻译装置能够基于以提示方向与收听者或者说话者之间的角度的变化为基础的更具体的处理,将翻译装置的状态传达给说话者或者收听者。

另外,本公开的一个技术方案涉及的翻译装置,具备:麦克风;传感器,其检测所述翻译装置的姿势;语音输入控制部,其由所述麦克风生成表示第一用户的语音的语音信号;以及显示控制部,其在检测到由所述传感器检测的所述翻译装置的姿势的变化时,使显示画面显示通过对第一文本的翻译处理所生成的第二文本,所述第一文本是对所述语音信号进行语音识别而得到的文本。

根据上述技术方案,实现与上述翻译装置的控制方法同样的效果。

另外,本公开的一个技术方案涉及的程序是用于使计算机执行上述的控制方法的程序。

根据上述技术方案,实现与上述翻译装置的控制方法同样的效果。

此外,这些总括性的或者具体的技术方案可以通过系统、方法、集成电路、计算机程序或者计算机可读取的cd-rom等记录介质来实现,也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。

以下,参照附图,具体地对实施方式进行说明。

此外,以下说明的实施方式均表示总括性的或者具体的例子。在以下的实施方式中表示的数值、形状、材料、构成要素、构成要素的配置位置及连接方式、步骤、步骤的顺序等为一例,并非旨在限定本公开。另外,对于以下的实施方式中的构成要素中的、没有记载在表示最上位概念的独立权利要求中的构成要素,作为任意的构成要素进行说明。

(实施方式)

在本实施方式中,对翻译装置进行说明,该翻译装置抑制阻碍经由翻译装置的顺畅对话的情况的发生。该翻译装置在利用互不相同的语言的两位利用者的对话中,将对话内容从两人中的一方的利用语言翻译成另一方的利用语言。

此外,“利用语言”指的是利用翻译装置时所使用的语言。更具体而言是,对话的说话者用翻译源语言对翻译装置说话时所使用的语言、以及对话的收听者从翻译装置接收的翻译目标语言。原则上,将利用语言设为利用者的母语,但不限定于此。另外,假定该翻译装置配置于两位利用者之间的位置。此外,也将说话者称作第一用户,也将收听者称作第二用户。另外,根据对话的进行,说话者和收听者相互更换。

图1是表示本实施方式中的翻译装置1的构成的框图。图2是表示本实施方式涉及的对话管理存储部28所保存的信息的一例的说明图。

如图1所示,翻译装置1具备麦克风10、语音输入控制部12、语音识别处理部14、显示控制部16、显示画面18、翻译处理部20、对话控制部22、传感器值处理部26、螺旋仪传感器24、对话管理存储部28、语音合成部30、语音输出部32以及扬声器34。此外,在图1中用虚线框表示的控制部40所包含的语音输入控制部12等既可以通过专用硬件实现,也可以通过计算机的处理器(未图示)使用存储器(未图示)等执行程序、也就是通过软件来实现。另外,翻译装置1也可以作为能够由利用者的手挪动的便携式翻译装置来实现,更具体而言是,可以通过智能手机、平板电脑或者个人计算机等实现。

麦克风10是如下的麦克风(话筒)装置:收集说话者的语音,输出将收集到的语音进行变换而得到的语音信号。

语音输入控制部12进行对从麦克风10输入的语音信号的录音。语音输入控制部12基于由传感器值处理部26进行的控制,控制语音信号的录音开始以及录音结束的定时(timing)。具体而言,上述定时根据是否正在进行录音、以及螺旋仪传感器24生成的传感器值是否超过了事先设定的传感器值的阈值来决定。此外,也将从录音开始到录音结束的区间称作语音区间。关于语音的录音开始以及录音停止的定时,将在后面详细进行说明。

语音识别处理部14进行对于由语音输入控制部12获得的包含于语音区间的语音信号的语音识别处理,生成基于事先设定的语言信息以及被输入的语音信号的文本数据(以下也简单称作文本)。通过语音识别处理部14生成的文本(相当于第一文本)是包括能够由程序进行处理的字符的信息,该文本作为语音识别结果由显示画面18来显示。语音识别处理部14能够通过公知的语音识别处理技术来实现。

显示控制部16是如下的处理部:生成向收听者提示的图像的图像数据,基于生成的图像数据来使显示画面18显示图像。显示控制部16在检测到由螺旋仪传感器24检测的翻译装置1的姿势的变化时,使显示画面18显示通过对第一文本的翻译处理所生成的第二文本,该第一文本是对检测到翻译装置1的姿势的变化为止所生成的语音信号进行语音识别而得到的文本。后述的螺旋仪传感器24取得的翻译装置1的姿势、以及要说话的利用者的语言被保存于对话管理存储部28,通过使用这些信息,能够确定正在对显示画面18进行视觉识别的利用者。由此,也能够将显示画面18显示的图像更换以使得利用者的便利性提高。

显示画面18是显示图像的显示装置。显示画面18按照由显示控制部16进行的控制,显示语音识别处理部14生成的第一文本以及翻译处理部20生成的基于翻译目标语言的文本等。

翻译处理部20从控制输入语言的翻译方向的对话控制部22接收作为翻译对象的文本、和表示翻译源语言及翻译目标语言各自的信息,将文本从所指定的翻译源语言翻译到翻译目标语言,并将作为其翻译结果所获得的文本提供给对话控制部22。该文本相当于第二文本。翻译处理部20能够通过公知的翻译处理技术来实现。

对话控制部22控制语音识别处理部14以及翻译处理部20等,以使得与在说话者和收听者之间所进行的对话并进地对收听者提供翻译结果。对话控制部22从语音输入控制部12取得语音识别处理部14生成的文本,将取得的文本提供给显示控制部16以及翻译处理部20。另外,对话控制部22从翻译处理部20取得翻译结果的文本,并提供给显示控制部16以及语音合成部30。另外,对话控制部22基于从传感器值处理部26取得的表示翻译装置1的姿势的姿势信息来检测翻译装置1的姿势的变化,并控制语音识别处理部14以及翻译处理部20等的工作定时。此外,在对话控制部22检测翻译装置1的姿势的变化时,也可以通过检测提示方向朝向作为从翻译装置1朝向收听者的方向而预先确定的方向靠近了预定角度这一情况来检测翻译装置1的姿势的变化,所述提示方向是与显示画面18的法线平行的方向、且是显示画面18提示图像的方向。此外,检测翻译装置1的姿势的变化所使用的初始提示方向既可以在翻译装置1出厂时等预先存储于对话管理存储部28,也可以在使用翻译装置1的翻译对话的开头存储于对话管理存储部28。此外,在无需由合成语音实现的对翻译结果的提示的情况下,不需要向语音合成部30进行文本的提供。

螺旋仪传感器24是计测角速度的传感器,将通过计测所取得的传感器值提供给传感器值处理部26。

传感器值处理部26是取得并处理螺旋仪传感器24所生成的传感器值的处理部。传感器值处理部26基于螺旋仪传感器24生成的传感器值来检测翻译装置1的姿势,生成表示检测出的姿势的姿势信息。传感器值处理部26将生成的姿势信息提供给对话控制部22。此外,翻译装置1的姿势与“提示方向”处于一对一的关系,“提示方向”是与显示画面18的法线平行的方向、且是显示画面18提示图像的方向。以下,有时也用上述“提示方向”来表现翻译装置1的姿势。

对话管理存储部28是对于在利用翻译装置1的两者的对话中所使用的设定信息,将设定名与设定值进行关联而保存的存储装置。在两者的对话中交替地进行说话,并且每个利用者利用不同的语言,因此,翻译装置1需要在开始对话前预先决定翻译对话所需的若干个项目。

在对话管理存储部28中,作为设定信息而保存有需要预先决定的项目(参照图2)。如图2所示,该设定信息包含第一语言、第二语言、灵敏度、基准语言、基准提示方向、初始提示方向、语音识别结果以及翻译结果。

第一语言以及第二语言是表示进行对话的两者所利用的互不相同的两种语言的每种语言的信息。

灵敏度是表示翻译装置1检测姿势的变化的灵敏度的信息。

基准语言是表示第一语言和第二语言中、在当前时刻之后说话的利用者所利用的语言的信息。

基准提示方向是表示使显示画面18朝向在当前时刻之后说话的利用者时的提示方向的信息。

初始提示方向是表示在作为初始的时间点而预先确定的时间点的显示画面18的提示方向的信息。上述“作为初始的时间点而预先确定的时间点”例如指的是,由说话者进行的说话前(相当于后述的步骤s201)、说话期间(相当于后述的步骤s301)以及语音识别结果的显示期间(相当于后述的步骤s402)的定时。

语音识别结果是表示对于说话者的话语的语音识别处理的结果的文本。

翻译结果是表示对于语音识别结果的翻译处理的结果的文本。

例如,在使用日语的利用者和使用英语的利用者这两者利用翻译装置1、说话者是英语的利用者的情况下,对话管理存储部28所保存的设定信息表示于图2的(a)。翻译装置1使用该设定信息,在提示方向靠近了说话者的方向时进行基于日语的图像的显示,在提示方向靠近了收听者的方向时进行基于英语的图像的显示。另外,将基准语言设定为英语时的设定信息表示于图2的(b)。

语音合成部30取得翻译处理部20所生成的基于翻译目标语言的文本,将取得的文本变换成用于向语音输出部32输出的语音信号。

语音输出部32输出向扬声器34进行输出的语音信号。

扬声器34是将从语音输出部32输入的语音信号变换成语音(空气的振动)的语音输出装置。由扬声器34发出的合成语音作为翻译后的结果而被利用者收听。

图3是本实施方式涉及的翻译装置1的姿势信息的说明图。

表示翻译装置1的姿势的姿势信息例如如图3所示那样,是表示是从翻译装置1的预定的标准姿势绕三个轴(偏转(yaw)轴、翻滚(roll)轴以及俯仰(pitch)轴)的每个轴旋转了多大角度后的姿势的值、也就是说是三个角度。上述标准姿势可以是任何姿势,例如也可以基于说话者与收听者的位置关系,设为图3所示的显示画面18的姿势。

另外,如上所述,提示方向是与显示画面18的法线平行的方向、且是显示画面18提示图像的方向,是针对翻译装置1固定设定的方向。提示方向由与三维空间内的正交的三个轴所成的角即三个角度唯一地确定。

如上所述构成的翻译装置1的特征在于,将翻译装置1的姿势的变化作为触发来执行各处理。参照图4,对此进行说明。在图4中,用于说明,将连结说话者与收听者的线段的中点设为原点o,将连结说话者与收听者的轴设为x轴,将从说话者朝向收听者的方向设为x轴正方向。另外,将从原点o的对于说话者以及收听者而言的上下方向的轴设为y轴,将朝向说话者以及收听者的头上的方向设为y轴正方向。此外,上述坐标轴的取法是用于说明的一例,在其他的位置以及朝向取坐标轴,同样的说明也是成立的。

此外,作为从翻译装置1朝向第一用户的方向而预先确定的方向相当于x轴负方向,作为从翻译装置1朝向第二用户的方向而预先确定的方向相当于x轴正方向。

图4的(a)表示了翻译装置1进行语音的录音前的姿势。此时,显示画面18的提示方向是从y轴正方向朝向x轴负方向倾斜了角度θ1的方向。图4的(a)所示的翻译装置1的姿势是初始提示方向的一例。

当检测出从图4的(a)所示的翻译装置1的姿势起,翻译装置1以提示方向向靠近x轴负方向的方向旋转了预定角度的方式进行了旋转时,翻译装置1开始对语音的录音。此时,提示方向是从y轴正方向朝向x轴负方向倾斜了比上述θ1大的角度θ2的方向(图4的(b))。此外,也能够将如上述那样翻译装置1旋转这一情况表达为显示画面18朝向说话者一方、或者由说话者视觉识别的显示画面18的外观的面积增加。此外,角度θ2能够取得的范围的下限是上述θ1。角度θ2的上限不特别限定,但例如若设为90度左右,则具有收听者对显示画面18进行视觉识别时没有障碍这一优点。

当检测出从图4的(b)所示的翻译装置1的姿势起,翻译装置1以提示方向向远离x轴负方向的方向旋转了预定角度的方式进行了旋转时,翻译装置1结束对语音的录音,将作为语音识别处理的结果所获得的文本显示于显示画面18。此时,显示画面18的提示方向是从y轴正方向朝向x轴负方向倾斜了比上述θ2小的角度θ3的方向(图4的(c))。此外,角度θ3也可以成为零度、也就是显示画面18成为与x轴并行。此外,也能够将如上述那样翻译装置1旋转这一情况表达为提示方向远离说话者、或者由说话者视觉识别的显示画面18的外观的面积减少。

例如,在说话者说出“おはようございます(早上好)”这一话语的情况下,所生成的文本是作为语音信号被输入的“おはようございます”的语音经过语音识别处理而生成的“おはようございます”的文本,换言之是被变换为使其能够由程序进行处理的文本。而且,该文本所涉及的文本用说话者的利用语言显示于显示画面18。说话者能够确认显示于显示画面18的作为语音识别结果的文本,判断自身的话语是否由翻译装置1正确地进行了识别。

根据图4的(c)所示的状况,说话者能够采取以下(1)以及(2)的两个行动。而且,翻译装置1能够执行以下(i)以及(ii)的两个处理。

(1)说话者能够在语音识别处理的结果与自身所说出的内容不相符的情况下,采取使翻译装置1再录音这一行动。这是因为若按与自身的话语的内容不相符地进行翻译则会变为与自身的意图不同的翻译结果,是不适当的。

具体而言,在语音识别结果与说话者的话语的内容不相符的情况下,说话者使翻译装置1的姿势变化为显示画面18朝向自身的方向(图4的(d))。由此,语音输入控制部12进行将语音识别结果消去(取消)的处理。由此,说话者能够避免翻译装置1使用与自身的意图相反的语音识别结果进行翻译处理,并能够重新进行语音的录音。

(2)说话者能够在语音的识别结果与自身所说出的内容相符的情况下,采取使翻译装置1进行翻译处理并将翻译结果传达给对方这一行动。

具体而言,在语音识别结果与说话者的话语的内容相符的情况下,说话者使翻译装置1的姿势变化以使得提示方向靠近从翻译装置1朝向收听者的方向(图4的(e))。由此,翻译装置1使用由语音识别处理部14生成的文本,通过翻译处理部20进行翻译处理。

翻译装置1能够执行的两个处理(i)以及(ii)如下所述。

(i)当检测出从图4的(c)所示的翻译装置1的姿势起,翻译装置1以提示方向向靠近x轴负方向的方向旋转了预定角度的方式进行了旋转时,翻译装置1开始对语音的再录音。此时,显示画面18的提示方向是从y轴正方向朝向x轴负方向倾斜了比上述θ3大的角度θ4的方向(图4的(d))。此外,角度θ4能够取得的范围的下限是上述θ3。角度θ4的上限不特别限定,但例如以与角度θ2同样的理由可以设为90度左右。

(ii)当检测出从图4的(c)所示的翻译装置1的姿势起,翻译装置1朝向x轴正方向旋转了预定角度,提示方向变为从y轴正方向朝向x轴正方向倾斜了角度θ5的方向时,翻译装置1将作为翻译处理的结果所获得的翻译后文本显示于显示画面18(图4的(e))。此外,角度θ5的角度范围不特别限定,但例如若为30度~90度左右,则具有让收听者易于对显示画面18进行视觉识别的优点。

如此,翻译装置1将在语音识别处理或者翻译处理之后等使显示画面18朝向应该对显示画面18进行视觉识别的利用者的方向这一情况作为执行其下一处理的触发。

例如现有的语音区间的判定以由利用者实现的按钮的按压操作等作为触发而进行。与此相对地,根据语音输入控制部12的上述方法,能够通过检测翻译装置1的姿势的变化(图4的(a)至(b)的变化以及(b)至(c)的变化)来用自然的方法实现对语音区间的检测。翻译装置1的姿势的变化是在如语音的输入时、语音识别结果的确认时以及翻译结果的向收听者的提示时这种时候的变化,随着说话者等自然进行的动作的流程发生。由此,根据该姿势的变化,抑制阻碍顺畅对话的情况的发生。再者,由于无需按钮的按压等操作,因此翻译装置1无需具备按钮等操作接口。由此,有助于翻译装置1的设计性的提高或者小型化。

在两者进行的对话中,两者交替说话,因此,向翻译装置1输入的话语的语言也交替更换。将会在后面进行说明,对当前的说话者所利用的语言的判定根据说话者在说话时的翻译装置1的姿势、和对话管理存储部28所保存的“第一语言”、“第二语言”、“基准语言”以及“基准提示方向”的信息来进行。说话者的利用语言也在由语音识别处理部14进行的语音识别处理时为了正确地识别语音信号数据而被参照。另外,由翻译处理部20为了决定翻译源语言和翻译目标语言所利用。

此外,在上述中,关于是否判定为翻译装置1的姿势发生了变化的角度的阈值,能够根据设定信息来调整。

图5是表示本实施方式涉及的促使基准语言的设定的图像50的一例的说明图。具体而言,图5所示的图像50是用于进行对话管理存储部28所保存的设定信息的设定的图像的一例。

图像50包含对“第一语言”和“第二语言”各自进行设定的按钮52和54、以及对“灵敏度”进行设定的按钮56,“第一语言”和“第二语言”是进行对话的两者所利用的语言,“灵敏度”表示对翻译装置1的姿势的变化进行检测的灵敏度。

按钮52被附有表示作为第一语言而选定的语言的字符串(图5中为“日语”),通过对按钮52的用户的触摸操作,能够更换成其他语言。

按钮54被附有表示作为第二语言而选定的语言的字符串(图5中为“英语”),通过对按钮54的用户的触摸操作,能够更换成其他语言。

按钮56是用于设定姿势的灵敏度的按钮。姿势的灵敏度是表示对翻译装置1的姿势的变化进行检测的灵敏度的信息,例如能够更换成“高”、“中”以及“低”这3级中的某一级。姿势的灵敏度被反映于关于螺旋仪传感器24生成的传感器值的变化量的阈值。例如在将姿势的灵敏度设为“高”的情况下,上述阈值被设定为小的值。于是,翻译装置1的姿势仅发生了较小的变化,其姿势的变化量就会超过阈值,从而检测到姿势发生了变化。

此外,假定翻译装置1例如在日本多用于以外国人游客作为对象进行待客的商业情况等。因此,考虑到利用者的简便性,第一语言也可以将常被利用的“日语”等作为规定值。在该情况下,当利用者使用翻译装置1时,实际上进行选择的项目仅为第二语言。

图6是表示本实施方式涉及的促使基准语言的设定的图像60的一例的说明图。具体而言,图像60是用于促使对最初的说话所使用的语言的设定的图像的一例。

图像60包含用于选择说话语言的按钮62。

按钮62是更换将第一语言以及第二语言中的哪一个设为最初的说话所使用的语言的按钮。最初的说话所使用的语言是作为表示第一语言的字符串的“日语”和作为表示第二语言的字符串的“英语”中的某一方。按钮62受理关于将上述的语言的哪一个设为最初的说话所使用的语言的由利用者进行的选择。

在利用设备的翻译对话中,需要根据最初的说话所涉及的语音等来决定该说话所使用的语言。在难以自动地进行该决定的情况下,关于最初的说话所使用的语言,需要由利用者进行的选择。利用图6所示的图像60选择的语言被设定为对话管理存储部28所保存的设定信息的“基准语言”的项目。最初的说话时的翻译装置1的提示方向能够由螺旋仪传感器24取得,该提示方向作为对话管理存储部28的设定信息的“基准提示方向”来存储。由此,在翻译装置1的提示方向处于从基准提示方向起算的预定角度范围内的情况下,作为翻译装置1的利用者的说话者能够判定将基准语言设为利用语言,否则,能够判断为第一语言和第二语言中并非基准语言的一方的语言是说话所利用的语言。如此,能够由翻译装置1的提示方向决定对后面的说话语言的判别。

关于如上所述构成的翻译装置1,以下对其工作进行说明。

图7是表示本实施方式涉及的翻译装置1的主要处理的流程图。

在步骤s101中,对话控制部22判定推进使用翻译装置1的翻译对话处理所需的设定是否有欠缺。在此,翻译对话处理所需的设定指的是,对话管理存储部28所保存的设定项目中的“第一语言”、“第二语言”、“灵敏度”以及“基准语言”。在这些信息中只要有一个欠缺的情况下(步骤s101:是),前进至步骤s102,否则(步骤s101:否),前进至步骤s104。此外,关于基准提示方向,在之后说话者用由基准语言所示的语言进行说话时取得提示方向,将取得的提示方向设为新的基准提示方向。由此可知与利用基准语言的说话者对应的提示方向。另外,相反地,第一语言和第二语言中并非基准语言的一方语言作为在提示方向朝着并非基准提示方向的方向时所使用的语言而被进行关联。

在步骤s102中,对话控制部22进行对为了推进翻译对话处理所需的设定的处理。具体而言,对话控制部22经由显示控制部16,在显示画面18中显示用于促使为了推进翻译对话处理所需的设定的图像(例如图5的图像50)。在翻译装置1被应用于在日本以外国人游客为对象进行待客的商业情况等的情况下,考虑到利用者的简便性,也可以将第一语言的规定值设为日语等。在该情况下,利用者实际上进行选择的项目仅为“第二语言”。

姿势的灵敏度用3级(“高”、“中”以及“低”)表示了:如图4的(b)、(c)、(d)以及(e)中所示的那样翻译装置1的姿势通过说话者的操作而改变之前的提示方向与改变之后的提示方向之差为多大时,使翻译装置1的状态改变。

在步骤s103中,对话控制部22进行基准语言的设定。基准语言是在步骤s102中设定的第一语言和第二语言中的某一方,保存于对话管理存储部28。在此,关于基准语言,设想为可选择在此之后开始进行说话的利用者的语言,实际上可设定为在该设定之后说话的利用者使用的语言。另外,在步骤s103中,当基准语言的设定完成时,对话管理存储部28所保存的数据为,对基准语言设定第一语言以及第二语言之中的某一方,基准提示方向成为未设定状态(参照图2的(b))。在为这种状态的情况下,接下来进行说话时所取得的提示方向被设定作为基准提示方向。将会在图8的步骤s205中详细说明该处理。

在步骤s104中,翻译装置1进行录音开始处理。在录音开始处理中,适当地决定开始录音的定时,并基于决定的定时开始录音。将在后面说明详情。

在步骤s105中,翻译装置1进行录音结束处理。在录音结束处理中,决定适当地将在步骤s104中开始的录音处理停止的定时,并基于决定的定时停止录音。将在后面说明详情。

在步骤s106中,翻译装置1进行语音识别结果的确认处理。在语音识别结果的确认处理中,对话控制部22将由语音识别处理部14进行的语音识别的结果显示于显示画面18。说话者能够确认自身的话语内容与翻译装置1进行语音识别而得到的内容是否相符。在此,在翻译装置1的语音识别处理结果不相符的情况下,说话者能够将语音识别处理结果取消并再次进行说话。将在后面说明详情。

在步骤s107中,翻译处理部20将显示于显示画面18的说话者已确认的语音识别结果即文本、说话所使用的语言、和成为输出的翻译结果的语言作为输入,在翻译处理部20中进行翻译,生成翻译文本作为其结果。在此,说话所利用的语言能够如前所述那样根据设定于对话管理存储部28的基准语言、基准提示方向、和说话时的翻译装置1的姿势(或者提示方向)来判别。因此,作为翻译结果而获得的翻译文本的语言是第一语言和第二语言中、并非上述说话所利用的语言的一方的语言。生成的翻译文本作为翻译结果而保存于对话管理存储部28。

在步骤s108中,对话控制部22将由翻译处理部20进行的翻译处理的结果显示于显示画面18。显示控制部16使用第一语言和第二语言中并非说话所利用的语言的一方的语言来生成为了收听者的显示用图像,将翻译结果输出到显示画面18。翻译结果利用在步骤s107中生成并作为翻译结果保存于对话管理存储部28的信息。

在步骤s109中,语音合成部30使用在步骤s107中生成并作为翻译结果保存于对话管理存储部28的翻译结果、和翻译所利用的语言,生成合成语音信号数据。生成的合成语音信号数据由语音输出部32以及扬声器34输出以使得让收听者听到。

图8是表示本实施方式涉及的翻译装置1的录音开始处理的流程图,是详细地表示图7中的步骤s104的处理的图。

在步骤s201中,传感器值处理部26取得初始提示方向。具体而言,传感器值处理部26取得螺旋仪传感器24生成的传感器值,算出翻译装置1的提示方向。在本步骤中,例如翻译装置1成为图4的(a)所示的姿势。而且,对话控制部22将传感器值处理部26算出的提示方向作为“初始提示方向”保存于对话管理存储部28。

在步骤s202中,传感器值处理部26取得当前时刻的提示方向。具体而言,传感器值处理部26依次取得由于说话者的操作而时刻地变化的传感器值,使用取得的传感器值算出翻译装置1的提示方向。如此,对话控制部22取得由于说话者的操作而时刻地变化的提示方向。

在步骤s203中,对话控制部22判定在步骤s201中取得的初始提示方向与在步骤s202中取得的提示方向之差是否超过了阈值。上述阈值基于对话管理存储部28所保存的“姿势的灵敏度”的设定来确定。由此,判定翻译装置1的显示画面18是否向朝向说话者的方向发生了倾斜(图4的(b))。此外,上述阈值相当于第二预定角度。

当在上述步骤s203中,提示方向之差超过了阈值的情况下(步骤s203:是),向步骤s204前进,否则(步骤s203:否),再次执行步骤s202。

在步骤s204中,对话控制部22查验对话管理存储部28的基准语言和基准提示方向的设定内容。具体而言,对话控制部22在仅设定了基准语言并且基准提示方向的设定欠缺(也就是为未设定)时、也就是使用基准语言作为说话的语言的人的方向为未设定的情况下(步骤s204:是),向步骤s205前进,否则,向步骤s206前进。

如在上述步骤s204中说明的那样,步骤s205在仅已判别了基准语言而基准提示方向为未设定的情况下被执行。此时,翻译装置1的姿势例如是如图4的(b)中所示的、显示画面18朝着说话者一侧的状态。从螺旋仪传感器24取得此时的翻译装置1的姿势,并作为基准提示方向存储于对话管理存储部28。由此,在之后翻译装置1的提示方向朝着与基准提示方向相同的方向时,也将基准语言设为说话者所利用的语言,并在翻译装置1的提示方向朝着除此之外的方向的情况下,设第一语言和第二语言中并非基准语言的一方语言是说话者所利用的语言。

在步骤s206中,语音输入控制部12执行语音的录音的开始处理,开始对从麦克风10输入的说话者的语音录音。

图9是表示本实施方式涉及的翻译装置1中的录音结束处理的流程图,是详细地表示图7中的步骤s105的处理的图。

在步骤s301中,传感器值处理部26取得初始提示方向。具体而言,传感器值处理部26取得螺旋仪传感器24生成的传感器值,算出翻译装置1的提示方向。在本步骤中,例如翻译装置1成为图4的(b)所示的姿势。对话控制部22作为对话管理存储部28的设定信息的“初始提示方向”进行设定。此外,在上述设定的时间点“初始提示方向”已经被设定了的情况下也可以进行覆盖。

在步骤s302中,传感器值处理部26取得当前时刻的提示方向。具体而言,传感器值处理部26依次取得由于说话者的操作而时刻地变化的传感器值,使用取得的传感器值算出翻译装置1的提示方向。如此,对话控制部22取得由于说话者的操作而时刻地变化的提示方向。

在步骤s303中,对话控制部22判定在步骤s301中取得的初始提示方向与在步骤s302中取得的提示方向之差是否超过了阈值。上述阈值基于对话管理存储部28所保存的灵敏度的设定来确定。由此,判定翻译装置1的显示画面18是否远离了朝向说话者的方向(图4的(c))。在上述差超过了阈值的情况下(步骤s303:是),向步骤s304前进,否则(步骤s303:否),再次执行步骤s302。此外,上述阈值相当于第三预定角度。

在步骤s304中,语音输入控制部12执行语音的录音的停止处理,结束对从麦克风10输入的说话者的语音的录音。如此,语音输入控制部12生成在从步骤s206(图8)的录音开始处理时起到步骤s304的录音结束处理时为止的期间所获得的语音信号的语音信号数据。

在步骤s305中,语音识别处理部14根据在步骤s304中生成的语音信号数据和从说话时的翻译装置1的提示方向所判别的语言,进行语音识别处理,由此,将语音信号数据变换为文本,并作为语音识别结果保存于对话管理存储部28。

图10是本实施方式涉及的翻译装置1中的语音识别结果确认处理的流程图,是详细地表示图7中的步骤s106的处理的图。

在步骤s401中,显示控制部16取得在步骤s305(图9)中生成并作为语音识别结果保存于对话管理存储部28的文本,生成用于输出给显示画面18的显示用数据。当生成的显示用数据输出到显示画面18时,显示画面18基于显示用数据,显示上述文本。显示于显示画面18的文本以在图4的(c)所示的姿势下说话者所使用的语言来显示,因此说话者能够根据显示于显示画面18的文本来确认语音识别处理是否按照自身的意图进行了识别。在后续的步骤中,说话者根据将翻译装置1向哪个朝向倾斜,进行将语音识别的结果取消并再次录音、和确定语音识别的结果并向收听者提示该翻译结果中的某个处理。

在步骤s402中,传感器值处理部26取得初始提示方向。具体而言,传感器值处理部26取得螺旋仪传感器24生成的传感器值,算出翻译装置1的提示方向。在本步骤中,例如翻译装置1成为图4的(c)所示的姿势。而且,对话控制部22将传感器值处理部26算出的提示方向作为“初始提示方向”保存于对话管理存储部28。此外,在上述设定的时间点,初始提示方向已经被设定了的情况下也可以进行覆盖。

在步骤s403中,传感器值处理部26取得当前时刻的提示方向。具体而言,传感器值处理部26依次取得由于说话者的操作而时刻地变化的传感器值,使用取得的传感器值算出翻译装置1的提示方向。如此,对话控制部22取得由于说话者的操作而时刻地变化的提示方向。

在步骤s404中,对话控制部22判定在步骤s402中取得的初始提示方向与在步骤s403中取得的提示方向之差是否超过了阈值。在上述差超过了阈值的情况下(步骤s404:是),向步骤s405前进,否则(步骤s404:否),再次执行步骤s403。此外,上述阈值相当于第一预定角度。

在步骤s405中,对话控制部22判定提示方向是向朝向收听者的方向发生了倾斜,还是向朝向说话者的方向发生了倾斜。由此,对话控制部22根据提示方向如图4的(d)那样向说话者侧倾斜的情况、和如图4的(e)那样向收听者侧倾斜的情况,使处理分支转移。

如图4的(d)那样向说话者侧倾斜例如是看到显示画面18上所显示的语音识别结果的说话者判断为该语音识别结果与自身的意图不同的情况。

在上述步骤s405中,在提示方向向朝向收听者的方向发生了倾斜的情况下(步骤s405:“收听者侧”),以确定在步骤s401中使显示画面18显示的语音识别结果,结束本流程图所示的一系列处理。另一方面,在上述步骤s405中,在提示方向向朝向说话者的方向发生了倾斜的情况下(步骤s405:“说话者侧”),以取消在步骤s401中使显示画面18显示的语音识别结果,结束本流程图所示的一系列处理。

通过这样,翻译装置1能够使两者间的对话中的翻译处理的语音识别的精度提高。另外,翻译装置1的利用者能够通过由没有不协调感的操作实现的交互,简易地进行不同语言间的对话。

此外,根据本实施方式,假定并说明了两者间的对话中的翻译装置1的工作,但也能够由一人使用。

此外,语音识别处理部14无需如图1那样位于翻译装置1的内部,也可以配置在云服务器等经由通信路径的外部的服务器上。

此外,翻译处理部20无需如图1那样位于翻译装置1的内部,也可以配置于云服务器等经由通信路径的外部的服务器等。

此外,显示画面18无需如图1那样位于翻译装置1的内部,只要在利用者能够确认的地方即可,例如也可以用与翻译装置1连接的外部显示器等来代替。

此外,在本实施方式中,说明了将翻译结果通过合成语音输出的例子,但以合成语音的确认不是必须的。在无需将翻译结果通过合成语音输出的情况下,不需要语音合成部30、语音输出部32以及扬声器34。

此外,翻译装置1也可以除在上述说明的显示画面18之外,还具备显示画面18a,显示画面18a表示与翻译装置1的翻译有关的工作的状态。使用具体例对显示画面18a进行说明。

图11是本实施方式涉及的显示画面18a的说明图。图12是本实施方式涉及的显示画面18a的显示内容的说明图。图11以及图12所示的显示画面18a包含显示区域18b、18c以及18d。

显示区域18b、18c以及18d与由螺旋仪传感器24检测的翻译装置1的姿势、也就是与翻译装置1的翻译有关的工作的状态相对应地设置。即,显示区域18b对应于翻译装置1正在显示翻译结果的状态(图4的(e)的状态)。显示区域18c对应于翻译装置1正在显示语音识别结果的状态(图4的(c)的状态)。显示区域18d对应于翻译装置1正在录音的状态(图4的(b)到(c)之间的状态)。

而且,在显示区域18b、18c以及18d的某一个中,显示有指示器(indicator)(作为指示符或者表示符的图像)18e。与显示区域18b、18c以及18d中显示有指示器18e的显示区域对应的状态表示了翻译装置1的当前的状态。如此,指示器18e(相当于图像)根据翻译装置1的姿势显示于显示画面18a。

例如,在翻译装置1正在对说话者的语音进行录音的状态下,显示区域18d内显示有指示器18e(图12的(a))。由此,说话者能够一边识别到翻译装置1确实在对自身的语音进行录音,一边使翻译装置1进行语音的录音。也存在如下优点:假设在与说话者的意思相反地翻译装置1的姿势由于手抖动等而变化从而录音状态结束了的情况下,说话者能够识别这一情况,采取适当的行动。

另外,在翻译装置1正在显示翻译结果的状态下,显示区域18b内显示有指示器18e(图12的(b))。由此,收听者能够识别到翻译装置1正在显示翻译结果。

此外,各显示区域内的指示器18e的显示位置可以为任意,但也可以根据翻译装置1的姿势变化。例如在图12的(a)的情况下,也可以为,提示方向越靠近x轴负方向,指示器18e的显示位置变化到越远离显示区域18c的位置。另外,在图12的(b)的情况下,也可以为,提示方向越靠近x轴正方向,指示器18e的显示位置变化到越远离显示区域18c的位置。

即,指示器18e的显示也可以包括根据如下差量进行的指示器18e的显示,所述差量是提示方向与作为朝向收听者的方向而预先确定的方向或者作为朝向说话者的方向而预先确定的方向之间的角度的差量。另外,指示器18e的显示也可以包括:(a)根据提示方向朝向作为朝向收听者的方向而预先确定的方向靠近了第一预定角度这一情况进行的图像的显示;或者(b)根据提示方向朝向作为朝向说话者的方向而预先确定的方向靠近了第二预定角度这一情况进行的图像的显示。由此,能够通过指示器18e的显示位置来表现翻译装置1的姿势的变化。

另外,也可以使显示区域18b、18c以及18d中与翻译装置1的当前的状态对应的显示区域的颜色发生变化。具有能够使说话者以及收听者更直观地识别当前的翻译装置1的状态的优点。

此外,在上述各实施方式中,各构成要素既可以用专用的硬件构成,也可以通过执行适于各构成要素的软件程序来实现。各构成要素也可以通过cpu或者处理器等程序执行部将记录于硬盘或者半导体存储器等记录介质中的软件程序读出并执行来实现。在此,实现上述各实施方式的翻译装置等的软件是如下的程序。

即,该程序使计算机执行翻译装置的控制方法,所述翻译装置具备麦克风、传感器以及显示画面,所述传感器检测所述翻译装置的姿势,所述控制方法包括:由所述麦克风生成表示第一用户的语音的语音信号;在检测到由所述传感器检测的所述翻译装置的姿势的变化时,使所述显示画面显示通过对第一文本的翻译处理所生成的第二文本,所述第一文本是对所述语音信号进行语音识别而得到的文本。

以上,基于实施方式对一个或多个技术方案涉及的翻译装置等进行了说明,但本公开不限定于该实施方式。只要不脱离本公开的主旨,将本领域技术人员想到的各种变形实施于本实施方式而得到的方式、以及将不同实施方式中的构成要素进行组合而构建的方式也可以包含于一个或多个技术方案的范围内。

产业上的可利用性

本公开能够利用于抑制阻碍经由翻译装置的顺畅对话的情况的发生的翻译装置。

标号说明

1翻译装置;10麦克风;12语音输入控制部;14语音识别处理部;16显示控制部;18、18a显示画面;18b、18c、18d显示区域;18e指示器;20翻译处理部;22对话控制部;24螺旋仪传感器;26传感器值处理部;28对话管理存储部;30语音合成部;32语音输出部;34扬声器;40控制部;50、60图像;52、54、56、62按钮。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1