语音翻译装置、方法及程序的制作方法

文档序号:9687421阅读:450来源:国知局
语音翻译装置、方法及程序的制作方法
【专利说明】语音翻译装置、方法及程序
[0001]相关申请
[0002]本申请以日本专利申请2014-190411(申请日:2014年9月18日)为基础,享有该申请的优先权。本申请通过参照该申请,包含该申请的全部内容。
技术领域
[0003]本发明的实施方式涉及语音翻译装置、方法及程序。
【背景技术】
[0004]随着语音语言处理技术的进展,实现了将基于第1语言的输入变换为第2语言而输出的语音翻译设备。输入和/或输出的形式根据应用有字符串(文本)或者语音,但是作为对人发出的语音进行翻译的技术,本质是相同的。
[0005]语音翻译技术可以应用于会议和/或演讲中的翻译的字幕显示和/或翻译的语音输出。作为语音传译技术的一例,例如有会议字幕系统。
[0006]但是,由于翻译结果在作为翻译对象的区间的发言结束之后呈现,所以依呈现翻译结果的定时,存在使用者错误理解翻译结果的问题。

【发明内容】

[0007]本发明是为了解决上述问题而提出的,其目的在于提供能够减少翻译结果的误解的语音翻译装置、方法及程序。
[0008]本发明的一实施方式所涉及的语音翻译装置包含语音识别部、检测部、翻译部及控制部。语音识别部对基于多个说话人的一种以上第1语言的发言按时序顺序进行语音识别处理,获得作为语音识别结果的文本字符串。检测部检测上述文本字符串的意思的连贯性,获得表示以该意思的连贯性进行划分的字符串的一个以上的单位字符串。翻译部将上述一个以上的单位字符串翻译为与上述第1语言不同的第2语言,获得一个以上的翻译字符串。控制部在时序上在上述发言间存在重复的情况下,以改变重复的部分所对应的翻译字符串的显不顺序的方式进彳丁控制。
[0009]根据上述构成的语音翻译装置,能够减少翻译结果的误解,提高发言的理解性。
【附图说明】
[0010]图1是表示本实施方式所涉及的语音翻译装置的方框图。
[0011]图2是表示控制部中的控制处理的流程图。
[0012]图3是表示语音翻译装置的工作的第1具体例的图。
[0013]图4是表示语音翻译装置的工作的第2具体例的图。
[0014]图5是表不呈现部中的第1显不例的图。
[0015]图6是表示呈现部中的第2显示例的图。
[0016]图7是表不呈现部中的第3显不例的图。
[0017]图8是表示控制部中的控制处理的第1变形例的图。
[0018]图9是表示控制部中的控制处理的第2变形例的图。
[0019]图10是说明由以往方法实现的翻译结果的显示的图。
【具体实施方式】
[0020]以下,参照附图详细说明本公开的一实施方式所涉及的语音翻译装置、方法及程序。另外,在以下的实施方式中,设定标注了同一编号的部分进行同样的工作,并省略重复的说明。
[0021]参照图1的方框图说明第1实施方式所涉及的语音翻译装置。
[0022]本实施方式所涉及的语音翻译装置100包含语音取得部101、语音识别部102、翻译单位检测部103、翻译部104、控制部105及呈现部106。
[0023]语音取得部101取得以第1语言发言的说话人的发言作为语音信号。进而,语音取得部101与语音信号相对应地取得表示语音信号的发话者的说话人信息和包含取得语音信号的时刻及语音信号的持续时间的时间信息。第1语言包含一种以上的语言。语音信号例如能够通过麦克风集音并利用模拟数字变换器(A/D变换器)对其进行处理而由此获得。另外,也可以通过利用再现装置等读入并再现预先记录了语音的记录介质而取得语音信号。
[0024]语音识别部102从语音取得部101接收语音信号、说话人信息及时间信息,并对语音信号按时序顺序进行语音识别处理,获得作为语音信号的语音识别结果的文本字符串。语音识别处理由于可以利用例如隐马尔可夫模型(Hidden Markov Model:HMM)等一般的方法进行,因此省略这里的详细说明。
[0025]翻译单位检测部103从语音识别部102接收文本字符串、说话人信息及时间信息,检测适于翻译处理的文本字符串的意思的连贯性,生成以意思的连贯性划分的字符串即单位字符串。
[0026]在说话人说出的口语中,由于没有书面语中所包含的句号和逗号那样明确的划分,所以为了实现同步性高、品质佳的语音传译,需要分割为适于翻译处理的单位。这里,所谓适于翻译处理的单位,只要能保持对输入于机器翻译装置的语音同步并行地译出并获得最佳翻译结果那样的意思的连贯性即可,由于使用一般的方法即可,所以省略这里的说明。
[0027]另外,由于意思的连贯性根据语言的种类而划分不同,所以翻译单位检测部103只要根据第1语言的种类来确定意思的连贯性即可。
[0028]翻译部104从翻译单位检测部103接收单位字符串、说话人信息及时间信息,将单位字符串翻译为与第1语言不同的第2语言,获得翻译字符串。翻译处理只要应用例如在一般的转换方式、用例库方式、统计库方式、中间语言方式等以往的机器翻译(MachineTranslat1n)技术中利用的所有方法即可,所以省略这里的说明。
[0029]控制部105从翻译部104接收翻译字符串、单位字符串、说话人信息及时间信息。控制部105参照说话人信息及时间信息,在时序上在发言间存在重复的情况下,在后述的呈现部106,以使与发言重复的部分对应的翻译字符串的显示顺序改变的方式进行控制。显示顺序的改变基于已经向说话人呈现的翻译字符串和发言时其他人的发言的产生状况来确定,详细情况将后述。
[0030]呈现部106是例如IXD(Liquid crystal display:液晶显示器)和/或OLED (organic light emitting d1de:有机发光二极管)显示器那样的显示装置,从控制部105接收翻译字符串及单位字符串,向使用者显示翻译结果及文本字符串。另外,文本字符串也可以从语音识别部102接收。呈现部106不限于显示装置,也可以是打印机装置、扬声器等语音装置、硬盘驱动器等对存储介质的存储装置。
[0031]另外,也能够通过语音合成处理将翻译字符串及文本字符串输出为语音。该语音合成处理能够应用语音片段编辑语音合成、共振峰语音合成、语音语料库的语音合成、文本到语音等一般利用的所有方法。在该情况下,控制部105只要代替确定显示位置,而对存在重复的多个翻译字符串使语音间的停顿长度改变或者改变语音输出的顺序。
[0032]进而,在本实施方式中,以英语及汉语为第1语言,日语为第2语言,以第1语言与第2语言之间的翻译为前提进行说明,但是也可以是其他语言的组合,进而在同时处理多种语言的情况下也可以同样进行处理。
[0033]另外,也可以在每次生成单位字符串及翻译字符串时,将说话人信息及时间信息分别相对应地保存在缓冲器(未图示)。控制部105也可以参照缓冲器中保存的时间信息及说话人信息,以使翻译字符串的显示顺序改变的方式进行控制。
[0034]接着,参照图2的流程图说明控制部105中的显示顺序的控制处理。
[0035]在步骤S201,取得与作为处理对象的发言(也称为对象发言)对应的翻译字符串
1
[0036]在步骤S202,将用于控制翻译字符串的显示的内部变量k设定成k = 1。
[0037]在步骤S203,判定是否存在与翻译字符串i所对应的发言部分重复的发言。是否存在重复发言的判定只要参照与翻译字符串i对应的时间信息和与其他发言的翻译字符串对应的时间信息,根据在翻译字符串i所对应的发言的持续时间与其他说话人的发言的持续时间上是否存在重复部分来判定即可。在存在与翻译字符串i所对应的发言部分重复的发言的情况下,前进至步骤S204,在不存在重复发言的情况下前进至步骤S209。
[0038]在步骤S204,获得已经呈现在呈现部106的翻译字符串之中从末尾算起的第k个翻译字符串所对应的发言h。
[0039]在步骤S205,判定发言h是否为空。在发言h为空的情况下前进至步骤S209,在发言h不为空的情况下前进至步骤S206。另外,在关于最初的翻译字符串进行处理的情况下,由于不存在已经显示的翻译字符串,所以发言h为空。
[0040]在步骤S206,判定发言h的持续时间的终端是否是比翻译字符串i的发言的持续时间的始端早的时刻。在发言h的持续时间的终端是比翻译字符串i的发言的持续时间的始端早的时刻的情况下前进至步骤S209,否则前进至步骤S207。
[0041]在步骤S207,判定翻译字符串i之前且与发言h不重复的发言之中紧靠其之前的发言的说话人与翻译字符串i的说话人是否相同。若是同一说话人则前进至步骤S209,在不是同一说话人、即说话人不同的情况下前进至步骤S208。
[0042]在步骤S208,使k递增1,并返回步骤S204,反复同样的处理。
[0043]在步骤S209,以在已经显示于呈现部106的翻译字符串之中从末尾算起的第k个翻译字符串之后显示翻译字符串i的方式进行控制。
[0044]在步骤S210,取得在翻译字符串i的前一个显示的翻译字符串的发言P。
[0045]在步骤S211,判定发言p与翻译字符串i的说话人是否相同。在发言p与翻译
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1