语音翻译装置、方法及程序的制作方法

文档序号:9667311阅读:442来源:国知局
语音翻译装置、方法及程序的制作方法
【专利说明】语音翻译装置、方法及程序
[0001]相关申请
[0002]本申请以日本专利申请2014-185583(申请日:2014年9月11日)为基础,享有该申请的优先权。本申请通过参照该申请,包含该申请的全部内容。
技术领域
[0003]本发明的实施方式涉及语音翻译装置、方法及程序。
【背景技术】
[0004]伴随近年的全球化,支持以不同语言为母语的用户彼此的交流的翻译装置的需求提高。作为这样的装置的一例,有在智能手机等终端工作的语音翻译应用。进而,也有假定用于会议或演讲等的语音翻译系统。
[0005]但是,在一般的语音翻译应用中,仅假定用于旅行中假定的会话等简单的会话。进而,在会议或讲演等中,难以对说话人的说话方式设置制约,需要进行考虑了自由发言的处理,但是在上述的语音翻译系统中,未考虑自由发言。

【发明内容】

[0006]本公开是为了解决上述的问题而提出的,其目的在于提供能够实现顺畅的语音对话的语音翻译装置、方法及程序。
[0007]本实施方式所涉及的语音翻译装置包含语音识别部、检测部、变换部及翻译部。语音识别部对基于第1语言的语音进行语音识别,生成识别结果字符串。检测部从上述识别结果字符串检测适于翻译的翻译单位,生成基于该翻译单位将该识别结果字符串分割后的翻译单位字符串。变换部将上述翻译单位字符串变换为适于机器翻译的表达即变换字符串。翻译部将上述变换字符串翻译为与上述第1语言不同的第2语言,生成翻译字符串。
[0008]根据上述构成的语音翻译装置,能够实现顺畅的语音对话。
【附图说明】
[0009]图1是表示第1实施方式所涉及的语音翻译装置的方框图。
[0010]图2是表示由翻译单位检测部使用的判别模型的制作例的图。
[0011]图3是表示使用判别模型检测翻译单位的一例的图。
[0012]图4是表示由语句变换部参照的变换辞典的一例的图。
[0013]图5是表示第1实施方式所涉及的语音翻译装置的工作的流程图。
[0014]图6是表示识别结果字符串的生成定时和翻译单位的检测定时的图。
[0015]图7是表示由语音翻译装置的各部分输出的字符串的具体例的图。
[0016]图8是表示第1实施方式所涉及的显示部中的显示例的图。
[0017]图9是表示第2实施方式所涉及的语音翻译系统的方框图。
[0018]图10是表示数据存储部中存储的数据的一例的图。
[0019]图11是表示第2实施方式所涉及的语音翻译服务器的工作的流程图。
[0020]图12是表示终端中的语音输出处理的流程图。
[0021]图13是表示第2实施方式所涉及的显示部的显示例的图。
[0022]图14是表示显示部中的显示的第1其他例的图。
[0023]图15是表示显示部中的显示的第2其他例的图。
[0024]图16是表示在终端彼此进行通信的情况下的终端(语音翻译装置)的方框图。
【具体实施方式】
[0025]以下,参照附图详细说明本实施方式所涉及的语音翻译装置、方法及程序。在以下的实施方式中,设定标注了同一参照符号的部分进行同样的工作,并适宜省略重复的说明。
[0026]另外,在以下的实施方式中,以从英语到日语的语音翻译为前提进行说明,但是在从日语到英语的语音翻译、或者其他语言的组合、或者处理3种语言以上的语言间的语音翻译的情况下,也可以同样地进行处理。
[0027](第1实施方式)
[0028]参照图1的方框图说明第1实施方式所涉及的语音翻译装置。
[0029]第1实施方式所涉及的语音翻译装置100包含语音取得部101、语音识别部102、翻译单位检测部103、语句变换部104、机器翻译部105及显示部106。
[0030]语音取得部101从用户取得基于第1语言的语音作为语音信号。具体地,例如,可以对用户的发言经由麦克风进行集音,将所集音的发言通过模拟数字变换而变换为数字信号的语音信号。
[0031]语音识别部102从语音取得部101接收语音信号,对语音信号进行语音识别处理,生成语音识别结果的字符串即识别结果字符串。这里,语音识别处理假定是识别连续的语音的连续语音识别处理,例如,可以使用隐马尔科夫模型(Hidden Markov Model)。另夕卜,也可以将应用了深层神经网络的音韵判别方法、使用了 WFST(Weighted Finite StateTransducer:加权有限状态变换器)的最佳单词序列的搜索用作语音识别处理,由于使用一般的语音识别处理即可,所以省略这里的详细说明。
[0032]—般地,语音识别处理基于单词辞典和/或语言模型等的信息,从发言的开始向后方进行依次缩减可能正确的单词序列的处理。因此,在单词序列不缩减而存在不确定的多个单词序列的情况下,依以后取得的语音信号,有可能在某时刻第1位的优先顺序的单词序列被取代,而不同的单词序列成为第1位的优先顺序。从而,即使对途中阶段的语音识别结果进行机器翻译,也无法获得正确的翻译结果。为了确定作为语音识别结果的单词序列,在无歧义的语言要素出现了的情况下、或检测到发言的暂停(例如,200毫秒以上的无音区间)的情况下,可以确定之前的单词序列。
[0033]翻译单位检测部103从语音识别部102接收识别结果字符串,检测适于机器翻译的翻译单位,生成基于翻译单位分割识别结果字符串而得到的字符串即翻译单位字符串。
[0034]—般,人的发言即自由发言中不存在书面语言所包含的句号和逗号等明确的划分。因此,为了实现同步性高、品质佳的语音翻译,需要将识别结果字符串分割为适于翻译的单位。另外,本实施方式中使用的翻译单位的检测方法假定至少以语音的停顿或发言中的补白词作为线索进行检测,关于详细情况将参照图2及图3后面描述,但是关于翻译单位的检测方法也可以使用一般的方法。
[0035]语句变换部104从翻译单位检测部103接收翻译单位字符串,将翻译单位字符串变换为适于机器翻译的表达即变换字符串。具体地,语句变换部104例如参照变换辞典,从翻译单位字符串删除不必要词语,将翻译单位字符串中的口语表达变换为书面语表达,由此生成变换字符串。不必要词语是例如“文一 <^”、“态?—”这样的补白词。关于由语句变换部104参照的变换辞典的详细情况,参照图4进行说明。
[0036]机器翻译部105从语句变换部104接收变换字符串,从第1语言翻译到第2语言,生成翻译字符串。由于机器翻译部105中的翻译处理使用转换翻译方式、用例翻译方式、统计翻译方式、中间语言翻译方式等已有的机器翻译处理即可,因此省略这里的说明。
[0037]显示部106是例如液晶显示器,从机器翻译部105接收变换字符串和翻译字符串,将变换字符串及翻译字符串相对应地显示于画面。
[0038]另外,语音翻译装置100也可以包含将变换字符串及翻译字符串的至少一方作为语音输出的输出部。
[0039]接着,参照图2及图3说明翻译单位检测部103中的翻译单位的检测方法的一例。
[0040]图2是表示制作翻译单位的判别模型的一例的图。图2表示在使翻译单位检测部工作之前预先制作判别模型时的处理。
[0041]在图2的例子中,表示学习用的语料201被进行词素分析而得到的词素分析结果202。这里,句子中的标签表示语音中的停顿,标签<B>表示有可能成为翻译单位的开始位置的词素的位置。标签<B>通过手动预先标注。
[0042]接着,对词素分析结果202,变换为标注了与应该分割句子的位置(类别B)、应该继续句子的位置(类别I)对应的标签的学习数据203。这里,假定基于CRF(condit1nalRandom Fields,条件随机场)的学习。将学习数据203作为输入,对各词素列,学习是应该分割句子的词素列还是继续句子的词素列的带条件概率作为判别模型。另外,在学习数据203中,标签〈1>表示处于翻译单位的途中的词素的位置。
[0043]图3是表示使用通过图2所示的处理获得的2类判别模型(即,判别为类别B和类别I的模型)检测翻译单位的一例的图。
[0044]翻译单位检测部103对识别结果字符串301进行词素分析,获得词素分析结果302。翻译单位检测部103参照判别模型,判定作为对象的词素列是应该分割句子的词素
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1