交互式语音翻译方法及装置与流程

文档序号：14990553发布日期：2018-07-20 22:08阅读：196来源：国知局

本发明实施例涉及语言处理技术领域，更具体地，涉及一种交互式语音翻译方法及装置。

背景技术：

传统语言服务行业采用人工陪同口译、交替口译以及同声传译等解决语言沟通障碍问题，但受限于人力不足以及成本限制，无法满足普通人对不同语言沟通交流的需求。语音翻译技术的发展对传统语言口译服务行业做出了有益补充，为普通人日常沟通交流提供了另一条途径，并在成本、时效性等方面更具优势。

语音翻译过程一般由三部分组成，分别是语音识别、机器翻译和语音合成。语音翻译时通常采用翻译结果单向传递模式，也即当语音识别或者机器翻译出错时，会引发错误信息的传递。尤其是对于一些人名、地名及机构名，由于这些实体名词大都属于稀有词汇，在语音识别和机器翻译的训练语料中出现比例较少，甚至从未出现过，从而在识别和翻译过程中比较容易出错，影响了在实际应用中语音翻译的效果。

技术实现要素：

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的交互式语音翻译方法及装置。

根据本发明实施例的第一方面，提供了一种交互式语音翻译方法，该方法包括：

若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值，则对第一目标语言文本进行翻译，得到第二识别文本，第一识别文本与第二识别文本对应相同的语种，第一目标语言文本由第一识别文本经过翻译后得到；

若第一识别文本与第二识别文本之间语义不等价，则提示用户第一识别文本对应的翻译难易程度，并检测用户基于提示所执行的操作；

若检测到用户执行的操作为输入关键文本，则对关键文本进行语义解析，以得到关键名词及关键名词的类型，并基于关键名词的类型对关键名词进行翻译，得到第一翻译结果，对第一识别文本中除关键名词之外的其它内容进行翻译，得到第二翻译结果，将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本；其中，第一识别文本中包含关键名词。

本发明实施例提供的方法，通过在第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值时，对第一目标语言文本进行翻译，得到第二识别文本。若第一识别文本与第二识别文本之间语义不等价，则提示用户第一识别文本对应的翻译难易程度，并检测用户基于提示所执行的操作。若检测到用户执行的操作为输入关键文本，则对关键文本进行语义解析，以得到关键名词及关键名词的类型，并基于关键名词的类型对关键名词进行翻译，得到第一翻译结果，对第一识别文本中除关键名词之外的其它内容进行翻译，得到第二翻译结果，将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本。由于在翻译结果不能确定是否无误时，可通过与用户交互的方式提示用户输入关键文本，从而可将关键文本的关键名词作为一个整体分词，并按照关键名词的类型对关键名词进行翻译，从而可使得翻译结果更加准确。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，提示用户第一识别文本对应的翻译难易程度之前，还包括：

分别将第一识别文本及第二识别文本进行向量化，得到第一词向量序列以及第二词向量序列，并计算第一词向量序列与第二词向量序列之间的距离；

若第一词向量序列与第二词向量序列之间的距离不小于第三预设阈值，则确定第一识别文本与第二识别文本之间语义不等价。

结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，基于关键名词的类型对关键名词进行翻译，得到第一翻译结果，包括：

根据关键名词的类型确定对应的占位符，将占位符转化成翻译后的目标语言名词，并作为第一翻译结果。

结合第一方面的第一种可能的实现方式，在第四种可能的实现方式中，提示用户第一识别文本对应的翻译难易程度号之后，还包括：

若检测到用户执行的操作为重新输入语音信号，获取第三识别文本，并基于第三识别文本重新执行文本翻译流程；其中，第三识别文本为重新输入的语音信号对应的识别文本，第一识别文本与第三识别文本之间文本数据不同且语义等价。

结合第一方面的第一种可能的实现方式，在第五种可能的实现方式中，该方法还包括：

若第一识别文本的识别置信度不大于第一预设阈值，则提示用户对第一识别文本进行再次确认；

若检测到用户输入第一识别文本的确认有误指令及文本修改指令，则根据文本修改指令修改第一识别文本，并基于修改后的第一识别文本重新执行文本翻译流程。

结合第一方面的第五种可能的实现方式，在第六种可能的实现方式中，通过预设方式提示用户对第一识别文本进行再次确认之后，还包括：

若检测到用户输入第一识别文本的确认有误指令且用户重新输入语音信号，获取第四识别文本，并基于第四识别文本重新执行文本翻译流程；其中，第四识别文本为重新输入的语音信号对应的识别文本。

结合第一方面的第五种可能的实现方式，在第七种可能的实现方式中，通过预设方式提示用户对第一识别文本进行再次确认之后，还包括：

若检测到用户输入第一识别文本的确认无误指令，则将第一识别文本的识别置信度重置为识别置信度的最大取值，并重新执行文本翻译流程。

根据本发明实施例的第二方面，提供了一种交互式语音翻译装置，该装置包括：

第一翻译模块，用于当第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值时，则对第一目标语言文本进行翻译，得到第二识别文本，第一识别文本与第二识别文本对应相同的语种，第一目标语言文本由第一识别文本经过翻译后得到；

提示模块，用于当第一识别文本与第二识别文本之间语义不等价时，则提示用户第一识别文本对应的翻译难易程度，并检测用户基于提示所执行的操作；

第二翻译模块，用于当检测到用户执行的操作为输入关键文本时，则对关键文本进行语义解析，以得到关键名词及关键名词的类型，并基于关键名词的类型对关键名词进行翻译，得到第一翻译结果，对第一识别文本中除关键名词之外的其它内容进行翻译，得到第二翻译结果，将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本；其中，第一识别文本中包含关键名词。

根据本发明实施例的第三方面，提供了一种交互式语音翻译设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的交互式语音翻译方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的交互式语音翻译方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1为本发明实施例的一种交互式语音翻译方法的流程示意图；

图2为本发明实施例的一种语音翻译过程示意图；

图3为本发明实施例的一种交互式语音翻译方法的流程示意图；

图4为本发明实施例的一种交互式语音翻译方法的流程示意图；

图5为本发明实施例的一种交互式语音翻译方法的流程示意图；

图6为本发明实施例的一种交互式语音翻译装置的框图；

图7为本发明实施例的一种交互式语音翻译设备的框图。

具体实施方式

下面结合附图和实施例，对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例，但不用来限制本发明实施例的范围。

传统语言服务行业采用人工陪同口译、交替口译以及同声传译等解决语言沟通障碍问题，但受限于人力不足以及成本限制，无法满足普通人对不同语言沟通交流的需求。语音翻译技术的发展对传统语言口译服务行业做出了有益的补充，为普通人日常沟通交流提供了另一条途径，并在成本、时效性等方面更具优势。

语音翻译是指将源语言的语音信号自动翻译成目标语言的语音信号的过程。语音翻译一般包括语音识别、机器翻译和语音合成三个主要组成部分。具体地，在给定源语言的语音信号时，首先通过语音识别系统得到源语言的识别文本，其次通过机器翻译系统将识别文本翻译成目标语言文本，最后通过语音合成系统将目标语言文本合成为目标语言的语音信号。语音翻译时通常采用翻译结果单向传递模式，也即当语音识别或者机器翻译出错时，会引发错误信息的传递。尤其是对于一些人名、地名及机构名，由于这些实体名词大都属于稀有词汇，在语音识别和机器翻译的训练语料中出现比例较少，甚至从未出现过，从而在识别和翻译过程中比较容易出错，影响了在实际应用中语音翻译的效果。另外，在目前的人工翻译过程中，通常是由翻译人员进行多轮沟通以翻译上述实体名词，翻译效率也不高。

针对上述情形，本发明实施例提供了一种交互式语音翻译方法。该方法可用于语音翻译场景，即先通过语音识别得到识别文本，再对识别文本进行翻译得到目标语言文本。参见图1，该方法包括：101、若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值，则对第一目标语言文本进行翻译，得到第二识别文本，第一识别文本与第二识别文本对应相同的语种，第一目标语言文本由第一识别文本经过翻译后得到；102、若第一识别文本与第二识别文本之间语义不等价，则提示用户第一识别文本对应的翻译难易程度，并检测用户基于提示所执行的操作；103、若检测到用户执行的操作为输入关键文本，则对关键文本进行语义解析，以得到关键名词及关键名词的类型，并基于关键名词的类型对关键名词进行翻译，得到第一翻译结果，对第一识别文本中除关键名词之外的其它内容进行翻译，得到第二翻译结果，将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本；其中，第一识别文本中包含关键名词。

在执行上述步骤101之前，可先通过音频采集模块接收源语言的语音信号，再对源语言的语音信号进行语音识别得到第一识别文本。在对第一识别文本进行翻译时，可将第一识别文本输入至翻译编解码循环神经网络，从而输出得到第一目标语言文本。上述过程可通过如下示例说明，用户a(中文)需要向用户b(英文)传递信息，由于a和b语言不通，从而需要借助机器进行中间翻译。如图2所示，正常情况下，用户a直接向机器用语音说中文“请问布鲁克林该怎么走？”，机器进行语音识别，得到第一识别文本后，将第一识别文本翻译成目标语言英文，如“howcanigettobrooklyn？”，再将翻译得到的第一目标语言文本传递给用户b，单项翻译结束。其中，在将第一目标语言文本传递给用户b时，可通过界面显示的方式传递，还可以通过语音合成并播报的方式传递，本发明实施例对此不作具体限定。

在上述示例中，地名“布鲁克林”作为稀有的实体名词，在对“布鲁克林”进行语音识别时，可能会识别错误。另外，即使在识别正确的情况下也可能会翻译错误。基于上述情形，对于语音翻译场景，在执行步骤101之前，可先分别判断是否出现识别错误以及翻译错误，并依据判断结果顺序执行步骤101、步骤102及步骤103。

由上述内容可知，对于语音翻译场景，在执行步骤101之前，可先分别判断是否出现识别错误以及翻译错误。具体地，可先获取第一识别文本的识别置信度scoreasr以及第一目标语言文本的翻译置信度scoremt。其中，识别置信度scoreasr用于表示第一识别文本作为语音识别结果的可信程度，翻译置信度scoremt用于表示第一目标语言文本作为翻译结果的可信程度。当第一识别文本的识别置信度scoreasr大于第一预设阈值tasr时(即scoreasr＞tasr)，则可认为第一识别文本识别正确。反之，则可认为第一识别文本识别错误。当第一目标语言文本的翻译置信度scoremt大于第二预设阈值tmt时(即scoremt＞tmt)，则可认为第一目标语言文本翻译正确。反之，则可认为第一目标语言文本翻译错误。

在上述步骤101中，若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值，则说明识别正确但翻译错误。此时，可将第一目标语言文本作为机器翻译的输入，对第一目标语言文本进行反向翻译，得到第二识别文本。由于是反向翻译，从而第一识别文本与第二识别文本对应相同的语种。在得到第一识别文本以及第二识别文本后，可判断第一识别文本与第二识别文本在语义上是否等价。若两者在语义上不等价，则说明翻译出错，而翻译出错的原因可能是如下两种情况，第一种情况是第一识别文本的表达形式不利于正确翻译，第二种情况是第一识别文本中存在一些难以翻译的关键名词。其中，关键名词的类型可以为人名、地名、或机构名等，也可以是一些名词性短语，本发明实施例对此不作具体限定。另外，第一识别文本中包含的关键名词数量可以为一个，也可以为多个。当第一识别文本中包含多个关键名词时，包含的多个关键字可以为多种类型的关键名词，本发明实施例对此不作具体限定。

在确定第一识别文本与第二识别文本之间语义不等价后，可提示用户第一识别文本对应的翻译难易程度。对于上述两种情况，无论是哪种情况在翻译第一识别文本时翻译难度都比较大，从而可提示用户当前第一识别文本的翻译难度较大，以使得用户补充第一识别文本的相关解释或者更换其它便于翻译的识别文本。

对于上述第二种情况，也即第一识别文本中存在一些难以翻译的关键名词，在对第一识别文本进行翻译时，可在检测到用户输入关键文本后，通过语义解析的方式从关键文本中解析得到关键名词以及关键名词的类型，从而后续可将关键名词作为一个整体分词，并按照关键名词的类型对关键名词进行翻译，得到第一翻译结果。对第一识别文本中除关键名词之外的其它内容进行翻译，得到第二翻译结果，将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本。需要说明的是，对于汉语而言，词可能由多个字构成，从而需要通过分词的方式将关键名词作为一个整体分词。对于其它语言而言，如英语，其关键名词可能就是一个单词或者名词短语(如losangeles)。当关键名词为名词短语时，也可通过分词的方式将名词短语作为一个整体分词。

基于上述实施例的内容，在提示用户第一识别文本对应的翻译难易程度之前，还可判断第一识别文本与第二识别文本之间语义是否等价。相应地，作为一种可选实施例，本发明实施例还提供了一种判断文本语义是否等价的方法。参见图3，该方法包括：301、分别将第一识别文本及第二识别文本进行向量化，得到第一词向量序列以及第二词向量序列，并计算第一词向量序列与第二词向量序列之间的距离；302、若第一词向量序列与第二词向量序列之间的距离不小于第三预设阈值，则确定第一识别文本与第二识别文本之间语义不等价。

在上述步骤301中，在对第一识别文本及第二识别文本进行向量化时，可基于循环神经网络的翻译系统中编码模块，分别对第一识别文本和第二识别文本进行编码，并将循环神经网络中最后一个时刻的隐含状态输出值分别作为第一识别文本及第二识别文本的向量化表征，从而得到第一识别文本对应的第一词向量序列以及第二识别文本对应的第二词向量序列。在计算第一词向量序列与第二词向量序列之间的距离时，可采用动态时间归整(dtw，dynamictimewarping)算法进行计算，还可以计算两者之间余弦距离，或者还可以采用cnn/rnn对两个词向量序列进行抽象表征后再进行距离计算，本发明实施例对此不作具体限定。另外，在上述步骤302中，若第一词向量序列与第二词向量序列之间的距离小于第三预设阈值，则确定第一识别文本与第二识别文本之间语义等价。若确定第一识别文本与第二识别文本之间语义等价，则说明第一目标语言文本作为翻译结果的可信程度较高。此时，可直接将第一目标语言文本作为最终的翻译结果。若第一词向量序列与第二词向量序列之间的距离不小于第三预设阈值，则确定第一识别文本与第二识别文本之间语义不等价。此时，则说明第一目标语言文本作为翻译结果的可信程度较低。

本发明实施例提供的方法，通过分别将第一识别文本及第二识别文本进行向量化，得到第一词向量序列以及第二词向量序列，并计算第一词向量序列与第二词向量序列之间的距离。若第一词向量序列与第二词向量序列之间的距离不小于第三预设阈值，则确定第一识别文本与第二识别文本之间语义不等价。由于在确定识别正确而翻译错误后，可根据第一识别文本与第二识别文本之间语义是否等价的判断结果，对第一目标语言文本作为翻译结果是否可信进行二次判断，从而减小了语音翻译过程中错误信息传递的概率，并可使得翻译结果更加准确。

在上述实施例中，在基于关键名词及关键名词的类型，对第一识别文本进行翻译时，可将关键名词作为一个整体分词单独进行翻译，并同时对第一识别文本中除关键名词之外的其它内容进行翻译，最后将两部分的翻译结果进行合并，从而得到完整的翻译结果。但考虑到关键名词的翻译结果通常是固定的，如人名、地名、机构名以及名词性短语等，翻译结果不会受到文本中其它内容的影响。基于上述原理，可将翻译过程区分开，也即具体翻译时，可在翻译完第一识别文本中的其它内容后，再对关键名词进行翻译。相应地，作为一种可选实施例，本发明实施例不对基于关键名词的类型对关键名词进行翻译，得到第一翻译结果的方法作具体限定，包括但不限于：根据关键名词的类型确定对应的占位符，将占位符转化成翻译后的目标语言名词，并作为第一翻译结果。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对基于占位符对第一识别文本进行翻译的方法作具体限定。参见图4，该方法包括：1031、根据关键名词的类型确定对应的占位符，并根据关键名词在第一识别文本中的所处位置，将关键名词替换成关键名词对应的占位符替换，得到替换后的第一识别文本；1032、将替换后的第一识别文本输入至翻译系统中，输出第三目标语言文本，第三目标语言文本中包含有关键名词对应的占位符；1033、将第三目标语言文本中包含的占位符转化成翻译后的目标语言名词，以得到第二目标语言文本。

在上述步骤1031中，占位符可以为预先定义的字符串，或者用户还可以根据需求自行定制占位符，本发明实施例对此不作具体限定。例如，关键名词“布鲁克林”为地名，其占位符可以为“$_loc_”。需要说明的是，从占位符的命名可以看出该占位符对应的关键名词类型为地名。另外，当第一识别文本中出现两个为地名的关键名词时，如“布鲁克林”以及“波士顿”，两者的占位符可以分别为“$_loc_1”及“$_loc_2”以作区分。

以第一识别文本为“请问布鲁克林该怎么走？”为例，可先确定关键名词“布鲁克林”在第一识别文本“请问布鲁克林该怎么走？”中的所处位置，再根据关键名词的所处位置，可将占位符替换关键名词，从而可得到替换后的第一识别文本“请问$_loc_该怎么走？”。在对替换后的第一识别文本进行翻译后，可得到包含有占位符的第三目标语言文本。例如，上述第一识别文本经过翻译后，可得到第三目标语言文本为“howcanigetto$_loc_？”。

需要说明的是，对于汉语而言，词可能由多个字构成，从而需要通过分词的方式将关键名词作为一个整体分词，并通过占位符替换整体分词。对于其它语言而言，如英语，其关键名词一般是一个单词，有可能是一个名词短语(如losangeles)。当关键名词为名词短语时，也可通过分词的方式将名词短语作为一个整体分词，并通过占位符替换。例如，可通过占位符替换整体分词losangeles。

在得到第三目标语言文本后，可将第三目标语言文本转化为翻译后的目标名词。具体地，可根据预先训练的关键名词翻译模型对第三目标语言文本中的占位符进行翻译，并将翻译得到的目标语言名词替换第三目标语言文本中的占位符，以得到第二目标语言文本。需要说明的是，在训练关键名词翻译模型时，可以采用比词更小的建模单元如单字、音素等进行模型构建，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过根据关键名词的类型确定对应的占位符，并根据关键名词在第一识别文本中的所处位置，将关键名词对应的占位符替换关键名词，得到替换后的第一识别文本。将替换后的第一识别文本输入至翻译系统中，输出第三目标语言文本。将第三目标语言文本中包含的占位符转化成翻译后的目标语言名词，以得到第二目标语言文本。由于在对第一识别文本进行翻译时，可针对性地先将翻译中容易出错的关键名词替换为占位符，并单独对占位符对应的关键名词进行翻译，从而提高了关键名词的翻译效果，并可使得翻译结果更加准确。与此同时，由于关键名词对应的占位符可以由用户自定义，从而可满足用户在语音翻译过程中的个性化定制需求。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对获取关键名词及关键名词的类型的方法作具体限定，包括但不限于：获取关键文本，对关键文本进行语义解析，得到关键文本中的关键名词以及每一关键名词的类型。

其中，关键文本可以由用户输入，如语音输入或文本输入等，本发明实施例对此不作具体限定。例如，用户通过语音输入关键文本为“布鲁克林是一个地名”，通过语义解析工具可将“布鲁克林”解析为一个地名，从而可确定关键名词为“布鲁克林”且类型为“地名”。

需要说明的是，用户在输入关键文本时，可按照“xxx是个xxx”的表达形式输入，如“布鲁克林是个地名”、“克林顿是个人名”、“世界环保组织是个机构名”等。当然，还可以采用其它表达形式输入，如“句中地名为布鲁克林”，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过获取关键文本，对关键文本进行语义解析，得到关键文本中的关键名词以及每一关键名词的类型。由于用户可按照自定义的表达形式输入关键文本，从而在基于关键文本获取关键名词以及关键名词的类型的同时，还可满足用户个性化定制的需求。

基于上述实施例的内容，在对第一目标语言文本进行翻译得到第二识别文本后，若第一识别文本与第二识别文本之间语义不等价，则说明第一识别文本中可能存在一些难以翻译的关键名词，从而导致第一目标语言文本作为翻译结果可信程度不高。该情形即对应上述实施例中的第二种情况。而对于上述实施例中的第一种情况，若第一识别文本与第二识别文本之间语义不等价，则说明第一识别文本的表达形式可能不利于正确翻译，从而基于第一识别文本进行翻译后得到的第一目标语言文本，其作为翻译结果可信程度不高。

针对上述第二种情况，可按照上述实施例中的内容进行处理。针对上述第一种情况，作为一种可选实施例，在提示用户第一识别文本对应的翻译难易程度之后，本发明实施例还提供了一种交互式语音翻译方法，该方法包括：若检测到用户执行的操作为重新输入语音信号，获取第三识别文本，并基于第三识别文本重新执行文本翻译流程；其中，第三识别文本为重新输入的语音信号对应的识别文本，第一识别文本与第三识别文本之间文本数据不同且语义等价。

具体地，用户可重新输入语音信号，在对重新输入的语音信号进行识别得到第三识别文本后，可对第三识别文本进行翻译并得到相应的目标语言文本，从而基于第三识别文本以及相应的目标语言文本，从上述实施例中步骤101开始，重新执行文本翻译流程。其中，相比于第一识别文本对应的语音信号，用户在重新输入语音信号时可变化语句表达形式或者缩短句子长度，从而使得识别得到的第三识别文本与第一识别文本在表现形式上不同(文本数据不同)，但实质内容相同(也即语义等价)，以便于后续翻译。

本发明实施例提供的方法，通过在第一识别文本与第二识别文本之间语义不等价时，获取第三识别文本，并基于第三识别文本，重新执行文本翻译流程。由于可由用户通过调整表达形式或句子长度的方式重新输入语音信号，并重新执行语音翻译流程，从而在第一识别文本与第二识别文本之间语义不等价时，提供了一种新的语音翻译交互模式，以使得翻译结果更加准确。

上述实施例中的文本翻译流程，主要针对的是识别正确而翻译错误的情形。然而，在实际语音翻译场景中，可能会出现识别出错的情形。为了避免引发错误信息的传递，需要对第一识别文本作进一步处理。相应地，作为一种可选实施例，本发明实施例还提供了交互式语音翻译方法。参见图5，该方法包括：501、若第一识别文本的识别置信度不大于第一预设阈值，则提示用户对第一识别文本进行再次确认；502、若检测到用户输入第一识别文本的确认有误指令及文本修改指令，则根据文本修改指令修改第一识别文本，并基于修改后的第一识别文本重新执行文本翻译流程。

具体地，若第一识别文本的识别置信度不大于第一预设阈值，则说明识别可能出错。为了确定第一识别文本作为语音信号的识别结果是否真的出错，可通过语音或界面提示的方式，提示用户对第一识别文本进行再次确认，以确定第一识别文本是否无误。若检测到第一识别文本的确认有误指令，则说明用户确定第一识别文本有误。若此时检测到对第一识别文本的文本修改指令，则可根据文本修改指令修改第一识别文本，并基于修改后的第一识别文本重新执行文本翻译流程。其中，文本修改指令可以为用户输入的语音指令。例如，若第一识别文本为“请问不熟克林该怎么走？”，用户可输入语音指令“将不熟改为布鲁，棉布的布，鲁班的鲁”以修改第一识别文本。当然，除了通过语音指令修改第一识别文本之外，还可以采用手动修改等方式，本发明实施例对此不作具体限定。

在检测到用户输入第一识别文本的确认有误指令的情况下，在上述实施例中主要是通过文本修改指令对第一识别文本进行修改，以纠正识别错误。实际实施场景中，用户也可以选择更换识别文本。相应地，通过预设方式提示用户对第一识别文本进行再次确认之后，作为一种可选实施例，本发明实施例还提供了一种交互式语音翻译方法，包括：若检测到用户输入第一识别文本的确认有误指令且用户重新输入语音信号，获取第四识别文本，并基于第四识别文本重新执行文本翻译流程；其中，第四识别文本为重新输入的语音信号对应的识别文本。

基于上述实施例的内容，通过预设方式提示用户对第一识别文本进行再次确认之后，作为一种可选实施例，本发明实施例还提供了一种交互式语音翻译方法，包括：若检测到用户输入第一识别文本的确认无误指令，则将第一识别文本的识别置信度重置为识别置信度的最大取值，并重新执行文本翻译流程。

若检测到第一识别文本的确认无误指令，则说明用户确定第一识别文本识别无误。此时，可将第一识别文本的识别置信度重置为识别置信度的最大取值，并从上述实施例中的步骤101起，重新执行交互式语音翻译流程。

例如，以识别置信度的取值范围为[0，1]为例。若第一识别文本的识别置信度为0.3，而第一预设阈值为0.6，则第一识别文本的识别置信度0.3小于第一预设阈值0.6。若检测到第一识别文本的确认无误指令，则可将第一识别文本的识别置信度0.3重置为1，并重新执行步骤101。由于第一识别文本重置后的识别置信度为1大于第一预设阈值0.6，从而可继续判断第一目标语言文本的翻译置信度是否大于第二预设阈值。若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度小于第二预设阈值，则可按照上述实施例的内容继续执行文本翻译流程。

本发明实施例提供的方法，通过在第一识别文本的识别置信度不大于第一预设阈值，则提示用户对第一识别文本进行再次确认。若检测到用户输入第一识别文本的确认有误指令及文本修改指令，则根据文本修改指令修改第一识别文本，并基于修改后的第一识别文本重新执行文本翻译流程。若检测到用户输入第一识别文本的确认有误指令且用户重新输入语音信号，获取第四识别文本，并基于第四识别文本重新执行文本翻译流程。若检测到用户输入第一识别文本的确认无误指令，则将第一识别文本的识别置信度重置为识别置信度的最大取值，并重新执行文本翻译流程。由于在识别错误的情况下，提供了一种新的语音翻译交互模式进行文本翻译，从而使得翻译结果更加准确。

基于上述实施例的内容，作为一种可选实施例，在对第一目标语言文本进行翻译之前，本发明实施例还提供了一种计算识别置信度以及翻译置信度的方法，该方法包括：根据第一识别文本中每一分词出现的后验概率以及分词数量，计算第一识别文本的识别置信度；根据第一目标语言文本中每一目标分词出现的翻译概率以及目标分词数量，计算第一目标语言文本的翻译置信度。

其中，第一识别文本中每一分词出现的后验概率用于表示每一分词作为识别结果的可能性。第一目标语言文本中每一目标分词的翻译概率用于表示每一目标分词作为翻译结果的可能性。

在计算第一识别文本的识别置信度时，可基于第一识别文本中的分词数量，对第一识别文本中每一分词出现的后验概率取平均值，具体计算过程可参考如下公式：

在上述公式中，第一识别文本可以表示为x＝(x1，x2，x3，...，xn)。scoreasr表示第一识别文本的识别置信度，n表示第一识别文本中的分词数量。o表示第一识别文本对应的语音信号，p(xn|o)表示第n个分词xn出现的后验概率。

在计算第一目标语言文本的翻译置信度时，可基于第一目标语言文本中的目标分词数量，对第一目标语言文本中每一目标分词的后验概率取平均值，具体计算过程可参考如下公式：

在上述公式中，第一目标语言文本可以表示为y＝(y1，y2，y3，...，ym)。scoremt表示第一目标语言文本的翻译置信度，m表示第一目标语言文本中的目标分词数量。x表示第一识别文本，p(ym|x)表示第m个分词ym出现的翻译概率。

另外，在通过上述实施例得到第二目标语言文本后，可将第二目标语言文本作为翻译结果传递至目标语言用户，并可检测目标语言用户的反馈信息，以确定目标语言用户是否能够理解第二目标语言文本。当目标语言用户不能理解第二目标语言文本时，则说明识别正确但翻译还是错误，从而可按照上述实施例中“第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值”对应的分支逻辑继续进行文本翻译。当然，也可根据需求选择上述实施例中的不同分支逻辑或不同处理方式以继续进行文本翻译，本发明实施例对此不作具体限定。例如，以目标语言为英语为例。当目标语言用户反馈“pardon”或者“ican’tunderstand”时，即可确定目标语言用户不能够正确理解第二目标语言文本。

其次，通过分别将第一识别文本及第二识别文本进行向量化，得到第一词向量序列以及第二词向量序列，并计算第一词向量序列与第二词向量序列之间的距离。若第一词向量序列与第二词向量序列之间的距离不小于第三预设阈值，则确定第一识别文本与第二识别文本之间语义不等价。由于在确定识别正确而翻译错误后，可根据第一识别文本与第二识别文本之间语义是否等价的判断结果，对第一目标语言文本作为翻译结果是否可信进行二次判断，从而减小了语音翻译过程中错误信息传递的概率，并可使得翻译结果更加准确。

从次，通过根据关键名词的类型确定对应的占位符，并根据关键名词在第一识别文本中的所处位置，将关键名词对应的占位符替换关键名词，得到替换后的第一识别文本。将替换后的第一识别文本输入至翻译系统中，输出第三目标语言文本。将第三目标语言文本中包含的占位符转化成翻译后的目标语言名词，以得到第二目标语言文本。由于在对第一识别文本进行翻译时，可针对性地先将翻译中容易出错的关键名词替换为占位符，并单独对占位符对应的关键名词进行翻译，从而提高了关键名词的翻译效果，并可使得翻译结果更加准确。与此同时，由于关键名词对应的占位符可以由用户自定义，从而可满足用户在语音翻译过程中的个性化定制需求。

再次，通过获取关键文本，对关键文本进行语义解析，得到关键文本中的关键名词以及每一关键名词的类型。由于用户可按照自定义的表达形式输入关键文本，从而在基于关键文本获取关键名词以及关键名词的类型的同时，还可满足用户个性化定制的需求。

另外，通过在第一识别文本与第二识别文本之间语义不等价时，获取第三识别文本，并基于第三识别文本，重新执行文本翻译流程。由于可由用户通过调整表达形式或句子长度的方式重新输入语音信号，并重新执行语音翻译流程，从而在第一识别文本与第二识别文本之间语义不等价时，提供了一种新的语音翻译交互模式，以使得翻译结果更加准确。

最后，通过在第一识别文本的识别置信度不大于第一预设阈值，则提示用户对第一识别文本进行再次确认。若检测到用户输入第一识别文本的确认有误指令及文本修改指令，则根据文本修改指令修改第一识别文本，并基于修改后的第一识别文本重新执行文本翻译流程。若检测到用户输入第一识别文本的确认有误指令且用户重新输入语音信号，获取第四识别文本，并基于第四识别文本重新执行文本翻译流程。若检测到用户输入第一识别文本的确认无误指令，则将第一识别文本的识别置信度重置为识别置信度的最大取值，并重新执行文本翻译流程。由于在识别错误的情况下，提供了一种新的语音翻译交互模式进行文本翻译，从而使得翻译结果更加准确。

需要说明的是，上述所有可选实施例，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

基于上述实施例的内容，本发明实施例提供了一种交互式语音翻译装置，该交互式语音翻译装置用于执行上述方法实施例中提供的交互式语音翻译方法。参见图6，该装置包括：

第一翻译模块601，用于当第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值时，则对第一目标语言文本进行翻译，得到第二识别文本，第一识别文本与第二识别文本对应相同的语种，第一目标语言文本由第一识别文本经过翻译后得到；

第一提示模块602，用于当第一识别文本与第二识别文本之间语义不等价时，则提示用户第一识别文本对应的翻译难易程度，并检测用户基于提示所执行的操作；

第二翻译模块603，用于当检测到用户执行的操作为输入关键文本时，则对关键文本进行语义解析，以得到关键名词及关键名词的类型，并基于关键名词的类型对关键名词进行翻译，得到第一翻译结果，对第一识别文本中除关键名词之外的其它内容进行翻译，得到第二翻译结果，将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本；其中，第一识别文本中包含关键名词。

作为一种可选实施例，该装置还包括：

计算模块，用于分别将第一识别文本及第二识别文本进行向量化，得到第一词向量序列以及第二词向量序列，并计算第一词向量序列与第二词向量序列之间的距离；

确定模块，用于当第一词向量序列与第二词向量序列之间的距离不小于第三预设阈值时，则确定第一识别文本与第二识别文本之间语义不等价。

作为一种可选实施例，第二翻译模块603，用于根据关键名词的类型确定对应的占位符，将占位符转化成翻译后的目标语言名词，并作为第一翻译结果。

作为一种可选实施例，该装置还包括：

第一文本翻译模块，用于当检测到用户执行的操作为重新输入语音信号时，获取第三识别文本，并基于第三识别文本重新执行文本翻译流程；其中，第三识别文本为重新输入的语音信号对应的识别文本，第一识别文本与第三识别文本之间文本数据不同且语义等价。

作为一种可选实施例，该装置还包括：

第二提示模块，用于当第一识别文本的识别置信度不大于第一预设阈值时，则提示用户对第一识别文本进行再次确认；

第二文本翻译模块，用于当检测到用户输入第一识别文本的确认有误指令及文本修改指令时，则根据文本修改指令修改第一识别文本，并基于修改后的第一识别文本重新执行文本翻译流程。

作为一种可选实施例，该装置还包括：

第三文本翻译模块，用于当检测到用户输入第一识别文本的确认有误指令且用户重新输入语音信号时，获取第四识别文本，并基于第四识别文本重新执行文本翻译流程；其中，第四识别文本为重新输入的语音信号对应的识别文本。

作为一种可选实施例，该装置还包括：

第四文本翻译模块，用于当检测到用户输入第一识别文本的确认无误指令时，则将第一识别文本的识别置信度重置为识别置信度的最大取值，并重新执行文本翻译流程。

本发明实施例提供的装置，通过在第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值时，对第一目标语言文本进行翻译，得到第二识别文本。若第一识别文本与第二识别文本之间语义不等价，则提示用户第一识别文本对应的翻译难易程度，并检测用户基于提示所执行的操作。若检测到用户执行的操作为输入关键文本，则对关键文本进行语义解析，以得到关键名词及关键名词的类型，并基于关键名词的类型对关键名词进行翻译，得到第一翻译结果，对第一识别文本中除关键名词之外的其它内容进行翻译，得到第二翻译结果，将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本。由于在翻译结果不能确定是否无误时，可通过与用户交互的方式提示用户输入关键文本，从而可将关键文本的关键名词作为一个整体分词，并按照关键名词的类型对关键名词进行翻译，从而可使得翻译结果更加准确。

本发明实施例提供了一种交互式语音翻译设备。参见图7，该设备包括：处理器(processor)701、存储器(memory)702和总线703；

其中，处理器701及存储器702分别通过总线703完成相互间的通信；

处理器701用于调用存储器702中的程序指令，以执行上述实施例所提供的交互式语音翻译方法，例如包括：若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值，则对第一目标语言文本进行翻译，得到第二识别文本，第一识别文本与第二识别文本对应相同的语种，第一目标语言文本由第一识别文本经过翻译后得到；若第一识别文本与第二识别文本之间语义不等价，则提示用户第一识别文本对应的翻译难易程度，并检测用户基于提示所执行的操作；若检测到用户执行的操作为输入关键文本，则对关键文本进行语义解析，以得到关键名词及关键名词的类型，并基于关键名词的类型对关键名词进行翻译，得到第一翻译结果，对第一识别文本中除关键名词之外的其它内容进行翻译，得到第二翻译结果，将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本；其中，第一识别文本中包含关键名词。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的交互式语音翻译方法，例如包括：若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值，则对第一目标语言文本进行翻译，得到第二识别文本，第一识别文本与第二识别文本对应相同的语种，第一目标语言文本由第一识别文本经过翻译后得到；若第一识别文本与第二识别文本之间语义不等价，则提示用户第一识别文本对应的翻译难易程度，并检测用户基于提示所执行的操作；若检测到用户执行的操作为输入关键文本，则对关键文本进行语义解析，以得到关键名词及关键名词的类型，并基于关键名词的类型对关键名词进行翻译，得到第一翻译结果，对第一识别文本中除关键名词之外的其它内容进行翻译，得到第二翻译结果，将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本；其中，第一识别文本中包含关键名词。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的交互式语音翻译设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘俊华;孟廷;魏思;胡国平
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：大电流无触点的电子预热继电器的制作方法
上一篇：一种数字化车载充电机原边过流快速保护电路的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。